- หลังการเปิดตัวโมเดล Llama 3 เมื่อวันที่ 18/4 กระแสตอบรับจากคอมมูนิตี้นักพัฒนาร้อนแรงอย่างมาก
- มีการดาวน์โหลดโมเดลมากกว่า 1.2 ล้านครั้ง และนักพัฒนาได้แชร์โมเดลต่อยอดมากกว่า 600 รุ่นบน Hugging Face
- รีโพซิทอรี Llama 3 บน GitHub ได้รับดาวมากกว่า 17,000 ดวง
- ในตารางผู้นำ LMSYS Chatbot Arena โมเดล Llama 3 70B Instruct คว้าอันดับ 1 ในการประเมินภาษาอังกฤษล้วน และอยู่ในอันดับ 6 โดยรวม ซึ่งเป็นอันดับสูงสุดในบรรดาโมเดลแบบเปิดเผยต่อสาธารณะ (รองจากโมเดลปิดแบบกรรมสิทธิ์)
กรณีการใช้งานเริ่มต้นของ Llama 3
- พาร์ตเนอร์ด้านซิลิคอน ฮาร์ดแวร์ และผู้ให้บริการคลาวด์ เริ่มนำ Llama 3 ไปให้ผู้ใช้ใช้งานแล้ว
- คณะแพทยศาสตร์ มหาวิทยาลัยเยล ร่วมกับ School of Computer and Communication Sciences ของ EPFL ได้ฟाइनจูน Llama 3 ภายใน 24 ชั่วโมงหลังเปิดตัว และเปิดตัว Llama-3[8B]-MeditronV1.0 ซึ่งเป็นโมเดล Llama 3 8B รุ่นแรกสำหรับวงการแพทย์
- โมเดลใหม่นี้ทำผลงานเหนือกว่าโมเดลเปิดสมัยใหม่ทั้งหมดในระดับพารามิเตอร์เดียวกัน บนสแตนดาร์ดเบนช์มาร์กอย่าง MedQA และ MedMCQA
- รายละเอียดเพิ่มเติมเกี่ยวกับวิธีที่มหาวิทยาลัยเยลและ EPFL สร้าง Meditron เวอร์ชันแรกบนพื้นฐานของ Llama 2 สามารถดูได้ที่ลิงก์ดังกล่าว
แผนต่อไปของ Llama 3
- ในอีกไม่กี่เดือนข้างหน้า มีแผนจะเปิดตัวโมเดลที่มาพร้อมความสามารถใหม่ เช่น มัลติโหมด การสนทนาหลายภาษา หน้าต่างคอนเท็กซ์ที่ยาวขึ้น และการปรับปรุงความสามารถโดยรวม
- จะมีการแชร์ข้อมูลเพิ่มเติมในเร็ว ๆ นี้ และคาดว่าจะได้เห็นคลื่นลูกถัดไปของนวัตกรรมที่ขับเคลื่อนโดยคอมมูนิตี้
3 ความคิดเห็น
ดูเหมือนว่า LLM ของบริษัทยักษ์ใหญ่ในประเทศจะยิ่งสูญเสียความสามารถในการแข่งขันมากขึ้นเรื่อย ๆ นะครับ ถ้ากลยุทธ์คือแบบปิด ก็ควรมีความสามารถด้านประสิทธิภาพที่แข่งขันได้อย่างเพียงพอ หรือถ้ากลยุทธ์คือขยายขอบเขตการใช้งานแม้ประสิทธิภาพจะด้อยกว่า ก็ควรไม่ชูจุดขายเรื่องภาษาเกาหลีเป็นหลัก แต่ตอนนี้กลับทำตรงกันข้ามอย่างสิ้นเชิงครับ
เอาแต่แข่งกันเรื่องน้ำหนักโมเดลแบบไร้ความหมายบนลีดเดอร์บอร์ดภาษาเกาหลี แล้วก็ปั่นข่าวจากเรื่องนั้นไว้พยุงราคาหุ้น 555