13 คะแนน โดย xguru 2024-04-29 | 3 ความคิดเห็น | แชร์ทาง WhatsApp
  • หลังการเปิดตัวโมเดล Llama 3 เมื่อวันที่ 18/4 กระแสตอบรับจากคอมมูนิตี้นักพัฒนาร้อนแรงอย่างมาก
    • มีการดาวน์โหลดโมเดลมากกว่า 1.2 ล้านครั้ง และนักพัฒนาได้แชร์โมเดลต่อยอดมากกว่า 600 รุ่นบน Hugging Face
    • รีโพซิทอรี Llama 3 บน GitHub ได้รับดาวมากกว่า 17,000 ดวง
    • ในตารางผู้นำ LMSYS Chatbot Arena โมเดล Llama 3 70B Instruct คว้าอันดับ 1 ในการประเมินภาษาอังกฤษล้วน และอยู่ในอันดับ 6 โดยรวม ซึ่งเป็นอันดับสูงสุดในบรรดาโมเดลแบบเปิดเผยต่อสาธารณะ (รองจากโมเดลปิดแบบกรรมสิทธิ์)

กรณีการใช้งานเริ่มต้นของ Llama 3

  • พาร์ตเนอร์ด้านซิลิคอน ฮาร์ดแวร์ และผู้ให้บริการคลาวด์ เริ่มนำ Llama 3 ไปให้ผู้ใช้ใช้งานแล้ว
  • คณะแพทยศาสตร์ มหาวิทยาลัยเยล ร่วมกับ School of Computer and Communication Sciences ของ EPFL ได้ฟाइनจูน Llama 3 ภายใน 24 ชั่วโมงหลังเปิดตัว และเปิดตัว Llama-3[8B]-MeditronV1.0 ซึ่งเป็นโมเดล Llama 3 8B รุ่นแรกสำหรับวงการแพทย์
    • โมเดลใหม่นี้ทำผลงานเหนือกว่าโมเดลเปิดสมัยใหม่ทั้งหมดในระดับพารามิเตอร์เดียวกัน บนสแตนดาร์ดเบนช์มาร์กอย่าง MedQA และ MedMCQA
    • รายละเอียดเพิ่มเติมเกี่ยวกับวิธีที่มหาวิทยาลัยเยลและ EPFL สร้าง Meditron เวอร์ชันแรกบนพื้นฐานของ Llama 2 สามารถดูได้ที่ลิงก์ดังกล่าว

แผนต่อไปของ Llama 3

  • ในอีกไม่กี่เดือนข้างหน้า มีแผนจะเปิดตัวโมเดลที่มาพร้อมความสามารถใหม่ เช่น มัลติโหมด การสนทนาหลายภาษา หน้าต่างคอนเท็กซ์ที่ยาวขึ้น และการปรับปรุงความสามารถโดยรวม
  • จะมีการแชร์ข้อมูลเพิ่มเติมในเร็ว ๆ นี้ และคาดว่าจะได้เห็นคลื่นลูกถัดไปของนวัตกรรมที่ขับเคลื่อนโดยคอมมูนิตี้

3 ความคิดเห็น

 
gcback 2024-04-29

ดูเหมือนว่า LLM ของบริษัทยักษ์ใหญ่ในประเทศจะยิ่งสูญเสียความสามารถในการแข่งขันมากขึ้นเรื่อย ๆ นะครับ ถ้ากลยุทธ์คือแบบปิด ก็ควรมีความสามารถด้านประสิทธิภาพที่แข่งขันได้อย่างเพียงพอ หรือถ้ากลยุทธ์คือขยายขอบเขตการใช้งานแม้ประสิทธิภาพจะด้อยกว่า ก็ควรไม่ชูจุดขายเรื่องภาษาเกาหลีเป็นหลัก แต่ตอนนี้กลับทำตรงกันข้ามอย่างสิ้นเชิงครับ

 
cosine20 2024-04-30

เอาแต่แข่งกันเรื่องน้ำหนักโมเดลแบบไร้ความหมายบนลีดเดอร์บอร์ดภาษาเกาหลี แล้วก็ปั่นข่าวจากเรื่องนั้นไว้พยุงราคาหุ้น 555

 
[ความคิดเห็นนี้ถูกซ่อน]