แนะนำโมเดล Llama 3
- Meta เปิดตัวโมเดล Llama 3 โดยมีทั้งเวอร์ชัน pre-trained และเวอร์ชัน instruction-tuned ขนาด 8B และ 70B เพื่อรองรับการพัฒนาแอปพลิเคชันที่หลากหลาย
- Llama 3 ถูกรวมเข้ากับ Meta AI และสามารถนำไปใช้กับงานเขียนโค้ดและการแก้ปัญหาได้ ทำให้สามารถทดลองสัมผัสประสิทธิภาพของ Llama 3 ได้โดยตรง
- Llama 3 เตรียมมอบความสามารถและความยืดหยุ่นที่จำเป็นสำหรับการพัฒนาเอเจนต์หรือแอปพลิเคชันที่ขับเคลื่อนด้วย AI
การปรับปรุงประสิทธิภาพของ Llama 3
- Llama 3 เป็นโมเดลล้ำสมัยแบบเปิดให้เข้าถึงได้สาธารณะ ซึ่งแสดงประสิทธิภาพโดดเด่นในงานซับซ้อน เช่น การเข้าใจความละเอียดอ่อนของภาษา การเข้าใจบริบท การแปล และการสร้างบทสนทนา
- ด้วยการปรับปรุงด้าน scalability และประสิทธิภาพ Llama 3 จึงสามารถจัดการงานหลายขั้นตอนได้อย่างง่ายดาย กระบวนการ post-training ที่ได้รับการปรับปรุงช่วยลดอัตราการปฏิเสธที่ผิดพลาดลงอย่างมาก ปรับปรุงการจัดแนวของคำตอบ และเพิ่มความหลากหลายของคำตอบจากโมเดล
- นอกจากนี้ยังยกระดับความสามารถด้านการให้เหตุผล การสร้างโค้ด และการปฏิบัติตามคำสั่งอย่างมาก ทำให้สามารถร่วมสร้างอนาคตของ AI ไปกับ Llama 3 ได้
เบนช์มาร์กของโมเดล Llama 3
- โมเดล Llama 3 ยกระดับทั้งข้อมูลและขนาดไปสู่อีกขั้น โดยได้รับการฝึกด้วยข้อมูลมากกว่า 15 ล้านล้านโทเคนบนคลัสเตอร์ GPU จำนวน 2 ชุด ชุดละ 24K ที่เพิ่งประกาศไปเมื่อไม่นานนี้ ซึ่งมากกว่าชุดข้อมูลฝึกที่ใช้กับ Llama 2 ถึง 7 เท่า และมีโค้ดมากกว่า 4 เท่า
- ผลลัพธ์คือ Llama รุ่นที่มีประสิทธิภาพสูงที่สุดเท่าที่เคยมีมา และรองรับความยาวคอนเท็กซ์ 8K ซึ่งมากกว่าความจุของ Llama 2 ถึงสองเท่า
แนวทางที่ครอบคลุมสำหรับการใช้ Llama 3 อย่างมีความรับผิดชอบ
- พร้อมกับการเปิดตัว Llama 3 ได้มีการอัปเดต Responsible Use Guide (RUG) เพื่อให้ข้อมูลที่ครอบคลุมที่สุดเกี่ยวกับการพัฒนาอย่างมีความรับผิดชอบโดยใช้ LLM
- มีการอัปเดตเครื่องมือด้าน trust และ safety รวมถึง Llama Guard 2, Code Shield และ Cybersec Eval 2 ที่ได้รับการปรับให้เหมาะสมเพื่อรองรับ taxonomy ใหม่ที่ประกาศโดย MLCommons
- ตามหลักการที่ระบุไว้ใน RUG มีการแนะนำให้ตรวจสอบและกรองอินพุตและเอาต์พุตทั้งหมดของ LLM อย่างรอบคอบ โดยอิงตามแนวทางเนื้อหาเฉพาะที่เหมาะกับกรณีใช้งานและกลุ่มเป้าหมาย
ความเห็นของ GN⁺
- น่าประทับใจที่นอกจากการปรับปรุงประสิทธิภาพของ Llama 3 แล้ว ยังมีการให้แนวทางสำหรับการพัฒนาอย่างมีความรับผิดชอบควบคู่กันไปด้วย ยิ่งเป็นโมเดล AI ที่ทรงพลังมากเท่าไร ก็ยิ่งควรมีความพยายามในการใช้งานอย่างถูกต้องควบคู่กันไป
- อย่างไรก็ตาม ด้วยลักษณะของโครงการโอเพนซอร์ส ดูเหมือนจะไม่มีวิธีบังคับใช้ให้ปฏิบัติตามแนวทางดังกล่าวได้ จึงน่าจะต้องอาศัยความร่วมมือโดยสมัครใจจากนักพัฒนา
- คาดว่า Llama 3 จะมีประสิทธิภาพที่สามารถเทียบเคียงได้กับโมเดลล่าสุดของ OpenAI อย่าง GPT-4 แต่ในตอนนี้ยังไม่มีการเปิดเผยผลเบนช์มาร์กเชิงวัตถุวิสัย
- ในฐานะที่เป็นโครงการโอเพนซอร์ส จึงคาดหวังได้ว่าจะมีองค์กรและนักพัฒนานอกเหนือจาก Meta นำ Llama 3 ไปต่อยอดเป็นโครงการที่น่าสนใจหลากหลาย ซึ่งจะเป็นโอกาสให้ได้เห็นศักยภาพของ Llama 3 อย่างชัดเจน
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
มีความเห็นว่ารู้สึกขอบคุณที่ Meta เลือกแนวทางโอเพนซอร์ส และแบ่งปันน้ำหนักโมเดล, โทเคไนเซอร์ และข้อมูลเกี่ยวกับชุดข้อมูลฝึก เป็นต้น แนวทางที่เปิดกว้างของ Meta ทำให้สามารถรันโมเดลที่ค่อนข้างดีแบบโลคัลบนฮาร์ดแวร์ผู้บริโภคได้
พร้อมกับการเปิดตัว Llama 3 ทาง Meta ได้ประกาศว่าจะสามารถทดสอบ Meta AI แบบมัลติโหมดบนแว่นอัจฉริยะ Ray-Ban Meta ได้ด้วย มีความเห็นว่าอินเทอร์เฟซคอมพิวเตอร์/สมาร์ตโฟนแบบดั้งเดิมจะหายไป ยกเว้นการใช้งานเฉพาะทางบางอย่าง และทุกคนจะมีผู้ช่วย AI ของตัวเองที่สามารถโต้ตอบได้อย่างเป็นธรรมชาติราวกับกำลังปฏิสัมพันธ์กับคนอื่น
มีความเห็นว่าอยากเห็นโมเดลที่เหมาะกับ GPU สำหรับผู้บริโภคขนาด 24GB เช่น โมเดล 20B ที่ควอนไทซ์แบบ 8 บิต หรือโมเดล 40B ที่สามารถควอนไทซ์แบบ 4 บิตได้ และบอกว่าน่าผิดหวังที่ Meta หยุดเผยแพร่โมเดล 30B หลังจาก Llama 1
ใน model card ของ Llama 3 มีผลเบนช์มาร์กเทียบกับโมเดล Llama รุ่นอื่นรวมอยู่ด้วย การยกระดับประสิทธิภาพอย่างมากของ Llama 3 เมื่อเทียบกับ Llama 2 น่าประทับใจ และการเพิ่ม context window เป็น 8k มากขึ้น 2 เท่าน่าจะเปิดโอกาสใหม่ ๆ ได้มากมาย
มีการแชร์ข้อมูลด้วยว่า Zuckerberg ได้ให้สัมภาษณ์เกี่ยวกับ Llama 3