5 คะแนน โดย GN⁺ 2023-07-19 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • โมเดลภาษาขนาดใหญ่โอเพนซอร์สที่ใช้งานได้ทั้งเพื่อการวิจัยและเชิงพาณิชย์
  • ฝึกด้วยข้อมูลโทเคน 2 ล้านล้านโทเคน ซึ่งมากกว่า Llama 1 อยู่ 40%
  • ความยาวคอนเท็กซ์เพิ่มเป็น 2 เท่า: 4096
  • มีโมเดล 3 ขนาด: 7B, 13B, 70B
  • ให้ประสิทธิภาพเหนือกว่าโมเดลภาษาโอเพนซอร์สอื่น ๆ ในหลายเบนช์มาร์ก เช่น การให้เหตุผล การเขียนโค้ด ความชำนาญ และการทดสอบความรู้ (MPT, Falcon, Llama-1)
  • ฝึกจากแหล่งข้อมูลที่เปิดเผยสาธารณะ และ Llama-2-chat ที่ผ่านการปรับจูนก็ใช้ชุดคำสั่งที่เปิดเผยและคำอธิบายประกอบจากมนุษย์มากกว่าหนึ่งล้านรายการด้วย
    • ใช้ Reinforcement Learning from Human Feedback (RLHF) รวมถึง Rejection Sampling และ Proximal policy optimization (PPO)
  • สิ่งที่รวมอยู่ในการดาวน์โหลด
    • Model code
    • Model Weights
    • README (User Guide)
    • Responsible Use Guide
    • License
    • Acceptable Use Policy
    • Model Card

1 ความคิดเห็น

 
GN⁺ 2023-07-19
ความคิดเห็นจาก Hacker News
  • Llama 2 กำลังแซงและไล่ตาม GPT-3.5 ในบางเบนช์มาร์ก
  • Llama 2 แสดงประสิทธิภาพที่ยอดเยี่ยมในการทดสอบ AI2 Reasoning Challenge, HellaSwag และ MMLU
  • Llama 2 มีประสิทธิภาพใกล้เคียงกับ GPT-3.5 แต่มีจำนวนพารามิเตอร์น้อยกว่า
  • Llama 2 สามารถทดสอบได้ง่ายและเพิ่มเข้าไปในแอปได้
  • Llama 2 ใช้ไลเซนส์แบบปิดที่ผู้ใช้บางส่วนวิจารณ์
  • Llama 2 สามารถเข้าถึงได้ผ่านเครื่องมือและแพลตฟอร์มหลากหลาย
  • Llama 2 มี guardrail ที่ในบางกรณีสามารถเลี่ยงได้
  • การเปิดตัว Llama 2 ถูกมองว่าเป็นความเคลื่อนไหวเชิงบวกที่เป็นประโยชน์ต่ออุตสาหกรรม
  • การฝึก Llama 2 ด้วยโทเคน 2T ช่วยปรับปรุงประสิทธิภาพเมื่อเทียบกับ Llama 1
  • การขยายขนาดของโมเดล Llama อาจนำไปสู่โมเดลทรงพลังบน GPU สำหรับผู้บริโภค