Llama 2 Chat 70B เหนือกว่า ChatGPT (3.5) ในการประเมินโมเดล
(tatsu-lab.github.io)- อ้างอิงจาก AlpacaEval Leaderboard ซึ่งเป็นเกณฑ์สำหรับประเมินโมเดลภาษาแบบ Instruction-Following โดยอัตโนมัติ
- GPT-4 95.28% > Llama Chat 70B 92.66% > Claude 2 91.36% > ChatGPT 89.37%
- AlpacaEval ดำเนินการประเมินอัตโนมัติโดยใช้ชุดประเมินของ AlpacaFarm และเปรียบเทียบกับคำตอบที่ GPT-4 ตอบไว้
ยังไม่มีความคิดเห็น