• อ้างอิงจาก AlpacaEval Leaderboard ซึ่งเป็นเกณฑ์สำหรับประเมินโมเดลภาษาแบบ Instruction-Following โดยอัตโนมัติ
  • GPT-4 95.28% > Llama Chat 70B 92.66% > Claude 2 91.36% > ChatGPT 89.37%
  • AlpacaEval ดำเนินการประเมินอัตโนมัติโดยใช้ชุดประเมินของ AlpacaFarm และเปรียบเทียบกับคำตอบที่ GPT-4 ตอบไว้

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น