- ทดสอบประสิทธิภาพของโมเดลภาษา (Language Learning Models, LLMs) มากกว่า 60 ตัวด้วยชุดคำถาม 20 ข้อ และรวบรวมคำตอบของแต่ละ LLM
- คำถามเหล่านี้ออกแบบมาเพื่อทดสอบการให้เหตุผลพื้นฐาน การทำตามคำสั่ง และความคิดสร้างสรรค์ของ LLM
- คำตอบจาก LLM ถูกจัดเก็บไว้ในฐานข้อมูล SQLite
- คำถามมีความหลากหลาย ตั้งแต่โจทย์คณิตศาสตร์ง่าย ๆ ไปจนถึงงานที่ซับซ้อนมากขึ้น เช่น การอธิบายทฤษฎีสนามควอนตัมให้กับนักเรียนมัธยมปลาย
- สคริปต์นี้ยังมีงานที่ LLM ต้องทำ เช่น การแปลประโยค การระบุบั๊กในโค้ด และการสร้างฟังก์ชัน Python
- ผู้เขียนใช้ API ของ OpenRouter, TogetherAI, OpenAI, Cohere, Aleph Alpha และ AI21 เพื่อรันสคริปต์
- มีแผนจะปรับปรุงสคริปต์โดยใช้ stop sequence และรูปแบบพรอมป์ต์ที่ปรับให้เหมาะกับแต่ละโมเดล
- แนวคิดในอนาคต ได้แก่ การคำนวณคะแนน ELO ผ่านการโหวตสาธารณะ การเปรียบเทียบสองโมเดลแบบวางคู่กัน และพรอมป์ต์ที่ชุมชนส่งเข้ามา
1 ความคิดเห็น
ความเห็นจาก Hacker News