ถาม LLM 60 ตัวด้วยคำถาม 20 ข้อ

(benchmarks.llmonitor.com)

8 คะแนน โดย GN⁺ 2023-09-10 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ทดสอบประสิทธิภาพของโมเดลภาษา (Language Learning Models, LLMs) มากกว่า 60 ตัวด้วยชุดคำถาม 20 ข้อ และรวบรวมคำตอบของแต่ละ LLM
คำถามเหล่านี้ออกแบบมาเพื่อทดสอบการให้เหตุผลพื้นฐาน การทำตามคำสั่ง และความคิดสร้างสรรค์ของ LLM
คำตอบจาก LLM ถูกจัดเก็บไว้ในฐานข้อมูล SQLite
คำถามมีความหลากหลาย ตั้งแต่โจทย์คณิตศาสตร์ง่าย ๆ ไปจนถึงงานที่ซับซ้อนมากขึ้น เช่น การอธิบายทฤษฎีสนามควอนตัมให้กับนักเรียนมัธยมปลาย
สคริปต์นี้ยังมีงานที่ LLM ต้องทำ เช่น การแปลประโยค การระบุบั๊กในโค้ด และการสร้างฟังก์ชัน Python
ผู้เขียนใช้ API ของ OpenRouter, TogetherAI, OpenAI, Cohere, Aleph Alpha และ AI21 เพื่อรันสคริปต์
- มีแผนจะปรับปรุงสคริปต์โดยใช้ stop sequence และรูปแบบพรอมป์ต์ที่ปรับให้เหมาะกับแต่ละโมเดล
- แนวคิดในอนาคต ได้แก่ การคำนวณคะแนน ELO ผ่านการโหวตสาธารณะ การเปรียบเทียบสองโมเดลแบบวางคู่กัน และพรอมป์ต์ที่ชุมชนส่งเข้ามา

1 ความคิดเห็น

GN⁺ 2023-09-10

ความเห็นจาก Hacker News

ผู้ใช้ได้สร้างฮาร์เนสแบบทั่วไปสำหรับรันเบนช์มาร์กกับโมเดลภาษาขนาดใหญ่ (Language Learning Models, LLMs) หลากหลายตัว และสนับสนุนให้ผู้อื่นนำโมเดลมาทดสอบกับข้อมูลของตนเอง โดยไลบรารีนี้รองรับโมเดลจาก OpenAI, Anthropic, Google, Llama, Codellama, Replicate และ Ollama
AI Playground ของ Vercel ถูกยกให้เป็นเครื่องมือที่มีประโยชน์สำหรับการถามหลาย LLMs พร้อมกัน แต่ตอนนี้รองรับเพียง 24 ตัว ไม่ใช่ 60 ตัว
วิธีการทำเบนช์มาร์ก LLMs ในบทความนี้ได้รับคำชมว่าดูสมจริงกว่าวิธีแบบดั้งเดิม เช่น การสอบวัดผล แต่ก็มีความกังวลว่าคำถามบางข้ออาจเคยเป็นส่วนหนึ่งของชุดข้อมูลฝึก และทำให้ผลลัพธ์บิดเบือนได้
มีการพบความแตกต่างในคำตอบของ LLMs ต่อคำถามเกี่ยวกับความสัมพันธ์ในครอบครัว และมีผู้ใช้รายหนึ่งรายงานว่า GPT4 ตอบได้ถูกต้องสำหรับคำถามที่บทความอ้างว่า LLMs ทุกตัวตอบผิด
Falcon Instruct (40B) ถูกพูดถึงแบบขำ ๆ ว่าเป็น "โมเดลที่ตลกที่สุด" จากมุกเกี่ยวกับวันหยุดพักผ่อน
มีการเสนอเบนช์มาร์กเพิ่มเติมสำหรับ LLMs เช่น "TheoremQA: ชุดข้อมูลถาม-ตอบ [STEM] ที่อิงทฤษฎีบท" และ "Awesome-legal-nlp"
ChatGPT 3.5 ถูกวิจารณ์เรื่องการตอบแบบเยิ่นเย้อ โดยมีผู้ใช้คนหนึ่งชี้ว่ามักให้คำอธิบายที่ยาวเกินความจำเป็น
มีการแสดงความทึ่งต่อความก้าวหน้าของ AI โดยผู้ใช้รายหนึ่งยกตัวอย่างว่า LLMs สามารถสร้าง "ไฮกุเชิงจริยธรรมและไม่เกี่ยวกับเรื่องเพศที่ทั้งเห็นด้วยและคัดค้าน Kubernetes" ได้
มีการตั้งคำถามเกี่ยวกับประสิทธิภาพของโมเดล CodeLlama โดยผู้ใช้คนหนึ่งระบุว่าตนเห็นผลลัพธ์ที่ดีกว่าที่แสดงไว้ในบทความมาก
แม้จะสนใจใน LLMs แต่ผู้ใช้บางส่วนก็แสดงความผิดหวังกับคุณภาพของคำตอบจากโมเดล โดยเฉพาะคำถามด้านทฤษฎีดนตรี และตั้งข้อสงสัยว่าโมเดลเหล่านี้จะพัฒนาดีขึ้นอย่างมีนัยสำคัญเมื่อเวลาผ่านไปหรือไม่

ถาม LLM 60 ตัวด้วยคำถาม 20 ข้อ

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นจาก Hacker News