8 คะแนน โดย GN⁺ 2023-09-10 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • ทดสอบประสิทธิภาพของโมเดลภาษา (Language Learning Models, LLMs) มากกว่า 60 ตัวด้วยชุดคำถาม 20 ข้อ และรวบรวมคำตอบของแต่ละ LLM
  • คำถามเหล่านี้ออกแบบมาเพื่อทดสอบการให้เหตุผลพื้นฐาน การทำตามคำสั่ง และความคิดสร้างสรรค์ของ LLM
  • คำตอบจาก LLM ถูกจัดเก็บไว้ในฐานข้อมูล SQLite
  • คำถามมีความหลากหลาย ตั้งแต่โจทย์คณิตศาสตร์ง่าย ๆ ไปจนถึงงานที่ซับซ้อนมากขึ้น เช่น การอธิบายทฤษฎีสนามควอนตัมให้กับนักเรียนมัธยมปลาย
  • สคริปต์นี้ยังมีงานที่ LLM ต้องทำ เช่น การแปลประโยค การระบุบั๊กในโค้ด และการสร้างฟังก์ชัน Python
  • ผู้เขียนใช้ API ของ OpenRouter, TogetherAI, OpenAI, Cohere, Aleph Alpha และ AI21 เพื่อรันสคริปต์
    • มีแผนจะปรับปรุงสคริปต์โดยใช้ stop sequence และรูปแบบพรอมป์ต์ที่ปรับให้เหมาะกับแต่ละโมเดล
    • แนวคิดในอนาคต ได้แก่ การคำนวณคะแนน ELO ผ่านการโหวตสาธารณะ การเปรียบเทียบสองโมเดลแบบวางคู่กัน และพรอมป์ต์ที่ชุมชนส่งเข้ามา

1 ความคิดเห็น

 
GN⁺ 2023-09-10
ความเห็นจาก Hacker News
  • ผู้ใช้ได้สร้างฮาร์เนสแบบทั่วไปสำหรับรันเบนช์มาร์กกับโมเดลภาษาขนาดใหญ่ (Language Learning Models, LLMs) หลากหลายตัว และสนับสนุนให้ผู้อื่นนำโมเดลมาทดสอบกับข้อมูลของตนเอง โดยไลบรารีนี้รองรับโมเดลจาก OpenAI, Anthropic, Google, Llama, Codellama, Replicate และ Ollama
  • AI Playground ของ Vercel ถูกยกให้เป็นเครื่องมือที่มีประโยชน์สำหรับการถามหลาย LLMs พร้อมกัน แต่ตอนนี้รองรับเพียง 24 ตัว ไม่ใช่ 60 ตัว
  • วิธีการทำเบนช์มาร์ก LLMs ในบทความนี้ได้รับคำชมว่าดูสมจริงกว่าวิธีแบบดั้งเดิม เช่น การสอบวัดผล แต่ก็มีความกังวลว่าคำถามบางข้ออาจเคยเป็นส่วนหนึ่งของชุดข้อมูลฝึก และทำให้ผลลัพธ์บิดเบือนได้
  • มีการพบความแตกต่างในคำตอบของ LLMs ต่อคำถามเกี่ยวกับความสัมพันธ์ในครอบครัว และมีผู้ใช้รายหนึ่งรายงานว่า GPT4 ตอบได้ถูกต้องสำหรับคำถามที่บทความอ้างว่า LLMs ทุกตัวตอบผิด
  • Falcon Instruct (40B) ถูกพูดถึงแบบขำ ๆ ว่าเป็น "โมเดลที่ตลกที่สุด" จากมุกเกี่ยวกับวันหยุดพักผ่อน
  • มีการเสนอเบนช์มาร์กเพิ่มเติมสำหรับ LLMs เช่น "TheoremQA: ชุดข้อมูลถาม-ตอบ [STEM] ที่อิงทฤษฎีบท" และ "Awesome-legal-nlp"
  • ChatGPT 3.5 ถูกวิจารณ์เรื่องการตอบแบบเยิ่นเย้อ โดยมีผู้ใช้คนหนึ่งชี้ว่ามักให้คำอธิบายที่ยาวเกินความจำเป็น
  • มีการแสดงความทึ่งต่อความก้าวหน้าของ AI โดยผู้ใช้รายหนึ่งยกตัวอย่างว่า LLMs สามารถสร้าง "ไฮกุเชิงจริยธรรมและไม่เกี่ยวกับเรื่องเพศที่ทั้งเห็นด้วยและคัดค้าน Kubernetes" ได้
  • มีการตั้งคำถามเกี่ยวกับประสิทธิภาพของโมเดล CodeLlama โดยผู้ใช้คนหนึ่งระบุว่าตนเห็นผลลัพธ์ที่ดีกว่าที่แสดงไว้ในบทความมาก
  • แม้จะสนใจใน LLMs แต่ผู้ใช้บางส่วนก็แสดงความผิดหวังกับคุณภาพของคำตอบจากโมเดล โดยเฉพาะคำถามด้านทฤษฎีดนตรี และตั้งข้อสงสัยว่าโมเดลเหล่านี้จะพัฒนาดีขึ้นอย่างมีนัยสำคัญเมื่อเวลาผ่านไปหรือไม่