คุณทำนายคำถัดไปได้ดีกว่าโมเดลภาษาหรือไม่?
(joel.tools)"คุณฉลาดกว่าโมเดลภาษาหรือเปล่า?"
มีเบนช์มาร์กมากมายที่พยายามประเมินว่าโมเดลภาษาสามารถทำงานของมนุษย์ได้ดีเพียงใด
แต่คุณจะทำได้ดีแค่ไหนกับงานแบบฉบับของโมเดลภาษาอย่างการทำนายคำถัดไป?
ลองทำโจทย์ทั้ง 15 ข้อดู
3 ความคิดเห็น
ได้ 4 คะแนน... ผลลัพธ์นี่ชวนหงุดหงิดจริงๆ
โอ้พระเจ้า พอทำเหมือนกำลังทำข้อสอบภาษาอังกฤษ คะแนนเลยออกมาแย่มากเลย ฮือ
ความคิดเห็นจาก Hacker News
ไม่ตรงกับสิ่งที่คาดไว้จากชื่อเรื่องว่า "smart" แต่ก็เป็นไอเดียที่น่าสนใจ
มีการทำเกม/ควิซทายคำถัดไปจากคอมเมนต์ใน Hacker News
logit_biasเพื่อให้เลือกได้เฉพาะหนึ่งในคำตอบที่อนุญาตกลยุทธ์ที่จะชนะคือเลือกคำที่โมเดลภาษามีโอกาสเลือกน้อยที่สุด
จากผลลัพธ์ ดูเหมือนว่าการทำนายคำถัดไปให้แม่นยำจากข้อมูลที่มีอยู่นั้นเป็นไปไม่ได้
เกมนี้เป็นบททดสอบที่ดีว่าคุณอ่านคอมเมนต์ HN มากเกินไปหรือเปล่า
เปรียบเทียบผลลัพธ์กันไม่ได้ เพราะแต่ละครั้งจะได้ควิซแบบสุ่ม
เวลาที่ใช้ไปกับ HN ทำให้ทำนายได้ดีกว่า AI อยู่เล็กน้อย
สำหรับคนที่ทำควิซ 100 ข้อ: ตามเกณฑ์สถิติแบบดั้งเดิม ต้องตอบถูกเกิน 1 ใน 3 จึงจะถือว่าดีกว่าการเดา
ถ้าตัวอย่างมาจาก HN ก็มีความเป็นไปได้ว่าข้อความนั้นเป็นส่วนหนึ่งของชุดข้อมูลอยู่แล้ว
บางข้อถูกตัดมาจากบริบทที่ใหญ่กว่า ทำให้ LLM อยู่ในตำแหน่งที่ได้เปรียบในการทำนาย