คุณทำนายคำถัดไปได้ดีกว่าโมเดลภาษาหรือไม่?

(joel.tools)

8 คะแนน โดย GN⁺ 2024-08-19 | 3 ความคิดเห็น | แชร์ทาง WhatsApp

"คุณฉลาดกว่าโมเดลภาษาหรือเปล่า?"

มีเบนช์มาร์กมากมายที่พยายามประเมินว่าโมเดลภาษาสามารถทำงานของมนุษย์ได้ดีเพียงใด
แต่คุณจะทำได้ดีแค่ไหนกับงานแบบฉบับของโมเดลภาษาอย่างการทำนายคำถัดไป?

ลองทำโจทย์ทั้ง 15 ข้อดู

3 ความคิดเห็น

curioe 2024-08-19

ได้ 4 คะแนน... ผลลัพธ์นี่ชวนหงุดหงิดจริงๆ

xguru 2024-08-19

โอ้พระเจ้า พอทำเหมือนกำลังทำข้อสอบภาษาอังกฤษ คะแนนเลยออกมาแย่มากเลย ฮือ

GN⁺ 2024-08-19

ความคิดเห็นจาก Hacker News

ไม่ตรงกับสิ่งที่คาดไว้จากชื่อเรื่องว่า "smart" แต่ก็เป็นไอเดียที่น่าสนใจ
- น่าจะดีกว่าถ้าแสดงคำถามทีละข้อ และให้ฟีดแบ็กทันทีหลังตอบแต่ละครั้ง
- แบบนี้จะทำให้มีส่วนร่วมมากขึ้น และเป็นประโยชน์เพราะตรวจคำตอบที่ถูกต้องได้ทันที
มีการทำเกม/ควิซทายคำถัดไปจากคอมเมนต์ใน Hacker News
- ใช้ llama2 สร้างตัวเลือกการเติมต่อทางเลือก 3 แบบสำหรับแต่ละคอมเมนต์ เพื่อทำเป็นคำถามแบบหลายตัวเลือก
- โมเดลภาษาที่รันในเครื่องจะเลือกคำตอบที่มี perplexity รวมของพรอมป์ต์และคำตอบต่ำที่สุด
- โมเดลของ OpenAI ตั้งค่า logit_bias เพื่อให้เลือกได้เฉพาะหนึ่งในคำตอบที่อนุญาต
- ไม่สามารถเปรียบเทียบกับ Claude หรือ LLM ออนไลน์อื่น ๆ ได้
- จะบอกว่าควิซสนุกก็คงไม่ได้ แต่ก็รักษาอัตราตอบถูกเกิน 50% ได้อย่างสม่ำเสมอ
กลยุทธ์ที่จะชนะคือเลือกคำที่โมเดลภาษามีโอกาสเลือกน้อยที่สุด
- การเลือก "ตัวที่หลุดจากกลุ่ม (outlier)" คือกลยุทธ์ที่ดีที่สุด
- นี่อาจเป็นกลยุทธ์ง่าย ๆ สำหรับการตรวจจับคอนเทนต์ที่สร้างโดย AI ได้
จากผลลัพธ์ ดูเหมือนว่าการทำนายคำถัดไปให้แม่นยำจากข้อมูลที่มีอยู่นั้นเป็นไปไม่ได้
- ถ้าจัดอันดับคำตอบตามความน่าจะเป็น แล้วให้คะแนนตามอันดับที่วางคำตอบถูกไว้สูงแค่ไหน ก็น่าจะดีกว่าการสุ่ม
- สงสัยว่า LLM พยายามเลียนแบบน้ำเสียงของผู้เขียนต้นฉบับหรือไม่
เกมนี้เป็นบททดสอบที่ดีว่าคุณอ่านคอมเมนต์ HN มากเกินไปหรือเปล่า
เปรียบเทียบผลลัพธ์กันไม่ได้ เพราะแต่ละครั้งจะได้ควิซแบบสุ่ม
- ถ้าหาคอร์ปัสที่คนทั่วไปเอาชนะ LLM ได้ และเพิ่มเดลลีแชลเลนจ์สไตล์ Wordle กับฟีเจอร์แชร์ลงโซเชียล ก็อาจมีโอกาสไวรัล
เวลาที่ใช้ไปกับ HN ทำให้ทำนายได้ดีกว่า AI อยู่เล็กน้อย
สำหรับคนที่ทำควิซ 100 ข้อ: ตามเกณฑ์สถิติแบบดั้งเดิม ต้องตอบถูกเกิน 1 ใน 3 จึงจะถือว่าดีกว่าการเดา
- ถ้าจะให้ดีกว่า LLM ต้องตอบถูกเกินครึ่ง
ถ้าตัวอย่างมาจาก HN ก็มีความเป็นไปได้ว่าข้อความนั้นเป็นส่วนหนึ่งของชุดข้อมูลอยู่แล้ว
- แต่ถ้าเป็นคอมเมนต์ล่าสุด ก็น่าจะไม่ใช่
- ChatGPT อาจใช้เครื่องมือค้นหาของ Bing ได้ แต่โมเดล API อย่าง gpt4o-mini ไม่น่าจะทำแบบนั้นได้
บางข้อถูกตัดมาจากบริบทที่ใหญ่กว่า ทำให้ LLM อยู่ในตำแหน่งที่ได้เปรียบในการทำนาย

คุณทำนายคำถัดไปได้ดีกว่าโมเดลภาษาหรือไม่?

บทความที่เกี่ยวข้อง

3 ความคิดเห็น

ความคิดเห็นจาก Hacker News