8 คะแนน โดย GN⁺ 2024-08-19 | 3 ความคิดเห็น | แชร์ทาง WhatsApp

"คุณฉลาดกว่าโมเดลภาษาหรือเปล่า?"

มีเบนช์มาร์กมากมายที่พยายามประเมินว่าโมเดลภาษาสามารถทำงานของมนุษย์ได้ดีเพียงใด
แต่คุณจะทำได้ดีแค่ไหนกับงานแบบฉบับของโมเดลภาษาอย่างการทำนายคำถัดไป?

ลองทำโจทย์ทั้ง 15 ข้อดู

3 ความคิดเห็น

 
curioe 2024-08-19

ได้ 4 คะแนน... ผลลัพธ์นี่ชวนหงุดหงิดจริงๆ

 
xguru 2024-08-19

โอ้พระเจ้า พอทำเหมือนกำลังทำข้อสอบภาษาอังกฤษ คะแนนเลยออกมาแย่มากเลย ฮือ

 
GN⁺ 2024-08-19
ความคิดเห็นจาก Hacker News
  • ไม่ตรงกับสิ่งที่คาดไว้จากชื่อเรื่องว่า "smart" แต่ก็เป็นไอเดียที่น่าสนใจ

    • น่าจะดีกว่าถ้าแสดงคำถามทีละข้อ และให้ฟีดแบ็กทันทีหลังตอบแต่ละครั้ง
    • แบบนี้จะทำให้มีส่วนร่วมมากขึ้น และเป็นประโยชน์เพราะตรวจคำตอบที่ถูกต้องได้ทันที
  • มีการทำเกม/ควิซทายคำถัดไปจากคอมเมนต์ใน Hacker News

    • ใช้ llama2 สร้างตัวเลือกการเติมต่อทางเลือก 3 แบบสำหรับแต่ละคอมเมนต์ เพื่อทำเป็นคำถามแบบหลายตัวเลือก
    • โมเดลภาษาที่รันในเครื่องจะเลือกคำตอบที่มี perplexity รวมของพรอมป์ต์และคำตอบต่ำที่สุด
    • โมเดลของ OpenAI ตั้งค่า logit_bias เพื่อให้เลือกได้เฉพาะหนึ่งในคำตอบที่อนุญาต
    • ไม่สามารถเปรียบเทียบกับ Claude หรือ LLM ออนไลน์อื่น ๆ ได้
    • จะบอกว่าควิซสนุกก็คงไม่ได้ แต่ก็รักษาอัตราตอบถูกเกิน 50% ได้อย่างสม่ำเสมอ
  • กลยุทธ์ที่จะชนะคือเลือกคำที่โมเดลภาษามีโอกาสเลือกน้อยที่สุด

    • การเลือก "ตัวที่หลุดจากกลุ่ม (outlier)" คือกลยุทธ์ที่ดีที่สุด
    • นี่อาจเป็นกลยุทธ์ง่าย ๆ สำหรับการตรวจจับคอนเทนต์ที่สร้างโดย AI ได้
  • จากผลลัพธ์ ดูเหมือนว่าการทำนายคำถัดไปให้แม่นยำจากข้อมูลที่มีอยู่นั้นเป็นไปไม่ได้

    • ถ้าจัดอันดับคำตอบตามความน่าจะเป็น แล้วให้คะแนนตามอันดับที่วางคำตอบถูกไว้สูงแค่ไหน ก็น่าจะดีกว่าการสุ่ม
    • สงสัยว่า LLM พยายามเลียนแบบน้ำเสียงของผู้เขียนต้นฉบับหรือไม่
  • เกมนี้เป็นบททดสอบที่ดีว่าคุณอ่านคอมเมนต์ HN มากเกินไปหรือเปล่า

  • เปรียบเทียบผลลัพธ์กันไม่ได้ เพราะแต่ละครั้งจะได้ควิซแบบสุ่ม

    • ถ้าหาคอร์ปัสที่คนทั่วไปเอาชนะ LLM ได้ และเพิ่มเดลลีแชลเลนจ์สไตล์ Wordle กับฟีเจอร์แชร์ลงโซเชียล ก็อาจมีโอกาสไวรัล
  • เวลาที่ใช้ไปกับ HN ทำให้ทำนายได้ดีกว่า AI อยู่เล็กน้อย

  • สำหรับคนที่ทำควิซ 100 ข้อ: ตามเกณฑ์สถิติแบบดั้งเดิม ต้องตอบถูกเกิน 1 ใน 3 จึงจะถือว่าดีกว่าการเดา

    • ถ้าจะให้ดีกว่า LLM ต้องตอบถูกเกินครึ่ง
  • ถ้าตัวอย่างมาจาก HN ก็มีความเป็นไปได้ว่าข้อความนั้นเป็นส่วนหนึ่งของชุดข้อมูลอยู่แล้ว

    • แต่ถ้าเป็นคอมเมนต์ล่าสุด ก็น่าจะไม่ใช่
    • ChatGPT อาจใช้เครื่องมือค้นหาของ Bing ได้ แต่โมเดล API อย่าง gpt4o-mini ไม่น่าจะทำแบบนั้นได้
  • บางข้อถูกตัดมาจากบริบทที่ใหญ่กว่า ทำให้ LLM อยู่ในตำแหน่งที่ได้เปรียบในการทำนาย