- โมเดลล่าสุด o3 และ o4-mini แสดงประสิทธิภาพที่โดดเด่นในงานหลากหลายประเภท แต่มี อาการหลอนมากขึ้น เมื่อเทียบกับโมเดลก่อนหน้า
- ปัญหาอาการหลอน เป็นหนึ่งในปัญหาหลักของการพัฒนา AI ที่แก้ได้ยาก และมีแนวโน้มว่า ยิ่งโมเดลมีขนาดใหญ่ ปัญหานี้ยิ่งรุนแรงขึ้น
- จากการทดสอบภายในของ OpenAI พบว่า o3 และ o4-mini มีการกล่าวอ้างที่ไม่ถูกต้องมากขึ้น โดยเฉพาะใน คำถามเกี่ยวกับบุคคล (PersonQA) ที่มีอัตราอาการหลอนสูงมาก
- สถาบันวิจัย Transluce พบกรณีที่ o3 อ้างว่าทำพฤติกรรมที่ทำไม่ได้จริง (เช่น การรันโค้ด)
- โมเดลที่มีฟังก์ชันค้นหาเว็บ อย่าง GPT-4o อาจช่วยเพิ่มความแม่นยำได้ และกำลังได้รับความสนใจในฐานะ แนวทางแก้ไขในอนาคต
โมเดลล่าสุดของ OpenAI อาการหลอนเพิ่มขึ้นแม้ความแม่นยำจะดีขึ้น
- OpenAI เปิดตัว โมเดลเฉพาะทางด้านการให้เหตุผล (reasoning models) ใหม่ชื่อ o3 และ o4-mini
- ทั้งสองโมเดลทำผลงานได้โดดเด่นในงานบางประเภท เช่น การเขียนโค้ดและคณิตศาสตร์ แต่ก็สร้าง อาการหลอน (hallucination) มากกว่า โมเดลเดิม
- สร้างข้อมูลที่ไม่ถูกต้องบ่อยกว่าโมเดลรุ่นก่อนอย่าง o1, o1-mini, o3-mini และแม้แต่ GPT-4o แบบดั้งเดิม
- OpenAI ระบุว่าเรื่องนี้ “ยังต้องมีการวิจัยเพิ่มเติม” และยังไม่สามารถระบุสาเหตุที่ชัดเจนได้
- มีการวิเคราะห์ว่าเมื่อโมเดล พยายามตั้งข้ออ้างมากขึ้น จำนวนทั้งข้ออ้างที่ถูกต้องและไม่ถูกต้องก็เพิ่มขึ้นตามไปด้วย
ผลลัพธ์บนเบนช์มาร์กภายใน PersonQA
- PersonQA คือเกณฑ์วัดความแม่นยำด้านความรู้เกี่ยวกับบุคคลที่ OpenAI ใช้ภายในองค์กร
- o3 มี อัตราอาการหลอน 33% สำหรับคำถามประเภทนี้
- โมเดลก่อนหน้าอย่าง o1 และ o3-mini มีอัตราอาการหลอนเพียง 16% และ 14.8% ตามลำดับ
- o4-mini แย่ยิ่งกว่า โดยมีอัตราอาการหลอนสูงถึง 48%
การวิเคราะห์จากสถาบันวิจัยภายนอก Transluce
- Transluce ยกตัวอย่างกรณีที่ o3 อ้างการกระทำที่ไม่เป็นจริง
- ตัวอย่าง: o3 อ้างว่าได้รันโค้ดบน MacBook Pro รุ่นปี 2021 ภายนอก ChatGPT
- แต่ในความเป็นจริง โมเดลไม่สามารถทำความสามารถแบบนั้นได้
- นักวิจัยคาดว่าอาจเป็นเพราะ วิธีการเรียนรู้แบบเสริมกำลัง ที่ใช้กับโมเดลตระกูล o ยังไม่สามารถถูกควบคุมได้สมบูรณ์ด้วยกระบวนการหลังการประมวลผลแบบเดิม
- อัตราอาการหลอนเช่นนี้อาจ บั่นทอนความสามารถในการใช้งานจริงของโมเดล
ปฏิกิริยาจากผู้ใช้งานจริง
- Kian Katanforoosh ศาสตราจารย์จาก Stanford และ CEO ของ Workera กำลังทดสอบ o3 ในเวิร์กโฟลว์การเขียนโค้ด
- เขาประเมินว่า o3 เหนือกว่าผลิตภัณฑ์คู่แข่ง แต่ก็ชี้ให้เห็นปัญหาที่มัน หลอนลิงก์ที่ใช้งานไม่ได้ ขึ้นมา
- อาการหลอนอาจเป็นแหล่งของความคิดสร้างสรรค์ได้ แต่ใน อุตสาหกรรมที่ความแม่นยำสำคัญ (เช่น กฎหมาย) มันอาจเป็นปัญหาร้ายแรง
แนวทางแก้ไขและความเป็นไปได้
- แนวทางที่มีอนาคตอย่างหนึ่งคือ เพิ่มฟังก์ชันค้นหาเว็บให้กับโมเดล
- GPT-4o ใช้การค้นหาเว็บและทำ ความแม่นยำ 90% ได้บนเบนช์มาร์ก SimpleQA
- ฟังก์ชันค้นหาอาจช่วยแก้ปัญหาอาการหลอนของโมเดลด้านการให้เหตุผลได้เช่นกัน
- อย่างไรก็ตาม ต้องระวังในประเด็นที่ว่า พรอมต์ของผู้ใช้อาจถูกเปิดเผยต่อเสิร์ชเอนจินภายนอก
ภาวะกลืนไม่เข้าคายไม่ออกของโมเดลให้เหตุผลกับปัญหาอาการหลอน
- ช่วงหลังมานี้ อุตสาหกรรม AI ให้ความสำคัญกับ การยกระดับความสามารถในการให้เหตุผล มากขึ้น ซึ่งช่วยเพิ่มประสิทธิภาพของโมเดล
- แต่โมเดลเฉพาะทางด้านการให้เหตุผล แม้จะให้ ประสิทธิภาพด้านทรัพยากรคำนวณ ที่ดีขึ้น ก็อาจ ทำให้ปัญหาอาการหลอนรุนแรงขึ้น
- OpenAI ระบุว่ากำลังเดินหน้าวิจัยอย่างต่อเนื่องเพื่อแก้ปัญหาอาการหลอนในทุกโมเดล
1 ความคิดเห็น
ความเห็นจาก Hacker News
ยิ่ง AI ฉลาดขึ้น ก็ยิ่งอาจโกหกมากขึ้นเพื่อทำให้คำขอเป็นไปตามที่ต้องการ
หากเป้าหมายคือการทำนายโทเคนถัดไปเพื่อเพิ่มคะแนนให้สูงสุด คำตอบแบบ "ไม่รู้" ก็น่าจะเกิดขึ้นได้น้อยมากในทางสถิติ
คาดว่าการใช้เครื่องมือจะเพิ่มอาการหลอนของ AI
แชร์เรื่องราวเกี่ยวกับบริษัทที่ใช้ AI มากเกินไป
o3 เป็นโมเดลของ OpenAI ที่ต้องคอยตรวจดูอีกครั้งว่าไม่ได้พลาดส่วนสำคัญของโค้ด เหมือนที่เคยต้องทำกับโมเดลรุ่นก่อน
ผิดหวังกับโมเดล o3 และ o4-mini ของ OpenAI
กำลังมองหาข้อมูลเชิงเทคนิคเกี่ยวกับสาเหตุของอาการหลอน
แม้จะมีการทุ่มเงินและงานวิจัยจำนวนมากให้กับระบบ LLM แต่กลับยังไม่น่าเชื่อถือแม้ในกรณีใช้งานง่าย ๆ ซึ่งมองว่าเป็นเรื่องไม่รับผิดชอบ
คิดว่าเส้นแบ่งระหว่างการโกหกกับความคิดสร้างสรรค์ในด้านสติปัญญานั้นละเอียดอ่อน
เสนอว่า AI อาจต้องการการนอนหลับบางรูปแบบเพื่อจัดระเบียบอาการหลอน คล้ายกับการฝัน