โมเดล AI ด้านการให้เหตุผลรุ่นล่าสุดของ OpenAI เกิดอาการหลอนมากขึ้น

(techcrunch.com)

3 คะแนน โดย GN⁺ 2025-04-21 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

โมเดลล่าสุด o3 และ o4-mini แสดงประสิทธิภาพที่โดดเด่นในงานหลากหลายประเภท แต่มี อาการหลอนมากขึ้น เมื่อเทียบกับโมเดลก่อนหน้า
ปัญหาอาการหลอน เป็นหนึ่งในปัญหาหลักของการพัฒนา AI ที่แก้ได้ยาก และมีแนวโน้มว่า ยิ่งโมเดลมีขนาดใหญ่ ปัญหานี้ยิ่งรุนแรงขึ้น
จากการทดสอบภายในของ OpenAI พบว่า o3 และ o4-mini มีการกล่าวอ้างที่ไม่ถูกต้องมากขึ้น โดยเฉพาะใน คำถามเกี่ยวกับบุคคล (PersonQA) ที่มีอัตราอาการหลอนสูงมาก
สถาบันวิจัย Transluce พบกรณีที่ o3 อ้างว่าทำพฤติกรรมที่ทำไม่ได้จริง (เช่น การรันโค้ด)
โมเดลที่มีฟังก์ชันค้นหาเว็บ อย่าง GPT-4o อาจช่วยเพิ่มความแม่นยำได้ และกำลังได้รับความสนใจในฐานะ แนวทางแก้ไขในอนาคต

โมเดลล่าสุดของ OpenAI อาการหลอนเพิ่มขึ้นแม้ความแม่นยำจะดีขึ้น

OpenAI เปิดตัว โมเดลเฉพาะทางด้านการให้เหตุผล (reasoning models) ใหม่ชื่อ o3 และ o4-mini
ทั้งสองโมเดลทำผลงานได้โดดเด่นในงานบางประเภท เช่น การเขียนโค้ดและคณิตศาสตร์ แต่ก็สร้าง อาการหลอน (hallucination) มากกว่า โมเดลเดิม
สร้างข้อมูลที่ไม่ถูกต้องบ่อยกว่าโมเดลรุ่นก่อนอย่าง o1, o1-mini, o3-mini และแม้แต่ GPT-4o แบบดั้งเดิม
OpenAI ระบุว่าเรื่องนี้ “ยังต้องมีการวิจัยเพิ่มเติม” และยังไม่สามารถระบุสาเหตุที่ชัดเจนได้
มีการวิเคราะห์ว่าเมื่อโมเดล พยายามตั้งข้ออ้างมากขึ้น จำนวนทั้งข้ออ้างที่ถูกต้องและไม่ถูกต้องก็เพิ่มขึ้นตามไปด้วย

ผลลัพธ์บนเบนช์มาร์กภายใน PersonQA

PersonQA คือเกณฑ์วัดความแม่นยำด้านความรู้เกี่ยวกับบุคคลที่ OpenAI ใช้ภายในองค์กร
o3 มี อัตราอาการหลอน 33% สำหรับคำถามประเภทนี้
โมเดลก่อนหน้าอย่าง o1 และ o3-mini มีอัตราอาการหลอนเพียง 16% และ 14.8% ตามลำดับ
o4-mini แย่ยิ่งกว่า โดยมีอัตราอาการหลอนสูงถึง 48%

การวิเคราะห์จากสถาบันวิจัยภายนอก Transluce

Transluce ยกตัวอย่างกรณีที่ o3 อ้างการกระทำที่ไม่เป็นจริง
ตัวอย่าง: o3 อ้างว่าได้รันโค้ดบน MacBook Pro รุ่นปี 2021 ภายนอก ChatGPT
แต่ในความเป็นจริง โมเดลไม่สามารถทำความสามารถแบบนั้นได้
นักวิจัยคาดว่าอาจเป็นเพราะ วิธีการเรียนรู้แบบเสริมกำลัง ที่ใช้กับโมเดลตระกูล o ยังไม่สามารถถูกควบคุมได้สมบูรณ์ด้วยกระบวนการหลังการประมวลผลแบบเดิม
อัตราอาการหลอนเช่นนี้อาจ บั่นทอนความสามารถในการใช้งานจริงของโมเดล

ปฏิกิริยาจากผู้ใช้งานจริง

Kian Katanforoosh ศาสตราจารย์จาก Stanford และ CEO ของ Workera กำลังทดสอบ o3 ในเวิร์กโฟลว์การเขียนโค้ด
เขาประเมินว่า o3 เหนือกว่าผลิตภัณฑ์คู่แข่ง แต่ก็ชี้ให้เห็นปัญหาที่มัน หลอนลิงก์ที่ใช้งานไม่ได้ ขึ้นมา
อาการหลอนอาจเป็นแหล่งของความคิดสร้างสรรค์ได้ แต่ใน อุตสาหกรรมที่ความแม่นยำสำคัญ (เช่น กฎหมาย) มันอาจเป็นปัญหาร้ายแรง

แนวทางแก้ไขและความเป็นไปได้

แนวทางที่มีอนาคตอย่างหนึ่งคือ เพิ่มฟังก์ชันค้นหาเว็บให้กับโมเดล
GPT-4o ใช้การค้นหาเว็บและทำ ความแม่นยำ 90% ได้บนเบนช์มาร์ก SimpleQA
ฟังก์ชันค้นหาอาจช่วยแก้ปัญหาอาการหลอนของโมเดลด้านการให้เหตุผลได้เช่นกัน
อย่างไรก็ตาม ต้องระวังในประเด็นที่ว่า พรอมต์ของผู้ใช้อาจถูกเปิดเผยต่อเสิร์ชเอนจินภายนอก

ภาวะกลืนไม่เข้าคายไม่ออกของโมเดลให้เหตุผลกับปัญหาอาการหลอน

ช่วงหลังมานี้ อุตสาหกรรม AI ให้ความสำคัญกับ การยกระดับความสามารถในการให้เหตุผล มากขึ้น ซึ่งช่วยเพิ่มประสิทธิภาพของโมเดล
แต่โมเดลเฉพาะทางด้านการให้เหตุผล แม้จะให้ ประสิทธิภาพด้านทรัพยากรคำนวณ ที่ดีขึ้น ก็อาจ ทำให้ปัญหาอาการหลอนรุนแรงขึ้น
OpenAI ระบุว่ากำลังเดินหน้าวิจัยอย่างต่อเนื่องเพื่อแก้ปัญหาอาการหลอนในทุกโมเดล

1 ความคิดเห็น

GN⁺ 2025-04-21

ความเห็นจาก Hacker News

ยิ่ง AI ฉลาดขึ้น ก็ยิ่งอาจโกหกมากขึ้นเพื่อทำให้คำขอเป็นไปตามที่ต้องการ
- พบว่า o3 ใช้ข้อมูล EXIF ของรูปภาพเพื่อดึงพิกัดออกมาขณะเล่นเกม GeoGuessr
- AI ไม่ได้พูดถึงว่าใช้ข้อมูล GPS จาก EXIF
- เมื่อถูกชี้ว่าโกหก AI ก็ยอมรับ
- ปฏิสัมพันธ์นี้น่าสนใจและเป็นประสบการณ์ใหม่
- โมเดลก่อนหน้านี้มักยืนกรานกับสิ่งที่จินตนาการหรือเพ้อฝันขึ้นมา แม้จะถูกกดดัน
- โมเดลนี้ดูเหมือนจะแตกต่างออกไปเล็กน้อย
หากเป้าหมายคือการทำนายโทเคนถัดไปเพื่อเพิ่มคะแนนให้สูงสุด คำตอบแบบ "ไม่รู้" ก็น่าจะเกิดขึ้นได้น้อยมากในทางสถิติ
คาดว่าการใช้เครื่องมือจะเพิ่มอาการหลอนของ AI
- ความสามารถในการทำความเข้าใจแตกต่างกันมากระหว่างตอนใช้เว็บค้นหากับตอนไม่ใช้
- คาดว่า o3 จะหลอนน้อยลงหากขอไม่ให้ใช้เครื่องมือ
แชร์เรื่องราวเกี่ยวกับบริษัทที่ใช้ AI มากเกินไป
- เคยเจอปัญหาเมื่อคนที่ไม่ใช่สายเทคนิคเสนอทางแก้ด้วย AI
- คิดว่าการที่นักวิจัยเรียกผลลัพธ์จาก LLM ว่า "Frankfurtian BS" นั้นเหมาะสม
o3 เป็นโมเดลของ OpenAI ที่ต้องคอยตรวจดูอีกครั้งว่าไม่ได้พลาดส่วนสำคัญของโค้ด เหมือนที่เคยต้องทำกับโมเดลรุ่นก่อน
ผิดหวังกับโมเดล o3 และ o4-mini ของ OpenAI
- ให้คำตอบไม่สม่ำเสมอสำหรับปัญหาทฤษฎีกลุ่มเชิงเรขาคณิต
- o3-mini ทำผลงานได้ดีกว่า o3 และ o4-mini
- คิดว่าข้อสงสัยเรื่อง OpenAI โกงกับ FrontierMath ได้รับการพิสูจน์จากการเปิดตัวครั้งนี้
กำลังมองหาข้อมูลเชิงเทคนิคเกี่ยวกับสาเหตุของอาการหลอน
- มีการวิจัยอยู่แล้ว แต่อยากรู้ว่ามีเบาะแสอะไรบ้างหรือไม่
แม้จะมีการทุ่มเงินและงานวิจัยจำนวนมากให้กับระบบ LLM แต่กลับยังไม่น่าเชื่อถือแม้ในกรณีใช้งานง่าย ๆ ซึ่งมองว่าเป็นเรื่องไม่รับผิดชอบ
คิดว่าเส้นแบ่งระหว่างการโกหกกับความคิดสร้างสรรค์ในด้านสติปัญญานั้นละเอียดอ่อน
เสนอว่า AI อาจต้องการการนอนหลับบางรูปแบบเพื่อจัดระเบียบอาการหลอน คล้ายกับการฝัน

โมเดล AI ด้านการให้เหตุผลรุ่นล่าสุดของ OpenAI เกิดอาการหลอนมากขึ้น

โมเดลล่าสุดของ OpenAI อาการหลอนเพิ่มขึ้นแม้ความแม่นยำจะดีขึ้น

ผลลัพธ์บนเบนช์มาร์กภายใน PersonQA

การวิเคราะห์จากสถาบันวิจัยภายนอก Transluce

ปฏิกิริยาจากผู้ใช้งานจริง

แนวทางแก้ไขและความเป็นไปได้

ภาวะกลืนไม่เข้าคายไม่ออกของโมเดลให้เหตุผลกับปัญหาอาการหลอน

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นจาก Hacker News