OpenAI เปิดตัว SimpleQA เบนช์มาร์กสำหรับตรวจสอบข้อเท็จจริง

(openai.com)

6 คะแนน โดย GN⁺ 2024-11-02 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

SimpleQA เป็นเบนช์มาร์กใหม่สำหรับวัดความถูกต้องเชิงข้อเท็จจริงของโมเดลภาษา
การฝึกโมเดลปัญญาประดิษฐ์ให้สร้างคำตอบที่อิงข้อเท็จจริงยังเป็นปัญหาที่แก้ไม่ตก
ปัจจุบันโมเดลภาษาบางครั้งยังสร้างผลลัพธ์ที่เป็นเท็จหรือคำตอบที่ไม่มีหลักฐานรองรับ ซึ่งเรียกว่า "hallucinations(ภาพหลอน)"
โมเดลภาษาที่แม่นยำกว่าและมีอาการภาพหลอนน้อยกว่าจะเชื่อถือได้มากกว่าและนำไปใช้ได้ในงานที่หลากหลาย
OpenAI ต้องการใช้โอเพนซอร์สของ SimpleQA เพื่อวัดความถูกต้องเชิงข้อเท็จจริงของโมเดลภาษา

คุณลักษณะของเบนช์มาร์ก SimpleQA

เนื่องจากความถูกต้องเชิงข้อเท็จจริงเป็นสิ่งที่วัดได้ยาก SimpleQA จึงมุ่งเน้นไปที่คำถามสั้น ๆ ที่ต้องการข้อเท็จจริงโดยตรง
เป้าหมายของ SimpleQA:
1. ความแม่นยำสูง: ผู้ฝึกสอน AI อิสระ 2 คนใช้แหล่งอ้างอิงเพื่อรองรับคำตอบที่ถูกต้อง และเขียนคำถามให้ประเมินคำตอบที่คาดการณ์ได้ง่าย
2. ความหลากหลาย: ครอบคลุมหัวข้อกว้างขวางตั้งแต่วิทยาศาสตร์และเทคโนโลยีไปจนถึงรายการทีวีและวิดีโอเกม
3. ท้าทายสำหรับโมเดลรุ่นใหม่: ต่างจากเบนช์มาร์กก่อนหน้าอย่าง TriviaQA หรือ NQ, SimpleQA ถูกออกแบบมาให้ท้าทายโมเดลสมัยใหม่มากขึ้น (เช่น GPT-4 ได้คะแนนต่ำกว่า 40%)
4. UX ที่เป็นมิตรต่อนักวิจัย: ด้วยคำถามและคำตอบที่กระชับ SimpleQA จึงรันได้รวดเร็วและเรียบง่าย การประเมินผ่าน OpenAI API หรือ API ของโมเดลสมัยใหม่อื่น ๆ ก็มีประสิทธิภาพเช่นกัน และด้วยคำถาม 4,326 ข้อ จึงคาดว่าความแปรปรวนในฐานะเบนช์มาร์กประเมินผลจะค่อนข้างต่ำ

กระบวนการสร้างชุดข้อมูล SimpleQA

ผู้ฝึกสอน AI ท่องเว็บเพื่อสร้างคำถามสั้น ๆ ที่มุ่งหาข้อเท็จจริงและคำตอบของคำถามเหล่านั้น
เพื่อให้รวมอยู่ในชุดข้อมูลได้ แต่ละคำถามต้องผ่านเกณฑ์ที่เข้มงวด:
- ต้องมีคำตอบเดียวที่ชัดเจนและประเมินได้ง่าย
- คำตอบของคำถามต้องไม่เปลี่ยนไปตามกาลเวลา
- คำถามส่วนใหญ่ต้องกระตุ้นให้ GPT-4 หรือ GPT-3.5 เกิดอาการภาพหลอน
เพื่อยกระดับคุณภาพของชุดข้อมูลให้ดีขึ้น ผู้ฝึกสอน AI อิสระคนที่สองจะตอบแต่ละคำถามโดยไม่เห็นคำตอบต้นฉบับ
จะรวมเฉพาะคำถามที่คำตอบของผู้ฝึกสอน AI ทั้งสองคนตรงกันเท่านั้น

การตรวจสอบคุณภาพชุดข้อมูล SimpleQA

สำหรับการตรวจสอบขั้นสุดท้าย ได้สุ่มเลือกคำถาม 1,000 ข้อจากชุดข้อมูลให้ผู้ฝึกสอน AI คนที่สามตอบ
คำตอบของผู้ฝึกสอน AI คนที่สามตรงกับคำตอบที่ตกลงกันไว้เดิม 94.4% และไม่ตรงกัน 5.6%
เมื่อตรวจสอบกรณีที่ไม่ตรงกันด้วยมือ พบว่า:
- จาก 5.6% นั้น 2.8% เกิดจาก false negative ของผู้ประเมินหรือความผิดพลาดของผู้ฝึกสอนคนที่สาม (เช่น คำตอบไม่สมบูรณ์, ตีความแหล่งข้อมูลผิด)
- อีก 2.8% ที่เหลือเกิดจากปัญหาจริงของตัวคำถามเอง (เช่น คำถามกำกวม, คำตอบขัดแย้งกันระหว่างเว็บไซต์)
จากข้อมูลนี้ คาดว่าอัตราความผิดพลาดโดยเนื้อแท้ของชุดข้อมูลนี้อยู่ที่ราว 3%

ความหลากหลายของคำถามใน SimpleQA

แผนภูมิวงกลมด้านล่างแสดงความหลากหลายของหัวข้อในเบนช์มาร์ก SimpleQA
เมื่อนำเมาส์ไปวางเหนือแต่ละส่วนในแผนภูมิวงกลม จะมีตัวอย่างของคำถามแต่ละข้อแสดงขึ้น

การเปรียบเทียบโมเดลภาษาด้วย SimpleQA

เพื่อประเมินคำถาม ใช้ตัวจำแนกของ ChatGPT ที่ดูทั้งคำตอบที่โมเดลทำนายและคำตอบจริง
ตัวจำแนกจะประเมินคำตอบที่ทำนายเป็น "correct", "incorrect" หรือ "not attempted"
ตารางด้านล่างแสดงคำนิยามของแต่ละระดับและตัวอย่างที่เกี่ยวข้อง
- "Correct": คำตอบที่ทำนายครอบคลุมคำตอบจริงทั้งหมดและไม่ขัดแย้งกับคำตอบจริง
- "Incorrect": คำตอบที่ทำนายขัดแย้งกับคำตอบจริงไม่ทางใดก็ทางหนึ่ง (แม้จะมีการพูดแบบเผื่อไว้ก็ตาม)
- "Not attempted": ไม่มีการระบุคำตอบเป้าหมายจริงอย่างครบถ้วนในคำตอบ และไม่ได้ขัดแย้งกับคำตอบจริง
โดยอุดมคติ โมเดลควรตอบคำถามให้ได้มากที่สุด (จำนวน correct สูงที่สุด) พร้อมกับลดจำนวนคำตอบ incorrect ให้น้อยที่สุด

การวัด calibration ของโมเดลภาษาด้วย SimpleQA

การใช้เบนช์มาร์กด้านความถูกต้องเชิงข้อเท็จจริงอย่าง SimpleQA ทำให้สามารถวัดได้ว่าโมเดล "รู้หรือไม่ว่าตัวเองรู้อะไร"
สิ่งนี้เรียกว่า calibration และสามารถวัดได้โดยขอให้โมเดลระบุระดับความมั่นใจต่อคำตอบของตนเองเป็นเปอร์เซ็นต์โดยตรง
จากนั้นสามารถพล็อตความสัมพันธ์ระหว่างระดับความมั่นใจที่โมเดลระบุกับความแม่นยำจริงออกมาเป็นกราฟได้
โมเดลที่มี calibration สมบูรณ์แบบจะมีระดับความมั่นใจที่ระบุตรงกับความแม่นยำจริง
ภาพด้านล่างแสดงผลลัพธ์ดังกล่าว:
- ความสัมพันธ์เชิงบวกระหว่างระดับความมั่นใจที่ระบุกับความแม่นยำเป็นสัญญาณเชิงบวกว่าโมเดลมีความมั่นใจอยู่ในระดับหนึ่ง
- o1-preview มี calibration ดีกว่า o1-mini และ gpt4 ดีกว่า gpt4-mini
- อย่างไรก็ตาม การที่ประสิทธิภาพต่ำกว่าเส้น y=x อย่างมาก หมายความว่าโมเดลประเมินความมั่นใจของตัวเองสูงเกินจริงอย่างสม่ำเสมอ
- ดังนั้นจึงยังมีพื้นที่อีกมากในการปรับปรุง calibration ของโมเดลภาษาขนาดใหญ่ในแง่ของระดับความมั่นใจที่ระบุ

สรุป

SimpleQA เป็นเบนช์มาร์กที่เรียบง่ายแต่ท้าทายสำหรับประเมินความถูกต้องเชิงข้อเท็จจริงของโมเดลรุ่นใหม่
ข้อจำกัดสำคัญของ SimpleQA คือขอบเขตของมัน โดย SimpleQA วัดความถูกต้องเชิงข้อเท็จจริงได้เฉพาะในสถานการณ์จำกัด คือคำถามสั้น ๆ ที่มุ่งหาข้อเท็จจริงและมีคำตอบเดียวที่แม่นยำและตรวจสอบได้
ความสามารถในการให้คำตอบสั้น ๆ ที่อิงข้อเท็จจริงจะสัมพันธ์กับความสามารถในการเขียนคำตอบยาว ๆ ที่เต็มไปด้วยข้อเท็จจริงจำนวนมากหรือไม่นั้น ยังเป็นคำถามปลายเปิดที่ต้องมีการวิจัยต่อ
หวังว่าโอเพนซอร์สของ SimpleQA จะช่วยผลักดันงานวิจัย AI ที่น่าเชื่อถือและมีเสถียรภาพมากขึ้น และหวังว่านักวิจัยจะนำ SimpleQA ไปใช้ประเมินความถูกต้องเชิงข้อเท็จจริงของโมเดลภาษาและส่งข้อเสนอแนะกลับมา

ความเห็นของ GN⁺

SimpleQA เป็นเบนช์มาร์กที่น่าสนใจและจำเป็นสำหรับวัดความถูกต้องเชิงข้อเท็จจริงของโมเดลภาษาด้วยคำถามสั้น ๆ ที่อิงข้อเท็จจริง เพราะท้ายที่สุดแล้ว หากต้องการยกระดับความน่าเชื่อถือของ AI ก็จำเป็นต้องพัฒนาความสามารถในการสร้างคำตอบที่อิงข้อเท็จจริง
อย่างไรก็ตาม SimpleQA วัดได้เพียงความถูกต้องเชิงข้อเท็จจริงในสถานการณ์จำกัด จึงยังไม่สะท้อนความถูกต้องเชิงข้อเท็จจริงของโมเดลภาษาในสถานการณ์การใช้งานจริงได้อย่างสมบูรณ์ ดูเหมือนว่าจะยังต้องมีการประเมินในสถานการณ์ที่หลากหลายมากขึ้นผ่านงานวิจัยต่อไป
นอกจากนี้ ความแม่นยำของชุดข้อมูล SimpleQA เองอยู่ที่ราว 97% ดังนั้นประสิทธิภาพของโมเดลภาษาก็อาจยากที่จะก้าวข้ามเพดานนี้ได้ ดูเหมือนว่าควรมีการปรับปรุงคุณภาพของชุดข้อมูลอย่างต่อเนื่องด้วย
เบนช์มาร์กอื่นที่มีจุดประสงค์คล้ายกับ SimpleQA ได้แก่ TruthfulQA และ HonestQA การวิเคราะห์เปรียบเทียบกับสิ่งเหล่านี้อาจช่วยให้เข้าใจข้อดีข้อเสียของ SimpleQA ได้ชัดเจนยิ่งขึ้น
เพื่อเพิ่มความถูกต้องเชิงข้อเท็จจริงของโมเดลภาษา นอกจากการพรีเทรนด้วยข้อมูลคุณภาพสูงปริมาณมากแล้ว ก็ดูเหมือนว่าการใช้ความรู้ภายนอกระหว่างการอนุมานหรือการมีความสามารถในการแก้ไขตนเองก็เป็นสิ่งจำเป็นด้วย และหวังว่าจะมีงานวิจัยที่เกี่ยวข้องเกิดขึ้นอย่างคึกคัก

OpenAI เปิดตัว SimpleQA เบนช์มาร์กสำหรับตรวจสอบข้อเท็จจริง

คุณลักษณะของเบนช์มาร์ก SimpleQA

กระบวนการสร้างชุดข้อมูล SimpleQA

การตรวจสอบคุณภาพชุดข้อมูล SimpleQA

ความหลากหลายของคำถามใน SimpleQA

การเปรียบเทียบโมเดลภาษาด้วย SimpleQA

การวัด calibration ของโมเดลภาษาด้วย SimpleQA

สรุป

ความเห็นของ GN⁺

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น