• SimpleQA เป็นเบนช์มาร์กใหม่สำหรับวัดความถูกต้องเชิงข้อเท็จจริงของโมเดลภาษา
  • การฝึกโมเดลปัญญาประดิษฐ์ให้สร้างคำตอบที่อิงข้อเท็จจริงยังเป็นปัญหาที่แก้ไม่ตก
  • ปัจจุบันโมเดลภาษาบางครั้งยังสร้างผลลัพธ์ที่เป็นเท็จหรือคำตอบที่ไม่มีหลักฐานรองรับ ซึ่งเรียกว่า "hallucinations(ภาพหลอน)"
  • โมเดลภาษาที่แม่นยำกว่าและมีอาการภาพหลอนน้อยกว่าจะเชื่อถือได้มากกว่าและนำไปใช้ได้ในงานที่หลากหลาย
  • OpenAI ต้องการใช้โอเพนซอร์สของ SimpleQA เพื่อวัดความถูกต้องเชิงข้อเท็จจริงของโมเดลภาษา

คุณลักษณะของเบนช์มาร์ก SimpleQA

  • เนื่องจากความถูกต้องเชิงข้อเท็จจริงเป็นสิ่งที่วัดได้ยาก SimpleQA จึงมุ่งเน้นไปที่คำถามสั้น ๆ ที่ต้องการข้อเท็จจริงโดยตรง
  • เป้าหมายของ SimpleQA:
    1. ความแม่นยำสูง: ผู้ฝึกสอน AI อิสระ 2 คนใช้แหล่งอ้างอิงเพื่อรองรับคำตอบที่ถูกต้อง และเขียนคำถามให้ประเมินคำตอบที่คาดการณ์ได้ง่าย
    2. ความหลากหลาย: ครอบคลุมหัวข้อกว้างขวางตั้งแต่วิทยาศาสตร์และเทคโนโลยีไปจนถึงรายการทีวีและวิดีโอเกม
    3. ท้าทายสำหรับโมเดลรุ่นใหม่: ต่างจากเบนช์มาร์กก่อนหน้าอย่าง TriviaQA หรือ NQ, SimpleQA ถูกออกแบบมาให้ท้าทายโมเดลสมัยใหม่มากขึ้น (เช่น GPT-4 ได้คะแนนต่ำกว่า 40%)
    4. UX ที่เป็นมิตรต่อนักวิจัย: ด้วยคำถามและคำตอบที่กระชับ SimpleQA จึงรันได้รวดเร็วและเรียบง่าย การประเมินผ่าน OpenAI API หรือ API ของโมเดลสมัยใหม่อื่น ๆ ก็มีประสิทธิภาพเช่นกัน และด้วยคำถาม 4,326 ข้อ จึงคาดว่าความแปรปรวนในฐานะเบนช์มาร์กประเมินผลจะค่อนข้างต่ำ

กระบวนการสร้างชุดข้อมูล SimpleQA

  • ผู้ฝึกสอน AI ท่องเว็บเพื่อสร้างคำถามสั้น ๆ ที่มุ่งหาข้อเท็จจริงและคำตอบของคำถามเหล่านั้น
  • เพื่อให้รวมอยู่ในชุดข้อมูลได้ แต่ละคำถามต้องผ่านเกณฑ์ที่เข้มงวด:
    • ต้องมีคำตอบเดียวที่ชัดเจนและประเมินได้ง่าย
    • คำตอบของคำถามต้องไม่เปลี่ยนไปตามกาลเวลา
    • คำถามส่วนใหญ่ต้องกระตุ้นให้ GPT-4 หรือ GPT-3.5 เกิดอาการภาพหลอน
  • เพื่อยกระดับคุณภาพของชุดข้อมูลให้ดีขึ้น ผู้ฝึกสอน AI อิสระคนที่สองจะตอบแต่ละคำถามโดยไม่เห็นคำตอบต้นฉบับ
  • จะรวมเฉพาะคำถามที่คำตอบของผู้ฝึกสอน AI ทั้งสองคนตรงกันเท่านั้น

การตรวจสอบคุณภาพชุดข้อมูล SimpleQA

  • สำหรับการตรวจสอบขั้นสุดท้าย ได้สุ่มเลือกคำถาม 1,000 ข้อจากชุดข้อมูลให้ผู้ฝึกสอน AI คนที่สามตอบ
  • คำตอบของผู้ฝึกสอน AI คนที่สามตรงกับคำตอบที่ตกลงกันไว้เดิม 94.4% และไม่ตรงกัน 5.6%
  • เมื่อตรวจสอบกรณีที่ไม่ตรงกันด้วยมือ พบว่า:
    • จาก 5.6% นั้น 2.8% เกิดจาก false negative ของผู้ประเมินหรือความผิดพลาดของผู้ฝึกสอนคนที่สาม (เช่น คำตอบไม่สมบูรณ์, ตีความแหล่งข้อมูลผิด)
    • อีก 2.8% ที่เหลือเกิดจากปัญหาจริงของตัวคำถามเอง (เช่น คำถามกำกวม, คำตอบขัดแย้งกันระหว่างเว็บไซต์)
  • จากข้อมูลนี้ คาดว่าอัตราความผิดพลาดโดยเนื้อแท้ของชุดข้อมูลนี้อยู่ที่ราว 3%

ความหลากหลายของคำถามใน SimpleQA

  • แผนภูมิวงกลมด้านล่างแสดงความหลากหลายของหัวข้อในเบนช์มาร์ก SimpleQA
  • เมื่อนำเมาส์ไปวางเหนือแต่ละส่วนในแผนภูมิวงกลม จะมีตัวอย่างของคำถามแต่ละข้อแสดงขึ้น

การเปรียบเทียบโมเดลภาษาด้วย SimpleQA

  • เพื่อประเมินคำถาม ใช้ตัวจำแนกของ ChatGPT ที่ดูทั้งคำตอบที่โมเดลทำนายและคำตอบจริง
  • ตัวจำแนกจะประเมินคำตอบที่ทำนายเป็น "correct", "incorrect" หรือ "not attempted"
  • ตารางด้านล่างแสดงคำนิยามของแต่ละระดับและตัวอย่างที่เกี่ยวข้อง
    • "Correct": คำตอบที่ทำนายครอบคลุมคำตอบจริงทั้งหมดและไม่ขัดแย้งกับคำตอบจริง
    • "Incorrect": คำตอบที่ทำนายขัดแย้งกับคำตอบจริงไม่ทางใดก็ทางหนึ่ง (แม้จะมีการพูดแบบเผื่อไว้ก็ตาม)
    • "Not attempted": ไม่มีการระบุคำตอบเป้าหมายจริงอย่างครบถ้วนในคำตอบ และไม่ได้ขัดแย้งกับคำตอบจริง
  • โดยอุดมคติ โมเดลควรตอบคำถามให้ได้มากที่สุด (จำนวน correct สูงที่สุด) พร้อมกับลดจำนวนคำตอบ incorrect ให้น้อยที่สุด

การวัด calibration ของโมเดลภาษาด้วย SimpleQA

  • การใช้เบนช์มาร์กด้านความถูกต้องเชิงข้อเท็จจริงอย่าง SimpleQA ทำให้สามารถวัดได้ว่าโมเดล "รู้หรือไม่ว่าตัวเองรู้อะไร"
  • สิ่งนี้เรียกว่า calibration และสามารถวัดได้โดยขอให้โมเดลระบุระดับความมั่นใจต่อคำตอบของตนเองเป็นเปอร์เซ็นต์โดยตรง
  • จากนั้นสามารถพล็อตความสัมพันธ์ระหว่างระดับความมั่นใจที่โมเดลระบุกับความแม่นยำจริงออกมาเป็นกราฟได้
  • โมเดลที่มี calibration สมบูรณ์แบบจะมีระดับความมั่นใจที่ระบุตรงกับความแม่นยำจริง
  • ภาพด้านล่างแสดงผลลัพธ์ดังกล่าว:
    • ความสัมพันธ์เชิงบวกระหว่างระดับความมั่นใจที่ระบุกับความแม่นยำเป็นสัญญาณเชิงบวกว่าโมเดลมีความมั่นใจอยู่ในระดับหนึ่ง
    • o1-preview มี calibration ดีกว่า o1-mini และ gpt4 ดีกว่า gpt4-mini
    • อย่างไรก็ตาม การที่ประสิทธิภาพต่ำกว่าเส้น y=x อย่างมาก หมายความว่าโมเดลประเมินความมั่นใจของตัวเองสูงเกินจริงอย่างสม่ำเสมอ
    • ดังนั้นจึงยังมีพื้นที่อีกมากในการปรับปรุง calibration ของโมเดลภาษาขนาดใหญ่ในแง่ของระดับความมั่นใจที่ระบุ

สรุป

  • SimpleQA เป็นเบนช์มาร์กที่เรียบง่ายแต่ท้าทายสำหรับประเมินความถูกต้องเชิงข้อเท็จจริงของโมเดลรุ่นใหม่
  • ข้อจำกัดสำคัญของ SimpleQA คือขอบเขตของมัน โดย SimpleQA วัดความถูกต้องเชิงข้อเท็จจริงได้เฉพาะในสถานการณ์จำกัด คือคำถามสั้น ๆ ที่มุ่งหาข้อเท็จจริงและมีคำตอบเดียวที่แม่นยำและตรวจสอบได้
  • ความสามารถในการให้คำตอบสั้น ๆ ที่อิงข้อเท็จจริงจะสัมพันธ์กับความสามารถในการเขียนคำตอบยาว ๆ ที่เต็มไปด้วยข้อเท็จจริงจำนวนมากหรือไม่นั้น ยังเป็นคำถามปลายเปิดที่ต้องมีการวิจัยต่อ
  • หวังว่าโอเพนซอร์สของ SimpleQA จะช่วยผลักดันงานวิจัย AI ที่น่าเชื่อถือและมีเสถียรภาพมากขึ้น และหวังว่านักวิจัยจะนำ SimpleQA ไปใช้ประเมินความถูกต้องเชิงข้อเท็จจริงของโมเดลภาษาและส่งข้อเสนอแนะกลับมา

ความเห็นของ GN⁺

  • SimpleQA เป็นเบนช์มาร์กที่น่าสนใจและจำเป็นสำหรับวัดความถูกต้องเชิงข้อเท็จจริงของโมเดลภาษาด้วยคำถามสั้น ๆ ที่อิงข้อเท็จจริง เพราะท้ายที่สุดแล้ว หากต้องการยกระดับความน่าเชื่อถือของ AI ก็จำเป็นต้องพัฒนาความสามารถในการสร้างคำตอบที่อิงข้อเท็จจริง
  • อย่างไรก็ตาม SimpleQA วัดได้เพียงความถูกต้องเชิงข้อเท็จจริงในสถานการณ์จำกัด จึงยังไม่สะท้อนความถูกต้องเชิงข้อเท็จจริงของโมเดลภาษาในสถานการณ์การใช้งานจริงได้อย่างสมบูรณ์ ดูเหมือนว่าจะยังต้องมีการประเมินในสถานการณ์ที่หลากหลายมากขึ้นผ่านงานวิจัยต่อไป
  • นอกจากนี้ ความแม่นยำของชุดข้อมูล SimpleQA เองอยู่ที่ราว 97% ดังนั้นประสิทธิภาพของโมเดลภาษาก็อาจยากที่จะก้าวข้ามเพดานนี้ได้ ดูเหมือนว่าควรมีการปรับปรุงคุณภาพของชุดข้อมูลอย่างต่อเนื่องด้วย
  • เบนช์มาร์กอื่นที่มีจุดประสงค์คล้ายกับ SimpleQA ได้แก่ TruthfulQA และ HonestQA การวิเคราะห์เปรียบเทียบกับสิ่งเหล่านี้อาจช่วยให้เข้าใจข้อดีข้อเสียของ SimpleQA ได้ชัดเจนยิ่งขึ้น
  • เพื่อเพิ่มความถูกต้องเชิงข้อเท็จจริงของโมเดลภาษา นอกจากการพรีเทรนด้วยข้อมูลคุณภาพสูงปริมาณมากแล้ว ก็ดูเหมือนว่าการใช้ความรู้ภายนอกระหว่างการอนุมานหรือการมีความสามารถในการแก้ไขตนเองก็เป็นสิ่งจำเป็นด้วย และหวังว่าจะมีงานวิจัยที่เกี่ยวข้องเกิดขึ้นอย่างคึกคัก

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น