- ไม่นานมานี้ OpenAI เปิดตัวโมเดลใหม่ o3 และประกาศว่าสามารถทำผลงานก้าวกระโดดด้านคณิตศาสตร์ได้
- โดยเฉพาะอย่างยิ่ง โมเดลนี้ทำคะแนนได้ 25% บนเบนช์มาร์ก FrontierMath ซึ่งก่อนหน้านี้โมเดลรุ่นก่อนทำได้เพียง 2% จึงได้รับความสนใจอย่างมาก
- หลังการประกาศ มีข้อวิจารณ์ว่าในกระบวนการจัดทำเบนช์มาร์กนี้ขาดความโปร่งใส
- กรณีนี้อาจให้บทเรียนต่อการถกเถียงเรื่องเบนช์มาร์ก AI การประเมินผล และความปลอดภัยในอนาคตได้
ภาพรวมของเหตุการณ์
- ก่อนเดือนพฤศจิกายน 2024 Epoch AI เริ่มสร้าง FrontierMath ซึ่งเป็นเบนช์มาร์กสำหรับประเมินคณิตศาสตร์
- ได้ว่าจ้างนักคณิตศาสตร์ภายนอกให้ช่วยออกโจทย์ พร้อมค่าตอบแทนประมาณ 300–1000 ดอลลาร์
- ในเวลานั้น ยังไม่ชัดเจนว่าใครเป็นผู้ให้ทุน และใครบ้างที่สามารถดูโจทย์กับเฉลยได้
- วันที่ 7 พฤศจิกายน 2024 Epoch AI เผยแพร่บทความวิชาการฉบับแรกบน arxiv ซึ่งไม่ได้ระบุแหล่งเงินทุนเลย
- วันที่ 20 ธันวาคม 2024 OpenAI เปิดตัวโมเดล o3 พร้อมประกาศว่าทำได้ 25% บน FrontierMath
- ในวันเดียวกัน บทความของ Epoch AI เวอร์ชัน v5 บน arxiv ถูกอัปเดต โดยเปิดเผยว่า OpenAI เป็นผู้สนับสนุนทั้งหมด และสามารถเข้าถึงโจทย์ยากส่วนใหญ่รวมถึงเฉลยได้
รายละเอียดเพิ่มเติม
- แม้หลังการอัปเดตในเดือนธันวาคมจะมีความกังวลเกี่ยวกับประเด็นนี้อยู่แล้ว แต่ล่าสุดก็มีข้อมูลที่เกี่ยวข้องเพิ่มเติมถูกเปิดเผย
- FrontierMath แบ่งความยากเป็น (a) ระดับโอลิมปิก (25%), (b) ระดับกลาง (50%), (c) ระดับที่ผู้เชี่ยวชาญต้องใช้เวลาหลายสัปดาห์ (25%)
- ในการประกาศว่า o3 ทำได้ 25% นั้น ไม่ได้เปิดเผยว่าทำโจทย์ระดับใดได้เป็นหลัก ซึ่งอาจทำให้เกิดความเข้าใจผิด
- คาดว่า OpenAI เข้าถึงโจทย์และเฉลยทั้งหมดได้ แต่ตามข้อตกลงด้วยวาจาอาจไม่ได้ใช้ชุดข้อมูลนี้สำหรับการฝึกโดยตรง
- อย่างไรก็ดี ก็มีข้อชี้ว่าแทบไม่มีใครรู้ได้แน่ชัดว่าภายในแล้วโมเดลถูกฝึกด้วยวิธีใดบ้าง
เหตุใดจึงเป็นปัญหาอีกแบบหนึ่ง
- หากครอบครองหรือเข้าถึงโจทย์ FrontierMath ได้ ก็อาจช่วยยกระดับประสิทธิภาพของโมเดลทางอ้อมได้
- โดยเฉพาะมีความกังวลว่าสามารถใช้โจทย์ยากที่ยังไม่เปิดเผยเพื่อปรับแต่งการตรวจสอบโมเดลหรือเทคนิคการค้นหาให้ละเอียดขึ้นได้
- ยังไม่ชัดเจนว่าการประกาศว่าทำได้ 25% หมายถึงความสามารถในการแก้โจทย์ยากจริง หรือเป็นเพียงการทำโจทย์ง่ายเป็นส่วนใหญ่
ชุดข้อมูลที่เพิ่มความสามารถได้แม้ไม่มีการฝึกอย่างชัดเจน
- แม้โครงสร้างภายในของ o3 จะยังไม่ถูกเปิดเผยมากนัก แต่งานวิจัยอื่นบางส่วนใช้แนวทาง “ขยายขนาดในขั้นตอนการอนุมาน”
- มีการนำเสนองานวิจัยที่เรียนรู้การประเมิน Chain-of-thought แบบอัตโนมัติบนพื้นฐาน MCMC หรือเสริมการค้นหาด้วยการใส่โมเดลรางวัล (PRM) ในขั้นตอนกลาง
- เบนช์มาร์กยากอย่าง FrontierMath อาจมีประโยชน์ต่อการตรวจสอบโมเดลรางวัลเหล่านี้
- กล่าวอีกอย่างคือ แม้ไม่ใช้ฝึกโดยตรง ก็ยังอาจถูกใช้เพื่อปรับแต่งกลยุทธ์การค้นหาของโมเดลหรือเทคนิคการตรวจสอบได้
- หากเป้าหมายคือการประเมินอย่างอิสระและเป็นธรรม ก็มีความเห็นว่าควรใช้ประเมินเพียงครั้งเดียวและไม่ควรนำไปใช้เพื่อวัตถุประสงค์อื่น
ความกังวลด้านความปลอดภัยของ AI
- Epoch AI เป็นที่รู้จักว่าเป็นองค์กรที่ติดตามแนวโน้มการพัฒนา AI และให้ความสำคัญกับความปลอดภัย
- ในบรรดานักคณิตศาสตร์ที่ส่งโจทย์ให้ FrontierMath อาจมีบางคนที่คงจะไม่ร่วมมือ หากรู้ว่าสุดท้ายแล้วงานของตนอาจถูกใช้เพื่อเพิ่มความสามารถของ AI
- ท้ายที่สุดจึงมีข้อวิจารณ์ว่า OpenAI ได้โจทย์มาโดยอ้อมจากผู้ที่ไม่ได้ต้องการเช่นนั้น เพื่อนำไปตรวจสอบและพัฒนาโมเดล
- ความไม่โปร่งใสลักษณะนี้ก่อให้เกิดความกังวลในแง่ความปลอดภัยของ AI และจริยธรรมการวิจัย
ความเห็นของ meemi ซึ่งเป็น AI Safety Researcher
- FrontierMath ได้รับเงินสนับสนุนจาก OpenAI
- มีข้อชี้ว่าข้อเท็จจริงนี้ไม่ได้ถูกเปิดเผยต่อภายนอกอย่างโปร่งใสก่อนวันที่ 20 ธันวาคม
- เบื้องหลังคือในเวอร์ชันแรก ๆ บน Arxiv (v1–v4) ไม่มีการกล่าวถึงการสนับสนุนจาก OpenAI และเพิ่งมีการระบุในเวอร์ชันที่เผยแพร่หลังวันที่ 20 ธันวาคม
- ยังไม่ชัดเจนว่า Epoch AI ทำข้อตกลงอะไรกับ OpenAI แต่มีการตั้งข้อสันนิษฐานว่าอาจเก็บเรื่องเงินสนับสนุนนี้เป็นความลับจนถึงช่วงประกาศ o3 (20 ธันวาคม)
- มีการกล่าวว่านักคณิตศาสตร์ที่เข้าร่วมทำโจทย์ไม่ได้รับการแจ้งอย่างชัดเจนเกี่ยวกับเงินสนับสนุนจาก OpenAI
- ผู้ร่วมงานแบบสัญญาจ้างต้องลงนาม NDA และมีการรักษาความปลอดภัยอย่างเข้มงวด เช่น ห้ามแชร์โจทย์และเฉลยผ่านอีเมลหรือ Overleaf
- อย่างไรก็ตาม มีข้อชี้ว่าพวกเขาไม่ได้รับการอธิบายอย่างชัดเจนเกี่ยวกับเงินทุนจาก OpenAI หรือความเป็นไปได้ในการนำข้อมูลไปใช้
- มีข้อกล่าวอ้างว่าแม้แต่นักเขียนบางคนเองก็อาจไม่รู้ว่า OpenAI เป็นผู้ให้ทุน
- ดูเหมือนว่าคนส่วนใหญ่และผู้ร่วมงานแบบสัญญาจ้างรับรู้ว่า “โจทย์และคำตอบของเบนช์มาร์กนี้จะถูกเก็บเป็นความลับทั้งหมด และมีเพียง Epoch เท่านั้นที่ใช้ได้”
- ปัจจุบัน Epoch AI หรือ OpenAI ยังไม่ได้ประกาศต่อสาธารณะอย่างชัดเจนว่า “OpenAI สามารถเข้าถึงโจทย์หรือเฉลยได้” แต่มีข่าวลือว่าในความเป็นจริง OpenAI ใช้งานสิ่งเหล่านี้อยู่
- มีการกล่าวว่าก็ยังไม่โปร่งใสว่ามีข้อตกลงที่ระบุชัดเจนหรือไม่ในการห้ามนำชุดข้อมูลนี้ไปใช้ฝึก
- ผลลัพธ์คือมีมุมมองเชิงวิจารณ์ว่า ควรเปิดเผยให้ชัดเจนเกี่ยวกับเงินสนับสนุนและความเป็นไปได้ในการใช้ข้อมูล รวมทั้งควรให้ข้อมูลที่เพียงพอแก่ผู้รับจ้างที่ช่วยสร้างโจทย์
ความเห็นของ Tamay จาก Epoch AI
- Tamay จาก Epoch AI ยอมรับปัญหาเรื่องความโปร่งใสด้วยตนเอง
- มีเงื่อนไขตามสัญญาที่ทำให้ไม่สามารถเปิดเผยการมีส่วนร่วมของ OpenAI ได้ก่อนการเปิดตัว o3
- หลังจากนั้นก็ยอมรับว่าความโปร่งใสไม่เพียงพอ และระบุว่าควรให้ข้อมูลแก่ผู้มีส่วนร่วมเร็วกว่านี้
- ยอมรับว่าเป็นความผิดของตนเองที่ไม่สามารถสื่อสารอย่างชัดเจนเรื่องแหล่งเงินทุนและสิทธิ์เข้าถึงข้อมูลได้
- คำมั่นว่าจะปรับปรุงความโปร่งใสในการร่วมงานในอนาคต
- ต่อไปจะพยายามทำให้ผู้มีส่วนร่วมทราบอย่างชัดเจนตั้งแต่ต้นถึงแหล่งเงินทุน การเข้าถึงข้อมูล และเจตนาในการใช้งาน
- มีการบอกนักคณิตศาสตร์บางคนว่าได้รับทุนจากห้องแล็บวิจัย แต่ไม่ได้สื่อสารอย่างเป็นระบบ
- มองว่าปัญหาคือการดำเนินการโดยไม่เปิดเผยชื่อห้องแล็บเฉพาะนั้นอย่างชัดเจน (กล่าวคือ OpenAI)
- ระบุว่าควรเจรจาให้หนักแน่นกว่านี้ตั้งแต่แรกเพื่อเปิดเผยความร่วมมือนี้
- ประเด็นการจำกัดการเปิดเผยจนถึงช่วงเปิดตัว o3
- เนื่องจากข้อผูกพันตามสัญญา จึงไม่สามารถเปิดเผยความเป็นพันธมิตรกับ OpenAI ได้จนถึงช่วงใกล้เปิดตัว o3
- นักคณิตศาสตร์ที่ออกโจทย์มีสิทธิ์รู้ว่างานของตนอาจถูกส่งต่อไปยังใคร
- จึงสะท้อนว่าตนเองผิดพลาดที่ไม่สามารถอธิบายเรื่องนี้ต่อผู้มีส่วนร่วมได้อย่างเหมาะสมเพราะข้อจำกัดของสัญญา
- การเข้าถึงข้อมูลและความเป็นไปได้ในการใช้ฝึก
- OpenAI สามารถเข้าถึงโจทย์และเฉลยของ FrontierMath ได้เป็นจำนวนมาก
- แต่กล่าวว่ามีข้อตกลงด้วยวาจาว่าจะไม่ใช้เพื่อการฝึก
- พนักงาน OpenAI เคยกล่าวถึง FrontierMath ต่อสาธารณะว่าเป็น “strongly held out set”
- ในทางปฏิบัติยังมี holdout set แยกต่างหากสำหรับการตรวจสอบอิสระ ซึ่ง OpenAI ไม่สามารถเข้าถึงได้
- จุดประสงค์คือเพื่อป้องกันการฝึกโมเดลมากเกินไปหรือการ overfitting และรักษาการวัดประสิทธิภาพที่เป็นกลาง
- เป้าหมายดั้งเดิมของ FrontierMath
- FrontierMath ถูกวางแผนและประกาศมาตั้งแต่ต้นให้เป็นโครงการเพื่อการประเมิน
- ระบุว่า OpenAI เองก็สนับสนุนการคงไว้ซึ่งชุดทดสอบที่แท้จริง
- เน้นย้ำว่าทั้งวงวิชาการและห้องแล็บวิจัยต่างก็เห็นความสำคัญของการมีชุดทดสอบที่ไม่ปนเปื้อนจริง ๆ (ไม่ได้ถูกใช้ฝึก)
- [แก้ไข] ขอบเขตการเข้าถึงข้อมูลของ OpenAI
- เพื่อหลีกเลี่ยงความเข้าใจผิด มีการระบุชัดว่า OpenAI ไม่มีสิทธิ์เข้าถึง holdout set แยกต่างหากที่ใช้สำหรับการตรวจสอบอิสระในท้ายที่สุด
1 ความคิดเห็น
ความเห็นจาก Hacker News
ชี้ให้เห็นว่าแม้จะมีคำสัญญาแบบปากเปล่าว่าจะไม่นำไปใช้ในการฝึกโมเดล แต่ข้อตกลงลักษณะนี้ก็มักถูกละเมิดได้
ผู้ร่วมก่อตั้ง Epoch ยอมรับว่า OpenAI สามารถเข้าถึงโจทย์และเฉลยของ FrontierMath ได้ แต่ระบุว่ามีข้อตกลงด้วยวาจาว่าจะไม่นำไปใช้ในการฝึก
วิจารณ์คนที่เชื่อการตลาดของ OpenAI แบบตรงไปตรงมา
Tamay จาก Epoch AI ยอมรับว่าไม่ได้โปร่งใสมากพอเกี่ยวกับการมีส่วนร่วมของ OpenAI
กล่าวว่าผล benchmark ของ OpenAI สูญเสียความน่าเชื่อถือไปแล้ว และบริษัท AI อื่น ๆ ก็เคยมีโอกาสสร้างผลลัพธ์สำคัญบน FrontierMath เช่นกัน
โต้แย้งว่าหากต้องการยืนยันว่า LLMs หรือ AI ฉลาดจริง ก็ต้องพิสูจน์ได้ว่าคำถามนั้นไม่ได้รวมอยู่ในชุดข้อมูลฝึก
ชี้ว่าแม้จะไม่ได้โกง benchmark โดยเจตนา แต่การทดสอบเดิมซ้ำ ๆ ก็อาจทำให้เกิด overfitting หรือ p-hacking ได้
แสดงความไม่พอใจที่ OpenAI ทำให้สาธารณชนเข้าใจผิด
เน้นว่ามีแนวโน้มมากขึ้นที่บริษัท AI จะสร้างการประเมินของตนเอง ขณะที่ public benchmark ถูกใช้จนหมดสภาพแล้ว และจำเป็นต้องลงทุนใน frontier benchmark เพิ่มขึ้น
ยืนยันว่าผลการประเมินที่บริษัท AI นำเสนอไม่น่าเชื่อถือ