โครงการ FrontierMath ที่ได้รับการสนับสนุนจาก OpenAI

(lesswrong.com)

2 คะแนน โดย GN⁺ 2025-01-20 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ไม่นานมานี้ OpenAI เปิดตัวโมเดลใหม่ o3 และประกาศว่าสามารถทำผลงานก้าวกระโดดด้านคณิตศาสตร์ได้
โดยเฉพาะอย่างยิ่ง โมเดลนี้ทำคะแนนได้ 25% บนเบนช์มาร์ก FrontierMath ซึ่งก่อนหน้านี้โมเดลรุ่นก่อนทำได้เพียง 2% จึงได้รับความสนใจอย่างมาก
หลังการประกาศ มีข้อวิจารณ์ว่าในกระบวนการจัดทำเบนช์มาร์กนี้ขาดความโปร่งใส
กรณีนี้อาจให้บทเรียนต่อการถกเถียงเรื่องเบนช์มาร์ก AI การประเมินผล และความปลอดภัยในอนาคตได้

ภาพรวมของเหตุการณ์

ก่อนเดือนพฤศจิกายน 2024 Epoch AI เริ่มสร้าง FrontierMath ซึ่งเป็นเบนช์มาร์กสำหรับประเมินคณิตศาสตร์
ได้ว่าจ้างนักคณิตศาสตร์ภายนอกให้ช่วยออกโจทย์ พร้อมค่าตอบแทนประมาณ 300–1000 ดอลลาร์
ในเวลานั้น ยังไม่ชัดเจนว่าใครเป็นผู้ให้ทุน และใครบ้างที่สามารถดูโจทย์กับเฉลยได้
วันที่ 7 พฤศจิกายน 2024 Epoch AI เผยแพร่บทความวิชาการฉบับแรกบน arxiv ซึ่งไม่ได้ระบุแหล่งเงินทุนเลย
วันที่ 20 ธันวาคม 2024 OpenAI เปิดตัวโมเดล o3 พร้อมประกาศว่าทำได้ 25% บน FrontierMath
ในวันเดียวกัน บทความของ Epoch AI เวอร์ชัน v5 บน arxiv ถูกอัปเดต โดยเปิดเผยว่า OpenAI เป็นผู้สนับสนุนทั้งหมด และสามารถเข้าถึงโจทย์ยากส่วนใหญ่รวมถึงเฉลยได้

รายละเอียดเพิ่มเติม

แม้หลังการอัปเดตในเดือนธันวาคมจะมีความกังวลเกี่ยวกับประเด็นนี้อยู่แล้ว แต่ล่าสุดก็มีข้อมูลที่เกี่ยวข้องเพิ่มเติมถูกเปิดเผย
FrontierMath แบ่งความยากเป็น (a) ระดับโอลิมปิก (25%), (b) ระดับกลาง (50%), (c) ระดับที่ผู้เชี่ยวชาญต้องใช้เวลาหลายสัปดาห์ (25%)
ในการประกาศว่า o3 ทำได้ 25% นั้น ไม่ได้เปิดเผยว่าทำโจทย์ระดับใดได้เป็นหลัก ซึ่งอาจทำให้เกิดความเข้าใจผิด
คาดว่า OpenAI เข้าถึงโจทย์และเฉลยทั้งหมดได้ แต่ตามข้อตกลงด้วยวาจาอาจไม่ได้ใช้ชุดข้อมูลนี้สำหรับการฝึกโดยตรง
อย่างไรก็ดี ก็มีข้อชี้ว่าแทบไม่มีใครรู้ได้แน่ชัดว่าภายในแล้วโมเดลถูกฝึกด้วยวิธีใดบ้าง

เหตุใดจึงเป็นปัญหาอีกแบบหนึ่ง

หากครอบครองหรือเข้าถึงโจทย์ FrontierMath ได้ ก็อาจช่วยยกระดับประสิทธิภาพของโมเดลทางอ้อมได้
โดยเฉพาะมีความกังวลว่าสามารถใช้โจทย์ยากที่ยังไม่เปิดเผยเพื่อปรับแต่งการตรวจสอบโมเดลหรือเทคนิคการค้นหาให้ละเอียดขึ้นได้
ยังไม่ชัดเจนว่าการประกาศว่าทำได้ 25% หมายถึงความสามารถในการแก้โจทย์ยากจริง หรือเป็นเพียงการทำโจทย์ง่ายเป็นส่วนใหญ่

ชุดข้อมูลที่เพิ่มความสามารถได้แม้ไม่มีการฝึกอย่างชัดเจน

แม้โครงสร้างภายในของ o3 จะยังไม่ถูกเปิดเผยมากนัก แต่งานวิจัยอื่นบางส่วนใช้แนวทาง “ขยายขนาดในขั้นตอนการอนุมาน”
มีการนำเสนองานวิจัยที่เรียนรู้การประเมิน Chain-of-thought แบบอัตโนมัติบนพื้นฐาน MCMC หรือเสริมการค้นหาด้วยการใส่โมเดลรางวัล (PRM) ในขั้นตอนกลาง
เบนช์มาร์กยากอย่าง FrontierMath อาจมีประโยชน์ต่อการตรวจสอบโมเดลรางวัลเหล่านี้
กล่าวอีกอย่างคือ แม้ไม่ใช้ฝึกโดยตรง ก็ยังอาจถูกใช้เพื่อปรับแต่งกลยุทธ์การค้นหาของโมเดลหรือเทคนิคการตรวจสอบได้
หากเป้าหมายคือการประเมินอย่างอิสระและเป็นธรรม ก็มีความเห็นว่าควรใช้ประเมินเพียงครั้งเดียวและไม่ควรนำไปใช้เพื่อวัตถุประสงค์อื่น

ความกังวลด้านความปลอดภัยของ AI

Epoch AI เป็นที่รู้จักว่าเป็นองค์กรที่ติดตามแนวโน้มการพัฒนา AI และให้ความสำคัญกับความปลอดภัย
ในบรรดานักคณิตศาสตร์ที่ส่งโจทย์ให้ FrontierMath อาจมีบางคนที่คงจะไม่ร่วมมือ หากรู้ว่าสุดท้ายแล้วงานของตนอาจถูกใช้เพื่อเพิ่มความสามารถของ AI
ท้ายที่สุดจึงมีข้อวิจารณ์ว่า OpenAI ได้โจทย์มาโดยอ้อมจากผู้ที่ไม่ได้ต้องการเช่นนั้น เพื่อนำไปตรวจสอบและพัฒนาโมเดล
ความไม่โปร่งใสลักษณะนี้ก่อให้เกิดความกังวลในแง่ความปลอดภัยของ AI และจริยธรรมการวิจัย

ความเห็นของ meemi ซึ่งเป็น AI Safety Researcher

FrontierMath ได้รับเงินสนับสนุนจาก OpenAI
มีข้อชี้ว่าข้อเท็จจริงนี้ไม่ได้ถูกเปิดเผยต่อภายนอกอย่างโปร่งใสก่อนวันที่ 20 ธันวาคม
เบื้องหลังคือในเวอร์ชันแรก ๆ บน Arxiv (v1–v4) ไม่มีการกล่าวถึงการสนับสนุนจาก OpenAI และเพิ่งมีการระบุในเวอร์ชันที่เผยแพร่หลังวันที่ 20 ธันวาคม
ยังไม่ชัดเจนว่า Epoch AI ทำข้อตกลงอะไรกับ OpenAI แต่มีการตั้งข้อสันนิษฐานว่าอาจเก็บเรื่องเงินสนับสนุนนี้เป็นความลับจนถึงช่วงประกาศ o3 (20 ธันวาคม)
มีการกล่าวว่านักคณิตศาสตร์ที่เข้าร่วมทำโจทย์ไม่ได้รับการแจ้งอย่างชัดเจนเกี่ยวกับเงินสนับสนุนจาก OpenAI
ผู้ร่วมงานแบบสัญญาจ้างต้องลงนาม NDA และมีการรักษาความปลอดภัยอย่างเข้มงวด เช่น ห้ามแชร์โจทย์และเฉลยผ่านอีเมลหรือ Overleaf
อย่างไรก็ตาม มีข้อชี้ว่าพวกเขาไม่ได้รับการอธิบายอย่างชัดเจนเกี่ยวกับเงินทุนจาก OpenAI หรือความเป็นไปได้ในการนำข้อมูลไปใช้
มีข้อกล่าวอ้างว่าแม้แต่นักเขียนบางคนเองก็อาจไม่รู้ว่า OpenAI เป็นผู้ให้ทุน
ดูเหมือนว่าคนส่วนใหญ่และผู้ร่วมงานแบบสัญญาจ้างรับรู้ว่า “โจทย์และคำตอบของเบนช์มาร์กนี้จะถูกเก็บเป็นความลับทั้งหมด และมีเพียง Epoch เท่านั้นที่ใช้ได้”
ปัจจุบัน Epoch AI หรือ OpenAI ยังไม่ได้ประกาศต่อสาธารณะอย่างชัดเจนว่า “OpenAI สามารถเข้าถึงโจทย์หรือเฉลยได้” แต่มีข่าวลือว่าในความเป็นจริง OpenAI ใช้งานสิ่งเหล่านี้อยู่
มีการกล่าวว่าก็ยังไม่โปร่งใสว่ามีข้อตกลงที่ระบุชัดเจนหรือไม่ในการห้ามนำชุดข้อมูลนี้ไปใช้ฝึก
ผลลัพธ์คือมีมุมมองเชิงวิจารณ์ว่า ควรเปิดเผยให้ชัดเจนเกี่ยวกับเงินสนับสนุนและความเป็นไปได้ในการใช้ข้อมูล รวมทั้งควรให้ข้อมูลที่เพียงพอแก่ผู้รับจ้างที่ช่วยสร้างโจทย์

ความเห็นของ Tamay จาก Epoch AI

Tamay จาก Epoch AI ยอมรับปัญหาเรื่องความโปร่งใสด้วยตนเอง
- มีเงื่อนไขตามสัญญาที่ทำให้ไม่สามารถเปิดเผยการมีส่วนร่วมของ OpenAI ได้ก่อนการเปิดตัว o3
- หลังจากนั้นก็ยอมรับว่าความโปร่งใสไม่เพียงพอ และระบุว่าควรให้ข้อมูลแก่ผู้มีส่วนร่วมเร็วกว่านี้
- ยอมรับว่าเป็นความผิดของตนเองที่ไม่สามารถสื่อสารอย่างชัดเจนเรื่องแหล่งเงินทุนและสิทธิ์เข้าถึงข้อมูลได้
คำมั่นว่าจะปรับปรุงความโปร่งใสในการร่วมงานในอนาคต
- ต่อไปจะพยายามทำให้ผู้มีส่วนร่วมทราบอย่างชัดเจนตั้งแต่ต้นถึงแหล่งเงินทุน การเข้าถึงข้อมูล และเจตนาในการใช้งาน
- มีการบอกนักคณิตศาสตร์บางคนว่าได้รับทุนจากห้องแล็บวิจัย แต่ไม่ได้สื่อสารอย่างเป็นระบบ
- มองว่าปัญหาคือการดำเนินการโดยไม่เปิดเผยชื่อห้องแล็บเฉพาะนั้นอย่างชัดเจน (กล่าวคือ OpenAI)
- ระบุว่าควรเจรจาให้หนักแน่นกว่านี้ตั้งแต่แรกเพื่อเปิดเผยความร่วมมือนี้
ประเด็นการจำกัดการเปิดเผยจนถึงช่วงเปิดตัว o3
- เนื่องจากข้อผูกพันตามสัญญา จึงไม่สามารถเปิดเผยความเป็นพันธมิตรกับ OpenAI ได้จนถึงช่วงใกล้เปิดตัว o3
- นักคณิตศาสตร์ที่ออกโจทย์มีสิทธิ์รู้ว่างานของตนอาจถูกส่งต่อไปยังใคร
- จึงสะท้อนว่าตนเองผิดพลาดที่ไม่สามารถอธิบายเรื่องนี้ต่อผู้มีส่วนร่วมได้อย่างเหมาะสมเพราะข้อจำกัดของสัญญา
การเข้าถึงข้อมูลและความเป็นไปได้ในการใช้ฝึก
- OpenAI สามารถเข้าถึงโจทย์และเฉลยของ FrontierMath ได้เป็นจำนวนมาก
- แต่กล่าวว่ามีข้อตกลงด้วยวาจาว่าจะไม่ใช้เพื่อการฝึก
- พนักงาน OpenAI เคยกล่าวถึง FrontierMath ต่อสาธารณะว่าเป็น “strongly held out set”
- ในทางปฏิบัติยังมี holdout set แยกต่างหากสำหรับการตรวจสอบอิสระ ซึ่ง OpenAI ไม่สามารถเข้าถึงได้
- จุดประสงค์คือเพื่อป้องกันการฝึกโมเดลมากเกินไปหรือการ overfitting และรักษาการวัดประสิทธิภาพที่เป็นกลาง
เป้าหมายดั้งเดิมของ FrontierMath
- FrontierMath ถูกวางแผนและประกาศมาตั้งแต่ต้นให้เป็นโครงการเพื่อการประเมิน
- ระบุว่า OpenAI เองก็สนับสนุนการคงไว้ซึ่งชุดทดสอบที่แท้จริง
- เน้นย้ำว่าทั้งวงวิชาการและห้องแล็บวิจัยต่างก็เห็นความสำคัญของการมีชุดทดสอบที่ไม่ปนเปื้อนจริง ๆ (ไม่ได้ถูกใช้ฝึก)
[แก้ไข] ขอบเขตการเข้าถึงข้อมูลของ OpenAI
- เพื่อหลีกเลี่ยงความเข้าใจผิด มีการระบุชัดว่า OpenAI ไม่มีสิทธิ์เข้าถึง holdout set แยกต่างหากที่ใช้สำหรับการตรวจสอบอิสระในท้ายที่สุด

1 ความคิดเห็น

GN⁺ 2025-01-20

ความเห็นจาก Hacker News

ชี้ให้เห็นว่าแม้จะมีคำสัญญาแบบปากเปล่าว่าจะไม่นำไปใช้ในการฝึกโมเดล แต่ข้อตกลงลักษณะนี้ก็มักถูกละเมิดได้
- มีมุมมองที่ตั้งข้อสงสัยต่อกรณีที่ OpenAI สามารถเข้าถึงข้อมูล benchmark ได้ แต่มีเพียงข้อตกลงด้วยวาจาว่าจะไม่นำไปใช้ฝึกเท่านั้น
ผู้ร่วมก่อตั้ง Epoch ยอมรับว่า OpenAI สามารถเข้าถึงโจทย์และเฉลยของ FrontierMath ได้ แต่ระบุว่ามีข้อตกลงด้วยวาจาว่าจะไม่นำไปใช้ในการฝึก
- ตั้งคำถามต่อความน่าเชื่อถือของข้อตกลงแบบปากเปล่า และชี้ว่ามีหลายวิธีที่ OpenAI อาจได้เปรียบอย่างไม่เป็นธรรมใน benchmark โดยยังถือว่าปฏิบัติตามข้อตกลงในทางเทคนิคได้
วิจารณ์คนที่เชื่อการตลาดของ OpenAI แบบตรงไปตรงมา
- ยกตัวอย่างกรณีเดโม Sora ที่มีการตัดต่อด้วยมือ แต่ไม่ได้กล่าวถึงเรื่องนั้น
Tamay จาก Epoch AI ยอมรับว่าไม่ได้โปร่งใสมากพอเกี่ยวกับการมีส่วนร่วมของ OpenAI
- ข้อมูลถูกจำกัดด้วยเงื่อนไขสัญญา และรู้สึกเสียดายว่าควรเจรจาให้หนักแน่นกว่านี้เพื่อให้ผู้มีส่วนร่วมใน benchmark ได้รับความโปร่งใสเร็วกว่านี้
กล่าวว่าผล benchmark ของ OpenAI สูญเสียความน่าเชื่อถือไปแล้ว และบริษัท AI อื่น ๆ ก็เคยมีโอกาสสร้างผลลัพธ์สำคัญบน FrontierMath เช่นกัน
โต้แย้งว่าหากต้องการยืนยันว่า LLMs หรือ AI ฉลาดจริง ก็ต้องพิสูจน์ได้ว่าคำถามนั้นไม่ได้รวมอยู่ในชุดข้อมูลฝึก
- หากไม่รู้ว่าคำถามหรือคำตอบอยู่ในชุดข้อมูลฝึกหรือไม่ ก็ไม่ควรอ้างว่า AI ฉลาด
ชี้ว่าแม้จะไม่ได้โกง benchmark โดยเจตนา แต่การทดสอบเดิมซ้ำ ๆ ก็อาจทำให้เกิด overfitting หรือ p-hacking ได้
- อธิบายว่าการเปลี่ยนแปลงเล็กน้อยอาจตัดสินได้ยากว่าเป็นการพัฒนาจริงหรือเป็น noise และนักวิจัยอาจเชื่อว่าตนค้นพบการปรับแต่งที่ได้ผลทั้งที่อิงจาก noise
แสดงความไม่พอใจที่ OpenAI ทำให้สาธารณชนเข้าใจผิด
- ระบุว่าพฤติกรรมของ CEO จะทำลายชื่อเสียงของ FrontierMath และ Epoch AI
เน้นว่ามีแนวโน้มมากขึ้นที่บริษัท AI จะสร้างการประเมินของตนเอง ขณะที่ public benchmark ถูกใช้จนหมดสภาพแล้ว และจำเป็นต้องลงทุนใน frontier benchmark เพิ่มขึ้น
ยืนยันว่าผลการประเมินที่บริษัท AI นำเสนอไม่น่าเชื่อถือ

โครงการ FrontierMath ที่ได้รับการสนับสนุนจาก OpenAI

ภาพรวมของเหตุการณ์

รายละเอียดเพิ่มเติม

เหตุใดจึงเป็นปัญหาอีกแบบหนึ่ง

ชุดข้อมูลที่เพิ่มความสามารถได้แม้ไม่มีการฝึกอย่างชัดเจน

ความกังวลด้านความปลอดภัยของ AI

ความเห็นของ meemi ซึ่งเป็น AI Safety Researcher

ความเห็นของ Tamay จาก Epoch AI

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นจาก Hacker News