2 คะแนน โดย GN⁺ 2025-01-20 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • ไม่นานมานี้ OpenAI เปิดตัวโมเดลใหม่ o3 และประกาศว่าสามารถทำผลงานก้าวกระโดดด้านคณิตศาสตร์ได้
  • โดยเฉพาะอย่างยิ่ง โมเดลนี้ทำคะแนนได้ 25% บนเบนช์มาร์ก FrontierMath ซึ่งก่อนหน้านี้โมเดลรุ่นก่อนทำได้เพียง 2% จึงได้รับความสนใจอย่างมาก
  • หลังการประกาศ มีข้อวิจารณ์ว่าในกระบวนการจัดทำเบนช์มาร์กนี้ขาดความโปร่งใส
  • กรณีนี้อาจให้บทเรียนต่อการถกเถียงเรื่องเบนช์มาร์ก AI การประเมินผล และความปลอดภัยในอนาคตได้

ภาพรวมของเหตุการณ์

  • ก่อนเดือนพฤศจิกายน 2024 Epoch AI เริ่มสร้าง FrontierMath ซึ่งเป็นเบนช์มาร์กสำหรับประเมินคณิตศาสตร์
  • ได้ว่าจ้างนักคณิตศาสตร์ภายนอกให้ช่วยออกโจทย์ พร้อมค่าตอบแทนประมาณ 300–1000 ดอลลาร์
  • ในเวลานั้น ยังไม่ชัดเจนว่าใครเป็นผู้ให้ทุน และใครบ้างที่สามารถดูโจทย์กับเฉลยได้
  • วันที่ 7 พฤศจิกายน 2024 Epoch AI เผยแพร่บทความวิชาการฉบับแรกบน arxiv ซึ่งไม่ได้ระบุแหล่งเงินทุนเลย
  • วันที่ 20 ธันวาคม 2024 OpenAI เปิดตัวโมเดล o3 พร้อมประกาศว่าทำได้ 25% บน FrontierMath
  • ในวันเดียวกัน บทความของ Epoch AI เวอร์ชัน v5 บน arxiv ถูกอัปเดต โดยเปิดเผยว่า OpenAI เป็นผู้สนับสนุนทั้งหมด และสามารถเข้าถึงโจทย์ยากส่วนใหญ่รวมถึงเฉลยได้

รายละเอียดเพิ่มเติม

  • แม้หลังการอัปเดตในเดือนธันวาคมจะมีความกังวลเกี่ยวกับประเด็นนี้อยู่แล้ว แต่ล่าสุดก็มีข้อมูลที่เกี่ยวข้องเพิ่มเติมถูกเปิดเผย
  • FrontierMath แบ่งความยากเป็น (a) ระดับโอลิมปิก (25%), (b) ระดับกลาง (50%), (c) ระดับที่ผู้เชี่ยวชาญต้องใช้เวลาหลายสัปดาห์ (25%)
  • ในการประกาศว่า o3 ทำได้ 25% นั้น ไม่ได้เปิดเผยว่าทำโจทย์ระดับใดได้เป็นหลัก ซึ่งอาจทำให้เกิดความเข้าใจผิด
  • คาดว่า OpenAI เข้าถึงโจทย์และเฉลยทั้งหมดได้ แต่ตามข้อตกลงด้วยวาจาอาจไม่ได้ใช้ชุดข้อมูลนี้สำหรับการฝึกโดยตรง
  • อย่างไรก็ดี ก็มีข้อชี้ว่าแทบไม่มีใครรู้ได้แน่ชัดว่าภายในแล้วโมเดลถูกฝึกด้วยวิธีใดบ้าง

เหตุใดจึงเป็นปัญหาอีกแบบหนึ่ง

  • หากครอบครองหรือเข้าถึงโจทย์ FrontierMath ได้ ก็อาจช่วยยกระดับประสิทธิภาพของโมเดลทางอ้อมได้
  • โดยเฉพาะมีความกังวลว่าสามารถใช้โจทย์ยากที่ยังไม่เปิดเผยเพื่อปรับแต่งการตรวจสอบโมเดลหรือเทคนิคการค้นหาให้ละเอียดขึ้นได้
  • ยังไม่ชัดเจนว่าการประกาศว่าทำได้ 25% หมายถึงความสามารถในการแก้โจทย์ยากจริง หรือเป็นเพียงการทำโจทย์ง่ายเป็นส่วนใหญ่

ชุดข้อมูลที่เพิ่มความสามารถได้แม้ไม่มีการฝึกอย่างชัดเจน

  • แม้โครงสร้างภายในของ o3 จะยังไม่ถูกเปิดเผยมากนัก แต่งานวิจัยอื่นบางส่วนใช้แนวทาง “ขยายขนาดในขั้นตอนการอนุมาน”
  • มีการนำเสนองานวิจัยที่เรียนรู้การประเมิน Chain-of-thought แบบอัตโนมัติบนพื้นฐาน MCMC หรือเสริมการค้นหาด้วยการใส่โมเดลรางวัล (PRM) ในขั้นตอนกลาง
  • เบนช์มาร์กยากอย่าง FrontierMath อาจมีประโยชน์ต่อการตรวจสอบโมเดลรางวัลเหล่านี้
  • กล่าวอีกอย่างคือ แม้ไม่ใช้ฝึกโดยตรง ก็ยังอาจถูกใช้เพื่อปรับแต่งกลยุทธ์การค้นหาของโมเดลหรือเทคนิคการตรวจสอบได้
  • หากเป้าหมายคือการประเมินอย่างอิสระและเป็นธรรม ก็มีความเห็นว่าควรใช้ประเมินเพียงครั้งเดียวและไม่ควรนำไปใช้เพื่อวัตถุประสงค์อื่น

ความกังวลด้านความปลอดภัยของ AI

  • Epoch AI เป็นที่รู้จักว่าเป็นองค์กรที่ติดตามแนวโน้มการพัฒนา AI และให้ความสำคัญกับความปลอดภัย
  • ในบรรดานักคณิตศาสตร์ที่ส่งโจทย์ให้ FrontierMath อาจมีบางคนที่คงจะไม่ร่วมมือ หากรู้ว่าสุดท้ายแล้วงานของตนอาจถูกใช้เพื่อเพิ่มความสามารถของ AI
  • ท้ายที่สุดจึงมีข้อวิจารณ์ว่า OpenAI ได้โจทย์มาโดยอ้อมจากผู้ที่ไม่ได้ต้องการเช่นนั้น เพื่อนำไปตรวจสอบและพัฒนาโมเดล
  • ความไม่โปร่งใสลักษณะนี้ก่อให้เกิดความกังวลในแง่ความปลอดภัยของ AI และจริยธรรมการวิจัย

ความเห็นของ meemi ซึ่งเป็น AI Safety Researcher

  • FrontierMath ได้รับเงินสนับสนุนจาก OpenAI
  • มีข้อชี้ว่าข้อเท็จจริงนี้ไม่ได้ถูกเปิดเผยต่อภายนอกอย่างโปร่งใสก่อนวันที่ 20 ธันวาคม
  • เบื้องหลังคือในเวอร์ชันแรก ๆ บน Arxiv (v1–v4) ไม่มีการกล่าวถึงการสนับสนุนจาก OpenAI และเพิ่งมีการระบุในเวอร์ชันที่เผยแพร่หลังวันที่ 20 ธันวาคม
  • ยังไม่ชัดเจนว่า Epoch AI ทำข้อตกลงอะไรกับ OpenAI แต่มีการตั้งข้อสันนิษฐานว่าอาจเก็บเรื่องเงินสนับสนุนนี้เป็นความลับจนถึงช่วงประกาศ o3 (20 ธันวาคม)
  • มีการกล่าวว่านักคณิตศาสตร์ที่เข้าร่วมทำโจทย์ไม่ได้รับการแจ้งอย่างชัดเจนเกี่ยวกับเงินสนับสนุนจาก OpenAI
  • ผู้ร่วมงานแบบสัญญาจ้างต้องลงนาม NDA และมีการรักษาความปลอดภัยอย่างเข้มงวด เช่น ห้ามแชร์โจทย์และเฉลยผ่านอีเมลหรือ Overleaf
  • อย่างไรก็ตาม มีข้อชี้ว่าพวกเขาไม่ได้รับการอธิบายอย่างชัดเจนเกี่ยวกับเงินทุนจาก OpenAI หรือความเป็นไปได้ในการนำข้อมูลไปใช้
  • มีข้อกล่าวอ้างว่าแม้แต่นักเขียนบางคนเองก็อาจไม่รู้ว่า OpenAI เป็นผู้ให้ทุน
  • ดูเหมือนว่าคนส่วนใหญ่และผู้ร่วมงานแบบสัญญาจ้างรับรู้ว่า “โจทย์และคำตอบของเบนช์มาร์กนี้จะถูกเก็บเป็นความลับทั้งหมด และมีเพียง Epoch เท่านั้นที่ใช้ได้”
  • ปัจจุบัน Epoch AI หรือ OpenAI ยังไม่ได้ประกาศต่อสาธารณะอย่างชัดเจนว่า “OpenAI สามารถเข้าถึงโจทย์หรือเฉลยได้” แต่มีข่าวลือว่าในความเป็นจริง OpenAI ใช้งานสิ่งเหล่านี้อยู่
  • มีการกล่าวว่าก็ยังไม่โปร่งใสว่ามีข้อตกลงที่ระบุชัดเจนหรือไม่ในการห้ามนำชุดข้อมูลนี้ไปใช้ฝึก
  • ผลลัพธ์คือมีมุมมองเชิงวิจารณ์ว่า ควรเปิดเผยให้ชัดเจนเกี่ยวกับเงินสนับสนุนและความเป็นไปได้ในการใช้ข้อมูล รวมทั้งควรให้ข้อมูลที่เพียงพอแก่ผู้รับจ้างที่ช่วยสร้างโจทย์

ความเห็นของ Tamay จาก Epoch AI

  • Tamay จาก Epoch AI ยอมรับปัญหาเรื่องความโปร่งใสด้วยตนเอง
    • มีเงื่อนไขตามสัญญาที่ทำให้ไม่สามารถเปิดเผยการมีส่วนร่วมของ OpenAI ได้ก่อนการเปิดตัว o3
    • หลังจากนั้นก็ยอมรับว่าความโปร่งใสไม่เพียงพอ และระบุว่าควรให้ข้อมูลแก่ผู้มีส่วนร่วมเร็วกว่านี้
    • ยอมรับว่าเป็นความผิดของตนเองที่ไม่สามารถสื่อสารอย่างชัดเจนเรื่องแหล่งเงินทุนและสิทธิ์เข้าถึงข้อมูลได้
  • คำมั่นว่าจะปรับปรุงความโปร่งใสในการร่วมงานในอนาคต
    • ต่อไปจะพยายามทำให้ผู้มีส่วนร่วมทราบอย่างชัดเจนตั้งแต่ต้นถึงแหล่งเงินทุน การเข้าถึงข้อมูล และเจตนาในการใช้งาน
    • มีการบอกนักคณิตศาสตร์บางคนว่าได้รับทุนจากห้องแล็บวิจัย แต่ไม่ได้สื่อสารอย่างเป็นระบบ
    • มองว่าปัญหาคือการดำเนินการโดยไม่เปิดเผยชื่อห้องแล็บเฉพาะนั้นอย่างชัดเจน (กล่าวคือ OpenAI)
    • ระบุว่าควรเจรจาให้หนักแน่นกว่านี้ตั้งแต่แรกเพื่อเปิดเผยความร่วมมือนี้
  • ประเด็นการจำกัดการเปิดเผยจนถึงช่วงเปิดตัว o3
    • เนื่องจากข้อผูกพันตามสัญญา จึงไม่สามารถเปิดเผยความเป็นพันธมิตรกับ OpenAI ได้จนถึงช่วงใกล้เปิดตัว o3
    • นักคณิตศาสตร์ที่ออกโจทย์มีสิทธิ์รู้ว่างานของตนอาจถูกส่งต่อไปยังใคร
    • จึงสะท้อนว่าตนเองผิดพลาดที่ไม่สามารถอธิบายเรื่องนี้ต่อผู้มีส่วนร่วมได้อย่างเหมาะสมเพราะข้อจำกัดของสัญญา
  • การเข้าถึงข้อมูลและความเป็นไปได้ในการใช้ฝึก
    • OpenAI สามารถเข้าถึงโจทย์และเฉลยของ FrontierMath ได้เป็นจำนวนมาก
    • แต่กล่าวว่ามีข้อตกลงด้วยวาจาว่าจะไม่ใช้เพื่อการฝึก
    • พนักงาน OpenAI เคยกล่าวถึง FrontierMath ต่อสาธารณะว่าเป็น “strongly held out set”
    • ในทางปฏิบัติยังมี holdout set แยกต่างหากสำหรับการตรวจสอบอิสระ ซึ่ง OpenAI ไม่สามารถเข้าถึงได้
    • จุดประสงค์คือเพื่อป้องกันการฝึกโมเดลมากเกินไปหรือการ overfitting และรักษาการวัดประสิทธิภาพที่เป็นกลาง
  • เป้าหมายดั้งเดิมของ FrontierMath
    • FrontierMath ถูกวางแผนและประกาศมาตั้งแต่ต้นให้เป็นโครงการเพื่อการประเมิน
    • ระบุว่า OpenAI เองก็สนับสนุนการคงไว้ซึ่งชุดทดสอบที่แท้จริง
    • เน้นย้ำว่าทั้งวงวิชาการและห้องแล็บวิจัยต่างก็เห็นความสำคัญของการมีชุดทดสอบที่ไม่ปนเปื้อนจริง ๆ (ไม่ได้ถูกใช้ฝึก)
  • [แก้ไข] ขอบเขตการเข้าถึงข้อมูลของ OpenAI
    • เพื่อหลีกเลี่ยงความเข้าใจผิด มีการระบุชัดว่า OpenAI ไม่มีสิทธิ์เข้าถึง holdout set แยกต่างหากที่ใช้สำหรับการตรวจสอบอิสระในท้ายที่สุด

1 ความคิดเห็น

 
GN⁺ 2025-01-20
ความเห็นจาก Hacker News
  • ชี้ให้เห็นว่าแม้จะมีคำสัญญาแบบปากเปล่าว่าจะไม่นำไปใช้ในการฝึกโมเดล แต่ข้อตกลงลักษณะนี้ก็มักถูกละเมิดได้

    • มีมุมมองที่ตั้งข้อสงสัยต่อกรณีที่ OpenAI สามารถเข้าถึงข้อมูล benchmark ได้ แต่มีเพียงข้อตกลงด้วยวาจาว่าจะไม่นำไปใช้ฝึกเท่านั้น
  • ผู้ร่วมก่อตั้ง Epoch ยอมรับว่า OpenAI สามารถเข้าถึงโจทย์และเฉลยของ FrontierMath ได้ แต่ระบุว่ามีข้อตกลงด้วยวาจาว่าจะไม่นำไปใช้ในการฝึก

    • ตั้งคำถามต่อความน่าเชื่อถือของข้อตกลงแบบปากเปล่า และชี้ว่ามีหลายวิธีที่ OpenAI อาจได้เปรียบอย่างไม่เป็นธรรมใน benchmark โดยยังถือว่าปฏิบัติตามข้อตกลงในทางเทคนิคได้
  • วิจารณ์คนที่เชื่อการตลาดของ OpenAI แบบตรงไปตรงมา

    • ยกตัวอย่างกรณีเดโม Sora ที่มีการตัดต่อด้วยมือ แต่ไม่ได้กล่าวถึงเรื่องนั้น
  • Tamay จาก Epoch AI ยอมรับว่าไม่ได้โปร่งใสมากพอเกี่ยวกับการมีส่วนร่วมของ OpenAI

    • ข้อมูลถูกจำกัดด้วยเงื่อนไขสัญญา และรู้สึกเสียดายว่าควรเจรจาให้หนักแน่นกว่านี้เพื่อให้ผู้มีส่วนร่วมใน benchmark ได้รับความโปร่งใสเร็วกว่านี้
  • กล่าวว่าผล benchmark ของ OpenAI สูญเสียความน่าเชื่อถือไปแล้ว และบริษัท AI อื่น ๆ ก็เคยมีโอกาสสร้างผลลัพธ์สำคัญบน FrontierMath เช่นกัน

  • โต้แย้งว่าหากต้องการยืนยันว่า LLMs หรือ AI ฉลาดจริง ก็ต้องพิสูจน์ได้ว่าคำถามนั้นไม่ได้รวมอยู่ในชุดข้อมูลฝึก

    • หากไม่รู้ว่าคำถามหรือคำตอบอยู่ในชุดข้อมูลฝึกหรือไม่ ก็ไม่ควรอ้างว่า AI ฉลาด
  • ชี้ว่าแม้จะไม่ได้โกง benchmark โดยเจตนา แต่การทดสอบเดิมซ้ำ ๆ ก็อาจทำให้เกิด overfitting หรือ p-hacking ได้

    • อธิบายว่าการเปลี่ยนแปลงเล็กน้อยอาจตัดสินได้ยากว่าเป็นการพัฒนาจริงหรือเป็น noise และนักวิจัยอาจเชื่อว่าตนค้นพบการปรับแต่งที่ได้ผลทั้งที่อิงจาก noise
  • แสดงความไม่พอใจที่ OpenAI ทำให้สาธารณชนเข้าใจผิด

    • ระบุว่าพฤติกรรมของ CEO จะทำลายชื่อเสียงของ FrontierMath และ Epoch AI
  • เน้นว่ามีแนวโน้มมากขึ้นที่บริษัท AI จะสร้างการประเมินของตนเอง ขณะที่ public benchmark ถูกใช้จนหมดสภาพแล้ว และจำเป็นต้องลงทุนใน frontier benchmark เพิ่มขึ้น

  • ยืนยันว่าผลการประเมินที่บริษัท AI นำเสนอไม่น่าเชื่อถือ