- เปิดตัว OpenAI o1 โมเดลภาษาขนาดใหญ่รุ่นใหม่ที่ฝึกด้วยการเรียนรู้แบบเสริมกำลังเพื่อทำการให้เหตุผลที่ซับซ้อน
- o1 สามารถสร้าง chain of thought ภายในที่ยาวก่อนตอบกลับผู้ใช้ได้
- o1 ทำได้ถึงเปอร์เซ็นไทล์ที่ 89 ในโจทย์ competitive programming (Codeforces), อยู่ในระดับนักเรียนอเมริกัน 500 อันดับแรกในการคัดเลือกสู่โอลิมปิกคณิตศาสตร์สหรัฐฯ (AIME) และมีความแม่นยำเหนือกว่าระดับปริญญาเอกของมนุษย์ในเบนช์มาร์กโจทย์ฟิสิกส์ ชีววิทยา และเคมี (GPQA)
- แม้ยังอยู่ระหว่างการทำให้ใช้งานได้ง่ายเหมือนโมเดลปัจจุบัน แต่ก็ได้เปิดให้ใช้งาน OpenAI o1-preview ซึ่งเป็นรุ่นแรกเริ่มของโมเดลนี้ทันทีใน ChatGPT และสำหรับผู้ใช้ API ที่เชื่อถือได้
การประเมิน
- o1 แสดงประสิทธิภาพที่เหนือกว่า GPT-4o อย่างมากในงานส่วนใหญ่ที่เน้นการให้เหตุผล
- ในข้อสอบ AIME ปี 2024 นั้น GPT-4o แก้ได้เฉลี่ยเพียง 12% ของโจทย์ (1.8/15) ขณะที่ o1 ทำได้เฉลี่ย 74% (11.1/15) ด้วยการสุ่มตัวอย่างเดี่ยว, 83% (12.5/15) ด้วยฉันทามติจาก 64 ตัวอย่าง และ 93% (13.9/15) เมื่อจัดอันดับใหม่จาก 1000 ตัวอย่างด้วยฟังก์ชันให้คะแนนที่เรียนรู้มา
- ใน GPQA Diamond นั้น o1 ทำได้เหนือกว่าผู้เชี่ยวชาญมนุษย์ที่ทดสอบความรู้เฉพาะทางด้านเคมี ฟิสิกส์ และชีววิทยา จนกลายเป็นโมเดลแรกที่ทำได้เช่นนี้ในเบนช์มาร์กนี้
- o1 กลายเป็นโมเดลแรกที่สามารถแข่งขันกับผู้เชี่ยวชาญมนุษย์ได้ โดยทำคะแนน 78.2% บน MMMU เมื่อเปิดใช้ความสามารถด้านการมองเห็น
- ทำผลงานได้ดีกว่า GPT-4o ใน 54 จาก 57 หมวดหมู่ย่อยของ MMLU
สายโซ่แห่งความคิด (chain of thought)
- เช่นเดียวกับที่มนุษย์อาจใช้เวลาคิดนานก่อนตอบคำถามยาก ๆ o1 ใช้สายโซ่แห่งความคิดเมื่อพยายามแก้ปัญหา
- ผ่านการเรียนรู้แบบเสริมกำลัง o1 เรียนรู้วิธีขัดเกลา chain of thought และปรับปรุงกลยุทธ์ในการใช้งาน
- เรียนรู้วิธีรับรู้และแก้ไขข้อผิดพลาด
- เรียนรู้วิธีแยกขั้นตอนที่ซับซ้อนออกเป็นขั้นตอนที่ง่ายกว่า
- เรียนรู้วิธีลองแนวทางอื่นเมื่อแนวทางปัจจุบันใช้ไม่ได้ผล
การเขียนโค้ด
- ฝึกให้มีทักษะการเขียนโปรแกรมที่ดียิ่งขึ้น จนได้โมเดลที่ทำคะแนน 213 คะแนนในการแข่งขันโอลิมปิกสารสนเทศระหว่างประเทศ (IOI) ปี 2024 และอยู่ที่เปอร์เซ็นไทล์ 49
- โมเดลนี้เข้าร่วม IOI 2024 ภายใต้เงื่อนไขเดียวกับผู้เข้าแข่งขันมนุษย์
- ได้รับเวลา 10 ชั่วโมงในการแก้โจทย์อัลกอริทึมที่ท้าทาย 6 ข้อ และส่งได้สูงสุดข้อละ 50 ครั้ง
- เมื่ออนุญาตให้ส่งได้ 10,000 ครั้ง ประสิทธิภาพของโมเดลเพิ่มขึ้นอย่างมาก
- แม้ไม่มี test-time selection strategy ก็ยังทำได้ 362.14 คะแนน สูงกว่าเกณฑ์เหรียญทอง
- พิสูจน์ความสามารถด้านการเขียนโค้ดของโมเดลนี้ด้วยการจำลองการแข่งขัน competitive programming ที่จัดโดย Codeforces
- GPT-4o ได้คะแนน ELO 808 ซึ่งเทียบเท่ากับเปอร์เซ็นไทล์ที่ 11 ของผู้เข้าแข่งขันมนุษย์
- โมเดลนี้เหนือกว่า GPT-4o และ o1 อย่างมาก โดยทำคะแนน ELO 1807 และมีผลงานดีกว่าผู้เข้าแข่งขัน 93%
ความปลอดภัย
- การให้เหตุผลแบบ chain of thought มอบโอกาสใหม่ ๆ สำหรับการจัดแนวและความปลอดภัย
- พบว่าการผนวกรวมนโยบายเกี่ยวกับพฤติกรรมของโมเดลเข้าไปในสายโซ่แห่งความคิดของโมเดลให้เหตุผล เป็นวิธีที่มีประสิทธิภาพในการสอนคุณค่าและหลักการของมนุษย์อย่างมั่นคง
- พบหลักฐานว่าด้วยการสอนให้โมเดลรู้จักกฎด้านความปลอดภัยและวิธีให้เหตุผลตามบริบท ความสามารถในการให้เหตุผลจะช่วยเสริมความทนทานของโมเดลโดยตรง
- เชื่อว่าการใช้สายโซ่แห่งความคิดช่วยสร้างความก้าวหน้าอย่างมากด้านความปลอดภัยและการจัดแนว เพราะสามารถสังเกตได้ว่าโมเดลคิดอย่างถูกต้องตามกฎหมาย และการที่โมเดลให้เหตุผลเกี่ยวกับกฎความปลอดภัยนั้นมีความแข็งแกร่งกว่าต่อสถานการณ์นอกการกระจายข้อมูล
- ได้ทำการทดสอบด้านความปลอดภัยและจัดทีม red team ก่อนเปิดใช้งาน เพื่อเน้นย้ำถึงการปรับปรุง
- พบว่าการให้เหตุผลแบบ chain of thought มีส่วนช่วยเพิ่มขีดความสามารถในการประเมินทั้งหมด
บทสรุป
- o1 ยกระดับสถานะล้ำสมัยของ AI ด้านการให้เหตุผลอย่างมีนัยสำคัญ
- มีแผนจะเปิดตัวรุ่นปรับปรุงของโมเดลนี้อย่างต่อเนื่องผ่านการทำซ้ำ
- คาดว่า o1 และโมเดลถัดจากนี้จะเปิดกรณีการใช้งานใหม่ ๆ ของ AI จำนวนมากในวิทยาศาสตร์ การเขียนโค้ด คณิตศาสตร์ และสาขาที่เกี่ยวข้อง
- คาดหวังว่าผู้ใช้และนักพัฒนา API จะค้นพบว่า o1 สามารถปรับปรุงงานประจำวันได้อย่างไร
ความเห็นของ GN⁺
- OpenAI o1 เป็นโมเดลที่โดดเด่นด้านการแก้ปัญหาซับซ้อนและการให้เหตุผล โดยแสดงประสิทธิภาพที่ก้าวข้ามระดับมนุษย์ โดยเฉพาะในด้านคณิตศาสตร์ วิทยาศาสตร์ และการเขียนโปรแกรม จึงน่าจะเป็นประโยชน์อย่างมากต่อการวิจัยหรือการประยุกต์ใช้ในสาขาที่เกี่ยวข้อง
- การใช้แนวทาง chain of thought เพื่อให้สามารถสังเกตและทำความเข้าใจกระบวนการคิดของโมเดลได้นั้นน่าประทับใจมาก สิ่งนี้น่าจะช่วยอย่างมากในการทำความเข้าใจและควบคุมพฤติกรรมของโมเดล อย่างไรก็ตาม การตัดสินใจไม่เปิดเผยกระบวนการคิดที่สร้างขึ้นให้ผู้ใช้เห็นโดยตรงก็อาจเป็นประเด็นถกเถียงได้
- การผนวกรวมกฎเชิงนโยบายเข้าไปในกระบวนการคิดเพื่อเสริมความปลอดภัยของโมเดลก็เป็นอีกจุดที่น่าสนใจ แต่ก็ดูเหมือนว่ายังไม่สมบูรณ์ จึงยังต้องมีการติดตามและปรับปรุงอย่างต่อเนื่อง
- แม้ o1 จะเป็นโมเดลที่ทรงพลังมาก แต่ก็ไม่ได้ไร้ที่ติ ข้อจำกัดอย่างอคติหรือประเด็นจริยธรรมซึ่งเป็นปัญหาทั่วไปของโมเดล AI ยังคงมีอยู่ และจำเป็นต้องมีความพยายามอย่างต่อเนื่องเพื่อเอาชนะข้อจำกัดเหล่านี้ควบคู่ไปกับความก้าวหน้าทางเทคโนโลยี
1 ความคิดเห็น
ความเห็นจาก Hacker News
ความเห็นที่หนึ่ง
ความเห็นที่สอง
ความเห็นที่สาม
ความเห็นที่สี่
ความเห็นที่ห้า
ความเห็นที่หก
ความเห็นที่เจ็ด
ความเห็นที่แปด
ความเห็นที่เก้า
ความเห็นที่สิบ