- โมเดล o3 และ o4-mini ยกระดับความสามารถด้านการให้เหตุผลของ ChatGPT อย่างมาก
- โมเดลทั้งสองนี้ทำงานได้มากกว่าการตอบคำถามทั่วไป โดยสามารถทำงานซับซ้อนได้ เช่น การใช้เครื่องมือร่วมกัน, การวิเคราะห์สื่อภาพ, การสร้างภาพ, และ การรันโค้ด Python
- โดยเฉพาะเมื่อผู้ใช้ตั้งคำถาม โมเดลสามารถ ตัดสินใจและลงมือใช้ เครื่องมือได้เองว่าจะใช้เครื่องมือใดและเมื่อไร
- เด่นด้านการแก้ปัญหาซับซ้อน การให้เหตุผลเชิงภาพ และการวิเคราะห์หลายขั้นตอน พร้อมมุ่งสู่ สไตล์การสนทนาที่เป็นธรรมชาติมากขึ้น
- o3 เป็นโมเดลสำหรับการแก้ปัญหาซับซ้อน ส่วน o4-mini เป็นโมเดลสำหรับการให้เหตุผลที่รวดเร็วและมีประสิทธิภาพ โดยมุ่งทั้งสมรรถนะสูงและประสิทธิภาพสูงไปพร้อมกัน
- มีทั้ง ความสามารถด้านการให้เหตุผลแบบมัลติโหมด ที่คิดร่วมกันระหว่างภาพและข้อความ และ ความสามารถในการใช้เครื่องมือแบบเอเจนต์ ที่ล้ำหน้าขึ้น
การเปลี่ยนแปลงฟีเจอร์หลัก
OpenAI o3
- โมเดลที่เน้น การให้เหตุผล และทรงพลังที่สุดจนถึงตอนนี้
- ทำผลงานระดับแนวหน้าในหลายด้าน เช่น การเขียนโค้ด คณิตศาสตร์ วิทยาศาสตร์ และการวิเคราะห์ภาพ
- ทำสถิติสูงสุดในเบนช์มาร์กอย่าง Codeforces, SWE-bench และ MMMU
- ตามการประเมินของผู้เชี่ยวชาญภายนอก มี อัตราความผิดพลาดร้ายแรงน้อยกว่า o1 ถึง 20%
- โดดเด่นด้านการสร้างไอเดียและการประเมินเชิงวิพากษ์ในสาขาอย่าง การเขียนโปรแกรม การให้คำปรึกษา ชีววิทยา และวิศวกรรม
OpenAI o4-mini
- โมเดลขนาดเล็กที่ปรับให้เหมาะกับความเร็วและความคุ้มค่าด้านต้นทุน
- โดยเฉพาะด้าน คณิตศาสตร์ การเขียนโค้ด และการแก้ปัญหาเชิงภาพ ทำได้ยอดเยี่ยม
- ให้ผลงานระดับชั้นนำในกลุ่มเดียวกันบนเบนช์มาร์ก AIME 2024 และ 2025
- ให้ประสิทธิภาพที่ยอดเยี่ยมใน สาขานอกเหนือจาก STEM เมื่อเทียบกับ o3-mini
- เหมาะกับ สภาพแวดล้อมที่ต้องการปริมาณการใช้งานสูงและการตอบสนองรวดเร็ว
- โมเดลทั้งสองพัฒนาขึ้นจากเดิมในด้าน ความเข้าใจคำสั่ง ความเป็นประโยชน์ของคำตอบ และความน่าเชื่อถือ
- ความสามารถในการจดจำบทสนทนาและให้คำตอบแบบปรับให้เหมาะกับแต่ละคนก็ได้รับการเสริมให้ดีขึ้น
ความสามารถแบบมัลติโหมด
- ภาพไม่ได้ถูกใช้แค่เพื่อการรู้จำ แต่สามารถ นำมาใช้เป็นส่วนหนึ่งของการให้เหตุผล ได้
- ผู้ใช้สามารถอัปโหลด รูปไวต์บอร์ด แผนภาพในหนังสือ ภาพวาดด้วยมือ เป็นต้น
- โมเดลสามารถรู้จำและวิเคราะห์ภาพที่เบลอหรือบิดเบี้ยวได้เช่นกัน
- สามารถ ประมวลผลภาพ เช่น การหมุน การซูม และการแปลงภาพ ได้อัตโนมัติผ่านเครื่องมือ
- ยกระดับ ความสามารถในการแก้ปัญหาแบบผสมผสาน ที่รวมข้อมูลข้อความและข้อมูลภาพเข้าด้วยกัน
วิธีการให้เหตุผลที่เน้นการใช้เครื่องมือ
- o3 และ o4-mini เข้าถึงเครื่องมือทั้งหมดของ ChatGPT ได้
- เมื่อผู้ใช้ถาม โมเดลจะตัดสินใจและใช้เครื่องมือที่จำเป็นโดยอัตโนมัติ เช่น การค้นหาเว็บ การวิเคราะห์ไฟล์ และการรันโค้ด
- ตัวอย่าง: หากขอให้ “คาดการณ์การใช้พลังงานไฟฟ้าช่วงฤดูร้อนของแคลิฟอร์เนีย” โมเดลสามารถทำ ค้นหาเว็บ → สร้างโค้ด Python → สร้างกราฟ ได้ต่อเนื่องทั้งหมด
- รองรับ การใช้ข้อมูลแบบเรียลไทม์, การให้เหตุผลหลายขั้นตอน และ การตอบกลับแบบบูรณาการหลายโมดาลิตี
ประสิทธิภาพการให้เหตุผลที่คุ้มค่า
เปรียบเทียบสมรรถนะต่อค่าใช้จ่าย
- o3 มีความคุ้มค่าด้านต้นทุนดีขึ้นอย่างมากเมื่อเทียบกับ o1 และ o4-mini ก็ดีขึ้นอย่างมากเมื่อเทียบกับ o3-mini
- จากผลการแข่งขันคณิตศาสตร์ AIME 2025 ทั้ง o3 และ o4-mini ถูกกว่าและฉลาดกว่ารุ่นก่อนหน้า
- คาดว่าจะเป็น ตัวเลือกที่ทั้งฉลาดกว่าและประหยัดกว่า ในสภาพแวดล้อมการใช้งานจริง
การปรับปรุงด้านความปลอดภัย
- มีการฝึกใหม่ด้วย ชุดข้อมูลใหม่ เพื่อเพิ่มความสามารถในการปฏิเสธคำขอที่เกี่ยวข้องกับภัยคุกคามทางชีวภาพ มัลแวร์ และพรอมป์ต jailbreak
- นำระบบ การเฝ้าระวังความปลอดภัยบนพื้นฐาน LLM มาใช้เพื่อตรวจจับความเสี่ยงของคำตอบจากโมเดลโดยอัตโนมัติ
- จากผลทดสอบภายใน ระบบ ตรวจจับบทสนทนาที่มีความเสี่ยงได้สำเร็จมากกว่า 99%
- ได้รับการประเมินว่า ยังไม่ถึงระดับความเสี่ยงสูง ในด้านชีวภาพ/เคมี ความมั่นคงปลอดภัยไซเบอร์ และการพัฒนาตนเองของ AI
- ผ่านการตรวจสอบความปลอดภัยตามเกณฑ์ล่าสุดของ Preparedness Framework แล้ว
Codex CLI: เอเจนต์การให้เหตุผลขั้นสูงที่ใช้บนเทอร์มินัล
- เป็นเครื่องมือที่ทำให้สามารถใช้ความสามารถด้านการให้เหตุผลของ o3 และ o4-mini บนเทอร์มินัลได้
- ผู้ใช้สามารถส่ง โค้ด รูปภาพ สกรีนช็อต เป็นต้น ให้โมเดลได้โดยตรงผ่าน CLI
- โมเดลสามารถเชื่อมต่อกับโค้ดในสภาพแวดล้อมโลคัลเพื่อทำ การให้เหตุผลแบบมัลติโหมด
- เปิดเป็นโอเพนซอร์สแล้ว: github.com/openai/codex
- OpenAI ยังเริ่ม โครงการสนับสนุนมูลค่า 1 ล้านดอลลาร์ สำหรับโปรเจกต์ที่ใช้ Codex CLI เป็นฐานด้วย
วิธีเข้าถึง
- ผู้ใช้ ChatGPT Plus, Pro และ Team: ใช้โมเดล o3, o4-mini และ o4-mini-high ได้ทันที
- ผู้ใช้ Enterprise และ Education: จะเข้าถึงได้ ตั้งแต่หนึ่งสัปดาห์หลังจากนี้
- ผู้ใช้ฟรีก็สามารถ ใช้ o4-mini ได้ หากเลือกตัวเลือก ‘Think’
- ผู้ใช้ API ก็ใช้งานได้ตั้งแต่วันนี้ (อาจต้องมีการยืนยันองค์กร)
- ใน Responses API จะมีฟีเจอร์หลากหลาย เช่น สรุปการให้เหตุผล การคงบริบทรอบการเรียกใช้ฟังก์ชัน และเครื่องมือค้นหาเว็บ
ทิศทางในอนาคต
- มีแผนจะผสาน ความสามารถด้านการให้เหตุผลเฉพาะทาง ของซีรีส์ o เข้ากับ ความสามารถด้านการสนทนาที่เป็นธรรมชาติ ของซีรีส์ GPT
- ต่อไปจะพัฒนาเป็น โมเดลที่ใช้เครื่องมือเชิงรุกได้พร้อมกับสนทนาอย่างเป็นธรรมชาติอย่างต่อเนื่อง
1 ความคิดเห็น
ความคิดเห็นบน Hacker News
มีการถามคำถามเชิงเทคนิคเกี่ยวกับการทำ reverse engineering ของ Final Fantasy VII แต่ AI ให้ข้อมูลที่ผิด
ใช้ o3 เพื่อติดตั้ง Webstorm เวอร์ชันล่าสุดบน NixOS โดยมันรัน NixOS VM ดาวน์โหลดแพ็กเกจ และให้คำแนะนำการติดตั้ง
Claude 3.7 ยังคงทำผลงานได้ดีที่สุดบน SWE-bench
ทำ "Turing test" แบบง่าย ๆ ในการเขียนตัวแปลง base 62 ใน C# ด้วย o4-mini-high ได้สำเร็จ
มีการถาม AI หลายตัวเกี่ยวกับวันที่พระจันทร์ใหม่ในเดือนสิงหาคม 2025 แต่ส่วนใหญ่ให้คำตอบผิด
o3 และ o4 รับรู้ได้เมื่อไม่มีเครื่องมือค้นหาเว็บและปฏิเสธที่จะตอบ
Codex CLI เปิดให้ใช้งานแบบโอเพนซอร์ส
ไม่มีการเปรียบเทียบกับ Sonnet 3.7 หรือ Gemini Pro 2.5
reinforcement learning ขนาดใหญ่มีแนวโน้มให้ประสิทธิภาพดีขึ้นเมื่อใช้ทรัพยากรคอมพิวต์มากขึ้น
ในฐานะผู้บริโภค การต้องคอยตามให้ทันว่าควรใช้โมเดลไหนเป็นเรื่องเหนื่อย