OpenAI เปิดตัวโมเดล o3 และ o4-mini

(openai.com)

5 คะแนน โดย GN⁺ 2025-04-17 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

โมเดล o3 และ o4-mini ยกระดับความสามารถด้านการให้เหตุผลของ ChatGPT อย่างมาก
โมเดลทั้งสองนี้ทำงานได้มากกว่าการตอบคำถามทั่วไป โดยสามารถทำงานซับซ้อนได้ เช่น การใช้เครื่องมือร่วมกัน, การวิเคราะห์สื่อภาพ, การสร้างภาพ, และ การรันโค้ด Python
โดยเฉพาะเมื่อผู้ใช้ตั้งคำถาม โมเดลสามารถ ตัดสินใจและลงมือใช้ เครื่องมือได้เองว่าจะใช้เครื่องมือใดและเมื่อไร
เด่นด้านการแก้ปัญหาซับซ้อน การให้เหตุผลเชิงภาพ และการวิเคราะห์หลายขั้นตอน พร้อมมุ่งสู่ สไตล์การสนทนาที่เป็นธรรมชาติมากขึ้น
o3 เป็นโมเดลสำหรับการแก้ปัญหาซับซ้อน ส่วน o4-mini เป็นโมเดลสำหรับการให้เหตุผลที่รวดเร็วและมีประสิทธิภาพ โดยมุ่งทั้งสมรรถนะสูงและประสิทธิภาพสูงไปพร้อมกัน
มีทั้ง ความสามารถด้านการให้เหตุผลแบบมัลติโหมด ที่คิดร่วมกันระหว่างภาพและข้อความ และ ความสามารถในการใช้เครื่องมือแบบเอเจนต์ ที่ล้ำหน้าขึ้น

การเปลี่ยนแปลงฟีเจอร์หลัก

OpenAI o3

โมเดลที่เน้น การให้เหตุผล และทรงพลังที่สุดจนถึงตอนนี้
ทำผลงานระดับแนวหน้าในหลายด้าน เช่น การเขียนโค้ด คณิตศาสตร์ วิทยาศาสตร์ และการวิเคราะห์ภาพ
ทำสถิติสูงสุดในเบนช์มาร์กอย่าง Codeforces, SWE-bench และ MMMU
ตามการประเมินของผู้เชี่ยวชาญภายนอก มี อัตราความผิดพลาดร้ายแรงน้อยกว่า o1 ถึง 20%
โดดเด่นด้านการสร้างไอเดียและการประเมินเชิงวิพากษ์ในสาขาอย่าง การเขียนโปรแกรม การให้คำปรึกษา ชีววิทยา และวิศวกรรม

OpenAI o4-mini

โมเดลขนาดเล็กที่ปรับให้เหมาะกับความเร็วและความคุ้มค่าด้านต้นทุน
โดยเฉพาะด้าน คณิตศาสตร์ การเขียนโค้ด และการแก้ปัญหาเชิงภาพ ทำได้ยอดเยี่ยม
ให้ผลงานระดับชั้นนำในกลุ่มเดียวกันบนเบนช์มาร์ก AIME 2024 และ 2025
ให้ประสิทธิภาพที่ยอดเยี่ยมใน สาขานอกเหนือจาก STEM เมื่อเทียบกับ o3-mini
เหมาะกับ สภาพแวดล้อมที่ต้องการปริมาณการใช้งานสูงและการตอบสนองรวดเร็ว

โมเดลทั้งสองพัฒนาขึ้นจากเดิมในด้าน ความเข้าใจคำสั่ง ความเป็นประโยชน์ของคำตอบ และความน่าเชื่อถือ
ความสามารถในการจดจำบทสนทนาและให้คำตอบแบบปรับให้เหมาะกับแต่ละคนก็ได้รับการเสริมให้ดีขึ้น

ความสามารถแบบมัลติโหมด

ภาพไม่ได้ถูกใช้แค่เพื่อการรู้จำ แต่สามารถ นำมาใช้เป็นส่วนหนึ่งของการให้เหตุผล ได้
ผู้ใช้สามารถอัปโหลด รูปไวต์บอร์ด แผนภาพในหนังสือ ภาพวาดด้วยมือ เป็นต้น
โมเดลสามารถรู้จำและวิเคราะห์ภาพที่เบลอหรือบิดเบี้ยวได้เช่นกัน
สามารถ ประมวลผลภาพ เช่น การหมุน การซูม และการแปลงภาพ ได้อัตโนมัติผ่านเครื่องมือ
ยกระดับ ความสามารถในการแก้ปัญหาแบบผสมผสาน ที่รวมข้อมูลข้อความและข้อมูลภาพเข้าด้วยกัน

วิธีการให้เหตุผลที่เน้นการใช้เครื่องมือ

o3 และ o4-mini เข้าถึงเครื่องมือทั้งหมดของ ChatGPT ได้
เมื่อผู้ใช้ถาม โมเดลจะตัดสินใจและใช้เครื่องมือที่จำเป็นโดยอัตโนมัติ เช่น การค้นหาเว็บ การวิเคราะห์ไฟล์ และการรันโค้ด
ตัวอย่าง: หากขอให้ “คาดการณ์การใช้พลังงานไฟฟ้าช่วงฤดูร้อนของแคลิฟอร์เนีย” โมเดลสามารถทำ ค้นหาเว็บ → สร้างโค้ด Python → สร้างกราฟ ได้ต่อเนื่องทั้งหมด
รองรับ การใช้ข้อมูลแบบเรียลไทม์, การให้เหตุผลหลายขั้นตอน และ การตอบกลับแบบบูรณาการหลายโมดาลิตี

ประสิทธิภาพการให้เหตุผลที่คุ้มค่า

เปรียบเทียบสมรรถนะต่อค่าใช้จ่าย

o3 มีความคุ้มค่าด้านต้นทุนดีขึ้นอย่างมากเมื่อเทียบกับ o1 และ o4-mini ก็ดีขึ้นอย่างมากเมื่อเทียบกับ o3-mini
จากผลการแข่งขันคณิตศาสตร์ AIME 2025 ทั้ง o3 และ o4-mini ถูกกว่าและฉลาดกว่ารุ่นก่อนหน้า
คาดว่าจะเป็น ตัวเลือกที่ทั้งฉลาดกว่าและประหยัดกว่า ในสภาพแวดล้อมการใช้งานจริง

การปรับปรุงด้านความปลอดภัย

มีการฝึกใหม่ด้วย ชุดข้อมูลใหม่ เพื่อเพิ่มความสามารถในการปฏิเสธคำขอที่เกี่ยวข้องกับภัยคุกคามทางชีวภาพ มัลแวร์ และพรอมป์ต jailbreak
นำระบบ การเฝ้าระวังความปลอดภัยบนพื้นฐาน LLM มาใช้เพื่อตรวจจับความเสี่ยงของคำตอบจากโมเดลโดยอัตโนมัติ
จากผลทดสอบภายใน ระบบ ตรวจจับบทสนทนาที่มีความเสี่ยงได้สำเร็จมากกว่า 99%
ได้รับการประเมินว่า ยังไม่ถึงระดับความเสี่ยงสูง ในด้านชีวภาพ/เคมี ความมั่นคงปลอดภัยไซเบอร์ และการพัฒนาตนเองของ AI
ผ่านการตรวจสอบความปลอดภัยตามเกณฑ์ล่าสุดของ Preparedness Framework แล้ว

Codex CLI: เอเจนต์การให้เหตุผลขั้นสูงที่ใช้บนเทอร์มินัล

เป็นเครื่องมือที่ทำให้สามารถใช้ความสามารถด้านการให้เหตุผลของ o3 และ o4-mini บนเทอร์มินัลได้
ผู้ใช้สามารถส่ง โค้ด รูปภาพ สกรีนช็อต เป็นต้น ให้โมเดลได้โดยตรงผ่าน CLI
โมเดลสามารถเชื่อมต่อกับโค้ดในสภาพแวดล้อมโลคัลเพื่อทำ การให้เหตุผลแบบมัลติโหมด
เปิดเป็นโอเพนซอร์สแล้ว: github.com/openai/codex
OpenAI ยังเริ่ม โครงการสนับสนุนมูลค่า 1 ล้านดอลลาร์ สำหรับโปรเจกต์ที่ใช้ Codex CLI เป็นฐานด้วย

วิธีเข้าถึง

ผู้ใช้ ChatGPT Plus, Pro และ Team: ใช้โมเดล o3, o4-mini และ o4-mini-high ได้ทันที
ผู้ใช้ Enterprise และ Education: จะเข้าถึงได้ ตั้งแต่หนึ่งสัปดาห์หลังจากนี้
ผู้ใช้ฟรีก็สามารถ ใช้ o4-mini ได้ หากเลือกตัวเลือก ‘Think’
ผู้ใช้ API ก็ใช้งานได้ตั้งแต่วันนี้ (อาจต้องมีการยืนยันองค์กร)
ใน Responses API จะมีฟีเจอร์หลากหลาย เช่น สรุปการให้เหตุผล การคงบริบทรอบการเรียกใช้ฟังก์ชัน และเครื่องมือค้นหาเว็บ

ทิศทางในอนาคต

มีแผนจะผสาน ความสามารถด้านการให้เหตุผลเฉพาะทาง ของซีรีส์ o เข้ากับ ความสามารถด้านการสนทนาที่เป็นธรรมชาติ ของซีรีส์ GPT
ต่อไปจะพัฒนาเป็น โมเดลที่ใช้เครื่องมือเชิงรุกได้พร้อมกับสนทนาอย่างเป็นธรรมชาติอย่างต่อเนื่อง

1 ความคิดเห็น

GN⁺ 2025-04-17

ความคิดเห็นบน Hacker News

มีการถามคำถามเชิงเทคนิคเกี่ยวกับการทำ reverse engineering ของ Final Fantasy VII แต่ AI ให้ข้อมูลที่ผิด
- AI ไปค้นข้อมูลจากฟอรัมและเว็บไซต์ต่าง ๆ แต่จินตนาการรายละเอียดที่ผิดขึ้นมา ทำให้ผลลัพธ์ไม่แม่นยำ
- AI ดูเหมือนจะรู้ตัวว่าไม่ทราบคำตอบ แต่กลับเสนอค่าที่ผิดอย่างมั่นใจ
- คาดหวังว่าเมื่อ AI หาคำตอบที่ถูกต้องไม่ได้ ก็ควรบอกตามตรง
ใช้ o3 เพื่อติดตั้ง Webstorm เวอร์ชันล่าสุดบน NixOS โดยมันรัน NixOS VM ดาวน์โหลดแพ็กเกจ และให้คำแนะนำการติดตั้ง
- ดูเหมือนว่าจะทดสอบ GUI ด้วย ซึ่งน่าประทับใจมาก
Claude 3.7 ยังคงทำผลงานได้ดีที่สุดบน SWE-bench
- โมเดลของ OpenAI ก็อาจแสดงประสิทธิภาพใกล้เคียงกัน
ทำ "Turing test" แบบง่าย ๆ ในการเขียนตัวแปลง base 62 ใน C# ด้วย o4-mini-high ได้สำเร็จ
มีการถาม AI หลายตัวเกี่ยวกับวันที่พระจันทร์ใหม่ในเดือนสิงหาคม 2025 แต่ส่วนใหญ่ให้คำตอบผิด
- Claude ปฏิเสธที่จะตอบเกี่ยวกับวิธีบล็อก search engine บางตัว
o3 และ o4 รับรู้ได้เมื่อไม่มีเครื่องมือค้นหาเว็บและปฏิเสธที่จะตอบ
- 4o และ 4.1 กลับให้ข้อมูลที่ผิด
- ฟีเจอร์ค้นหาเว็บใหม่มีประโยชน์ และช่วยให้ลบสคริปต์ Python ที่ไม่จำเป็นออกได้
Codex CLI เปิดให้ใช้งานแบบโอเพนซอร์ส
ไม่มีการเปรียบเทียบกับ Sonnet 3.7 หรือ Gemini Pro 2.5
reinforcement learning ขนาดใหญ่มีแนวโน้มให้ประสิทธิภาพดีขึ้นเมื่อใช้ทรัพยากรคอมพิวต์มากขึ้น
- สงสัยว่าแนวโน้มนี้จะดำเนินต่อไปได้นานแค่ไหน
ในฐานะผู้บริโภค การต้องคอยตามให้ทันว่าควรใช้โมเดลไหนเป็นเรื่องเหนื่อย

OpenAI เปิดตัวโมเดล o3 และ o4-mini

การเปลี่ยนแปลงฟีเจอร์หลัก

OpenAI o3

OpenAI o4-mini

ความสามารถแบบมัลติโหมด

วิธีการให้เหตุผลที่เน้นการใช้เครื่องมือ

ประสิทธิภาพการให้เหตุผลที่คุ้มค่า

เปรียบเทียบสมรรถนะต่อค่าใช้จ่าย

การปรับปรุงด้านความปลอดภัย

Codex CLI: เอเจนต์การให้เหตุผลขั้นสูงที่ใช้บนเทอร์มินัล

วิธีเข้าถึง

ทิศทางในอนาคต

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นบน Hacker News