เปิดตัว OpenAI o3-Mini

(openai.com)

13 คะแนน โดย GN⁺ 2025-02-01 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

OpenAI o3-mini เป็นโมเดลล่าสุดในซีรีส์โมเดลการให้เหตุผลที่คุ้มค่าต้นทุน
เปิดตัวอย่างเป็นทางการหลังจากพรีวิวในเดือนธันวาคม 2024 และสามารถใช้งานได้ทั้งใน ChatGPT และ API
มีประสิทธิภาพโดดเด่นในสายงาน STEM เช่น วิทยาศาสตร์ คณิตศาสตร์ และการเขียนโค้ด โดยยังคงมีต้นทุนและเวลาแฝงต่ำกว่า OpenAI o1-mini

ฟีเจอร์หลักและสิ่งที่ปรับปรุง

OpenAI o3-mini เป็นโมเดลการให้เหตุผลขนาดเล็กรุ่นแรกที่รองรับ function calling, structured outputs และ developer messages
รองรับความสามารถแบบสตรีมมิง และมีตัวเลือกความพยายามในการให้เหตุผล 3 ระดับคือ ต่ำ, กลาง, สูง เพื่อปรับให้เหมาะกับสถานการณ์
ไม่รองรับความสามารถด้านวิชัน (ภาพ) และหากต้องการการให้เหตุผลเชิงภาพ แนะนำให้ใช้ OpenAI o1
ใช้งานได้ใน Chat Completions API, Assistants API และ Batch API และเปิดให้แก่นักพัฒนาที่อยู่ใน API usage tier 3~5
ผู้ใช้ ChatGPT Plus, Team และ Pro ใช้งานได้ตั้งแต่วันนี้ ส่วนผู้ใช้ Enterprise จะเริ่มรองรับในเดือนกุมภาพันธ์
มาแทนที่ OpenAI o1-mini พร้อมมอบความเร็วที่สูงขึ้นและความสามารถในการให้เหตุผลที่ดีขึ้น
ขีดจำกัดข้อความของผู้ใช้ Plus และ Team เพิ่มจาก 50 เป็น 150 ข้อความ เมื่อเทียบกับ o1-mini เดิม
เพิ่มความสามารถด้านการค้นหา และกำลังทดลองฟีเจอร์ที่ให้ข้อมูลล่าสุดพร้อมลิงก์เว็บ

ขยายการเข้าถึงสำหรับผู้ใช้ฟรี

ผู้ใช้ฟรีก็สามารถใช้งาน o3-mini ได้ โดยเลือก ‘Reason’ ในช่องเขียนข้อความหรือสั่งสร้างคำตอบใหม่
นี่เป็นครั้งแรกที่โมเดล reasoning ใน ChatGPT เปิดให้ผู้ใช้ฟรีใช้งาน

ปรับแต่งสำหรับ STEM และเพิ่มประสิทธิภาพ

มอบ ประสิทธิภาพที่ปรับแต่งมาสำหรับสายงาน STEM และสร้างคำตอบได้เร็วและแม่นยำกว่า o1-mini
จากการประเมินโดยผู้ทดสอบผู้เชี่ยวชาญ o3-mini ได้รับความนิยมมากกว่า o1-mini ใน 56% ของกรณี และพบว่า ข้อผิดพลาดสำคัญลดลง 39% ในโจทย์ยาก
ให้ประสิทธิภาพใกล้เคียง o1 ในการประเมินด้านการให้เหตุผลและสติปัญญาที่ยาก เช่น AIME และ GPQA พร้อมความเร็วในการตอบสนองที่ดีกว่า

การเปรียบเทียบประสิทธิภาพหลัก

คณิตศาสตร์ (AIME 2024):
- ที่ระดับความพยายามในการให้เหตุผลต่ำ ให้ประสิทธิภาพใกล้เคียง o1-mini และที่ระดับกลางให้ประสิทธิภาพใกล้เคียง o1
- ที่ระดับความพยายามในการให้เหตุผลสูง ให้ประสิทธิภาพดีกว่า o1 และ o1-mini
คำถามวิทยาศาสตร์ระดับปริญญาเอก (GPQA Diamond):
- ในโจทย์ชีววิทยา เคมี และฟิสิกส์ ให้ประสิทธิภาพดีกว่า o1-mini แม้ใช้ระดับความพยายามในการให้เหตุผลต่ำ
- ที่ระดับความพยายามในการให้เหตุผลสูง ให้ประสิทธิภาพใกล้เคียง o1
คณิตศาสตร์ขั้นสูง (FrontierMath):
- เมื่อใช้เครื่องมือ Python สามารถแก้โจทย์ได้มากกว่า 32% ตั้งแต่ความพยายามครั้งแรก และแก้โจทย์ยากระดับสูง (T3) ได้มากกว่า 28%
การแข่งขันเขียนโปรแกรม (Codeforces):
- ยิ่งเพิ่มความพยายามในการให้เหตุผล ก็ยิ่งได้คะแนน Elo สูงขึ้น และให้ประสิทธิภาพดีกว่า o1-mini
- ที่ระดับความพยายามในการให้เหตุผลกลาง ให้ประสิทธิภาพใกล้เคียง o1
วิศวกรรมซอฟต์แวร์ (SWE-bench Verified):
- ทำสถิติประสิทธิภาพสูงสุดในบรรดาโมเดลที่เปิดตัวมาจนถึงตอนนี้บน SWEbench-verified
การทดสอบโค้ดในโลกจริง (LiveBench Coding):
- ให้ประสิทธิภาพดีกว่า o1-high และที่ระดับความพยายามในการให้เหตุผลสูงยิ่งทิ้งห่างมากขึ้น
การประเมินความรู้ทั่วไป:
- ให้ผลลัพธ์โดยรวมดีกว่า o1-mini ในการประเมินด้านความรู้
การประเมินความพึงพอใจของผู้ใช้:
- จากการทดสอบโดยผู้เชี่ยวชาญ o3-mini ได้รับความนิยมมากกว่า o1-mini อยู่ 56% และพบว่าข้อผิดพลาดลดลง 39% ในโจทย์ยาก

ความเร็วและประสิทธิภาพที่ดีขึ้น

ยังคงรักษาระดับสติปัญญาใกล้เคียง o1 ขณะเดียวกันก็ให้ประสิทธิภาพที่เร็วขึ้นและมีประสิทธิผลมากขึ้น
ให้ผลลัพธ์ที่ดีขึ้นในการประเมินด้านคณิตศาสตร์และความถูกต้องเชิงข้อเท็จจริง แม้ใช้ระดับความพยายามในการให้เหตุผลกลาง
ผลการทดสอบ A/B ระบุว่า o3-mini ตอบสนองเร็วกว่า o1-mini 24%
- เวลาเฉลี่ยในการตอบสนอง: o3-mini (7.7 วินาที) vs o1-mini (10.16 วินาที)
- ความเร็วในการแสดงโทเค็นแรก: o3-mini เร็วกว่า o1-mini โดยเฉลี่ย 2500ms

ความปลอดภัยและมาตรการรับมือ

OpenAI o3-mini ได้รับการฝึกให้สร้างคำตอบที่ปลอดภัยยิ่งขึ้นโดยใช้เทคนิค ‘deliberative alignment’
เมื่อเทียบกับ OpenAI o1 พบว่า มีความปลอดภัยและความสามารถในการป้องกันการ jailbreak ในระดับสูงกว่า GPT-4o ด้วย
ก่อนเปิดตัว ได้ผ่านการตรวจสอบอย่างเข้มงวดผ่าน preparedness evaluations, external red teaming และ safety evaluations
ผลการประเมินด้าน การตอบสนองต่อเนื้อหาที่ไม่ได้รับอนุญาตและการทดสอบ jailbreak ของ o3-mini มีให้ดูใน system card

แผนในอนาคตและแนวโน้ม

OpenAI o3-mini สะท้อนถึง อีกขั้นของการพัฒนา AI อัจฉริยะที่คุ้มค่าต้นทุน
จะเดินหน้าสู่เป้าหมายในการ มอบ AI คุณภาพสูงให้ผู้ใช้ได้มากขึ้น ผ่านการปรับแต่งสำหรับ STEM และการพัฒนาโมเดลต้นทุนต่ำ
ลดราคาต่อโทเค็นลง 95% นับตั้งแต่การเปิดตัว GPT-4 ขณะเดียวกันก็ยังคงรักษาความสามารถด้านการให้เหตุผลระดับแนวหน้า
ท่ามกลางการยอมรับ AI ในวงกว้างที่เพิ่มขึ้น มีแผนมุ่งพัฒนาโมเดลที่ สร้างสมดุลระหว่างสติปัญญา ประสิทธิภาพ และความปลอดภัย

1 ความคิดเห็น

GN⁺ 2025-02-01

ความเห็นจาก Hacker News

โมเดล Claude-3.5-sonnet มีความสม่ำเสมอสูงมาก ขณะที่โมเดลอื่น ๆ มีปัญหาคล้าย ADHD
- เวลาพยายามใช้คอมโพเนนต์ shadcn ในแอป NextJS นั้น sonnet ทำได้แทบสมบูรณ์แบบ แต่โมเดลอื่นกลับพยายามใช้ radix-ui
- โมเดล o3-mini ก็มีปัญหาเดียวกัน
- เป็นไปได้ว่าชุดคำสั่งของ cursor อาจเป็นต้นเหตุของปัญหา
- ทำให้ sonnet กลายเป็นตัวเลือกเดียวที่ยังใช้งานได้จริงสำหรับงานเขียนโค้ด
คำตอบของ o3-mini ได้รับความนิยมมากกว่า o1-mini อยู่ 56%
- เมื่อคำตอบทั้งสองยาว 2,000 คำ คนมักเลือกฝั่งที่ตอบคำถามได้เร็วกกว่า
- แบบสำรวจนี้ไม่มีความหมาย และอัตราการตอบ 50% ก็ไม่ต่างจากการโยนเหรียญ
มีการแชร์ผลการใช้ o3-mini เพื่อสรุปเธรดนี้
- ใช้อินพุต 18,936 เอาต์พุต 2,905 คิดเป็นค่าใช้จ่าย 3.3612 เซนต์
ในงานเขียนโค้ดด้วย AI นั้น o3-mini ได้คะแนนใกล้เคียงกับ o1 แต่มีต้นทุนถูกกว่าถึง 10 เท่า
- o3-mini ที่ระดับความพยายามปานกลางได้คะแนนอยู่ระหว่าง R1 และ Sonnet
ประกาศรีลีสใหม่ของเครื่องมือ LLM CLI ที่รองรับโมเดลใหม่และตัวเลือก reasoning_effort
- มีการแชร์ตัวอย่างวิธีใช้งาน
มีการชี้ว่าคะแนน SWE Bench ของ o3-mini ลดลงจาก 61% เหลือ 49.3%
- o3-mini แสดงประสิทธิภาพในงานเขียนโค้ดจริงใกล้เคียงกับ Claude
กล่าวถึงว่า o3-mini-high สามารถหาสาเหตุรากของ seg fault ได้สำเร็จ
- แก้ปัญหาที่ก่อนหน้านี้ o1 มองข้ามไปได้
มีการเพิ่มขึ้นอย่างมากใน SWE-Bench และน่าลองอีกครั้งว่ามันจะจัดการงานที่ก่อนหน้านี้ o1-mini ทำไม่ได้หรือไม่
- มีความต่างด้านต้นทุนระหว่าง $4/ล้านเอาต์พุตโทเคน กับ $60
วงการ AI กำลังเปลี่ยนแปลงอย่างรวดเร็ว และมีโมเดล AI ใหม่ ๆ ปรากฏขึ้น
- มีการตั้งคำถามว่าการเปลี่ยนแปลงของ AI จะส่งผลต่อรีลีสนี้และรีลีสถัด ๆ ไปอย่างไร

เปิดตัว OpenAI o3-Mini

ฟีเจอร์หลักและสิ่งที่ปรับปรุง

ขยายการเข้าถึงสำหรับผู้ใช้ฟรี

ปรับแต่งสำหรับ STEM และเพิ่มประสิทธิภาพ

การเปรียบเทียบประสิทธิภาพหลัก

ความเร็วและประสิทธิภาพที่ดีขึ้น

ความปลอดภัยและมาตรการรับมือ

แผนในอนาคตและแนวโน้ม

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นจาก Hacker News