13 คะแนน โดย GN⁺ 2025-02-01 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • OpenAI o3-mini เป็นโมเดลล่าสุดในซีรีส์โมเดลการให้เหตุผลที่คุ้มค่าต้นทุน
  • เปิดตัวอย่างเป็นทางการหลังจากพรีวิวในเดือนธันวาคม 2024 และสามารถใช้งานได้ทั้งใน ChatGPT และ API
  • มีประสิทธิภาพโดดเด่นในสายงาน STEM เช่น วิทยาศาสตร์ คณิตศาสตร์ และการเขียนโค้ด โดยยังคงมีต้นทุนและเวลาแฝงต่ำกว่า OpenAI o1-mini

ฟีเจอร์หลักและสิ่งที่ปรับปรุง

  • OpenAI o3-mini เป็นโมเดลการให้เหตุผลขนาดเล็กรุ่นแรกที่รองรับ function calling, structured outputs และ developer messages
  • รองรับความสามารถแบบสตรีมมิง และมีตัวเลือกความพยายามในการให้เหตุผล 3 ระดับคือ ต่ำ, กลาง, สูง เพื่อปรับให้เหมาะกับสถานการณ์
  • ไม่รองรับความสามารถด้านวิชัน (ภาพ) และหากต้องการการให้เหตุผลเชิงภาพ แนะนำให้ใช้ OpenAI o1
  • ใช้งานได้ใน Chat Completions API, Assistants API และ Batch API และเปิดให้แก่นักพัฒนาที่อยู่ใน API usage tier 3~5
  • ผู้ใช้ ChatGPT Plus, Team และ Pro ใช้งานได้ตั้งแต่วันนี้ ส่วนผู้ใช้ Enterprise จะเริ่มรองรับในเดือนกุมภาพันธ์
  • มาแทนที่ OpenAI o1-mini พร้อมมอบความเร็วที่สูงขึ้นและความสามารถในการให้เหตุผลที่ดีขึ้น
  • ขีดจำกัดข้อความของผู้ใช้ Plus และ Team เพิ่มจาก 50 เป็น 150 ข้อความ เมื่อเทียบกับ o1-mini เดิม
  • เพิ่มความสามารถด้านการค้นหา และกำลังทดลองฟีเจอร์ที่ให้ข้อมูลล่าสุดพร้อมลิงก์เว็บ

ขยายการเข้าถึงสำหรับผู้ใช้ฟรี

  • ผู้ใช้ฟรีก็สามารถใช้งาน o3-mini ได้ โดยเลือก ‘Reason’ ในช่องเขียนข้อความหรือสั่งสร้างคำตอบใหม่
  • นี่เป็นครั้งแรกที่โมเดล reasoning ใน ChatGPT เปิดให้ผู้ใช้ฟรีใช้งาน

ปรับแต่งสำหรับ STEM และเพิ่มประสิทธิภาพ

  • มอบ ประสิทธิภาพที่ปรับแต่งมาสำหรับสายงาน STEM และสร้างคำตอบได้เร็วและแม่นยำกว่า o1-mini
  • จากการประเมินโดยผู้ทดสอบผู้เชี่ยวชาญ o3-mini ได้รับความนิยมมากกว่า o1-mini ใน 56% ของกรณี และพบว่า ข้อผิดพลาดสำคัญลดลง 39% ในโจทย์ยาก
  • ให้ประสิทธิภาพใกล้เคียง o1 ในการประเมินด้านการให้เหตุผลและสติปัญญาที่ยาก เช่น AIME และ GPQA พร้อมความเร็วในการตอบสนองที่ดีกว่า

การเปรียบเทียบประสิทธิภาพหลัก

  • คณิตศาสตร์ (AIME 2024):
    • ที่ระดับความพยายามในการให้เหตุผลต่ำ ให้ประสิทธิภาพใกล้เคียง o1-mini และที่ระดับกลางให้ประสิทธิภาพใกล้เคียง o1
    • ที่ระดับความพยายามในการให้เหตุผลสูง ให้ประสิทธิภาพดีกว่า o1 และ o1-mini
  • คำถามวิทยาศาสตร์ระดับปริญญาเอก (GPQA Diamond):
    • ในโจทย์ชีววิทยา เคมี และฟิสิกส์ ให้ประสิทธิภาพดีกว่า o1-mini แม้ใช้ระดับความพยายามในการให้เหตุผลต่ำ
    • ที่ระดับความพยายามในการให้เหตุผลสูง ให้ประสิทธิภาพใกล้เคียง o1
  • คณิตศาสตร์ขั้นสูง (FrontierMath):
    • เมื่อใช้เครื่องมือ Python สามารถแก้โจทย์ได้มากกว่า 32% ตั้งแต่ความพยายามครั้งแรก และแก้โจทย์ยากระดับสูง (T3) ได้มากกว่า 28%
  • การแข่งขันเขียนโปรแกรม (Codeforces):
    • ยิ่งเพิ่มความพยายามในการให้เหตุผล ก็ยิ่งได้คะแนน Elo สูงขึ้น และให้ประสิทธิภาพดีกว่า o1-mini
    • ที่ระดับความพยายามในการให้เหตุผลกลาง ให้ประสิทธิภาพใกล้เคียง o1
  • วิศวกรรมซอฟต์แวร์ (SWE-bench Verified):
    • ทำสถิติประสิทธิภาพสูงสุดในบรรดาโมเดลที่เปิดตัวมาจนถึงตอนนี้บน SWEbench-verified
  • การทดสอบโค้ดในโลกจริง (LiveBench Coding):
    • ให้ประสิทธิภาพดีกว่า o1-high และที่ระดับความพยายามในการให้เหตุผลสูงยิ่งทิ้งห่างมากขึ้น
  • การประเมินความรู้ทั่วไป:
    • ให้ผลลัพธ์โดยรวมดีกว่า o1-mini ในการประเมินด้านความรู้
  • การประเมินความพึงพอใจของผู้ใช้:
    • จากการทดสอบโดยผู้เชี่ยวชาญ o3-mini ได้รับความนิยมมากกว่า o1-mini อยู่ 56% และพบว่าข้อผิดพลาดลดลง 39% ในโจทย์ยาก

ความเร็วและประสิทธิภาพที่ดีขึ้น

  • ยังคงรักษาระดับสติปัญญาใกล้เคียง o1 ขณะเดียวกันก็ให้ประสิทธิภาพที่เร็วขึ้นและมีประสิทธิผลมากขึ้น
  • ให้ผลลัพธ์ที่ดีขึ้นในการประเมินด้านคณิตศาสตร์และความถูกต้องเชิงข้อเท็จจริง แม้ใช้ระดับความพยายามในการให้เหตุผลกลาง
  • ผลการทดสอบ A/B ระบุว่า o3-mini ตอบสนองเร็วกว่า o1-mini 24%
    • เวลาเฉลี่ยในการตอบสนอง: o3-mini (7.7 วินาที) vs o1-mini (10.16 วินาที)
    • ความเร็วในการแสดงโทเค็นแรก: o3-mini เร็วกว่า o1-mini โดยเฉลี่ย 2500ms

ความปลอดภัยและมาตรการรับมือ

  • OpenAI o3-mini ได้รับการฝึกให้สร้างคำตอบที่ปลอดภัยยิ่งขึ้นโดยใช้เทคนิค ‘deliberative alignment’
  • เมื่อเทียบกับ OpenAI o1 พบว่า มีความปลอดภัยและความสามารถในการป้องกันการ jailbreak ในระดับสูงกว่า GPT-4o ด้วย
  • ก่อนเปิดตัว ได้ผ่านการตรวจสอบอย่างเข้มงวดผ่าน preparedness evaluations, external red teaming และ safety evaluations
  • ผลการประเมินด้าน การตอบสนองต่อเนื้อหาที่ไม่ได้รับอนุญาตและการทดสอบ jailbreak ของ o3-mini มีให้ดูใน system card

แผนในอนาคตและแนวโน้ม

  • OpenAI o3-mini สะท้อนถึง อีกขั้นของการพัฒนา AI อัจฉริยะที่คุ้มค่าต้นทุน
  • จะเดินหน้าสู่เป้าหมายในการ มอบ AI คุณภาพสูงให้ผู้ใช้ได้มากขึ้น ผ่านการปรับแต่งสำหรับ STEM และการพัฒนาโมเดลต้นทุนต่ำ
  • ลดราคาต่อโทเค็นลง 95% นับตั้งแต่การเปิดตัว GPT-4 ขณะเดียวกันก็ยังคงรักษาความสามารถด้านการให้เหตุผลระดับแนวหน้า
  • ท่ามกลางการยอมรับ AI ในวงกว้างที่เพิ่มขึ้น มีแผนมุ่งพัฒนาโมเดลที่ สร้างสมดุลระหว่างสติปัญญา ประสิทธิภาพ และความปลอดภัย

1 ความคิดเห็น

 
GN⁺ 2025-02-01
ความเห็นจาก Hacker News
  • โมเดล Claude-3.5-sonnet มีความสม่ำเสมอสูงมาก ขณะที่โมเดลอื่น ๆ มีปัญหาคล้าย ADHD

    • เวลาพยายามใช้คอมโพเนนต์ shadcn ในแอป NextJS นั้น sonnet ทำได้แทบสมบูรณ์แบบ แต่โมเดลอื่นกลับพยายามใช้ radix-ui
    • โมเดล o3-mini ก็มีปัญหาเดียวกัน
    • เป็นไปได้ว่าชุดคำสั่งของ cursor อาจเป็นต้นเหตุของปัญหา
    • ทำให้ sonnet กลายเป็นตัวเลือกเดียวที่ยังใช้งานได้จริงสำหรับงานเขียนโค้ด
  • คำตอบของ o3-mini ได้รับความนิยมมากกว่า o1-mini อยู่ 56%

    • เมื่อคำตอบทั้งสองยาว 2,000 คำ คนมักเลือกฝั่งที่ตอบคำถามได้เร็วกกว่า
    • แบบสำรวจนี้ไม่มีความหมาย และอัตราการตอบ 50% ก็ไม่ต่างจากการโยนเหรียญ
  • มีการแชร์ผลการใช้ o3-mini เพื่อสรุปเธรดนี้

    • ใช้อินพุต 18,936 เอาต์พุต 2,905 คิดเป็นค่าใช้จ่าย 3.3612 เซนต์
  • ในงานเขียนโค้ดด้วย AI นั้น o3-mini ได้คะแนนใกล้เคียงกับ o1 แต่มีต้นทุนถูกกว่าถึง 10 เท่า

    • o3-mini ที่ระดับความพยายามปานกลางได้คะแนนอยู่ระหว่าง R1 และ Sonnet
  • ประกาศรีลีสใหม่ของเครื่องมือ LLM CLI ที่รองรับโมเดลใหม่และตัวเลือก reasoning_effort

    • มีการแชร์ตัวอย่างวิธีใช้งาน
  • มีการชี้ว่าคะแนน SWE Bench ของ o3-mini ลดลงจาก 61% เหลือ 49.3%

    • o3-mini แสดงประสิทธิภาพในงานเขียนโค้ดจริงใกล้เคียงกับ Claude
  • กล่าวถึงว่า o3-mini-high สามารถหาสาเหตุรากของ seg fault ได้สำเร็จ

    • แก้ปัญหาที่ก่อนหน้านี้ o1 มองข้ามไปได้
  • มีการเพิ่มขึ้นอย่างมากใน SWE-Bench และน่าลองอีกครั้งว่ามันจะจัดการงานที่ก่อนหน้านี้ o1-mini ทำไม่ได้หรือไม่

    • มีความต่างด้านต้นทุนระหว่าง $4/ล้านเอาต์พุตโทเคน กับ $60
  • วงการ AI กำลังเปลี่ยนแปลงอย่างรวดเร็ว และมีโมเดล AI ใหม่ ๆ ปรากฏขึ้น

    • มีการตั้งคำถามว่าการเปลี่ยนแปลงของ AI จะส่งผลต่อรีลีสนี้และรีลีสถัด ๆ ไปอย่างไร