5 คะแนน โดย GN⁺ 2025-04-17 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • โมเดล o3 และ o4-mini ยกระดับความสามารถด้านการให้เหตุผลของ ChatGPT อย่างมาก
  • โมเดลทั้งสองนี้ทำงานได้มากกว่าการตอบคำถามทั่วไป โดยสามารถทำงานซับซ้อนได้ เช่น การใช้เครื่องมือร่วมกัน, การวิเคราะห์สื่อภาพ, การสร้างภาพ, และ การรันโค้ด Python
  • โดยเฉพาะเมื่อผู้ใช้ตั้งคำถาม โมเดลสามารถ ตัดสินใจและลงมือใช้ เครื่องมือได้เองว่าจะใช้เครื่องมือใดและเมื่อไร
  • เด่นด้านการแก้ปัญหาซับซ้อน การให้เหตุผลเชิงภาพ และการวิเคราะห์หลายขั้นตอน พร้อมมุ่งสู่ สไตล์การสนทนาที่เป็นธรรมชาติมากขึ้น
  • o3 เป็นโมเดลสำหรับการแก้ปัญหาซับซ้อน ส่วน o4-mini เป็นโมเดลสำหรับการให้เหตุผลที่รวดเร็วและมีประสิทธิภาพ โดยมุ่งทั้งสมรรถนะสูงและประสิทธิภาพสูงไปพร้อมกัน
  • มีทั้ง ความสามารถด้านการให้เหตุผลแบบมัลติโหมด ที่คิดร่วมกันระหว่างภาพและข้อความ และ ความสามารถในการใช้เครื่องมือแบบเอเจนต์ ที่ล้ำหน้าขึ้น

การเปลี่ยนแปลงฟีเจอร์หลัก

OpenAI o3

  • โมเดลที่เน้น การให้เหตุผล และทรงพลังที่สุดจนถึงตอนนี้
  • ทำผลงานระดับแนวหน้าในหลายด้าน เช่น การเขียนโค้ด คณิตศาสตร์ วิทยาศาสตร์ และการวิเคราะห์ภาพ
  • ทำสถิติสูงสุดในเบนช์มาร์กอย่าง Codeforces, SWE-bench และ MMMU
  • ตามการประเมินของผู้เชี่ยวชาญภายนอก มี อัตราความผิดพลาดร้ายแรงน้อยกว่า o1 ถึง 20%
  • โดดเด่นด้านการสร้างไอเดียและการประเมินเชิงวิพากษ์ในสาขาอย่าง การเขียนโปรแกรม การให้คำปรึกษา ชีววิทยา และวิศวกรรม

OpenAI o4-mini

  • โมเดลขนาดเล็กที่ปรับให้เหมาะกับความเร็วและความคุ้มค่าด้านต้นทุน
  • โดยเฉพาะด้าน คณิตศาสตร์ การเขียนโค้ด และการแก้ปัญหาเชิงภาพ ทำได้ยอดเยี่ยม
  • ให้ผลงานระดับชั้นนำในกลุ่มเดียวกันบนเบนช์มาร์ก AIME 2024 และ 2025
  • ให้ประสิทธิภาพที่ยอดเยี่ยมใน สาขานอกเหนือจาก STEM เมื่อเทียบกับ o3-mini
  • เหมาะกับ สภาพแวดล้อมที่ต้องการปริมาณการใช้งานสูงและการตอบสนองรวดเร็ว
  • โมเดลทั้งสองพัฒนาขึ้นจากเดิมในด้าน ความเข้าใจคำสั่ง ความเป็นประโยชน์ของคำตอบ และความน่าเชื่อถือ
  • ความสามารถในการจดจำบทสนทนาและให้คำตอบแบบปรับให้เหมาะกับแต่ละคนก็ได้รับการเสริมให้ดีขึ้น

ความสามารถแบบมัลติโหมด

  • ภาพไม่ได้ถูกใช้แค่เพื่อการรู้จำ แต่สามารถ นำมาใช้เป็นส่วนหนึ่งของการให้เหตุผล ได้
  • ผู้ใช้สามารถอัปโหลด รูปไวต์บอร์ด แผนภาพในหนังสือ ภาพวาดด้วยมือ เป็นต้น
  • โมเดลสามารถรู้จำและวิเคราะห์ภาพที่เบลอหรือบิดเบี้ยวได้เช่นกัน
  • สามารถ ประมวลผลภาพ เช่น การหมุน การซูม และการแปลงภาพ ได้อัตโนมัติผ่านเครื่องมือ
  • ยกระดับ ความสามารถในการแก้ปัญหาแบบผสมผสาน ที่รวมข้อมูลข้อความและข้อมูลภาพเข้าด้วยกัน

วิธีการให้เหตุผลที่เน้นการใช้เครื่องมือ

  • o3 และ o4-mini เข้าถึงเครื่องมือทั้งหมดของ ChatGPT ได้
  • เมื่อผู้ใช้ถาม โมเดลจะตัดสินใจและใช้เครื่องมือที่จำเป็นโดยอัตโนมัติ เช่น การค้นหาเว็บ การวิเคราะห์ไฟล์ และการรันโค้ด
  • ตัวอย่าง: หากขอให้ “คาดการณ์การใช้พลังงานไฟฟ้าช่วงฤดูร้อนของแคลิฟอร์เนีย” โมเดลสามารถทำ ค้นหาเว็บ → สร้างโค้ด Python → สร้างกราฟ ได้ต่อเนื่องทั้งหมด
  • รองรับ การใช้ข้อมูลแบบเรียลไทม์, การให้เหตุผลหลายขั้นตอน และ การตอบกลับแบบบูรณาการหลายโมดาลิตี

ประสิทธิภาพการให้เหตุผลที่คุ้มค่า

เปรียบเทียบสมรรถนะต่อค่าใช้จ่าย

  • o3 มีความคุ้มค่าด้านต้นทุนดีขึ้นอย่างมากเมื่อเทียบกับ o1 และ o4-mini ก็ดีขึ้นอย่างมากเมื่อเทียบกับ o3-mini
  • จากผลการแข่งขันคณิตศาสตร์ AIME 2025 ทั้ง o3 และ o4-mini ถูกกว่าและฉลาดกว่ารุ่นก่อนหน้า
  • คาดว่าจะเป็น ตัวเลือกที่ทั้งฉลาดกว่าและประหยัดกว่า ในสภาพแวดล้อมการใช้งานจริง

การปรับปรุงด้านความปลอดภัย

  • มีการฝึกใหม่ด้วย ชุดข้อมูลใหม่ เพื่อเพิ่มความสามารถในการปฏิเสธคำขอที่เกี่ยวข้องกับภัยคุกคามทางชีวภาพ มัลแวร์ และพรอมป์ต jailbreak
  • นำระบบ การเฝ้าระวังความปลอดภัยบนพื้นฐาน LLM มาใช้เพื่อตรวจจับความเสี่ยงของคำตอบจากโมเดลโดยอัตโนมัติ
  • จากผลทดสอบภายใน ระบบ ตรวจจับบทสนทนาที่มีความเสี่ยงได้สำเร็จมากกว่า 99%
  • ได้รับการประเมินว่า ยังไม่ถึงระดับความเสี่ยงสูง ในด้านชีวภาพ/เคมี ความมั่นคงปลอดภัยไซเบอร์ และการพัฒนาตนเองของ AI
  • ผ่านการตรวจสอบความปลอดภัยตามเกณฑ์ล่าสุดของ Preparedness Framework แล้ว

Codex CLI: เอเจนต์การให้เหตุผลขั้นสูงที่ใช้บนเทอร์มินัล

  • เป็นเครื่องมือที่ทำให้สามารถใช้ความสามารถด้านการให้เหตุผลของ o3 และ o4-mini บนเทอร์มินัลได้
  • ผู้ใช้สามารถส่ง โค้ด รูปภาพ สกรีนช็อต เป็นต้น ให้โมเดลได้โดยตรงผ่าน CLI
  • โมเดลสามารถเชื่อมต่อกับโค้ดในสภาพแวดล้อมโลคัลเพื่อทำ การให้เหตุผลแบบมัลติโหมด
  • เปิดเป็นโอเพนซอร์สแล้ว: github.com/openai/codex
  • OpenAI ยังเริ่ม โครงการสนับสนุนมูลค่า 1 ล้านดอลลาร์ สำหรับโปรเจกต์ที่ใช้ Codex CLI เป็นฐานด้วย

วิธีเข้าถึง

  • ผู้ใช้ ChatGPT Plus, Pro และ Team: ใช้โมเดล o3, o4-mini และ o4-mini-high ได้ทันที
  • ผู้ใช้ Enterprise และ Education: จะเข้าถึงได้ ตั้งแต่หนึ่งสัปดาห์หลังจากนี้
  • ผู้ใช้ฟรีก็สามารถ ใช้ o4-mini ได้ หากเลือกตัวเลือก ‘Think’
  • ผู้ใช้ API ก็ใช้งานได้ตั้งแต่วันนี้ (อาจต้องมีการยืนยันองค์กร)
  • ใน Responses API จะมีฟีเจอร์หลากหลาย เช่น สรุปการให้เหตุผล การคงบริบทรอบการเรียกใช้ฟังก์ชัน และเครื่องมือค้นหาเว็บ

ทิศทางในอนาคต

  • มีแผนจะผสาน ความสามารถด้านการให้เหตุผลเฉพาะทาง ของซีรีส์ o เข้ากับ ความสามารถด้านการสนทนาที่เป็นธรรมชาติ ของซีรีส์ GPT
  • ต่อไปจะพัฒนาเป็น โมเดลที่ใช้เครื่องมือเชิงรุกได้พร้อมกับสนทนาอย่างเป็นธรรมชาติอย่างต่อเนื่อง

1 ความคิดเห็น

 
GN⁺ 2025-04-17
ความคิดเห็นบน Hacker News
  • มีการถามคำถามเชิงเทคนิคเกี่ยวกับการทำ reverse engineering ของ Final Fantasy VII แต่ AI ให้ข้อมูลที่ผิด

    • AI ไปค้นข้อมูลจากฟอรัมและเว็บไซต์ต่าง ๆ แต่จินตนาการรายละเอียดที่ผิดขึ้นมา ทำให้ผลลัพธ์ไม่แม่นยำ
    • AI ดูเหมือนจะรู้ตัวว่าไม่ทราบคำตอบ แต่กลับเสนอค่าที่ผิดอย่างมั่นใจ
    • คาดหวังว่าเมื่อ AI หาคำตอบที่ถูกต้องไม่ได้ ก็ควรบอกตามตรง
  • ใช้ o3 เพื่อติดตั้ง Webstorm เวอร์ชันล่าสุดบน NixOS โดยมันรัน NixOS VM ดาวน์โหลดแพ็กเกจ และให้คำแนะนำการติดตั้ง

    • ดูเหมือนว่าจะทดสอบ GUI ด้วย ซึ่งน่าประทับใจมาก
  • Claude 3.7 ยังคงทำผลงานได้ดีที่สุดบน SWE-bench

    • โมเดลของ OpenAI ก็อาจแสดงประสิทธิภาพใกล้เคียงกัน
  • ทำ "Turing test" แบบง่าย ๆ ในการเขียนตัวแปลง base 62 ใน C# ด้วย o4-mini-high ได้สำเร็จ

  • มีการถาม AI หลายตัวเกี่ยวกับวันที่พระจันทร์ใหม่ในเดือนสิงหาคม 2025 แต่ส่วนใหญ่ให้คำตอบผิด

    • Claude ปฏิเสธที่จะตอบเกี่ยวกับวิธีบล็อก search engine บางตัว
  • o3 และ o4 รับรู้ได้เมื่อไม่มีเครื่องมือค้นหาเว็บและปฏิเสธที่จะตอบ

    • 4o และ 4.1 กลับให้ข้อมูลที่ผิด
    • ฟีเจอร์ค้นหาเว็บใหม่มีประโยชน์ และช่วยให้ลบสคริปต์ Python ที่ไม่จำเป็นออกได้
  • Codex CLI เปิดให้ใช้งานแบบโอเพนซอร์ส

  • ไม่มีการเปรียบเทียบกับ Sonnet 3.7 หรือ Gemini Pro 2.5

  • reinforcement learning ขนาดใหญ่มีแนวโน้มให้ประสิทธิภาพดีขึ้นเมื่อใช้ทรัพยากรคอมพิวต์มากขึ้น

    • สงสัยว่าแนวโน้มนี้จะดำเนินต่อไปได้นานแค่ไหน
  • ในฐานะผู้บริโภค การต้องคอยตามให้ทันว่าควรใช้โมเดลไหนเป็นเรื่องเหนื่อย