- OpenAI เปิดตัว โมเดลภาษา open-weight ขนาดใหญ่ (gpt-oss) เป็นครั้งแรก
- ได้จัดเตรียมทั้ง gpt-oss-120b และ gpt-oss-20b โดยเน้นสมรรถนะที่ทรงพลังและการรองรับอุปกรณ์หลากหลาย
- ภายใต้ Apache 2.0 License จึงสามารถใช้งานเชิงพาณิชย์ ปรับแต่ง และกระจายต่อได้อย่างอิสระ
- มีการฝึกอบรมด้าน ความปลอดภัย และรีวิวโดยผู้เชี่ยวชาญภายนอก พร้อมขั้นตอน การทดสอบความปลอดภัยแบบครอบคลุม
- สามารถดาวน์โหลดและใช้งานโมเดลโดยตรงผ่าน Hugging Face, GitHub พร้อมทรัพยากรที่เกี่ยวข้องกับ fine-tuning, deployment และการปรับแต่ง และมี Playground ให้ใช้
โมเดลแบบเปิดของ OpenAI
- OpenAI เปิดตัว gpt-oss ซึ่งเป็น โมเดลอนุมาน open-weight ขนาดใหญ่ที่ปรับให้เข้ากับการใช้งานได้ทุกกรณีและรันได้จากที่ใดก็ได้
- สามารถ ดาวน์โหลดไฟล์โมเดลโดยตรง จาก Hugging Face และ GitHub และทดลองเดโมผ่านเว็บ Playground ได้
- ภายใต้ Apache 2.0 License จึงสามารถ ใช้งานเชิงพาณิชย์, ปรับแต่ง, และกระจายต่อ ได้อย่างอิสระโดยไม่ต้องกังวลเรื่อง copyleft หรือปัญหาละเมิดสิทธิ์สิทธิบัตร
- gpt-oss-120b: โมเดลขนาดใหญ่สำหรับศูนย์ข้อมูล, คอมพิวเตอร์เดสก์ท็อปประสิทธิภาพสูง และโน้ตบุ๊ก
- gpt-oss-20b: โมเดลขนาดกลางที่สามารถทำงานบนเดสก์ท็อปและโน้ตบุ๊กส่วนใหญ่ได้
คุณสมบัติหลัก
-
ปรับให้เหมาะกับงานแบบเอเจนต์
- จุดเด่นอยู่ที่ การใช้เครื่องมือและการปฏิบัติตามคำสั่ง เหมาะกับการใช้งานด้านเอเจนต์เช่นการค้นหาเว็บ การรันโค้ด Python เป็นต้น
-
การปรับแต่งและ fine-tuning
- ปรับค่าพารามิเตอร์ เช่น reasoning_effort (ระดับความพยายามในการอนุมาน) ได้
- รองรับ การ fine-tune พารามิเตอร์ทั้งหมด เพื่อการปรับแต่งขั้นสูง
-
การเปิดเผย Chain-of-Thought
- สามารถดู กระบวนการคิด/การทำ chain-of-thought ทั้งหมด ของโมเดลได้ ทำให้การดีบักและประเมินความน่าเชื่อถือทำได้ง่ายขึ้น
-
รองรับ Playground
- มี Playground ให้ผู้พัฒนาและนักวิจัยทุกคน ทดลองประสิทธิภาพของโมเดลผ่านเบราว์เซอร์ ได้
ประสิทธิภาพของโมเดล
- gpt-oss-120b และ gpt-oss-20b ถูกเปรียบเทียบผลการทำงานแบบตรงไปตรงมากับโมเดลเชิงพาณิชย์ของ OpenAI (OpenAI o3, o4-mini) ในหลาย ๆ benchmark สำคัญ
- คะแนนในโดเมนต่าง ๆ เช่น การอนุมานและความรู้, คณิตศาสตร์การแข่งขัน และอื่น ๆ ของแต่ละโมเดลถูกเผยแพร่พร้อมรายละเอียด
- ในบางหมวดงาน มีผลลัพธ์ใกล้เคียงหรือดีกว่าโมเดลเชิงพาณิชย์ของ OpenAI ในการทดสอบบางรายการ
รายละเอียดผล benchmark หลัก
-
การอนุมานและความรู้
- MMLU (Massive Multitask Language Understanding)
- gpt-oss-120b: 90
- gpt-oss-20b: 85.3
- OpenAI o3: 93.4
- OpenAI o4-mini: 93
- → แม้ต่ำกว่าโมเดลเชิงพาณิชย์ขนาดใหญ่เล็กน้อย แต่เมื่อเทียบในเกณฑ์โมเดลโอเพ่น-เวท ถือว่ามีประสิทธิภาพการอนุมานแบบครบวงจรที่ยอดเยี่ยมมาก
- GPQA Diamond
- gpt-oss-120b: 80.9
- gpt-oss-20b: 74.2
- OpenAI o3: 77
- OpenAI o4-mini: 81.4
- → แม้เป็นโมเดลโอเพ่นเวท ก็ยังบรรลุ ความสามารถในการตอบคำถามเชิงความรู้ขั้นสูงใกล้เคียงกับโมเดลเชิงพาณิชย์ ได้
- Humanity’s Last Exam
- gpt-oss-120b: 19
- gpt-oss-20b: 17.3
- OpenAI o3: 24.9
- OpenAI o4-mini: 17.7
- → ในการประเมินระดับยากสูง ยังอยู่ต่ำกว่าโมเดลเชิงพาณิชย์เล็กน้อย แต่ 20b และ o4-mini มีผลลัพธ์เกือบเท่ากัน
-
Mathematical Competition (AIME)
- AIME 2024
- gpt-oss-120b: 96.6
- gpt-oss-20b: 96
- OpenAI o3: 91.6
- OpenAI o4-mini: 93.4
- → โดยอิง เวอร์ชันปี 2024 โมเดลนี้กลับทำคะแนนสูงกว่าโมเดลเชิงพาณิชย์
- AIME 2025
- gpt-oss-120b: 97.9
- gpt-oss-20b: 98.7
- OpenAI o3: 88.9
- OpenAI o4-mini: 92.7
- → ในด้านคณิตศาสตร์ ยังเห็นค่าบางตัวที่ เหนือกว่าผลลัพธ์โมเดลเชิงพาณิชย์ของ OpenAI
-
การตีความแบบรวม
- gpt-oss ซีรีส์แสดงให้เห็นประสิทธิภาพที่แข็งแกร่งเป็นพิเศษในด้าน คณิตศาสตร์, ตรรกะ และความรู้
- ช่องว่างกับโมเดลเชิงพาณิชย์ไม่กว้าง และมีความเป็นไปได้สูงที่จะใช้งานได้ในบริการจริงหรือการประยุกต์ด้านวิศวกรรม
- ในฐานะโมเดลโอเพ่น-เวทขนาดใหญ่ จึงเป็นตัวเลือกที่มีความสามารถแข่งขันได้อย่างดีสำหรับสภาพแวดล้อมด้านการวิจัย/พัฒนา, เอเจนต์ และการปรับแต่ง
ความปลอดภัยและการทดสอบ
- ทุกโมเดล ได้รับการฝึกและประเมินด้านความปลอดภัยแบบเข้มงวด
- ตาม กรอบการเตรียมความพร้อมของ OpenAI มีการทดสอบความต้านทานต่อการ fine-tune ที่มีเจตนาร้ายแยกต่างหากอีกด้วย
- ร่วมมือกับผู้เชี่ยวชาญด้านความปลอดภัยภายนอกเพื่อกำหนด มาตรฐานความปลอดภัย สำหรับโมเดลโอเพ่น-เวท
ยังไม่มีความคิดเห็น