OpenAI เปิดตัวโมเดลภาษา open-weight ขนาดใหญ่

(openai.com)

7 คะแนน โดย GN⁺ 2025-08-06 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

OpenAI เปิดตัว โมเดลภาษา open-weight ขนาดใหญ่ (gpt-oss) เป็นครั้งแรก
ได้จัดเตรียมทั้ง gpt-oss-120b และ gpt-oss-20b โดยเน้นสมรรถนะที่ทรงพลังและการรองรับอุปกรณ์หลากหลาย
ภายใต้ Apache 2.0 License จึงสามารถใช้งานเชิงพาณิชย์ ปรับแต่ง และกระจายต่อได้อย่างอิสระ
มีการฝึกอบรมด้าน ความปลอดภัย และรีวิวโดยผู้เชี่ยวชาญภายนอก พร้อมขั้นตอน การทดสอบความปลอดภัยแบบครอบคลุม
สามารถดาวน์โหลดและใช้งานโมเดลโดยตรงผ่าน Hugging Face, GitHub พร้อมทรัพยากรที่เกี่ยวข้องกับ fine-tuning, deployment และการปรับแต่ง และมี Playground ให้ใช้

โมเดลแบบเปิดของ OpenAI

OpenAI เปิดตัว gpt-oss ซึ่งเป็น โมเดลอนุมาน open-weight ขนาดใหญ่ที่ปรับให้เข้ากับการใช้งานได้ทุกกรณีและรันได้จากที่ใดก็ได้
สามารถ ดาวน์โหลดไฟล์โมเดลโดยตรง จาก Hugging Face และ GitHub และทดลองเดโมผ่านเว็บ Playground ได้
ภายใต้ Apache 2.0 License จึงสามารถ ใช้งานเชิงพาณิชย์, ปรับแต่ง, และกระจายต่อ ได้อย่างอิสระโดยไม่ต้องกังวลเรื่อง copyleft หรือปัญหาละเมิดสิทธิ์สิทธิบัตร

gpt-oss-120b: โมเดลขนาดใหญ่สำหรับศูนย์ข้อมูล, คอมพิวเตอร์เดสก์ท็อปประสิทธิภาพสูง และโน้ตบุ๊ก
gpt-oss-20b: โมเดลขนาดกลางที่สามารถทำงานบนเดสก์ท็อปและโน้ตบุ๊กส่วนใหญ่ได้

คุณสมบัติหลัก

ปรับให้เหมาะกับงานแบบเอเจนต์
- จุดเด่นอยู่ที่ การใช้เครื่องมือและการปฏิบัติตามคำสั่ง เหมาะกับการใช้งานด้านเอเจนต์เช่นการค้นหาเว็บ การรันโค้ด Python เป็นต้น
การปรับแต่งและ fine-tuning
- ปรับค่าพารามิเตอร์ เช่น reasoning_effort (ระดับความพยายามในการอนุมาน) ได้
- รองรับ การ fine-tune พารามิเตอร์ทั้งหมด เพื่อการปรับแต่งขั้นสูง
การเปิดเผย Chain-of-Thought
- สามารถดู กระบวนการคิด/การทำ chain-of-thought ทั้งหมด ของโมเดลได้ ทำให้การดีบักและประเมินความน่าเชื่อถือทำได้ง่ายขึ้น
รองรับ Playground
- มี Playground ให้ผู้พัฒนาและนักวิจัยทุกคน ทดลองประสิทธิภาพของโมเดลผ่านเบราว์เซอร์ ได้

ประสิทธิภาพของโมเดล

gpt-oss-120b และ gpt-oss-20b ถูกเปรียบเทียบผลการทำงานแบบตรงไปตรงมากับโมเดลเชิงพาณิชย์ของ OpenAI (OpenAI o3, o4-mini) ในหลาย ๆ benchmark สำคัญ
คะแนนในโดเมนต่าง ๆ เช่น การอนุมานและความรู้, คณิตศาสตร์การแข่งขัน และอื่น ๆ ของแต่ละโมเดลถูกเผยแพร่พร้อมรายละเอียด
ในบางหมวดงาน มีผลลัพธ์ใกล้เคียงหรือดีกว่าโมเดลเชิงพาณิชย์ของ OpenAI ในการทดสอบบางรายการ

รายละเอียดผล benchmark หลัก

การอนุมานและความรู้
- MMLU (Massive Multitask Language Understanding)
  - gpt-oss-120b: 90
  - gpt-oss-20b: 85.3
  - OpenAI o3: 93.4
  - OpenAI o4-mini: 93
  - → แม้ต่ำกว่าโมเดลเชิงพาณิชย์ขนาดใหญ่เล็กน้อย แต่เมื่อเทียบในเกณฑ์โมเดลโอเพ่น-เวท ถือว่ามีประสิทธิภาพการอนุมานแบบครบวงจรที่ยอดเยี่ยมมาก
- GPQA Diamond
  - gpt-oss-120b: 80.9
  - gpt-oss-20b: 74.2
  - OpenAI o3: 77
  - OpenAI o4-mini: 81.4
  - → แม้เป็นโมเดลโอเพ่นเวท ก็ยังบรรลุ ความสามารถในการตอบคำถามเชิงความรู้ขั้นสูงใกล้เคียงกับโมเดลเชิงพาณิชย์ ได้
- Humanity’s Last Exam
  - gpt-oss-120b: 19
  - gpt-oss-20b: 17.3
  - OpenAI o3: 24.9
  - OpenAI o4-mini: 17.7
  - → ในการประเมินระดับยากสูง ยังอยู่ต่ำกว่าโมเดลเชิงพาณิชย์เล็กน้อย แต่ 20b และ o4-mini มีผลลัพธ์เกือบเท่ากัน
Mathematical Competition (AIME)
- AIME 2024
  - gpt-oss-120b: 96.6
  - gpt-oss-20b: 96
  - OpenAI o3: 91.6
  - OpenAI o4-mini: 93.4
  - → โดยอิง เวอร์ชันปี 2024 โมเดลนี้กลับทำคะแนนสูงกว่าโมเดลเชิงพาณิชย์
- AIME 2025
  - gpt-oss-120b: 97.9
  - gpt-oss-20b: 98.7
  - OpenAI o3: 88.9
  - OpenAI o4-mini: 92.7
  - → ในด้านคณิตศาสตร์ ยังเห็นค่าบางตัวที่ เหนือกว่าผลลัพธ์โมเดลเชิงพาณิชย์ของ OpenAI
การตีความแบบรวม
- gpt-oss ซีรีส์แสดงให้เห็นประสิทธิภาพที่แข็งแกร่งเป็นพิเศษในด้าน คณิตศาสตร์, ตรรกะ และความรู้
- ช่องว่างกับโมเดลเชิงพาณิชย์ไม่กว้าง และมีความเป็นไปได้สูงที่จะใช้งานได้ในบริการจริงหรือการประยุกต์ด้านวิศวกรรม
- ในฐานะโมเดลโอเพ่น-เวทขนาดใหญ่ จึงเป็นตัวเลือกที่มีความสามารถแข่งขันได้อย่างดีสำหรับสภาพแวดล้อมด้านการวิจัย/พัฒนา, เอเจนต์ และการปรับแต่ง

ความปลอดภัยและการทดสอบ

ทุกโมเดล ได้รับการฝึกและประเมินด้านความปลอดภัยแบบเข้มงวด
ตาม กรอบการเตรียมความพร้อมของ OpenAI มีการทดสอบความต้านทานต่อการ fine-tune ที่มีเจตนาร้ายแยกต่างหากอีกด้วย
ร่วมมือกับผู้เชี่ยวชาญด้านความปลอดภัยภายนอกเพื่อกำหนด มาตรฐานความปลอดภัย สำหรับโมเดลโอเพ่น-เวท

สามารถดาวน์โหลดและใช้งานโมเดลได้จาก Hugging Face และ GitHub

OpenAI เปิดตัวโมเดลภาษา open-weight ขนาดใหญ่

โมเดลแบบเปิดของ OpenAI

คุณสมบัติหลัก

ปรับให้เหมาะกับงานแบบเอเจนต์

การปรับแต่งและ fine-tuning

การเปิดเผย Chain-of-Thought

รองรับ Playground

ประสิทธิภาพของโมเดล

รายละเอียดผล benchmark หลัก

การอนุมานและความรู้

Mathematical Competition (AIME)

การตีความแบบรวม

ความปลอดภัยและการทดสอบ

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น