• OpenAI เปิดตัว โมเดลภาษา open-weight ขนาดใหญ่ (gpt-oss) เป็นครั้งแรก
  • ได้จัดเตรียมทั้ง gpt-oss-120b และ gpt-oss-20b โดยเน้นสมรรถนะที่ทรงพลังและการรองรับอุปกรณ์หลากหลาย
  • ภายใต้ Apache 2.0 License จึงสามารถใช้งานเชิงพาณิชย์ ปรับแต่ง และกระจายต่อได้อย่างอิสระ
  • มีการฝึกอบรมด้าน ความปลอดภัย และรีวิวโดยผู้เชี่ยวชาญภายนอก พร้อมขั้นตอน การทดสอบความปลอดภัยแบบครอบคลุม
  • สามารถดาวน์โหลดและใช้งานโมเดลโดยตรงผ่าน Hugging Face, GitHub พร้อมทรัพยากรที่เกี่ยวข้องกับ fine-tuning, deployment และการปรับแต่ง และมี Playground ให้ใช้

โมเดลแบบเปิดของ OpenAI

  • OpenAI เปิดตัว gpt-oss ซึ่งเป็น โมเดลอนุมาน open-weight ขนาดใหญ่ที่ปรับให้เข้ากับการใช้งานได้ทุกกรณีและรันได้จากที่ใดก็ได้
  • สามารถ ดาวน์โหลดไฟล์โมเดลโดยตรง จาก Hugging Face และ GitHub และทดลองเดโมผ่านเว็บ Playground ได้
  • ภายใต้ Apache 2.0 License จึงสามารถ ใช้งานเชิงพาณิชย์, ปรับแต่ง, และกระจายต่อ ได้อย่างอิสระโดยไม่ต้องกังวลเรื่อง copyleft หรือปัญหาละเมิดสิทธิ์สิทธิบัตร
  • gpt-oss-120b: โมเดลขนาดใหญ่สำหรับศูนย์ข้อมูล, คอมพิวเตอร์เดสก์ท็อปประสิทธิภาพสูง และโน้ตบุ๊ก
  • gpt-oss-20b: โมเดลขนาดกลางที่สามารถทำงานบนเดสก์ท็อปและโน้ตบุ๊กส่วนใหญ่ได้

คุณสมบัติหลัก

  • ปรับให้เหมาะกับงานแบบเอเจนต์

    • จุดเด่นอยู่ที่ การใช้เครื่องมือและการปฏิบัติตามคำสั่ง เหมาะกับการใช้งานด้านเอเจนต์เช่นการค้นหาเว็บ การรันโค้ด Python เป็นต้น
  • การปรับแต่งและ fine-tuning

    • ปรับค่าพารามิเตอร์ เช่น reasoning_effort (ระดับความพยายามในการอนุมาน) ได้
    • รองรับ การ fine-tune พารามิเตอร์ทั้งหมด เพื่อการปรับแต่งขั้นสูง
  • การเปิดเผย Chain-of-Thought

    • สามารถดู กระบวนการคิด/การทำ chain-of-thought ทั้งหมด ของโมเดลได้ ทำให้การดีบักและประเมินความน่าเชื่อถือทำได้ง่ายขึ้น
  • รองรับ Playground

    • มี Playground ให้ผู้พัฒนาและนักวิจัยทุกคน ทดลองประสิทธิภาพของโมเดลผ่านเบราว์เซอร์ ได้

ประสิทธิภาพของโมเดล

  • gpt-oss-120b และ gpt-oss-20b ถูกเปรียบเทียบผลการทำงานแบบตรงไปตรงมากับโมเดลเชิงพาณิชย์ของ OpenAI (OpenAI o3, o4-mini) ในหลาย ๆ benchmark สำคัญ
  • คะแนนในโดเมนต่าง ๆ เช่น การอนุมานและความรู้, คณิตศาสตร์การแข่งขัน และอื่น ๆ ของแต่ละโมเดลถูกเผยแพร่พร้อมรายละเอียด
  • ในบางหมวดงาน มีผลลัพธ์ใกล้เคียงหรือดีกว่าโมเดลเชิงพาณิชย์ของ OpenAI ในการทดสอบบางรายการ

รายละเอียดผล benchmark หลัก

  • การอนุมานและความรู้

    • MMLU (Massive Multitask Language Understanding)
      • gpt-oss-120b: 90
      • gpt-oss-20b: 85.3
      • OpenAI o3: 93.4
      • OpenAI o4-mini: 93
      • → แม้ต่ำกว่าโมเดลเชิงพาณิชย์ขนาดใหญ่เล็กน้อย แต่เมื่อเทียบในเกณฑ์โมเดลโอเพ่น-เวท ถือว่ามีประสิทธิภาพการอนุมานแบบครบวงจรที่ยอดเยี่ยมมาก
    • GPQA Diamond
      • gpt-oss-120b: 80.9
      • gpt-oss-20b: 74.2
      • OpenAI o3: 77
      • OpenAI o4-mini: 81.4
      • → แม้เป็นโมเดลโอเพ่นเวท ก็ยังบรรลุ ความสามารถในการตอบคำถามเชิงความรู้ขั้นสูงใกล้เคียงกับโมเดลเชิงพาณิชย์ ได้
    • Humanity’s Last Exam
      • gpt-oss-120b: 19
      • gpt-oss-20b: 17.3
      • OpenAI o3: 24.9
      • OpenAI o4-mini: 17.7
      • → ในการประเมินระดับยากสูง ยังอยู่ต่ำกว่าโมเดลเชิงพาณิชย์เล็กน้อย แต่ 20b และ o4-mini มีผลลัพธ์เกือบเท่ากัน
  • Mathematical Competition (AIME)

    • AIME 2024
      • gpt-oss-120b: 96.6
      • gpt-oss-20b: 96
      • OpenAI o3: 91.6
      • OpenAI o4-mini: 93.4
      • → โดยอิง เวอร์ชันปี 2024 โมเดลนี้กลับทำคะแนนสูงกว่าโมเดลเชิงพาณิชย์
    • AIME 2025
      • gpt-oss-120b: 97.9
      • gpt-oss-20b: 98.7
      • OpenAI o3: 88.9
      • OpenAI o4-mini: 92.7
      • → ในด้านคณิตศาสตร์ ยังเห็นค่าบางตัวที่ เหนือกว่าผลลัพธ์โมเดลเชิงพาณิชย์ของ OpenAI
  • การตีความแบบรวม

    • gpt-oss ซีรีส์แสดงให้เห็นประสิทธิภาพที่แข็งแกร่งเป็นพิเศษในด้าน คณิตศาสตร์, ตรรกะ และความรู้
    • ช่องว่างกับโมเดลเชิงพาณิชย์ไม่กว้าง และมีความเป็นไปได้สูงที่จะใช้งานได้ในบริการจริงหรือการประยุกต์ด้านวิศวกรรม
    • ในฐานะโมเดลโอเพ่น-เวทขนาดใหญ่ จึงเป็นตัวเลือกที่มีความสามารถแข่งขันได้อย่างดีสำหรับสภาพแวดล้อมด้านการวิจัย/พัฒนา, เอเจนต์ และการปรับแต่ง

ความปลอดภัยและการทดสอบ

  • ทุกโมเดล ได้รับการฝึกและประเมินด้านความปลอดภัยแบบเข้มงวด
  • ตาม กรอบการเตรียมความพร้อมของ OpenAI มีการทดสอบความต้านทานต่อการ fine-tune ที่มีเจตนาร้ายแยกต่างหากอีกด้วย
  • ร่วมมือกับผู้เชี่ยวชาญด้านความปลอดภัยภายนอกเพื่อกำหนด มาตรฐานความปลอดภัย สำหรับโมเดลโอเพ่น-เวท
  • สามารถดาวน์โหลดและใช้งานโมเดลได้จาก Hugging Face และ GitHub

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น