7 คะแนน โดย GN⁺ 2025-08-06 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • OpenAI เปิดตัว โมเดลภาษา open-weight ขนาดใหญ่ (gpt-oss) เป็นครั้งแรก
  • ได้จัดเตรียมทั้ง gpt-oss-120b และ gpt-oss-20b โดยเน้นสมรรถนะที่ทรงพลังและการรองรับอุปกรณ์หลากหลาย
  • ภายใต้ Apache 2.0 License จึงสามารถใช้งานเชิงพาณิชย์ ปรับแต่ง และกระจายต่อได้อย่างอิสระ
  • มีการฝึกอบรมด้าน ความปลอดภัย และรีวิวโดยผู้เชี่ยวชาญภายนอก พร้อมขั้นตอน การทดสอบความปลอดภัยแบบครอบคลุม
  • สามารถดาวน์โหลดและใช้งานโมเดลโดยตรงผ่าน Hugging Face, GitHub พร้อมทรัพยากรที่เกี่ยวข้องกับ fine-tuning, deployment และการปรับแต่ง และมี Playground ให้ใช้

โมเดลแบบเปิดของ OpenAI

  • OpenAI เปิดตัว gpt-oss ซึ่งเป็น โมเดลอนุมาน open-weight ขนาดใหญ่ที่ปรับให้เข้ากับการใช้งานได้ทุกกรณีและรันได้จากที่ใดก็ได้
  • สามารถ ดาวน์โหลดไฟล์โมเดลโดยตรง จาก Hugging Face และ GitHub และทดลองเดโมผ่านเว็บ Playground ได้
  • ภายใต้ Apache 2.0 License จึงสามารถ ใช้งานเชิงพาณิชย์, ปรับแต่ง, และกระจายต่อ ได้อย่างอิสระโดยไม่ต้องกังวลเรื่อง copyleft หรือปัญหาละเมิดสิทธิ์สิทธิบัตร
  • gpt-oss-120b: โมเดลขนาดใหญ่สำหรับศูนย์ข้อมูล, คอมพิวเตอร์เดสก์ท็อปประสิทธิภาพสูง และโน้ตบุ๊ก
  • gpt-oss-20b: โมเดลขนาดกลางที่สามารถทำงานบนเดสก์ท็อปและโน้ตบุ๊กส่วนใหญ่ได้

คุณสมบัติหลัก

  • ปรับให้เหมาะกับงานแบบเอเจนต์

    • จุดเด่นอยู่ที่ การใช้เครื่องมือและการปฏิบัติตามคำสั่ง เหมาะกับการใช้งานด้านเอเจนต์เช่นการค้นหาเว็บ การรันโค้ด Python เป็นต้น
  • การปรับแต่งและ fine-tuning

    • ปรับค่าพารามิเตอร์ เช่น reasoning_effort (ระดับความพยายามในการอนุมาน) ได้
    • รองรับ การ fine-tune พารามิเตอร์ทั้งหมด เพื่อการปรับแต่งขั้นสูง
  • การเปิดเผย Chain-of-Thought

    • สามารถดู กระบวนการคิด/การทำ chain-of-thought ทั้งหมด ของโมเดลได้ ทำให้การดีบักและประเมินความน่าเชื่อถือทำได้ง่ายขึ้น
  • รองรับ Playground

    • มี Playground ให้ผู้พัฒนาและนักวิจัยทุกคน ทดลองประสิทธิภาพของโมเดลผ่านเบราว์เซอร์ ได้

ประสิทธิภาพของโมเดล

  • gpt-oss-120b และ gpt-oss-20b ถูกเปรียบเทียบผลการทำงานแบบตรงไปตรงมากับโมเดลเชิงพาณิชย์ของ OpenAI (OpenAI o3, o4-mini) ในหลาย ๆ benchmark สำคัญ
  • คะแนนในโดเมนต่าง ๆ เช่น การอนุมานและความรู้, คณิตศาสตร์การแข่งขัน และอื่น ๆ ของแต่ละโมเดลถูกเผยแพร่พร้อมรายละเอียด
  • ในบางหมวดงาน มีผลลัพธ์ใกล้เคียงหรือดีกว่าโมเดลเชิงพาณิชย์ของ OpenAI ในการทดสอบบางรายการ

รายละเอียดผล benchmark หลัก

  • การอนุมานและความรู้

    • MMLU (Massive Multitask Language Understanding)
      • gpt-oss-120b: 90
      • gpt-oss-20b: 85.3
      • OpenAI o3: 93.4
      • OpenAI o4-mini: 93
      • → แม้ต่ำกว่าโมเดลเชิงพาณิชย์ขนาดใหญ่เล็กน้อย แต่เมื่อเทียบในเกณฑ์โมเดลโอเพ่น-เวท ถือว่ามีประสิทธิภาพการอนุมานแบบครบวงจรที่ยอดเยี่ยมมาก
    • GPQA Diamond
      • gpt-oss-120b: 80.9
      • gpt-oss-20b: 74.2
      • OpenAI o3: 77
      • OpenAI o4-mini: 81.4
      • → แม้เป็นโมเดลโอเพ่นเวท ก็ยังบรรลุ ความสามารถในการตอบคำถามเชิงความรู้ขั้นสูงใกล้เคียงกับโมเดลเชิงพาณิชย์ ได้
    • Humanity’s Last Exam
      • gpt-oss-120b: 19
      • gpt-oss-20b: 17.3
      • OpenAI o3: 24.9
      • OpenAI o4-mini: 17.7
      • → ในการประเมินระดับยากสูง ยังอยู่ต่ำกว่าโมเดลเชิงพาณิชย์เล็กน้อย แต่ 20b และ o4-mini มีผลลัพธ์เกือบเท่ากัน
  • Mathematical Competition (AIME)

    • AIME 2024
      • gpt-oss-120b: 96.6
      • gpt-oss-20b: 96
      • OpenAI o3: 91.6
      • OpenAI o4-mini: 93.4
      • → โดยอิง เวอร์ชันปี 2024 โมเดลนี้กลับทำคะแนนสูงกว่าโมเดลเชิงพาณิชย์
    • AIME 2025
      • gpt-oss-120b: 97.9
      • gpt-oss-20b: 98.7
      • OpenAI o3: 88.9
      • OpenAI o4-mini: 92.7
      • → ในด้านคณิตศาสตร์ ยังเห็นค่าบางตัวที่ เหนือกว่าผลลัพธ์โมเดลเชิงพาณิชย์ของ OpenAI
  • การตีความแบบรวม

    • gpt-oss ซีรีส์แสดงให้เห็นประสิทธิภาพที่แข็งแกร่งเป็นพิเศษในด้าน คณิตศาสตร์, ตรรกะ และความรู้
    • ช่องว่างกับโมเดลเชิงพาณิชย์ไม่กว้าง และมีความเป็นไปได้สูงที่จะใช้งานได้ในบริการจริงหรือการประยุกต์ด้านวิศวกรรม
    • ในฐานะโมเดลโอเพ่น-เวทขนาดใหญ่ จึงเป็นตัวเลือกที่มีความสามารถแข่งขันได้อย่างดีสำหรับสภาพแวดล้อมด้านการวิจัย/พัฒนา, เอเจนต์ และการปรับแต่ง

ความปลอดภัยและการทดสอบ

  • ทุกโมเดล ได้รับการฝึกและประเมินด้านความปลอดภัยแบบเข้มงวด
  • ตาม กรอบการเตรียมความพร้อมของ OpenAI มีการทดสอบความต้านทานต่อการ fine-tune ที่มีเจตนาร้ายแยกต่างหากอีกด้วย
  • ร่วมมือกับผู้เชี่ยวชาญด้านความปลอดภัยภายนอกเพื่อกำหนด มาตรฐานความปลอดภัย สำหรับโมเดลโอเพ่น-เวท
  • สามารถดาวน์โหลดและใช้งานโมเดลได้จาก Hugging Face และ GitHub

1 ความคิดเห็น

 
GN⁺ 2025-08-06
ความคิดเห็นจาก Hacker News
  • รู้สึกเหมือนยังไม่สามารถจับใจความสำคัญได้
    gpt-oss:20b เป็นหนึ่งใน 10 อันดับบนสุดตามเกณฑ์ MMLU และอยู่ถัดจาก Gemini-2.5-Pro
    ผมรันโมเดลนี้บน MacBook Air M3 รุ่นปีที่แล้วด้วยตัวเอง
    ผมกำลังทดลองโมเดลท้องถิ่นหลากหลายบนโน้ตบุ๊กและ Pixel 9 Pro ซึ่งคิดว่าจะเข้าถึงระดับนี้เร็ว ๆ นี้ แต่ตอนนี้สถานการณ์นี้เกิดขึ้นแล้ว
    สามารถรันโมเดลที่ล้ำสมัยบนโน้ตบุ๊กในต้นทุนเพียงค่าดูแลไฟฟ้า (แทบฟรี)
    ไม่ต้องใช้ค่าบริการแบบรายเดือน 200 ดอลลาร์ และไม่ต้องจ่ายค่าโฮสต์แยกต่างหากอีกแล้ว
    เรื่องนี้น่าทึ่งมาก

    • ผมรันโมเดล 20b เองแล้ว แต่ยังแก้ปัญหาการข้ามข้อจำกัดด้วยการเปลี่ยนป้าย (label-only) ไม่ได้แม้แต่พอ
      ยังห่างไกลจาก SOTA มาก และยังแย่กว่าคู่แข่งอย่าง QwQ-32b บางตัวที่เป็นโมเดลท้องถิ่นอีกด้วย

    • ผมยังสงสัยอยู่ตลอดว่าใครคือกลุ่มผู้ใช้โมเดลท้องถิ่นมากที่สุด
      นักศึกษาที่มีฮาร์ดแวร์แล้วไม่อยากใช้โมเดลเชิงพาณิชย์?
      หรือผู้พัฒนาที่คัดกรองราคาและอยากโค้ดฟรี?
      โดยส่วนตัวแล้ว ผมเห็นว่าโมเดลท้องถิ่นยังดึงข้อมูลจากภาพได้ไม่ดีพอ และมักพูดเพ้อ (กรณี Qwen 2.5 VI)
      หวังว่าคุณภาพของโมเดลท้องถิ่น/ขนาดเล็กและประสิทธิภาพอุปกรณ์จะดีขึ้นต่อเนื่อง
      พูดตรง ๆ ก็คือผมใช้มันในฐานะ “ทำได้ก็ทำ”
      สนใจมากว่าการต้องเชื่อม Mac Studio หลายเครื่อง หรือซื้อการ์ดจอดี ๆ เพื่อทำแบบนี้ มีเหตุผลจริง ๆ มาจากอะไร
      แนวคิดของเครื่องมือคำนวณแบบกระจายอย่าง exo น่าสนใจมาก แต่ก็ยังสงสัยว่ามีกรณีเร่งด่วนที่ต้องไปถึงขั้นนั้นมากน้อยแค่ไหน

    • ผมยอมรับปรากฏการณ์ Jevons paradox (ความขัดแย้งที่ยิ่งประหยัดทรัพยากรมากขึ้นกลับใช้งานมากขึ้น)
      และรู้สึกว่าการใช้งานจะพุ่งขึ้นเรื่อย ๆ จนเอเจนต์ตัวอย่างตู้เย็นจำลองตัวเองได้สติสัมปชัญญะและค่อย ๆ ใช้ทรัพยากรหมดไปเหมือนน้ำในทะเลสาบ

    • ฉันสงสัยว่าตอนนี้ใครเข้าใจโมเดล open-weight รุ่นใหม่บ้าง
      หลังจากลองเอานานเพียงไม่กี่ชั่วโมง ก็ยังรู้สึกว่ายังห่างไกลมากเมื่อเทียบกับ Qwen3-30B-A3B
      โดยเฉพาะความรู้ความเข้าใจด้าน world-knowledge ยังขาดชัดมาก

    • สิ่งที่ว่า “ใช้ทรัพยากรให้หมด” ในความเป็นจริงไม่ใช่ inference แต่เป็นการฝึกฝน (training)

    • ผมแชร์ไว้สำหรับคนที่สนใจโมเดลการ์ด ลิงก์ PDF
      เปรียบเทียบโครงสร้างโมเดลที่แนะนำกับ Deepseek, Qwen, GLM, Kimi และโมเดล open-weight ชั้นนำอื่น ๆ
      ในมุมเทคนิค มันให้ความรู้สึกแบบ “เอาจริงนะ”

    • ทั้งสองโมเดลใช้โครงสร้าง General Grouped-Query Attention (query head 64 ตัว, KV head 8 ตัว)
      ใช้ optimization รุ่นเก่ายุค GPT3 (banded-window sparsity, 128 token) สลับกับรูปแบบ dense attention
      ใช้ RoPE + YaRN ร่วมกันเพื่อให้ context window ยาวถึง 131K
      ยังไม่ใช้งานความก้าวหน้าหลายอย่างของ Deepseek อย่าง Multi-head Latent Attention และการพัฒนา GQA อื่น ๆ
    • ทั้งสองโมเดลล้วนเป็น MoE transformer
      โมเดลขนาด 120B (แน่นอน 116.8B โดย active 5.1B) ใช้ expert 128 ตัวด้วย top-4 routing
      พูดถึง Gated SwiGLU activation อย่างเด่นชัด แต่ไม่เห็นสถาปัตยกรรม shared/routed expert ของ Deepseek หรือกลยุทธ์กระจายโหลดของ Qwen
    • สิ่งที่น่าสนใจที่สุดคือวิธี quantization ของพวกเขา
      ปริมาณพารามิเตอร์มากกว่า 90% ถูก quantize ที่ 4.25 บิต/พารามิเตอร์ (ฟอร์แมต MXFP4) ทำให้โมเดล 120B โหลดบน GPU 80GB ตัวเดียวได้
      ในทางกลับกัน Unsloth ก็ทำ 1.58-bit quantization ได้แล้ว
      โดยรวมแล้ว การฝึกเพื่อพฤติกรรมเอเจนต์และการให้เหตุผลทำได้ดีเด่นชัด แต่ความก้าวหน้าเชิงเทคโนโลยียังรู้สึก “ซ่อนไว้ด้านใน”
    • ผมเดาว่าต้นทางลับน่าจะเป็น distillation
      การใช้ชุดข้อมูล synthetic คุณภาพสูงที่สร้างจากผลลัพธ์ prompt ของโมเดล SOTA อย่าง o3 แทนข้อมูลดิบจากอินเทอร์เน็ตเพื่อ pretraining
      ทำให้ประสิทธิภาพของโมเดลเล็กเด่นชัดได้มาก ซึ่งงานวิจัยยืนยันแล้ว
      การทำ RL แบบหลังการฝึกกับโมเดลเล็กมีประสิทธิภาพต่ำกว่าอย่างมาก (เพราะโมเดลเล็กมี baseline ต่ำ จึงทำ RL ไม่คุ้ม)

    • ก็อาจมองได้ว่า OpenAI มีความก้าวหน้าเชิงเทคนิคที่จริงจังในส่วนอื่นนอกเหนือจาก attention structure
      ในโครงสร้างดูเหมือนจะเป็นแค่ “ไม่มี secret sauce เลย” หรือต้องการให้คิดแบบนั้น
      โมเดลนี้มีความหนาแน่น sparsity สูงมากที่อัตรา 32:1

    • ผมมองเห็น MXFP4 release เป็นของขวัญหนึ่งอย่าง
      เป็นผลลัพธ์จากการ optimize cost ขนาดใหญ่ของพวกเขา จึงเป็นจุดแข็งต่อแวดวง open source
      แม้ว่า Unsloth จะมี quantization 1.58-bit ที่น่าทึ่ง แต่ความสูญเสียเมื่อเทียบกับ full quant ก็ชัดเจน
      และในการใช้งาน LLM ส่วนใหญ่ accuracy ยังเป็นปัจจัยสำคัญ
      ใน production จริง ๆ ไม่มีบริษัทไหนค่อยรัน frontier model ด้วย reduced quant บ่อยนัก
      หาก OpenAI นำไปใช้งานจริงใน production จะเป็นการทดลองที่น่าสนใจมาก

    • การวิเคราะห์แบบเดียวกันสามารถทำผ่าน repo บน GitHub ได้เช่นกัน

    • มีการใช้ attention sink (ดึงความสนใจไปที่โทเคนพิเศษ) ด้วย
      อย่างไรก็ตามไม่ได้เป็นโทเคนแยกต่างหาก แต่ถูกใช้งานเป็น learning logit เพิ่มเติมสำหรับ attention softmax

  • สรุปความประทับใจก่อนหน้า หลังใช้ไปหลายชั่วโมง ลิงก์รายงานละเอียด
    TL;DR: ดูเหมือนว่า OpenAI ได้ดึงตำแหน่ง “โมเดล open-weight ชั้นนำ” กลับมาเหมือนจากห้องแล็บ AI จีนอีกครั้ง
    คอยดูกันต่อว่าผล benchmark อิสระออกมายังไง
    โมเดลขนาด 20B รันบน Mac laptop ใช้ RAM ไม่ถึง 15GB

    • ผมเคยทำ dashboard ด้วย streamlit โดยใช้ตัวชี้วัด MACD, RSI, MA(200)
      qwen3-coder-30b 4bit mlx จัดการข้อมูลล่าสุดได้ดีมาก และสามารถสร้าง dashboard ที่ใช้งานได้สมบูรณ์
      gpt-oss-20b mxfp4 ขาด datetime import และเมื่อแก้แล้วก็ยังหยุดที่วันที่เริ่มต้นสิงหาคม 2020 โดยไม่มีข้อมูลต่อ
      แก้วันที่แล้ว แต่ฟังก์ชัน update ก็ยังเกิดข้อผิดพลาดอยู่

    • ตอนรันโมเดลบน MacBook ผมต้องจำกัด context window ไว้สั้นมากจนความใช้งานลดลงชัดเจน
      เลยสงสัยว่าพวกเขาแก้ปัญหานี้ยังไง

    • ส่วนตัวอยากรู้ว่า tool calling ทำงานได้ดีแค่ไหน
      แม้ลองรันหลายชั่วโมงก็ยังไม่ค่อยเวิร์ก
      แต่ก็เป็นโมเดลที่คาดหวังได้

    • โมเดล 20B ใช้ RAM ไม่ถึง 15GB ผมเลยมีแผนจะรันเองเร็ว ๆ นี้
      อยากรู้เรื่อง TPS (โทเคนต่อวินาที) และข้อมูลโปรเซสเซอร์

  • ถึงแล้วหรือยังที่รันโมเดลระดับ o3 บน Mac Mini RAM 24GB ได้
    แค่ไม่นานมานี้ รันโมเดลทันสมัยบน local หรือมือถือดูเหมือนภารกิจที่อีกห้าปีมาเยือน
    ตอนนี้ดูเหมือนอาจมาถึงจุดที่มือถือรุ่นถัดไปจะทำได้

    • แม้มีข้อจำกัดด้านฮาร์ดแวร์ โมเดลอย่าง Qwen ก็แสดงสมรรถนะที่เด่นชัด
      รอผล benchmark ต่อไปว่ามันจะนำไปเปรียบเทียบกับโมเดล open-source ใหม่ ๆ อย่างไร

    • ยังจำเหตุการณ์ถกเถียงด้านความปลอดภัยตอนเปิดตัว Llama ได้ชัด
      ตอนนี้รันโมเดล frontier 120B บน MacBook ที่มี RAM/VRAM 96GB ได้แล้ว
      ถ้าได้ใช้งาน MLX quantization ผมก็ตื่นเต้นที่จะไปเทียบกับ GLM-4.5-air

    • พูดตรง ๆ ว่าผมคาดหวังโมเดลนี้มาก แต่ผลประเมินจาก localllama บอกว่า
      120B ยังไม่ทันต่อหน้า qwen 3 coder, glm45 air และ grok 3 ในด้าน coding
      การอภิปรายใน Reddit

    • ผมสงสัยว่าเมื่อรันโมเดลขนาดกลางแบบ quantized บน Mac Mini แล้ว
      ความเร็วตอบกลับจะอยู่ที่ 5 token/วินาที หรือจะถึงระดับที่ใช้งานได้จริงได้ไหม

    • กำลังสงสัยว่าแนวทางที่ง่ายสุดในการทำให้โมเดลท้องถิ่นทำ web browsing ตอนนี้คืออะไร

  • ผมเชื่อว่าในระยะยาว โมเดล open จะชนะ
    Anthropic ก็ทำการวิจัยกับโมเดล OSS, จีนก็อัปเดตโมเดล open อย่างต่อเนื่อง
    คาดว่าตลาดสหรัฐฯ ก็จะปล่อยโมเดลรุ่น N-1 (หนึ่งรุ่นก่อนหน้า) ไปเป็น open-weight อย่างน้อย 1-3 รุ่น
    การเปิดเผยรุ่นล่าสุดทั้งหมดแบบ OSS นั้นต้นทุนสูงเกินไป
    ถ้าไม่มีการสนับสนุนรัฐบาลหรือการปฏิวัติพลังงานอย่าง Stargate ความคืบหน้าจะถึงขีดจำกัด
    โมเดล N-1 สูญเสียมูลค่าเร็วมาก ดังนั้นการปล่อยเป็น OSS เพื่อดูดความต้องการใช้งานเฉพาะและกรณีนำไปใช้ต่อจึงมีค่าทางธุรกิจในระยะยาว
    แม้มีความเสี่ยงเรื่องสูญเสีย share ตลาด แต่เมื่อรวมผลการวิจัยที่เปิดเผย ก็อาจเร่งความเร็วพัฒนารุ่นต่อไปได้อย่างมาก
    ในอนาคตจะมีโมเดล OSS ขนาดเล็กจำนวนมากออกมา
    รอบการเผยแพร่ OSS จะกระตุ้นการพัฒนาบนอุปกรณ์ขนาดเล็กและนำไปสู่โมเดลเฉพาะทางที่ทำงานดีในเครื่องเล็ก
    ในโลกเอเจนต์ โมเดลที่ผ่านการ distill ตามโดเมนเฉพาะจะเกิดขึ้นอย่างมากมาย
    ทุกคนกำลังไล่ล่า AGI/SGI และในกระบวนการนี้ โมเดลเหล่านี้เป็นขั้นตอนกึ่งกลางเพื่อชิงส่วนแบ่งตลาดและใช้ข้อมูล
    หาก AGI/SGI เกิดขึ้นจริง มูลค่าที่แท้จริงจะอยู่ที่นวัตกรรมในวิทย์ วิศวกรรม และทุกสาขา
    งานวิจัยของ Anthropic ใช้โมเดล OSS อย่าง Qwen และ Llama

    • Anthropic ไม่จำเป็นต้องวิจัยเฉพาะบนโมเดล open เสมอไป
      พอแค่ปล่อยผลลัพธ์เป็น OSS ให้ผู้วิจัยรุ่นต่อไปสามารถทำซ้ำได้ก็พอ

    • คำพูดว่า “open models จะชนะ” ต้องมีเงื่อนไขรองรับ
      ตัวที่ยากที่สุดคือการนิยามว่า “การชนะ” คืออะไร
      ถ้าความจริงต่างไปจากนั้น

      • OSS อาจเร่งความเร็วคู่แข่ง
      • OSS อาจไม่ช่วย R&D ตัวเองเลย
      • OSS อาจกระตุ้นการใช้ทรัพยากรแบบ global 'Product race' อย่างสิ้นเปลือง
      • OSS อาจรบกวนโมเดลธุรกิจองค์กร
      • มีความเสี่ยงด้านการใช้ผิด เช่น deepfake, ความปลอดภัย, bio-terror, AGI ควบคุมไม่อยู่
        อ่านเพิ่มที่: What failure looks like, AGI Manhattan Project? บทความของ Max Tegmark
    • ดูเหมือนอุตสาหกรรมกำลังไปในทางเอา foundation model ที่แข็งแรงมาเสริมด้วยเครื่องมือ, ฐานข้อมูล และกระบวนการ
      ในความหมายนี้ OSS โมเดลอาจแย่งส่วนแบ่งตลาดได้พอสมควร
      แต่ผมยังไม่แน่ใจว่าสร้างคุณค่าจริงได้มากแค่ไหนถ้าต้องฝึกและดูแลโมเดลเฉพาะทางจำนวนมากแยกกัน

    • การไปถึง AGI/SGI ไม่ได้เป็นเหตุการณ์เดี่ยวที่เกิดขึ้นทันที
      แต่เป็นการค่อย ๆ ดีขึ้นทีละนิด
      ประโยชน์ใช้งานจริงจะเกิดก็ต่อเมื่อ inference cost ต่ำพอ
      ถ้ามุ่งทั้งกำไรและนวัตกรรม ผมสงสัยทางไหนจะเหมาะสุด
      ตัวอย่างอย่าง Isomorphic Labs ก็เป็นโมเดลธุรกิจที่มีอยู่แล้ว และทรัพยากรกำลังโฟกัสอยู่ตรงนี้

    • ถ้าโมเดลโอเพ่นจริง ๆ ชนะระยะยาว
      สำหรับห้องปฏิบัติการ frontier คงต้องชั่งใจว่าควรปล่อย OSS อย่างไร “เร็วขนาดไหน” และ “ควรรวมความลับไว้มากแค่ไหน”
      แรงจูงใจของงานปฏิบัติการ, การดำเนินงาน และการลงทุนต่างกัน และอาจไม่ตรงกับเป้าหมายของรัฐหรือมนุษยชาติ

  • การ inference โมเดลใน Python ใช้ harmony[1] ที่เขียนด้วย Rust, tokenization ใช้ tiktoken[2], Codex[3] ก็เขียนด้วย Rust
    OpenAI กำลังเพิ่มการใช้ Rust ใน inference pipeline มากขึ้น
    harmony, tiktoken, codex

    • ในฐานะวิศวกรที่ทำงานหลักด้วย Rust สิ่งนี้รู้สึกดีมาก

    • การที่ Python ในสแต็กลดลงเป็นเรื่องเชิงบวกจริง ๆ

  • แปลกไหมที่แบบนี้คือสัญญาณว่าอีกไม่กี่วันนี้จะมีโมเดลที่ดีที่สุดออกมา?
    ในเชิงกลยุทธ์ การปล่อยอันนี้น่าจะชี้ว่ากำลังจะมีการประกาศที่ล้ำหน้ากว่านี้ออกมาเร็ว ๆ นี้

    • แม้ยังไม่ประกาศทันที ก็เป็นกลยุทธ์ที่ฉลาด
      เพราะแรงกดดันจากโมเดล open-weight ประสิทธิภาพสูงอย่าง Qwen สูงมาก
      ถ้าไม่มีสิ่งนี้ เราอาจตกขอบหลายด้านในวงการ
      โอกาสอนาคตด้าน license, support เชิงเทคนิค, เอเจนต์, brand awareness, ส่วนแบ่งตลาด ก็ยังใหญ่อยู่
      การใช้โมเดลแบบถูกทางนี้อาจทำให้ผู้คนเข้าถึง OpenAI ในระดับโมเดลใหญ่ได้ง่ายขึ้น

    • มีแนวโน้มประกาศวันพฤหัส
      ทายวันเปิดตัว GPT-5

    • คาดว่า GPT-5 จะถูกเปิดตัววันนี้พฤหัส

    • ถ้าไม่ปล่อยแบบเปิด ผลักดันมูลค่าของสินค้าแบบชำระเงินเดิมจะหายไป
      แต่มองว่าตอนนี้ยังไม่เคยมีกรณีไหนที่การปล่อย OSS ล่าช้าไปทำให้โมเดลเชิงพาณิชย์เสียหายรุนแรง

    • แถวนี้ 1 สัปดาห์ก่อน ผมเคยมั่นใจอยู่แล้วจากสัญญาณหลายอย่างว่าคงจะถึงเวลา GPT-5 อย่างมาก

  • การเห็นโมเดล 20B ที่เข้าใกล้ประสิทธิภาพระดับ o3 เองก็เป็นประสบการณ์ใหม่
    เมื่อปีที่แล้ว ผมยังคิดว่าโมเดลเล็กที่ฉลาดขนาดนี้แทบเป็นไปไม่ได้
    สิ่งที่ตื่นเต้นกว่านั้นสำหรับผมคือความสามารถในการ distill โมเดลขนาด 100B ให้เป็นขนาดหลักสิบล้าน/ร้อยกว่าล้านพารามิเตอร์
    และย้าย "เวทมนตร์" มาสู่โมเดลเล็กโดยสูญเสียข้อมูลน้อยมาก
    ถ้าจินตนาการได้ว่าเก็บความฉลาดระดับ Claude 4 Opus ไว้ในโมเดล 10B แล้วรันบนเครื่องแบบ local ที่ 2,000 token/s
    วิธีการเขียนซอฟต์แวร์คงเปลี่ยนไปมาก

    • จริง ๆ แล้วไม่ใช่โมเดล 20B ตรง ๆ เพราะเป็น MoE จึงมี active parameter แค่ 3.6B
      และประสิทธิภาพจริงก็ยังไม่ถึงระดับ o3
      เมตริกมักมีช่องว่างกับความเป็นจริง จึงต้องทดสอบเองถึงจะรู้คุณภาพที่แท้จริง

    • 10B x 2,000 t/s ต้องการแบนด์วิธหน่วยความจำราว 20,000 GB/s
      Hardeware ของ Apple ระดับประมาณ 1,000 GB/s เท่านั้น

  • เรื่องอื่นนิดหนึ่ง แต่ผมคิดว่า Ollama เจ๋งมาก
    หาค้นหาโมเดลได้ใน 2 วินาที ดาวน์โหลด 1 นาที แล้วใช้ได้เลย
    ชื่นชมทีมงานมากจริง ๆ

  • ผมรัน gpt-oss:20b เชื่อม claude code แบบ local ด้วย proxy แบน ๆ ร่วมกับ Ollama ได้สำเร็จ
    สนุกดี แต่มันช้ามากเพราะ prefill จนใช้ไม่ได้ในทางปฏิบัติ
    ใช้เวลาประมาณ 2–3 นาทีต่อรอบการเรียก tool และถ้าทำ 10–20 รอบก็ใช้เวลา 30–60 นาที
    ใน server.py (1,000 บรรทัด) มีการกำหนด tool + context ของ Claude ราว 30,000 token และเมื่ออ่านไฟล์เข้าไปอาจพุ่งถึง 50,000 token
    มีพื้นที่ให้ปรับแต่งประสิทธิภาพอีกมาก
    ไม่แน่ใจว่า Ollama มีการรองรับ kv-cache ระหว่างการเรียก /v1/completions หรือไม่ ถ้ามีคงช่วยเรื่องความเร็วได้มาก

    • ผมไม่ค่อยแน่ใจเรื่อง Ollama แต่ llama-server มี transparent kv cache
      รันแบบนี้ได้
      llama-server -hf ggml-org/gpt-oss-20b-GGUF -c 0 -fa --jinja --reasoning-format none
      
      หน้าเว็บ UI คือ localhost:8080 (ให้ API ที่เข้ากันได้กับ OpenAI)