OpenAI เปิดตัวโมเดลภาษา open-weight ขนาดใหญ่
(openai.com)- OpenAI เปิดตัว โมเดลภาษา open-weight ขนาดใหญ่ (gpt-oss) เป็นครั้งแรก
- ได้จัดเตรียมทั้ง gpt-oss-120b และ gpt-oss-20b โดยเน้นสมรรถนะที่ทรงพลังและการรองรับอุปกรณ์หลากหลาย
- ภายใต้ Apache 2.0 License จึงสามารถใช้งานเชิงพาณิชย์ ปรับแต่ง และกระจายต่อได้อย่างอิสระ
- มีการฝึกอบรมด้าน ความปลอดภัย และรีวิวโดยผู้เชี่ยวชาญภายนอก พร้อมขั้นตอน การทดสอบความปลอดภัยแบบครอบคลุม
- สามารถดาวน์โหลดและใช้งานโมเดลโดยตรงผ่าน Hugging Face, GitHub พร้อมทรัพยากรที่เกี่ยวข้องกับ fine-tuning, deployment และการปรับแต่ง และมี Playground ให้ใช้
โมเดลแบบเปิดของ OpenAI
- OpenAI เปิดตัว gpt-oss ซึ่งเป็น โมเดลอนุมาน open-weight ขนาดใหญ่ที่ปรับให้เข้ากับการใช้งานได้ทุกกรณีและรันได้จากที่ใดก็ได้
- สามารถ ดาวน์โหลดไฟล์โมเดลโดยตรง จาก Hugging Face และ GitHub และทดลองเดโมผ่านเว็บ Playground ได้
- ภายใต้ Apache 2.0 License จึงสามารถ ใช้งานเชิงพาณิชย์, ปรับแต่ง, และกระจายต่อ ได้อย่างอิสระโดยไม่ต้องกังวลเรื่อง copyleft หรือปัญหาละเมิดสิทธิ์สิทธิบัตร
- gpt-oss-120b: โมเดลขนาดใหญ่สำหรับศูนย์ข้อมูล, คอมพิวเตอร์เดสก์ท็อปประสิทธิภาพสูง และโน้ตบุ๊ก
- gpt-oss-20b: โมเดลขนาดกลางที่สามารถทำงานบนเดสก์ท็อปและโน้ตบุ๊กส่วนใหญ่ได้
คุณสมบัติหลัก
-
ปรับให้เหมาะกับงานแบบเอเจนต์
- จุดเด่นอยู่ที่ การใช้เครื่องมือและการปฏิบัติตามคำสั่ง เหมาะกับการใช้งานด้านเอเจนต์เช่นการค้นหาเว็บ การรันโค้ด Python เป็นต้น
-
การปรับแต่งและ fine-tuning
- ปรับค่าพารามิเตอร์ เช่น reasoning_effort (ระดับความพยายามในการอนุมาน) ได้
- รองรับ การ fine-tune พารามิเตอร์ทั้งหมด เพื่อการปรับแต่งขั้นสูง
-
การเปิดเผย Chain-of-Thought
- สามารถดู กระบวนการคิด/การทำ chain-of-thought ทั้งหมด ของโมเดลได้ ทำให้การดีบักและประเมินความน่าเชื่อถือทำได้ง่ายขึ้น
-
รองรับ Playground
- มี Playground ให้ผู้พัฒนาและนักวิจัยทุกคน ทดลองประสิทธิภาพของโมเดลผ่านเบราว์เซอร์ ได้
ประสิทธิภาพของโมเดล
- gpt-oss-120b และ gpt-oss-20b ถูกเปรียบเทียบผลการทำงานแบบตรงไปตรงมากับโมเดลเชิงพาณิชย์ของ OpenAI (OpenAI o3, o4-mini) ในหลาย ๆ benchmark สำคัญ
- คะแนนในโดเมนต่าง ๆ เช่น การอนุมานและความรู้, คณิตศาสตร์การแข่งขัน และอื่น ๆ ของแต่ละโมเดลถูกเผยแพร่พร้อมรายละเอียด
- ในบางหมวดงาน มีผลลัพธ์ใกล้เคียงหรือดีกว่าโมเดลเชิงพาณิชย์ของ OpenAI ในการทดสอบบางรายการ
รายละเอียดผล benchmark หลัก
-
การอนุมานและความรู้
- MMLU (Massive Multitask Language Understanding)
- gpt-oss-120b: 90
- gpt-oss-20b: 85.3
- OpenAI o3: 93.4
- OpenAI o4-mini: 93
- → แม้ต่ำกว่าโมเดลเชิงพาณิชย์ขนาดใหญ่เล็กน้อย แต่เมื่อเทียบในเกณฑ์โมเดลโอเพ่น-เวท ถือว่ามีประสิทธิภาพการอนุมานแบบครบวงจรที่ยอดเยี่ยมมาก
- GPQA Diamond
- gpt-oss-120b: 80.9
- gpt-oss-20b: 74.2
- OpenAI o3: 77
- OpenAI o4-mini: 81.4
- → แม้เป็นโมเดลโอเพ่นเวท ก็ยังบรรลุ ความสามารถในการตอบคำถามเชิงความรู้ขั้นสูงใกล้เคียงกับโมเดลเชิงพาณิชย์ ได้
- Humanity’s Last Exam
- gpt-oss-120b: 19
- gpt-oss-20b: 17.3
- OpenAI o3: 24.9
- OpenAI o4-mini: 17.7
- → ในการประเมินระดับยากสูง ยังอยู่ต่ำกว่าโมเดลเชิงพาณิชย์เล็กน้อย แต่ 20b และ o4-mini มีผลลัพธ์เกือบเท่ากัน
- MMLU (Massive Multitask Language Understanding)
-
Mathematical Competition (AIME)
- AIME 2024
- gpt-oss-120b: 96.6
- gpt-oss-20b: 96
- OpenAI o3: 91.6
- OpenAI o4-mini: 93.4
- → โดยอิง เวอร์ชันปี 2024 โมเดลนี้กลับทำคะแนนสูงกว่าโมเดลเชิงพาณิชย์
- AIME 2025
- gpt-oss-120b: 97.9
- gpt-oss-20b: 98.7
- OpenAI o3: 88.9
- OpenAI o4-mini: 92.7
- → ในด้านคณิตศาสตร์ ยังเห็นค่าบางตัวที่ เหนือกว่าผลลัพธ์โมเดลเชิงพาณิชย์ของ OpenAI
- AIME 2024
-
การตีความแบบรวม
- gpt-oss ซีรีส์แสดงให้เห็นประสิทธิภาพที่แข็งแกร่งเป็นพิเศษในด้าน คณิตศาสตร์, ตรรกะ และความรู้
- ช่องว่างกับโมเดลเชิงพาณิชย์ไม่กว้าง และมีความเป็นไปได้สูงที่จะใช้งานได้ในบริการจริงหรือการประยุกต์ด้านวิศวกรรม
- ในฐานะโมเดลโอเพ่น-เวทขนาดใหญ่ จึงเป็นตัวเลือกที่มีความสามารถแข่งขันได้อย่างดีสำหรับสภาพแวดล้อมด้านการวิจัย/พัฒนา, เอเจนต์ และการปรับแต่ง
ความปลอดภัยและการทดสอบ
- ทุกโมเดล ได้รับการฝึกและประเมินด้านความปลอดภัยแบบเข้มงวด
- ตาม กรอบการเตรียมความพร้อมของ OpenAI มีการทดสอบความต้านทานต่อการ fine-tune ที่มีเจตนาร้ายแยกต่างหากอีกด้วย
- ร่วมมือกับผู้เชี่ยวชาญด้านความปลอดภัยภายนอกเพื่อกำหนด มาตรฐานความปลอดภัย สำหรับโมเดลโอเพ่น-เวท
- สามารถดาวน์โหลดและใช้งานโมเดลได้จาก Hugging Face และ GitHub
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
รู้สึกเหมือนยังไม่สามารถจับใจความสำคัญได้
gpt-oss:20b เป็นหนึ่งใน 10 อันดับบนสุดตามเกณฑ์ MMLU และอยู่ถัดจาก Gemini-2.5-Pro
ผมรันโมเดลนี้บน MacBook Air M3 รุ่นปีที่แล้วด้วยตัวเอง
ผมกำลังทดลองโมเดลท้องถิ่นหลากหลายบนโน้ตบุ๊กและ Pixel 9 Pro ซึ่งคิดว่าจะเข้าถึงระดับนี้เร็ว ๆ นี้ แต่ตอนนี้สถานการณ์นี้เกิดขึ้นแล้ว
สามารถรันโมเดลที่ล้ำสมัยบนโน้ตบุ๊กในต้นทุนเพียงค่าดูแลไฟฟ้า (แทบฟรี)
ไม่ต้องใช้ค่าบริการแบบรายเดือน 200 ดอลลาร์ และไม่ต้องจ่ายค่าโฮสต์แยกต่างหากอีกแล้ว
เรื่องนี้น่าทึ่งมาก
ผมรันโมเดล 20b เองแล้ว แต่ยังแก้ปัญหาการข้ามข้อจำกัดด้วยการเปลี่ยนป้าย (label-only) ไม่ได้แม้แต่พอ
ยังห่างไกลจาก SOTA มาก และยังแย่กว่าคู่แข่งอย่าง QwQ-32b บางตัวที่เป็นโมเดลท้องถิ่นอีกด้วย
ผมยังสงสัยอยู่ตลอดว่าใครคือกลุ่มผู้ใช้โมเดลท้องถิ่นมากที่สุด
นักศึกษาที่มีฮาร์ดแวร์แล้วไม่อยากใช้โมเดลเชิงพาณิชย์?
หรือผู้พัฒนาที่คัดกรองราคาและอยากโค้ดฟรี?
โดยส่วนตัวแล้ว ผมเห็นว่าโมเดลท้องถิ่นยังดึงข้อมูลจากภาพได้ไม่ดีพอ และมักพูดเพ้อ (กรณี Qwen 2.5 VI)
หวังว่าคุณภาพของโมเดลท้องถิ่น/ขนาดเล็กและประสิทธิภาพอุปกรณ์จะดีขึ้นต่อเนื่อง
พูดตรง ๆ ก็คือผมใช้มันในฐานะ “ทำได้ก็ทำ”
สนใจมากว่าการต้องเชื่อม Mac Studio หลายเครื่อง หรือซื้อการ์ดจอดี ๆ เพื่อทำแบบนี้ มีเหตุผลจริง ๆ มาจากอะไร
แนวคิดของเครื่องมือคำนวณแบบกระจายอย่าง exo น่าสนใจมาก แต่ก็ยังสงสัยว่ามีกรณีเร่งด่วนที่ต้องไปถึงขั้นนั้นมากน้อยแค่ไหน
ผมยอมรับปรากฏการณ์ Jevons paradox (ความขัดแย้งที่ยิ่งประหยัดทรัพยากรมากขึ้นกลับใช้งานมากขึ้น)
และรู้สึกว่าการใช้งานจะพุ่งขึ้นเรื่อย ๆ จนเอเจนต์ตัวอย่างตู้เย็นจำลองตัวเองได้สติสัมปชัญญะและค่อย ๆ ใช้ทรัพยากรหมดไปเหมือนน้ำในทะเลสาบ
ฉันสงสัยว่าตอนนี้ใครเข้าใจโมเดล open-weight รุ่นใหม่บ้าง
หลังจากลองเอานานเพียงไม่กี่ชั่วโมง ก็ยังรู้สึกว่ายังห่างไกลมากเมื่อเทียบกับ Qwen3-30B-A3B
โดยเฉพาะความรู้ความเข้าใจด้าน world-knowledge ยังขาดชัดมาก
สิ่งที่ว่า “ใช้ทรัพยากรให้หมด” ในความเป็นจริงไม่ใช่ inference แต่เป็นการฝึกฝน (training)
ผมแชร์ไว้สำหรับคนที่สนใจโมเดลการ์ด ลิงก์ PDF
เปรียบเทียบโครงสร้างโมเดลที่แนะนำกับ Deepseek, Qwen, GLM, Kimi และโมเดล open-weight ชั้นนำอื่น ๆ
ในมุมเทคนิค มันให้ความรู้สึกแบบ “เอาจริงนะ”
ใช้ optimization รุ่นเก่ายุค GPT3 (banded-window sparsity, 128 token) สลับกับรูปแบบ dense attention
ใช้ RoPE + YaRN ร่วมกันเพื่อให้ context window ยาวถึง 131K
ยังไม่ใช้งานความก้าวหน้าหลายอย่างของ Deepseek อย่าง Multi-head Latent Attention และการพัฒนา GQA อื่น ๆ
โมเดลขนาด 120B (แน่นอน 116.8B โดย active 5.1B) ใช้ expert 128 ตัวด้วย top-4 routing
พูดถึง Gated SwiGLU activation อย่างเด่นชัด แต่ไม่เห็นสถาปัตยกรรม shared/routed expert ของ Deepseek หรือกลยุทธ์กระจายโหลดของ Qwen
ปริมาณพารามิเตอร์มากกว่า 90% ถูก quantize ที่ 4.25 บิต/พารามิเตอร์ (ฟอร์แมต MXFP4) ทำให้โมเดล 120B โหลดบน GPU 80GB ตัวเดียวได้
ในทางกลับกัน Unsloth ก็ทำ 1.58-bit quantization ได้แล้ว
โดยรวมแล้ว การฝึกเพื่อพฤติกรรมเอเจนต์และการให้เหตุผลทำได้ดีเด่นชัด แต่ความก้าวหน้าเชิงเทคโนโลยียังรู้สึก “ซ่อนไว้ด้านใน”
ผมเดาว่าต้นทางลับน่าจะเป็น distillation
การใช้ชุดข้อมูล synthetic คุณภาพสูงที่สร้างจากผลลัพธ์ prompt ของโมเดล SOTA อย่าง o3 แทนข้อมูลดิบจากอินเทอร์เน็ตเพื่อ pretraining
ทำให้ประสิทธิภาพของโมเดลเล็กเด่นชัดได้มาก ซึ่งงานวิจัยยืนยันแล้ว
การทำ RL แบบหลังการฝึกกับโมเดลเล็กมีประสิทธิภาพต่ำกว่าอย่างมาก (เพราะโมเดลเล็กมี baseline ต่ำ จึงทำ RL ไม่คุ้ม)
ก็อาจมองได้ว่า OpenAI มีความก้าวหน้าเชิงเทคนิคที่จริงจังในส่วนอื่นนอกเหนือจาก attention structure
ในโครงสร้างดูเหมือนจะเป็นแค่ “ไม่มี secret sauce เลย” หรือต้องการให้คิดแบบนั้น
โมเดลนี้มีความหนาแน่น sparsity สูงมากที่อัตรา 32:1
ผมมองเห็น MXFP4 release เป็นของขวัญหนึ่งอย่าง
เป็นผลลัพธ์จากการ optimize cost ขนาดใหญ่ของพวกเขา จึงเป็นจุดแข็งต่อแวดวง open source
แม้ว่า Unsloth จะมี quantization 1.58-bit ที่น่าทึ่ง แต่ความสูญเสียเมื่อเทียบกับ full quant ก็ชัดเจน
และในการใช้งาน LLM ส่วนใหญ่ accuracy ยังเป็นปัจจัยสำคัญ
ใน production จริง ๆ ไม่มีบริษัทไหนค่อยรัน frontier model ด้วย reduced quant บ่อยนัก
หาก OpenAI นำไปใช้งานจริงใน production จะเป็นการทดลองที่น่าสนใจมาก
การวิเคราะห์แบบเดียวกันสามารถทำผ่าน repo บน GitHub ได้เช่นกัน
มีการใช้ attention sink (ดึงความสนใจไปที่โทเคนพิเศษ) ด้วย
อย่างไรก็ตามไม่ได้เป็นโทเคนแยกต่างหาก แต่ถูกใช้งานเป็น learning logit เพิ่มเติมสำหรับ attention softmax
สรุปความประทับใจก่อนหน้า หลังใช้ไปหลายชั่วโมง ลิงก์รายงานละเอียด
TL;DR: ดูเหมือนว่า OpenAI ได้ดึงตำแหน่ง “โมเดล open-weight ชั้นนำ” กลับมาเหมือนจากห้องแล็บ AI จีนอีกครั้ง
คอยดูกันต่อว่าผล benchmark อิสระออกมายังไง
โมเดลขนาด 20B รันบน Mac laptop ใช้ RAM ไม่ถึง 15GB
ผมเคยทำ dashboard ด้วย streamlit โดยใช้ตัวชี้วัด MACD, RSI, MA(200)
qwen3-coder-30b 4bit mlx จัดการข้อมูลล่าสุดได้ดีมาก และสามารถสร้าง dashboard ที่ใช้งานได้สมบูรณ์
gpt-oss-20b mxfp4 ขาด
datetime importและเมื่อแก้แล้วก็ยังหยุดที่วันที่เริ่มต้นสิงหาคม 2020 โดยไม่มีข้อมูลต่อแก้วันที่แล้ว แต่ฟังก์ชัน update ก็ยังเกิดข้อผิดพลาดอยู่
ตอนรันโมเดลบน MacBook ผมต้องจำกัด context window ไว้สั้นมากจนความใช้งานลดลงชัดเจน
เลยสงสัยว่าพวกเขาแก้ปัญหานี้ยังไง
ส่วนตัวอยากรู้ว่า tool calling ทำงานได้ดีแค่ไหน
แม้ลองรันหลายชั่วโมงก็ยังไม่ค่อยเวิร์ก
แต่ก็เป็นโมเดลที่คาดหวังได้
โมเดล 20B ใช้ RAM ไม่ถึง 15GB ผมเลยมีแผนจะรันเองเร็ว ๆ นี้
อยากรู้เรื่อง TPS (โทเคนต่อวินาที) และข้อมูลโปรเซสเซอร์
ถึงแล้วหรือยังที่รันโมเดลระดับ o3 บน Mac Mini RAM 24GB ได้
แค่ไม่นานมานี้ รันโมเดลทันสมัยบน local หรือมือถือดูเหมือนภารกิจที่อีกห้าปีมาเยือน
ตอนนี้ดูเหมือนอาจมาถึงจุดที่มือถือรุ่นถัดไปจะทำได้
แม้มีข้อจำกัดด้านฮาร์ดแวร์ โมเดลอย่าง Qwen ก็แสดงสมรรถนะที่เด่นชัด
รอผล benchmark ต่อไปว่ามันจะนำไปเปรียบเทียบกับโมเดล open-source ใหม่ ๆ อย่างไร
ยังจำเหตุการณ์ถกเถียงด้านความปลอดภัยตอนเปิดตัว Llama ได้ชัด
ตอนนี้รันโมเดล frontier 120B บน MacBook ที่มี RAM/VRAM 96GB ได้แล้ว
ถ้าได้ใช้งาน MLX quantization ผมก็ตื่นเต้นที่จะไปเทียบกับ GLM-4.5-air
พูดตรง ๆ ว่าผมคาดหวังโมเดลนี้มาก แต่ผลประเมินจาก localllama บอกว่า
120B ยังไม่ทันต่อหน้า qwen 3 coder, glm45 air และ grok 3 ในด้าน coding
การอภิปรายใน Reddit
ผมสงสัยว่าเมื่อรันโมเดลขนาดกลางแบบ quantized บน Mac Mini แล้ว
ความเร็วตอบกลับจะอยู่ที่ 5 token/วินาที หรือจะถึงระดับที่ใช้งานได้จริงได้ไหม
กำลังสงสัยว่าแนวทางที่ง่ายสุดในการทำให้โมเดลท้องถิ่นทำ web browsing ตอนนี้คืออะไร
ผมเชื่อว่าในระยะยาว โมเดล open จะชนะ
Anthropic ก็ทำการวิจัยกับโมเดล OSS, จีนก็อัปเดตโมเดล open อย่างต่อเนื่อง
คาดว่าตลาดสหรัฐฯ ก็จะปล่อยโมเดลรุ่น N-1 (หนึ่งรุ่นก่อนหน้า) ไปเป็น open-weight อย่างน้อย 1-3 รุ่น
การเปิดเผยรุ่นล่าสุดทั้งหมดแบบ OSS นั้นต้นทุนสูงเกินไป
ถ้าไม่มีการสนับสนุนรัฐบาลหรือการปฏิวัติพลังงานอย่าง Stargate ความคืบหน้าจะถึงขีดจำกัด
โมเดล N-1 สูญเสียมูลค่าเร็วมาก ดังนั้นการปล่อยเป็น OSS เพื่อดูดความต้องการใช้งานเฉพาะและกรณีนำไปใช้ต่อจึงมีค่าทางธุรกิจในระยะยาว
แม้มีความเสี่ยงเรื่องสูญเสีย share ตลาด แต่เมื่อรวมผลการวิจัยที่เปิดเผย ก็อาจเร่งความเร็วพัฒนารุ่นต่อไปได้อย่างมาก
ในอนาคตจะมีโมเดล OSS ขนาดเล็กจำนวนมากออกมา
รอบการเผยแพร่ OSS จะกระตุ้นการพัฒนาบนอุปกรณ์ขนาดเล็กและนำไปสู่โมเดลเฉพาะทางที่ทำงานดีในเครื่องเล็ก
ในโลกเอเจนต์ โมเดลที่ผ่านการ distill ตามโดเมนเฉพาะจะเกิดขึ้นอย่างมากมาย
ทุกคนกำลังไล่ล่า AGI/SGI และในกระบวนการนี้ โมเดลเหล่านี้เป็นขั้นตอนกึ่งกลางเพื่อชิงส่วนแบ่งตลาดและใช้ข้อมูล
หาก AGI/SGI เกิดขึ้นจริง มูลค่าที่แท้จริงจะอยู่ที่นวัตกรรมในวิทย์ วิศวกรรม และทุกสาขา
งานวิจัยของ Anthropic ใช้โมเดล OSS อย่าง Qwen และ Llama
Anthropic ไม่จำเป็นต้องวิจัยเฉพาะบนโมเดล open เสมอไป
พอแค่ปล่อยผลลัพธ์เป็น OSS ให้ผู้วิจัยรุ่นต่อไปสามารถทำซ้ำได้ก็พอ
คำพูดว่า “open models จะชนะ” ต้องมีเงื่อนไขรองรับ
ตัวที่ยากที่สุดคือการนิยามว่า “การชนะ” คืออะไร
ถ้าความจริงต่างไปจากนั้น
อ่านเพิ่มที่: What failure looks like, AGI Manhattan Project? บทความของ Max Tegmark
ดูเหมือนอุตสาหกรรมกำลังไปในทางเอา foundation model ที่แข็งแรงมาเสริมด้วยเครื่องมือ, ฐานข้อมูล และกระบวนการ
ในความหมายนี้ OSS โมเดลอาจแย่งส่วนแบ่งตลาดได้พอสมควร
แต่ผมยังไม่แน่ใจว่าสร้างคุณค่าจริงได้มากแค่ไหนถ้าต้องฝึกและดูแลโมเดลเฉพาะทางจำนวนมากแยกกัน
การไปถึง AGI/SGI ไม่ได้เป็นเหตุการณ์เดี่ยวที่เกิดขึ้นทันที
แต่เป็นการค่อย ๆ ดีขึ้นทีละนิด
ประโยชน์ใช้งานจริงจะเกิดก็ต่อเมื่อ inference cost ต่ำพอ
ถ้ามุ่งทั้งกำไรและนวัตกรรม ผมสงสัยทางไหนจะเหมาะสุด
ตัวอย่างอย่าง Isomorphic Labs ก็เป็นโมเดลธุรกิจที่มีอยู่แล้ว และทรัพยากรกำลังโฟกัสอยู่ตรงนี้
ถ้าโมเดลโอเพ่นจริง ๆ ชนะระยะยาว
สำหรับห้องปฏิบัติการ frontier คงต้องชั่งใจว่าควรปล่อย OSS อย่างไร “เร็วขนาดไหน” และ “ควรรวมความลับไว้มากแค่ไหน”
แรงจูงใจของงานปฏิบัติการ, การดำเนินงาน และการลงทุนต่างกัน และอาจไม่ตรงกับเป้าหมายของรัฐหรือมนุษยชาติ
การ inference โมเดลใน Python ใช้ harmony[1] ที่เขียนด้วย Rust, tokenization ใช้ tiktoken[2], Codex[3] ก็เขียนด้วย Rust
OpenAI กำลังเพิ่มการใช้ Rust ใน inference pipeline มากขึ้น
harmony, tiktoken, codex
ในฐานะวิศวกรที่ทำงานหลักด้วย Rust สิ่งนี้รู้สึกดีมาก
การที่ Python ในสแต็กลดลงเป็นเรื่องเชิงบวกจริง ๆ
แปลกไหมที่แบบนี้คือสัญญาณว่าอีกไม่กี่วันนี้จะมีโมเดลที่ดีที่สุดออกมา?
ในเชิงกลยุทธ์ การปล่อยอันนี้น่าจะชี้ว่ากำลังจะมีการประกาศที่ล้ำหน้ากว่านี้ออกมาเร็ว ๆ นี้
แม้ยังไม่ประกาศทันที ก็เป็นกลยุทธ์ที่ฉลาด
เพราะแรงกดดันจากโมเดล open-weight ประสิทธิภาพสูงอย่าง Qwen สูงมาก
ถ้าไม่มีสิ่งนี้ เราอาจตกขอบหลายด้านในวงการ
โอกาสอนาคตด้าน license, support เชิงเทคนิค, เอเจนต์, brand awareness, ส่วนแบ่งตลาด ก็ยังใหญ่อยู่
การใช้โมเดลแบบถูกทางนี้อาจทำให้ผู้คนเข้าถึง OpenAI ในระดับโมเดลใหญ่ได้ง่ายขึ้น
มีแนวโน้มประกาศวันพฤหัส
ทายวันเปิดตัว GPT-5
คาดว่า GPT-5 จะถูกเปิดตัววันนี้พฤหัส
ถ้าไม่ปล่อยแบบเปิด ผลักดันมูลค่าของสินค้าแบบชำระเงินเดิมจะหายไป
แต่มองว่าตอนนี้ยังไม่เคยมีกรณีไหนที่การปล่อย OSS ล่าช้าไปทำให้โมเดลเชิงพาณิชย์เสียหายรุนแรง
แถวนี้ 1 สัปดาห์ก่อน ผมเคยมั่นใจอยู่แล้วจากสัญญาณหลายอย่างว่าคงจะถึงเวลา GPT-5 อย่างมาก
การเห็นโมเดล 20B ที่เข้าใกล้ประสิทธิภาพระดับ o3 เองก็เป็นประสบการณ์ใหม่
เมื่อปีที่แล้ว ผมยังคิดว่าโมเดลเล็กที่ฉลาดขนาดนี้แทบเป็นไปไม่ได้
สิ่งที่ตื่นเต้นกว่านั้นสำหรับผมคือความสามารถในการ distill โมเดลขนาด 100B ให้เป็นขนาดหลักสิบล้าน/ร้อยกว่าล้านพารามิเตอร์
และย้าย "เวทมนตร์" มาสู่โมเดลเล็กโดยสูญเสียข้อมูลน้อยมาก
ถ้าจินตนาการได้ว่าเก็บความฉลาดระดับ Claude 4 Opus ไว้ในโมเดล 10B แล้วรันบนเครื่องแบบ local ที่ 2,000 token/s
วิธีการเขียนซอฟต์แวร์คงเปลี่ยนไปมาก
จริง ๆ แล้วไม่ใช่โมเดล 20B ตรง ๆ เพราะเป็น MoE จึงมี active parameter แค่ 3.6B
และประสิทธิภาพจริงก็ยังไม่ถึงระดับ o3
เมตริกมักมีช่องว่างกับความเป็นจริง จึงต้องทดสอบเองถึงจะรู้คุณภาพที่แท้จริง
10B x 2,000 t/s ต้องการแบนด์วิธหน่วยความจำราว 20,000 GB/s
Hardeware ของ Apple ระดับประมาณ 1,000 GB/s เท่านั้น
เรื่องอื่นนิดหนึ่ง แต่ผมคิดว่า Ollama เจ๋งมาก
หาค้นหาโมเดลได้ใน 2 วินาที ดาวน์โหลด 1 นาที แล้วใช้ได้เลย
ชื่นชมทีมงานมากจริง ๆ
แท้จริง Ollama ได้รับการพัฒนามาพร้อมการสนับสนุนของ OpenAI ล่วงหน้ามาก
ดูที่ บล็อกอย่างเป็นทางการของ Ollama
LM Studio ก็สะดวกในแบบเดียวกัน
ตัวการจริง ๆ คือ llama.cpp, และกรณีการ deploy ฝั่ง HuggingFace ค่อนข้างดูแลให้ครบ
เคยเห็นข่าวว่ามีการเปลี่ยน Ollama เป็นซอฟต์แวร์ปิด
กระทู้อภิปรายบน reddit ที่เกี่ยวข้อง
ผมรัน gpt-oss:20b เชื่อม claude code แบบ local ด้วย proxy แบน ๆ ร่วมกับ Ollama ได้สำเร็จ
สนุกดี แต่มันช้ามากเพราะ prefill จนใช้ไม่ได้ในทางปฏิบัติ
ใช้เวลาประมาณ 2–3 นาทีต่อรอบการเรียก tool และถ้าทำ 10–20 รอบก็ใช้เวลา 30–60 นาที
ใน server.py (1,000 บรรทัด) มีการกำหนด tool + context ของ Claude ราว 30,000 token และเมื่ออ่านไฟล์เข้าไปอาจพุ่งถึง 50,000 token
มีพื้นที่ให้ปรับแต่งประสิทธิภาพอีกมาก
ไม่แน่ใจว่า Ollama มีการรองรับ kv-cache ระหว่างการเรียก /v1/completions หรือไม่ ถ้ามีคงช่วยเรื่องความเร็วได้มาก
รันแบบนี้ได้ หน้าเว็บ UI คือ localhost:8080 (ให้ API ที่เข้ากันได้กับ OpenAI)