4 คะแนน โดย GN⁺ 2025-09-21 | 2 ความคิดเห็น | แชร์ทาง WhatsApp
  • Grok 4 Fast ที่ xAI เปิดตัว เป็นโมเดลให้เหตุผลรุ่นถัดไปที่ต่อยอดจากผลลัพธ์การฝึกของ Grok 4 เดิม โดยมุ่งเพิ่ม ความคุ้มค่าด้านต้นทุนและความเร็ว ให้สูงสุด
  • โมเดลนี้มาพร้อม หน้าต่างคอนเท็กซ์ 2M โทเค็น, ความสามารถค้นหาเว็บและ X รวมถึง สถาปัตยกรรมแบบรวม reasoning / non-reasoning ทำให้เหมาะกับการใช้งานแบบเรียลไทม์
  • ในเบนช์มาร์กให้ประสิทธิภาพใกล้เคียงกับ Grok 4 แต่ใช้โทเค็นน้อยลงเฉลี่ย 40% จึงบรรลุประสิทธิภาพระดับเดียวกันได้ด้วยต้นทุนที่ต่ำกว่ามาก
  • นอกจากนี้ยังแสดงประสิทธิภาพสูงในการรันโค้ด การท่องเว็บ และงานอื่น ๆ ผ่าน การเรียนรู้แบบเสริมกำลังสำหรับการใช้เครื่องมือ และครองอันดับ 1 ใน LMArena Search Arena

ความก้าวหน้าของปัญญาที่คุ้มค่าต้นทุน

  • Grok 4 Fast ให้ประสิทธิภาพเหนือกว่า Grok 3 Mini พร้อมลดต้นทุนโทเค็นลงอย่างมาก
    • โดยเฉลี่ยใช้ 'Thinking Tokens' น้อยกว่า Grok 4 40% แต่ให้ประสิทธิภาพใกล้เคียงกัน
    • ตัวอย่างคะแนนเบนช์มาร์ก (pass@1):
      • Grok 4 Fast: 85.7%, 92.0%, 93.3%, 20.0%, 80.0%
      • ให้ผลลัพธ์ระดับเดียวกันหรือดีกว่าเมื่อเทียบกับโมเดลคู่แข่ง (เช่น GPT-5)
  • แสดงผลงานใกล้เคียง Grok 4 ใน เบนช์มาร์กการให้เหตุผล หลากหลายรายการ เช่น GPQA, AIME, HMMT และ LiveCodeBench
  • พร้อมกับการปรับปรุงประสิทธิภาพการใช้โทเค็นของ Grok 4 Fast ขึ้น 40% ยังลดราคาต่อโทเค็นลงอย่างมาก
  • เมื่อเทียบที่ระดับประสิทธิภาพเท่ากัน ราคาลดลง 98% จาก Grok 4 ทำสถิติเป็น 'อัตราส่วนราคา-ต่อ-ความฉลาดที่ดีที่สุด (SOTA Price-to-Intelligence Ratio)' ในบรรดาโมเดลที่เปิดเผยสู่สาธารณะ
    • ได้รับการยืนยันผลการประเมิน ที่โดดเด่น จากหน่วยงานอิสระ Artificial Analysis Intelligence Index

การใช้เครื่องมือแบบเนทีฟและการค้นหาระดับ SOTA

  • ฝึกด้วย การเรียนรู้แบบเสริมกำลังสำหรับการใช้เครื่องมือ (RL) ทำให้สามารถรันโค้ดหรือท่องเว็บโดยอัตโนมัติเมื่อจำเป็น
  • สามารถค้นหาเว็บและ X แบบเรียลไทม์ รองรับการค้นหาแบบหลายฮอปและสื่ออย่างภาพและวิดีโอ ด้วย ความสามารถด้าน agentic search
  • ทำผลงานเหนือกว่า Grok 4 ในเบนช์มาร์กหลายรายการ เช่น BrowseComp, SimpleQA และ X Bench Deepsearch(zh)

ผลลัพธ์ของ post-training ในโดเมนทั่วไป

  • ใน Search Arena ของ LMArena, Grok 4 Fast(menlo) ครองอันดับ 1 ด้วย Elo 1163 นำหน้าโมเดลคู่แข่งอยู่ 17 คะแนน
  • ใน Text Arena, grok-4-fast (โค้ดเนม tahoe) อยู่อันดับ 8 และโดดเด่นอย่างทิ้งห่างเมื่อเทียบกับโมเดลระดับเดียวกันอื่น ๆ (อันดับ 18 หรือต่ำกว่า)
  • แสดงประสิทธิภาพในการค้นหาและงานข้อความจริงได้คุ้มค่ากว่าโมเดลขนาดใหญ่

โมเดลแบบรวม Reasoning และ Non-Reasoning

  • รวมโหมด reasoning / non-reasoning ที่เดิมต้องใช้คนละโมเดล ให้มาอยู่ใน สถาปัตยกรรมเดียว
    • สลับโหมด reasoning (คิดเชิงลึก) และ non-reasoning (ตอบเร็ว) ได้ด้วย system prompt เพียงอย่างเดียว
    • เหมาะกับ แอปพลิเคชันเรียลไทม์ เพราะช่วยลดทั้ง latency แบบ end-to-end และต้นทุนโทเค็น
  • ใน xAI API นักพัฒนาสามารถปรับระดับความเร็ว/ความลึกได้อย่างละเอียด

การเปิดให้ใช้งานและนโยบายราคา

  • Grok 4 Fast พร้อมใช้งานทันที และเปิดให้ใช้ ฟรีชั่วคราว บน OpenRouter และ Vercel AI Gateway
  • ใน xAI API ก็มีให้เลือกสองเวอร์ชันคือ grok-4-fast-reasoning และ grok-4-fast-non-reasoning พร้อมรองรับ หน้าต่างคอนเท็กซ์ 2M โทเค็น
  • ราคาเริ่มต้นที่โทเค็นขาเข้า $0.20/1M และโทเค็นขาออก $0.50/1M โดย หากเกิน 128k โทเค็น จะคิดค่าบริการ 2 เท่า
  • โทเค็นขาเข้าที่แคชไว้คิดราคา $0.05/1M ช่วยลดต้นทุนได้

แผนในอนาคต

  • มีแผนปรับปรุงโมเดลอย่างต่อเนื่องโดยสะท้อนจากฟีดแบ็กของผู้ใช้
  • ความสามารถมัลติโหมด และ การเสริมคุณสมบัติแบบ agentic คือเป้าหมายหลักของการอัปเดตครั้งถัดไป
  • สามารถดูโมเดลการ์ดและรายละเอียดเพิ่มเติมได้ที่ Grok 4 Fast model card (PDF)

2 ความคิดเห็น

 
kuber 2025-09-21

ดูเหมือนว่าจะแพงกว่าและช้ากว่า gpt-oss แต่ก็สงสัยว่าทำไมคนถึงใช้กันเยอะขนาดนี้..

 
GN⁺ 2025-09-21
ความเห็นจาก Hacker News
  • ต่อให้จ่ายเงินให้ก็ไม่อยากใช้ผลิตภัณฑ์ของ Musk โดยเฉพาะถ้าเป็นสิ่งที่มีหน้าที่กรอง·แปลง·สังเคราะห์ข้อมูล อาจจะมีประโยชน์ก็จริง แต่ไม่น่าเชื่อถือ และไม่อยากช่วยให้ Musk สะสมความมั่งคั่งเพิ่มขึ้นอีก
    • ต่อให้ไม่ได้มีความรู้สึกแย่กับตัว Musk เป็นการส่วนตัว ก็เห็นมาหลายครั้งแล้วว่าเขาเข้าไปแทรกแซงวิธีการทำงานของ Grok โดยตรงเพื่อให้มันให้ผลลัพธ์ที่สอดคล้องกับอุดมการณ์ของตัวเอง ถ้าเป็นแบบนี้ก็คิดว่าใช้ผลิตภัณฑ์นี้ไม่ได้ บางคนอาจเห็นด้วยกับความคิดของ Musk แต่คุณค่าของผลิตภัณฑ์ AI อยู่ที่การใช้ข้อมูลและอัลกอริทึมที่หลากหลายเพื่อสร้างคำตอบ ไม่เห็นว่าการผลิตซ้ำแค่ความเห็นของคนคนเดียวจะมีความหมายอะไร
    • ได้ยินมาว่า Grok ค้นหาความเห็นของ Musk บน Twitter ก่อนจะตอบ อยากรู้ว่านี่เป็นกับ Grok ทุกเวอร์ชัน หรือเกิดเฉพาะเวอร์ชันที่ฝังอยู่ใน Twitter เท่านั้น
    • มีทางเลือกเยอะมากจนคิดว่าไม่มีเหตุผลอะไรเลยที่จะต้องใช้ Grok
    • มีกรณีที่ Musk ไปแตะ Grok เองเพราะบอกว่าไม่มีโฆษณาชวนเชื่อของ Fox News เกี่ยวกับการลอบสังหาร Kirk ออกมา กรณี1 และเรื่องแบบนี้เกิดขึ้นมาหลายครั้งแล้ว บทความ NYT Grok เป็นเทคโนโลยีที่มีข้อถกเถียงเรื่องโฆษณาชวนเชื่อ การพูดถึงมันราวกับเป็นบริการเทคโนโลยีทั่วไปจึงไม่สมเหตุสมผลเลย
  • ชื่อโมเดลคือ "Fast" แต่สงสัยว่าทำไมถึงไม่เปิดเผยความเร็วในการประมวลผลโทเคน หมายถึงอย่างอื่นที่ไม่ใช่ความเร็วหรือเปล่า หรือว่าค่ามันผันผวนมาก
    • คิดว่าโดยสาระแล้วมันก็แค่ “grok 4 mini” ถ้าตั้งว่า ‘mini’ คนอาจไม่ค่อยใช้ เลยตั้งชื่อว่า ‘fast’ เพราะแบบนั้นทำให้คนมีเหตุผลจะเลือกใช้มากกว่า
    • ตาม OpenRouter ตอนนี้อยู่ที่ราว 160 โทเคนต่อวินาที ที่มา
    • ดูเหมือนจะวางตำแหน่งว่าเร็วโดยเน้น ‘ประสิทธิภาพของโทเคน’ คือใช้โทเคนน้อยลงแล้วให้ผลลัพธ์ได้เร็วขึ้น
  • Grok 4 อยู่ในอันดับต้น ๆ ของ NYT Connections Extended leaderboard ลิงก์
    • ช่วงหลังรู้สึกว่า Sonoma sky Alpha ที่ได้รับฟีดแบ็กบน OpenRouter อาจจะเป็นโมเดลนี้ก็ได้ ลองใช้ไปเยอะเพราะฟรี แต่ก็มีความเห็นว่าอาจไม่ใช่ เพราะรู้สึกว่าแย่กว่า grok 4 เดิม
  • ช่วงนี้ใช้โมเดล grok-code-fast-1 บ่อยมาก แต่เสียดายที่ไม่มีการพูดถึงในผลิตภัณฑ์ใหม่รอบนี้ เลยหวังว่าอาจจะมีเวอร์ชันที่ดีกว่า grok-code-fast-1 อาจด้อยกว่า Gemini 2.5 Pro นิดหน่อย แต่ถ้าวัดด้านความเร็วในการวนซ้ำแล้วถือว่ายอดเยี่ยมที่สุด
    • ถึงจะเป็นโมเดลที่ค่อนข้างเรียบง่าย แต่จากประสบการณ์ใช้งานของฉันมันดีกว่า somnet
  • ไม่เข้าใจว่าทำไมเวอร์ชันที่เร็วกว่าแต่ช้ากว่าน้อยกว่าถึงทำคะแนนดีกว่าในหลายเบนช์มาร์ก สงสัยว่าแค่ฝึกกับข้อสอบเบนช์มาร์กซ้ำ ๆ หรือเปล่า
    • ไม่ได้เหนือกว่าในทุกเบนช์มาร์ก Grok 4 Fast ด้อยกว่า Grok 4 ในโดเมนที่อิงข้อเท็จจริงจำนวนมากอย่าง GPQA Diamond, HLE เป็นต้น โมเดลใหญ่กว่า (=ช้ากว่า) จะดีกว่าในด้านนี้ ส่วนเบนช์มาร์กที่เน้นการให้เหตุผลหรือการใช้เครื่องมือจะพึ่งความสามารถในการสลับโทเคนเป็นหลัก ทำให้โมเดลที่เล็กและเร็วก็ยังแข่งขันได้ น่าจะมีการปรับข้อมูลฝึกให้เน้นบางงานมากกว่าเดิม และผลลัพธ์จริงก็ดูเหมือนเลือกเอาเบนช์มาร์กแบบนั้นมาทำการตลาด ในทางกลับกันก็น่าจะทำ ‘เอกสารการตลาดฝั่งตรงข้าม’ ที่คัดเฉพาะเบนช์มาร์กด้านการจำข้อเท็จจริงมาเน้นว่าประสิทธิภาพต่ำได้เหมือนกัน
    • ในเชิงเทคนิคอาจต่างกันได้จากการเปลี่ยนโครงสร้างหลายแบบ ข้อมูลที่มากขึ้น, RL ฯลฯ ช่วงหลังแนวโน้มคือมันนำหน้าโมเดลเปิดอย่างชัดเจนมากเมื่อเทียบด้านการใช้ RL
    • จริง ๆ แล้วเป็นแค่สองโมเดลที่ชื่อคล้ายกัน ความสัมพันธ์ไม่ได้เป็นแบบ Grok 4 Fast คือเวอร์ชันที่เร็วขึ้นของ Grok 4 แต่เป็นคนละอย่างกันโดยสิ้นเชิง คล้ายความสัมพันธ์ระหว่าง gpt-4 กับ gpt-4o
    • มีความเป็นไปได้สูงว่า Grok 4 Fast คือเวอร์ชันของ Grok 4 ที่ตัดส่วนที่แทบไม่ถูกใช้ในสภาพแวดล้อมการผลิตจริงออกไป เพื่อให้เบาและโฟกัสมากขึ้น ดังนั้นโครงสร้างเชิงตรรกะหลักอาจยังเหมือนเดิม แต่ให้ประสิทธิภาพสูงขึ้นเพราะมุ่งไปที่วัตถุประสงค์เฉพาะมากกว่า
  • ตอนนี้โมเดลขนาดใหญ่ทั้งหลายกำลังถูกฝึกด้วยขนาดที่ใกล้เคียงกันและข้อมูลคล้าย ๆ กัน ต่างกันแค่นโยบายราคา… ส่วน grok ดูเหมือนจะมีจุดเด่นที่การถอดฟิลเตอร์หรือกลไกป้องกันออก และตัวเบนช์มาร์กเองก็มีส่วนที่ flawed และถูกปั่นแต่งได้ง่ายมาก ซึ่งเป็นเรื่องที่คนในวงการรู้กันดี
  • ประสิทธิภาพบนเบนช์มาร์กเมื่อเทียบกับราคาดูน่าสนใจ อยากรู้ว่าในการทดสอบกับผู้ใช้จริงจะเป็นอย่างไร
    • ถ้านี่คือ sonoma-dusk ที่เคยปล่อยพรีวิวบน openrouter มาก่อน มันก็ใช้ได้ดีทีเดียว ฉันทดสอบมันกับงาน reverse engineering โค้ด ความเร็วและประสิทธิภาพใกล้เคียงหรือดีกว่า gpt5-mini และยังรับมือได้ดีถึงราว 110k~130k โทเคน หลังจากนั้นมันจะเริ่มมีแนวโน้มอ้างว่าทำเสร็จแล้วแม้เงื่อนไขยังไม่พอ (เช่น ผ่านเทสต์ xx จาก 400 รายการ ที่เหลือค่อยทำทีหลังได้ อะไรทำนองนั้น)
  • พวกเราทุกคนต้องการโมเดลที่เร็วและแม่นยำ เลยสงสัยว่ามันจะทำได้ถึงขั้น ‘แม่นยำ’ จริงไหม ถ้าแม่นมากจริงก็ยอมรอเพิ่มอีกไม่กี่วินาทีได้
    • วิธีเดียวที่จะทำให้เรื่องนี้เกิดขึ้นได้อย่างมั่นใจคือการใช้เครื่องมือ
  • ลิงก์อ้างอิงตารางเปรียบเทียบโมเดลขนาดใหญ่
  • ส่วนตัวใช้ custom frontend เลยเสียดายที่ grok4 fast ไม่มี API ให้ทดสอบฟรีแบบ Qwen3 coder และเครื่องมือที่เป็นพาร์ตเนอร์ก็ไม่ใช่ตัวที่ฉันใช้เป็นหลัก