7 คะแนน โดย GN⁺ 2025-08-30 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • grok-code-fast-1 ที่เปิดตัวโดย xAI เป็นโมเดล AI สำหรับเขียนโค้ดความเร็วสูงพิเศษสำหรับนักพัฒนา โดยมีจุดเด่นด้านการตอบสนองที่รวดเร็วและความสามารถที่เป็นมิตรกับ IDE
  • โมเดลนี้ได้รับการ พรีเทรนโดยเน้นชุดข้อมูลด้านการเขียนโปรแกรม และถูกออกแบบให้เชี่ยวชาญการใช้เครื่องมืออย่าง grep, เทอร์มินัล, การแก้ไขไฟล์ ผ่านการประเมินจากผู้ใช้จริง
  • ด้านประสิทธิภาพทำได้ที่ ความเร็วการสร้าง 190 โทเค็นต่อวินาที และทำคะแนน 70.8% บน SWE-Bench-Verified พร้อมความสามารถเด่นในหลายภาษา เช่น TypeScript, Python, Java, Rust, C++, Go
  • ราคาอยู่ที่ $0.20 ต่อ 1 ล้านโทเค็นอินพุต, $1.50 สำหรับเอาต์พุต, และ $0.02 สำหรับอินพุตที่แคชไว้ และมีการเปิดให้ใช้งานฟรีชั่วคราวบนบางแพลตฟอร์มพาร์ตเนอร์ เช่น GitHub Copilot และ Cursor
  • เร็ว ๆ นี้จะมีการเปิดตัวโมเดลรุ่นย่อยที่รองรับ อินพุตแบบมัลติโหมด, การเรียกใช้เครื่องมือแบบขนาน, และคอนเท็กซ์ที่ขยายใหญ่ขึ้น

ภาพรวม

  • grok-code-fast-1 ของ xAI เป็นโมเดล AI สำหรับเขียนโค้ดความเร็วสูงพิเศษที่พัฒนาขึ้นเพื่อแก้ปัญหาความหน่วงในสภาพแวดล้อมการพัฒนาจริง ซึ่งมักมีการคิดแบบวนซ้ำและการใช้เครื่องมือเกิดขึ้นบ่อยครั้ง
  • โดยอ้างอิงจากฟีดแบ็กของวิศวกรที่ทำงานจริง จึงสร้างสถาปัตยกรรมโมเดลขึ้นใหม่ตั้งแต่ต้นให้รวดเร็ว คล่องตัว และเหมาะกับงานภาคปฏิบัติ
  • ทีมวิศวกรรมด้านการอนุมานและการประมวลผลได้นำวิธีการเชิงนวัตกรรมหลายอย่างมาใช้กับเทคโนโลยีการให้บริการโมเดลที่ รวดเร็วอย่างท่วมท้น
    • ผู้ใช้จะสัมผัสได้ว่าเครื่องมือหลายตัวถูกเรียกใช้งานไปแล้วก่อนจะทันอ่านลำดับความคิดเสียอีก
  • มีการ เพิ่มประสิทธิภาพ prompt caching จนทำให้อัตรา cache hit ในสภาพแวดล้อมของพาร์ตเนอร์สูงกว่า 90%

การออกแบบและชุดข้อมูล

  • สร้างสภาพแวดล้อมการฝึกบนพื้นฐานของ ข้อมูลพรีเทรนขนาดใหญ่ที่เน้นงานเขียนโปรแกรม
  • ทำ post-training คุณภาพสูงด้วย ข้อมูล pull request และการเขียนโค้ดจริง
  • ทำงานร่วมกับพาร์ตเนอร์ตั้งแต่ช่วงเปิดตัวหลายรายอย่างใกล้ชิด เพื่อปรับปรุงการทำงานของโมเดลภายในแพลตฟอร์มแบบ agentic อย่างต่อเนื่อง

คุณสมบัติเด่นและสภาพแวดล้อมที่รองรับ

  • grok-code-fast-1 ใช้งานเครื่องมือพัฒนาทั่วไปอย่าง grep, เทอร์มินัล, การแก้ไขไฟล์ ได้อย่างมั่นใจ
  • ผู้ใช้สามารถนำไปใช้ได้ทันทีใน IDE และสภาพแวดล้อมการพัฒนาหลักต่าง ๆ

ประสิทธิภาพด้านการเขียนโปรแกรม

  • รองรับ ซอฟต์แวร์ดีเวลอปเมนต์สแตกทั้งหมด
  • แสดงประสิทธิภาพโดดเด่นใน TypeScript, Python, Java, Rust, C++, Go เป็นต้น
  • แม้มีการกำกับดูแลน้อย ก็ยังสามารถจัดการงานเขียนโปรแกรมหลากหลายรูปแบบได้อย่างรวดเร็วและแม่นยำ เช่น การสร้างโปรเจกต์ตั้งแต่ศูนย์ถึงใช้งานได้, การถาม-ตอบกับโค้ดเบส, การแก้บั๊กอย่างแม่นยำ
  • Grok Code Fast 1 มอบ การตอบสนองที่เร็วที่สุด ในบรรดาโมเดลที่มีอยู่ในปัจจุบัน
  • หากใช้งานโดยแบ่งเป็นหน่วยงานย่อย จะเหมาะอย่างมากกับ การจัดเวิร์กโฟลว์แบบวนซ้ำและรวดเร็ว
  • ตัวอย่างจริงคือสามารถ สร้างต้นแบบ Battle Simulator ให้เสร็จภายในวันเดียวในสภาพแวดล้อม Cursor
  • การวางแผนฟีเจอร์ขนาดใหญ่ แล้วแยกเป็นขั้นตอนย่อยเพื่อทำซ้ำทีละส่วน จะมีประสิทธิภาพมากกว่า

นโยบายราคา

  • $0.20 ต่อ 1 ล้านโทเค็นอินพุต
  • $1.50 ต่อ 1 ล้านโทเค็นเอาต์พุต
  • $0.02 ต่อ 1 ล้านโทเค็นอินพุตที่แคชไว้
  • ด้วยประสิทธิภาพสูงและ ราคาที่คุ้มค่า จึงสามารถจัดการงานเขียนโปรแกรมประจำวันได้อย่างรวดเร็วและมีประสิทธิภาพ

ประสิทธิภาพโมเดลและการประเมิน

  • ความเร็วการประมวลผลโทเค็น (Tokens Per Second, TPS): 190 อยู่ในระดับแนวหน้าของอุตสาหกรรม
  • เมื่อเทียบกับโมเดลอื่น ๆ เช่น Gemini 2.5 Pro, GPT-5, Claude Sonnet 4, Qwen3-Coder และ Grok 4 ก็ยังมีความสามารถในการแข่งขันสูงทั้งด้านราคาและความเร็วในการประมวลผล
  • มีการทดสอบควบคู่กันทั้ง เบนช์มาร์กสาธารณะและการทดสอบจริงโดยนักพัฒนา
    • ทำได้ 70.8% ในชุดย่อยของ SWE-Bench-Verified
  • ผสาน การประเมินโดยมนุษย์อย่างสม่ำเสมอกับวิศวกรที่ทำงานจริง และการทดสอบอัตโนมัติ เพื่อยกระดับการใช้งานจริงและความพึงพอใจของโมเดลให้สูงสุด

แผนในอนาคตและแนวทางการใช้งาน

  • ให้บริการผ่าน API ทางการและพาร์ตเนอร์หลักต่าง ๆ พร้อมเปิดให้ทดลองใช้งานฟรีแบบจำกัดเวลา
    • GitHub Copilot, Cursor, Cline, Roo Code, Kilo Code, opencode, Windsurf เป็นต้น
  • สัญญาว่าจะอัปเดตอย่างต่อเนื่องและมี รอบการปรับปรุงที่รวดเร็ว
  • กำลังฝึกโมเดลรุ่นใหม่ที่มีฟีเจอร์เพิ่มเติม เช่น อินพุตแบบมัลติโหมด, การเรียกใช้เครื่องมือแบบขนาน, และการรองรับคอนเท็กซ์ที่ขยายใหญ่ขึ้น
  • มี คู่มือ Prompt Engineering แยกต่างหากให้ใช้งานด้วย
  • สามารถดู โมเดลการ์ด และแชร์ความคิดเห็นผ่านช่องทางฟีดแบ็ก เช่น Discord ได้

1 ความคิดเห็น

 
GN⁺ 2025-08-30
ความคิดเห็นบน Hacker News
  • เมื่อวานลองทดสอบด้วย Cline แล้ว เร็วมาก เข้ากับ agentic flow ได้ดี และคุณภาพโค้ดก็ค่อนข้างใช้ได้ ไม่เข้าใจว่าทำไมเธรดนี้ถึงมองลบกันขนาดนั้น (ระหว่างพิมพ์ยังโดน flag ด้วย) ฉันว่ารุ่นนี้โอเคเลย รู้สึกว่าอยู่ระดับเดียวกับหรือดีกว่า gpt5-mini ช่วงหลายวันที่ผ่านมาฉันใช้ gpt5-mini เป็นตัวหลัก เพราะงบถึงและมันก็ทำงานที่ต้องทำได้ดี

    • สิ่งที่สังเกตได้:

      • เร็วมาก (ทดสอบในไทม์โซน EU)
      • จัดการแนวทางแบบ agentic ได้น่าสนใจ แทนที่จะแก้ทั้งไฟล์รวดเดียว มันจะค่อย ๆ แก้ทีละนิดหลายรอบ
      • ใช้ไปประมาณ 110k โทเค็นกับงานที่เกี่ยวกับการ parse HTML (bs4) ก็ยังทำงานเสร็จได้ไม่มีปัญหา ไม่มีอาการแย่ลงในสถานการณ์คอนเท็กซ์สูง
      • ถ้าลองครั้งแรกไม่สำเร็จ มันจะสร้างไฟล์ใหม่แยกออกมาทำ mock/test ก่อน แล้วถ้าสำเร็จค่อยกลับไปแก้ไฟล์โมดูลหลัก ขณะที่ GPT5-mini มักสับสนและล้มเหลวเมื่อมีการแก้ไฟล์ระหว่างทำงาน
    • โดยรวมถือว่าใช้ได้ คุ้มราคาพอจะใช้เป็น daily driver ได้เหมือนกัน นึกภาพได้เลยว่าใช้ Opus+gpt5 high เป็น planner แล้วให้รุ่นนี้เป็น implementer เพราะมันเร็ว การตั้งค่าแบบ pass@x รันขนานก็น่าสนใจ

    • เป็นเรื่องดีที่มีตัวเลือกหลากหลายในทุกชั้น ต้องมีผู้เล่นหลายเจ้ามาแข่งกันถึงจะกดดันกันเองและทำให้ราคาลดลง gpt5-mini อยู่ที่ 2$/MTok ส่วนรุ่นนี้ประมาณ 1.5$/MTok เลยแทบรู้สึกว่า “ฟรี” ไม่เข้าใจบรรยากาศด้านลบนี้เลย

    • Qwen3-Coder-480B (โฮสต์บน Cerebras) ราคา 2$/Mtok ผ่าน OpenRouter รวมทั้ง input/output

      • บน OpenRouter มีการอ้างว่า Cerebras ให้ได้มากกว่า 2000 โทเค็นต่อวินาที ซึ่งเร็วกว่า 10 เท่า
      • จากเบนช์มาร์กอิสระดูเหมือนว่าโมเดล Qwen3-Coder-480B จะดีกว่า
    • ถ้าใช้ context length ไปประมาณครึ่งหนึ่งแล้ว ยังถือว่าประสิทธิภาพดีอยู่ไหม? สำหรับ qwen3-coder ฉันรู้สึกว่ามันเริ่มสับสนที่ 65k/256k และยังแพงกว่า grok อยู่ 50%

    • รีวิวอ่านดีมาก อยากรู้ว่าเทียบกับ claude code แล้วเป็นอย่างไร

    • ฉันก็คิดคล้ายกัน ช่วงนี้ใช้รุ่นนี้อยู่ มันค่อนข้างโอเคและเร็วมากจริง ๆ

      • ความเห็นบน HN ดูมีอคติต่อ Elon Musk และมีปฏิกิริยาที่เอนเอียงต่อ LLM เลยทำให้มันไม่ได้รับการประเมินอย่างเป็นธรรม
  • สิ่งที่น่าสนใจคือเบนช์มาร์กที่โมเดลนี้เน้นคือความเร็วในการปล่อยโทเค็น ถึงขั้นตั้งชื่อว่า “fast”

    • โดยทั่วไปคิดว่าวิศวกรซอฟต์แวร์น่าจะให้ความสำคัญกับคุณภาพของโทเค็นมากกว่าความเร็ว

    • ประเด็นคือมันเร็วแค่ไหน

      • ถ้าผลลัพธ์จาก LLM ยังผิดพลาดบ่อยอยู่ดี การลอง prompt หลาย ๆ รอบอย่างรวดเร็วและขัดเกลาแบบวนซ้ำอาจมีค่ามากกว่า
      • ถ้าสุดโต่งถึงขั้นประมวลผลทั้งโปรเจ็กต์ได้ในระดับมิลลิวินาที ต่อให้อัตราความสำเร็จเท่ากัน มันก็มีค่ามากกว่ามาก
      • ความเร็วระดับนี้อาจเปลี่ยนทั้งประสบการณ์ผู้ใช้และวิธีการใช้เครื่องมือไปเลย
      • อาจขอข้อเสนอ 3 แบบพร้อมกันได้ทันที
      • ส่วนตัวไม่อยากไปยุ่งกับ X เลยไม่ได้คิดจะใช้ Grok เอง อันนี้เป็นรสนิยมส่วนตัว
    • ก็ไม่ใช่ metric ที่แย่ที่สุดที่ xAI เคยคิดขึ้นมา

    • เคยลองใช้ API ฟรีของ Cerebras (มี Qwen Coder 480b กับ gpt-oss-120b ไม่ได้มีส่วนได้ส่วนเสีย) เร็วมากจริง ๆ ประมาณ 3000 โทเค็นต่อวินาที

      • เพราะงั้นฉันเลยเช็กความเร็วของโมเดลตลอด
      • แต่ Cerebras cloud จำกัดไว้วันละ 70 ล้านโทเค็น และมีคนบอกว่าชนเพดานนี้ได้เร็วมาก เลยมีข้อจำกัดกับการใช้พัฒนาแบบทุกวันพอสมควร
    • แล้วแต่งาน

      • ถ้าเป็นแค่เติมฟังก์ชันอัตโนมัติแบบง่าย ๆ (จัดการสตริง, นิยามฟังก์ชัน ฯลฯ) ความเร็วจะสำคัญกว่า
      • ถ้าเป็นการเขียนโค้ดแบบยังต้องคิดทางแยกหรือชั่งใจ คุณภาพสำคัญกว่า แต่ถ้าฉันรู้ชัดว่ากำลังทำอะไรอยู่ โมเดลที่ฉลาดน้อยกว่าแต่เร็วกว่าจะช่วยให้ flow การทำงานดีกว่า
      • โมเดลช้าทำให้ต้องตรวจโค้ดละเอียดเหมือนรีวิว PR ซึ่งเปลี่ยนลักษณะ workflow ไปมาก
    • ความเร็วสำคัญมาก

      • แน่นอนว่าถ้าคุณภาพแย่เกินไปก็ไม่มีประโยชน์ แต่ถ้ามันดีพอ ๆ กับ Claude Sonnet 4 และยังเร็ว แบบนี้อาจเปลี่ยนเกมสำหรับ agentic coding ได้เลย
      • ตอนนี้ส่ง prompt แล้วต้องรอ 30 วินาทีถึงหลาย ๆ นาที ทำให้ทดลองจริงได้ยาก
      • ถ้าทุกอย่างจบในไม่กี่วินาที งานแบบทดลองและทำซ้ำจะเป็นไปได้มากขึ้นมาก
      • โดยเฉพาะโค้ดฝั่ง frontend ที่ต้องปรับ UI ซ้ำ ๆ หลายรอบ
  • อยากรู้ว่าบน HN ทุกคนใช้ AI coding assistant ตัวไหนกันอยู่ มีคำแนะนำพวกปลั๊กอิน VSCode หรือทิปจากการใช้งานจริงไหม

  • สงสัยว่าเวอร์ชัน “coding” ที่ออกมาตอนคนบอกว่า Grok-4 ทำโค้ดได้ไม่ดี คือโมเดลนี้หรือเปล่า

    • ถ้าเบนช์มาร์กอ่อน ก็เหมือนหยิบหัวข้อที่ปั่นตัวเลขได้ง่ายกว่าอย่างความเร็วมาโปรโมต

    • ลองค้นดูแล้วเจอแค่โพสต์ใน Reddit จากบัญชีสแปมชัด ๆ ที่ออกมาชมโมเดลนี้

    • ลิงก์บัญชีนั้น

    • รู้สึกเหมือนมันน่าจะอิงจาก Grok 3 เพราะ Grok 3 เร็วมากและเน้นงานโปรแกรมมิง

  • ตาม “SWE-Bench-Verified” ทั้งชุด grok-code-fast-1 ได้ 70.8% ในเบนช์มาร์กภายในบริษัท แต่ฉันอยากดูตัวเครื่องมือเบนช์มาร์กนี้เหมือนกัน

    • ในรายงานจากบุคคลที่สามอยู่ที่ประมาณ 57.6%

    • ลิงก์ที่เกี่ยวข้อง

      • อาจจะเป็น nitpick แต่พอเปิดเว็บมาก็ตกใจกับรูปแบบวันที่ที่มั่วมากเลย (สลับกันไปมาระหว่าง วัน/เดือน/ปี)

      • ไม่ใช่แค่ทำให้งง แต่ยังเรียงลำดับไม่ได้ถูกต้องด้วย

      • พอลอง sort คอลัมน์วันที่ก็ยิ่งไม่สมเหตุสมผลเลย (ดูเหมือนเรียงจากรายการตรงกลาง)

      • ถ้าของพื้นฐานแบบนี้ยังไม่ใส่ใจ ก็ทำให้สงสัยว่าโค้ดอาจไม่ละเอียดรอบคอบเหมือนกัน

      • [บางประเทศยังใช้รูปแบบนี้อยู่ แต่ส่วนใหญ่เปลี่ยนไปใช้มาตรฐานกันแล้ว]

      • ถึงอย่างนั้น ถ้าเทียบกับโมเดลอื่น ๆ คะแนนโดยรวมก็ยังออกมาดี

  • เคยได้ผลลัพธ์ที่ค่อนข้างดีจาก Grok 4 เวอร์ชันปกติด้วย

    • ปัญหาคือมันแทบไม่อธิบายอะไรและชอบแค่สลับโค้ดทิ้ง แต่ผลลัพธ์สุดท้ายก็ไม่ได้แย่
    • ส่วนตัวฉันอยากได้ feedback และคำอธิบายเกี่ยวกับข้อเสนอการเปลี่ยนแปลงมากกว่าเวอร์ชันที่แค่เร็วกว่า
    • ช่วงหลังมานี้รู้สึกว่า GPT-5 มีประโยชน์กว่า Sonnet 4
      • เวลาถามหาทางเลือกด้านสถาปัตยกรรม มันตอบได้ดีมาก และชอบที่มันพาไล่กระบวนการแก้ปัญหาแบบเป็นขั้นตอน

      • ฉันชอบกระบวนการนี้มากกว่าการรีไรต์โค้ดทั้งหมดทีเดียวแบบ “one-shot” เพราะมันค่อย ๆ พาไปในทิศทางที่ฉันต้องการจริง ๆ

      • ฉันคิดว่า Opus 4.1 หรือซีรีส์ Sonnet ไม่ค่อยถูกประเมินได้ดีนักด้วยการวัดความสามารถแก้ปัญหาแบบ one-shot เพราะบทบาทของผู้ช่วยจริง ๆ สำคัญกว่า

      • gpt-5 เองก็ถ้าดื้อไปในทิศทางที่ฉันไม่ต้องการ ต่อให้คุยต่อยังไงมันก็ทำแบบเดิมซ้ำ ๆ

        • ในแง่นั้นก็มีคนที่อยากได้สไตล์ตอบสนองแบบ Claude ที่ประมาณว่า “ใช่ คุณถูก”
        • สิ่งที่คาดหวังจากโมเดลก็คงต่างกันไปตามประสบการณ์การพัฒนา แต่สำหรับฉัน การที่อำนาจตัดสินใจสุดท้ายอยู่ที่ฉันสำคัญกว่า
      • Sonnet 4 อาจสู้ GPT-5 ไม่ได้ในด้านออกแบบสถาปัตยกรรมหรือการวิเคราะห์เชิงลึก แต่ถ้ามีแผนละเอียดอยู่แล้วและแค่ต้องเร่งเขียนโค้ดจำนวนมาก Sonnet 4 ทำได้ดีกว่า

  • หลังจากลอง Grok อยู่หลายวัน กลับรู้สึกเหมือนมันถอยหลังลงคลอง

    • เจอประสบการณ์ที่มันลบโค้ดบางส่วนของฉันทิ้งแบบสุ่ม ซึ่งไม่เจอมานานแล้ว

    • ทุกวันนี้โมเดลเขียนโค้ดระดับบน ๆ หลายตัวเชื่อถือได้มากขึ้นพอสมควร แต่ Grok ยังไม่ถึงขั้นนั้น

    • ต่อให้เร็วและฟรีแค่ไหน ถ้าไว้ใจให้แตะโค้ดของฉันไม่ได้ ก็ใช้เป็นเครื่องมือไม่ได้

      • ฉันลอง Grok Code Fast 1 ฟรีผ่าน Kilo Code แล้ว ผลลัพธ์แย่มาก

        • ความน่าเชื่อถือต่ำกว่า GPT 5 Mini และน่าขันตรงที่ยังช้ากว่าอีก
      • Full Self Coding?

      • อยากรู้ว่าใช้แพลตฟอร์ม/ภาษาอะไรอยู่

        • รีวิวที่ไม่บอกบริบทมันทำให้งงมาก เพราะมีทั้งชมและด่าคนละสุดขั้ว
        • แต่ละภาษาต่างกันเยอะ ในสายพัฒนาเว็บด้วย TS ผลลัพธ์มักออกมาดีกว่าเสมอ
      • แค่ลบโค้ดบางส่วนทิ้งนี่ถือว่าเป็นปัญหาจริงเหรอ? ก็มี version control ไม่ใช่หรือ

  • มันทำพฤติกรรมแปลก ๆ ไร้สาระได้เร็วมาก ซึ่งไม่ใช่เรื่องดี

    • อาจเหมาะกับงานง่ายและชัดเจนอย่าง CRUD endpoint, ไฟล์ i8n อะไรพวกนี้ แต่นอกเหนือจากนั้นก็ไม่แน่

      • ฉันก็ใช้รุ่นนี้กับงานแบบนั้นพอดี

        • มันเหมาะมากสำหรับจัดการ “งานจุกจิกน่าเบื่อที่ตรงไปตรงมา”
        • ไม่ใช่ว่าต้องใช้โมเดลฉลาดเสมอไป เอาไปใช้กับงานที่ไม่มีใครอยากทำแล้วปั่นให้เสร็จเร็ว ๆ ได้
        • แต่ถ้าอธิบายไม่ละเอียดพอ ผลลัพธ์จะหลุดทิศหลุดทาง
        • แต่ถ้าให้โจทย์ชัดและมีตัวอย่างครบ มันจะทำเฉพาะงานที่สั่งได้ดี
      • ฉันขอให้มันช่วยปรับปรุง Justfile แล้วมันทำพังยับทุกอย่างจนเข้า infinite loop

        • ใช้ผ่าน Kilo Code ประสบการณ์จริงอาจต่างกันในแต่ละคน
  • ตอนช่วง stealth ของโมเดล ‘sonic’ มันก็เร็ว แต่คุณภาพไม่ได้แม่นยำอย่างที่ต้องการ

    • มันสร้างเทสต์แล้วรันซ้ำ ๆ ก็จริง แต่ไม่ได้ตรวจว่าพฤติกรรมที่ตั้งใจไว้นั้นถูกต้อง กลับไปเช็กแค่ว่ามีการเรียก mock หรือไม่

    • มันยังมีข้อจำกัดตรงที่ไม่ได้ใส่ใจรูปแบบการใช้งานจริง

      • ในเคสแบบนี้มันน่าจะเก่งกับการสร้าง boilerplate
  • ฉันว่ามันน่าทึ่งนะ

    • ฉันถามเรื่องรีแฟกเตอร์ มันเรียกใช้หลายเครื่องมือเพื่ออ่านโค้ดอย่างรวดเร็ว วิเคราะห์อย่างมีเหตุผล แล้วบอกว่าพบบั๊ก 2 จุด
    • แน่นอนว่าทั้งสองจุดไม่ใช่บั๊ก
    • แต่ก็ “ดูเท่มาก”