Grok Code Fast 1
(x.ai)- grok-code-fast-1 ที่เปิดตัวโดย xAI เป็นโมเดล AI สำหรับเขียนโค้ดความเร็วสูงพิเศษสำหรับนักพัฒนา โดยมีจุดเด่นด้านการตอบสนองที่รวดเร็วและความสามารถที่เป็นมิตรกับ IDE
- โมเดลนี้ได้รับการ พรีเทรนโดยเน้นชุดข้อมูลด้านการเขียนโปรแกรม และถูกออกแบบให้เชี่ยวชาญการใช้เครื่องมืออย่าง grep, เทอร์มินัล, การแก้ไขไฟล์ ผ่านการประเมินจากผู้ใช้จริง
- ด้านประสิทธิภาพทำได้ที่ ความเร็วการสร้าง 190 โทเค็นต่อวินาที และทำคะแนน 70.8% บน SWE-Bench-Verified พร้อมความสามารถเด่นในหลายภาษา เช่น TypeScript, Python, Java, Rust, C++, Go
- ราคาอยู่ที่ $0.20 ต่อ 1 ล้านโทเค็นอินพุต, $1.50 สำหรับเอาต์พุต, และ $0.02 สำหรับอินพุตที่แคชไว้ และมีการเปิดให้ใช้งานฟรีชั่วคราวบนบางแพลตฟอร์มพาร์ตเนอร์ เช่น GitHub Copilot และ Cursor
- เร็ว ๆ นี้จะมีการเปิดตัวโมเดลรุ่นย่อยที่รองรับ อินพุตแบบมัลติโหมด, การเรียกใช้เครื่องมือแบบขนาน, และคอนเท็กซ์ที่ขยายใหญ่ขึ้น
ภาพรวม
- grok-code-fast-1 ของ xAI เป็นโมเดล AI สำหรับเขียนโค้ดความเร็วสูงพิเศษที่พัฒนาขึ้นเพื่อแก้ปัญหาความหน่วงในสภาพแวดล้อมการพัฒนาจริง ซึ่งมักมีการคิดแบบวนซ้ำและการใช้เครื่องมือเกิดขึ้นบ่อยครั้ง
- โดยอ้างอิงจากฟีดแบ็กของวิศวกรที่ทำงานจริง จึงสร้างสถาปัตยกรรมโมเดลขึ้นใหม่ตั้งแต่ต้นให้รวดเร็ว คล่องตัว และเหมาะกับงานภาคปฏิบัติ
- ทีมวิศวกรรมด้านการอนุมานและการประมวลผลได้นำวิธีการเชิงนวัตกรรมหลายอย่างมาใช้กับเทคโนโลยีการให้บริการโมเดลที่ รวดเร็วอย่างท่วมท้น
- ผู้ใช้จะสัมผัสได้ว่าเครื่องมือหลายตัวถูกเรียกใช้งานไปแล้วก่อนจะทันอ่านลำดับความคิดเสียอีก
- มีการ เพิ่มประสิทธิภาพ prompt caching จนทำให้อัตรา cache hit ในสภาพแวดล้อมของพาร์ตเนอร์สูงกว่า 90%
การออกแบบและชุดข้อมูล
- สร้างสภาพแวดล้อมการฝึกบนพื้นฐานของ ข้อมูลพรีเทรนขนาดใหญ่ที่เน้นงานเขียนโปรแกรม
- ทำ post-training คุณภาพสูงด้วย ข้อมูล pull request และการเขียนโค้ดจริง
- ทำงานร่วมกับพาร์ตเนอร์ตั้งแต่ช่วงเปิดตัวหลายรายอย่างใกล้ชิด เพื่อปรับปรุงการทำงานของโมเดลภายในแพลตฟอร์มแบบ agentic อย่างต่อเนื่อง
คุณสมบัติเด่นและสภาพแวดล้อมที่รองรับ
grok-code-fast-1ใช้งานเครื่องมือพัฒนาทั่วไปอย่าง grep, เทอร์มินัล, การแก้ไขไฟล์ ได้อย่างมั่นใจ- ผู้ใช้สามารถนำไปใช้ได้ทันทีใน IDE และสภาพแวดล้อมการพัฒนาหลักต่าง ๆ
ประสิทธิภาพด้านการเขียนโปรแกรม
- รองรับ ซอฟต์แวร์ดีเวลอปเมนต์สแตกทั้งหมด
- แสดงประสิทธิภาพโดดเด่นใน TypeScript, Python, Java, Rust, C++, Go เป็นต้น
- แม้มีการกำกับดูแลน้อย ก็ยังสามารถจัดการงานเขียนโปรแกรมหลากหลายรูปแบบได้อย่างรวดเร็วและแม่นยำ เช่น การสร้างโปรเจกต์ตั้งแต่ศูนย์ถึงใช้งานได้, การถาม-ตอบกับโค้ดเบส, การแก้บั๊กอย่างแม่นยำ
- Grok Code Fast 1 มอบ การตอบสนองที่เร็วที่สุด ในบรรดาโมเดลที่มีอยู่ในปัจจุบัน
- หากใช้งานโดยแบ่งเป็นหน่วยงานย่อย จะเหมาะอย่างมากกับ การจัดเวิร์กโฟลว์แบบวนซ้ำและรวดเร็ว
- ตัวอย่างจริงคือสามารถ สร้างต้นแบบ Battle Simulator ให้เสร็จภายในวันเดียวในสภาพแวดล้อม Cursor
- การวางแผนฟีเจอร์ขนาดใหญ่ แล้วแยกเป็นขั้นตอนย่อยเพื่อทำซ้ำทีละส่วน จะมีประสิทธิภาพมากกว่า
นโยบายราคา
- $0.20 ต่อ 1 ล้านโทเค็นอินพุต
- $1.50 ต่อ 1 ล้านโทเค็นเอาต์พุต
- $0.02 ต่อ 1 ล้านโทเค็นอินพุตที่แคชไว้
- ด้วยประสิทธิภาพสูงและ ราคาที่คุ้มค่า จึงสามารถจัดการงานเขียนโปรแกรมประจำวันได้อย่างรวดเร็วและมีประสิทธิภาพ
ประสิทธิภาพโมเดลและการประเมิน
- ความเร็วการประมวลผลโทเค็น (Tokens Per Second, TPS): 190 อยู่ในระดับแนวหน้าของอุตสาหกรรม
- เมื่อเทียบกับโมเดลอื่น ๆ เช่น Gemini 2.5 Pro, GPT-5, Claude Sonnet 4, Qwen3-Coder และ Grok 4 ก็ยังมีความสามารถในการแข่งขันสูงทั้งด้านราคาและความเร็วในการประมวลผล
- มีการทดสอบควบคู่กันทั้ง เบนช์มาร์กสาธารณะและการทดสอบจริงโดยนักพัฒนา
- ทำได้ 70.8% ในชุดย่อยของ SWE-Bench-Verified
- ผสาน การประเมินโดยมนุษย์อย่างสม่ำเสมอกับวิศวกรที่ทำงานจริง และการทดสอบอัตโนมัติ เพื่อยกระดับการใช้งานจริงและความพึงพอใจของโมเดลให้สูงสุด
แผนในอนาคตและแนวทางการใช้งาน
- ให้บริการผ่าน API ทางการและพาร์ตเนอร์หลักต่าง ๆ พร้อมเปิดให้ทดลองใช้งานฟรีแบบจำกัดเวลา
- GitHub Copilot, Cursor, Cline, Roo Code, Kilo Code, opencode, Windsurf เป็นต้น
- สัญญาว่าจะอัปเดตอย่างต่อเนื่องและมี รอบการปรับปรุงที่รวดเร็ว
- กำลังฝึกโมเดลรุ่นใหม่ที่มีฟีเจอร์เพิ่มเติม เช่น อินพุตแบบมัลติโหมด, การเรียกใช้เครื่องมือแบบขนาน, และการรองรับคอนเท็กซ์ที่ขยายใหญ่ขึ้น
- มี คู่มือ Prompt Engineering แยกต่างหากให้ใช้งานด้วย
- สามารถดู โมเดลการ์ด และแชร์ความคิดเห็นผ่านช่องทางฟีดแบ็ก เช่น Discord ได้
1 ความคิดเห็น
ความคิดเห็นบน Hacker News
เมื่อวานลองทดสอบด้วย Cline แล้ว เร็วมาก เข้ากับ agentic flow ได้ดี และคุณภาพโค้ดก็ค่อนข้างใช้ได้ ไม่เข้าใจว่าทำไมเธรดนี้ถึงมองลบกันขนาดนั้น (ระหว่างพิมพ์ยังโดน flag ด้วย) ฉันว่ารุ่นนี้โอเคเลย รู้สึกว่าอยู่ระดับเดียวกับหรือดีกว่า gpt5-mini ช่วงหลายวันที่ผ่านมาฉันใช้ gpt5-mini เป็นตัวหลัก เพราะงบถึงและมันก็ทำงานที่ต้องทำได้ดี
สิ่งที่สังเกตได้:
bs4) ก็ยังทำงานเสร็จได้ไม่มีปัญหา ไม่มีอาการแย่ลงในสถานการณ์คอนเท็กซ์สูงโดยรวมถือว่าใช้ได้ คุ้มราคาพอจะใช้เป็น daily driver ได้เหมือนกัน นึกภาพได้เลยว่าใช้ Opus+gpt5 high เป็น planner แล้วให้รุ่นนี้เป็น implementer เพราะมันเร็ว การตั้งค่าแบบ pass@x รันขนานก็น่าสนใจ
เป็นเรื่องดีที่มีตัวเลือกหลากหลายในทุกชั้น ต้องมีผู้เล่นหลายเจ้ามาแข่งกันถึงจะกดดันกันเองและทำให้ราคาลดลง gpt5-mini อยู่ที่ 2$/MTok ส่วนรุ่นนี้ประมาณ 1.5$/MTok เลยแทบรู้สึกว่า “ฟรี” ไม่เข้าใจบรรยากาศด้านลบนี้เลย
Qwen3-Coder-480B (โฮสต์บน Cerebras) ราคา 2$/Mtok ผ่าน OpenRouter รวมทั้ง input/output
ถ้าใช้ context length ไปประมาณครึ่งหนึ่งแล้ว ยังถือว่าประสิทธิภาพดีอยู่ไหม? สำหรับ qwen3-coder ฉันรู้สึกว่ามันเริ่มสับสนที่ 65k/256k และยังแพงกว่า grok อยู่ 50%
รีวิวอ่านดีมาก อยากรู้ว่าเทียบกับ claude code แล้วเป็นอย่างไร
ฉันก็คิดคล้ายกัน ช่วงนี้ใช้รุ่นนี้อยู่ มันค่อนข้างโอเคและเร็วมากจริง ๆ
สิ่งที่น่าสนใจคือเบนช์มาร์กที่โมเดลนี้เน้นคือความเร็วในการปล่อยโทเค็น ถึงขั้นตั้งชื่อว่า “fast”
โดยทั่วไปคิดว่าวิศวกรซอฟต์แวร์น่าจะให้ความสำคัญกับคุณภาพของโทเค็นมากกว่าความเร็ว
ประเด็นคือมันเร็วแค่ไหน
ก็ไม่ใช่ metric ที่แย่ที่สุดที่ xAI เคยคิดขึ้นมา
เคยลองใช้ API ฟรีของ Cerebras (มี Qwen Coder 480b กับ gpt-oss-120b ไม่ได้มีส่วนได้ส่วนเสีย) เร็วมากจริง ๆ ประมาณ 3000 โทเค็นต่อวินาที
แล้วแต่งาน
ความเร็วสำคัญมาก
อยากรู้ว่าบน HN ทุกคนใช้ AI coding assistant ตัวไหนกันอยู่ มีคำแนะนำพวกปลั๊กอิน VSCode หรือทิปจากการใช้งานจริงไหม
สงสัยว่าเวอร์ชัน “coding” ที่ออกมาตอนคนบอกว่า Grok-4 ทำโค้ดได้ไม่ดี คือโมเดลนี้หรือเปล่า
ถ้าเบนช์มาร์กอ่อน ก็เหมือนหยิบหัวข้อที่ปั่นตัวเลขได้ง่ายกว่าอย่างความเร็วมาโปรโมต
ลองค้นดูแล้วเจอแค่โพสต์ใน Reddit จากบัญชีสแปมชัด ๆ ที่ออกมาชมโมเดลนี้
ลิงก์บัญชีนั้น
รู้สึกเหมือนมันน่าจะอิงจาก Grok 3 เพราะ Grok 3 เร็วมากและเน้นงานโปรแกรมมิง
ตาม “SWE-Bench-Verified” ทั้งชุด grok-code-fast-1 ได้ 70.8% ในเบนช์มาร์กภายในบริษัท แต่ฉันอยากดูตัวเครื่องมือเบนช์มาร์กนี้เหมือนกัน
ในรายงานจากบุคคลที่สามอยู่ที่ประมาณ 57.6%
ลิงก์ที่เกี่ยวข้อง
อาจจะเป็น nitpick แต่พอเปิดเว็บมาก็ตกใจกับรูปแบบวันที่ที่มั่วมากเลย (สลับกันไปมาระหว่าง วัน/เดือน/ปี)
ไม่ใช่แค่ทำให้งง แต่ยังเรียงลำดับไม่ได้ถูกต้องด้วย
พอลอง sort คอลัมน์วันที่ก็ยิ่งไม่สมเหตุสมผลเลย (ดูเหมือนเรียงจากรายการตรงกลาง)
ถ้าของพื้นฐานแบบนี้ยังไม่ใส่ใจ ก็ทำให้สงสัยว่าโค้ดอาจไม่ละเอียดรอบคอบเหมือนกัน
[บางประเทศยังใช้รูปแบบนี้อยู่ แต่ส่วนใหญ่เปลี่ยนไปใช้มาตรฐานกันแล้ว]
ถึงอย่างนั้น ถ้าเทียบกับโมเดลอื่น ๆ คะแนนโดยรวมก็ยังออกมาดี
เคยได้ผลลัพธ์ที่ค่อนข้างดีจาก Grok 4 เวอร์ชันปกติด้วย
เวลาถามหาทางเลือกด้านสถาปัตยกรรม มันตอบได้ดีมาก และชอบที่มันพาไล่กระบวนการแก้ปัญหาแบบเป็นขั้นตอน
ฉันชอบกระบวนการนี้มากกว่าการรีไรต์โค้ดทั้งหมดทีเดียวแบบ “one-shot” เพราะมันค่อย ๆ พาไปในทิศทางที่ฉันต้องการจริง ๆ
ฉันคิดว่า Opus 4.1 หรือซีรีส์ Sonnet ไม่ค่อยถูกประเมินได้ดีนักด้วยการวัดความสามารถแก้ปัญหาแบบ one-shot เพราะบทบาทของผู้ช่วยจริง ๆ สำคัญกว่า
gpt-5 เองก็ถ้าดื้อไปในทิศทางที่ฉันไม่ต้องการ ต่อให้คุยต่อยังไงมันก็ทำแบบเดิมซ้ำ ๆ
Sonnet 4 อาจสู้ GPT-5 ไม่ได้ในด้านออกแบบสถาปัตยกรรมหรือการวิเคราะห์เชิงลึก แต่ถ้ามีแผนละเอียดอยู่แล้วและแค่ต้องเร่งเขียนโค้ดจำนวนมาก Sonnet 4 ทำได้ดีกว่า
หลังจากลอง Grok อยู่หลายวัน กลับรู้สึกเหมือนมันถอยหลังลงคลอง
เจอประสบการณ์ที่มันลบโค้ดบางส่วนของฉันทิ้งแบบสุ่ม ซึ่งไม่เจอมานานแล้ว
ทุกวันนี้โมเดลเขียนโค้ดระดับบน ๆ หลายตัวเชื่อถือได้มากขึ้นพอสมควร แต่ Grok ยังไม่ถึงขั้นนั้น
ต่อให้เร็วและฟรีแค่ไหน ถ้าไว้ใจให้แตะโค้ดของฉันไม่ได้ ก็ใช้เป็นเครื่องมือไม่ได้
ฉันลอง Grok Code Fast 1 ฟรีผ่าน Kilo Code แล้ว ผลลัพธ์แย่มาก
Full Self Coding?
อยากรู้ว่าใช้แพลตฟอร์ม/ภาษาอะไรอยู่
แค่ลบโค้ดบางส่วนทิ้งนี่ถือว่าเป็นปัญหาจริงเหรอ? ก็มี version control ไม่ใช่หรือ
มันทำพฤติกรรมแปลก ๆ ไร้สาระได้เร็วมาก ซึ่งไม่ใช่เรื่องดี
อาจเหมาะกับงานง่ายและชัดเจนอย่าง CRUD endpoint, ไฟล์ i8n อะไรพวกนี้ แต่นอกเหนือจากนั้นก็ไม่แน่
ฉันก็ใช้รุ่นนี้กับงานแบบนั้นพอดี
ฉันขอให้มันช่วยปรับปรุง Justfile แล้วมันทำพังยับทุกอย่างจนเข้า infinite loop
ตอนช่วง stealth ของโมเดล ‘sonic’ มันก็เร็ว แต่คุณภาพไม่ได้แม่นยำอย่างที่ต้องการ
มันสร้างเทสต์แล้วรันซ้ำ ๆ ก็จริง แต่ไม่ได้ตรวจว่าพฤติกรรมที่ตั้งใจไว้นั้นถูกต้อง กลับไปเช็กแค่ว่ามีการเรียก mock หรือไม่
มันยังมีข้อจำกัดตรงที่ไม่ได้ใส่ใจรูปแบบการใช้งานจริง
ฉันว่ามันน่าทึ่งนะ