- Composer ที่ Cursor เปิดตัวคือ โมเดลเอเจนต์อัจฉริยะความเร็วสูงสำหรับวิศวกรรมซอฟต์แวร์ ซึ่งทำความเร็วในการสร้างโค้ดได้ เร็วกว่า 4 เท่า เมื่อเทียบกับโมเดลลักษณะใกล้เคียงกัน
- โมเดลถูกฝึกให้แก้ปัญหาบนโค้ดเบสขนาดใหญ่จริง และใช้ เครื่องมือค้นหาและแก้ไข เพื่อจัดการงานที่มีความยากหลากหลาย
- ผสานสถาปัตยกรรม Mixture-of-Experts(MoE) กับ การเรียนรู้แบบเสริมกำลัง (RL) เพื่อรองรับ ความเข้าใจและการสร้างบนบริบทยาว เช่น การแก้ไขโค้ด การวางแผน และการตอบคำถาม
- ประเมินผ่าน Cursor Bench ซึ่งวัดไม่เพียงความแม่นยำของโมเดล แต่รวมถึง ความสอดคล้องของโค้ดเบสและการปฏิบัติตามแนวทางวิศวกรรม
- ใช้ โครงสร้างพื้นฐาน RL แบบอะซิงโครนัสบน PyTorch และ Ray พร้อม การฝึกแบบความแม่นยำต่ำ MXFP8 เพื่อเพิ่มประสิทธิภาพการฝึกบน GPU หลายพันตัวและเร่งความเร็วการอนุมาน
ภาพรวมของ Composer
- Composer คือโมเดลเอเจนต์ใหม่ที่พัฒนาขึ้นโดยมุ่งเน้น ความฉลาดและความเร็วสำหรับงานวิศวกรรมซอฟต์แวร์
- ในการทดสอบมาตรฐาน ทำความเร็วในการสร้างโค้ดได้ เร็วกว่า 4 เท่า เมื่อเทียบกับโมเดลลักษณะใกล้เคียงกัน
- ถูกปรับแต่งให้เหมาะกับการเป็น เอเจนต์สำหรับแก้ปัญหาบนโค้ดเบสขนาดใหญ่ ภายใน Cursor
- โมเดลนี้ถูกฝึกให้แก้ปัญหาหลายระดับความยากในสภาพแวดล้อมจริง โดยใช้ เครื่องมือค้นหาและแก้ไข
- สิ่งนี้ช่วยมอบ ประสบการณ์การพัฒนาแบบโต้ตอบที่รวดเร็ว
ที่มาของการพัฒนา
- Composer มีจุดเริ่มต้นจากประสบการณ์ของ Cursor ในการพัฒนา โมเดลเติมโค้ดอัตโนมัติแบบกำหนดเอง (Cursor Tab)
- ทีมพบว่านักพัฒนาชื่นชอบ โมเดลที่ฉลาดและตอบสนองรวดเร็ว
- จากโมเดลทดลองระยะแรก Cheetah Composer ถูกออกแบบให้เป็น เวอร์ชันที่เร็วกว่าและฉลาดกว่า
- เป้าหมายคือการสร้าง โมเดลที่ตอบสนองได้ทันทีโดยไม่ทำให้จังหวะการพัฒนาสะดุด
โครงสร้างโมเดลและวิธีการฝึก
- Composer เป็นโมเดลภาษาแบบ Mixture-of-Experts(MoE) ที่รองรับ ความเข้าใจและการสร้างบนบริบทยาว
- โมเดลถูกทำให้เชี่ยวชาญในสภาพแวดล้อมการพัฒนาที่หลากหลายผ่าน การเรียนรู้แบบเสริมกำลัง (RL)
- ในแต่ละขั้นของการฝึก โมเดลจะได้รับคำอธิบายปัญหาและสร้าง การแก้ไขโค้ด การวางแผน และคำตอบที่เหมาะสมที่สุด
- โมเดลใช้เครื่องมืออย่าง การอ่านและแก้ไขไฟล์, การรันคำสั่งเทอร์มินัล และ การค้นหาเชิงความหมายทั้งโค้ดเบส
- ในกระบวนการ RL โมเดลเรียนรู้พฤติกรรมที่เป็นประโยชน์ได้ด้วยตนเอง เช่น การค้นหาที่ซับซ้อน การแก้ข้อผิดพลาดจาก linter และการเขียนพร้อมรัน unit test
การประเมินและเบนช์มาร์ก
- Cursor Bench คือชุดประเมินภายในที่รวมคำขอจริงจากวิศวกรและคำตอบที่เหมาะสมที่สุด
- ใช้วัด ความแม่นยำของโมเดล, การยึดตามนามธรรมของโค้ดเบส และ ความสอดคล้องกับแนวปฏิบัติด้านวิศวกรรมซอฟต์แวร์
- Composer ถูกจัดอยู่ในกลุ่มโมเดลระดับ “Fast Frontier” และถูกเปรียบเทียบกับโมเดลที่มุ่งเน้นการอนุมานอย่างมีประสิทธิภาพ เช่น Haiku 4.5 และ Gemini Flash 2.5
- แม้จะช้ากว่า Frontier model ระดับสูงสุด อย่าง GPT-5 และ Sonnet 4.5 แต่ก็มี ประสิทธิภาพต่อความเร็วในระดับสูง
โครงสร้างพื้นฐานและการออกแบบระบบ
- เพื่อฝึกโมเดล MoE ขนาดใหญ่ Cursor ได้สร้าง โครงสร้างพื้นฐาน RL แบบอะซิงโครนัสบน PyTorch และ Ray
- ผสาน MXFP8 MoE kernel, expert parallelism และ hybrid sharded data parallelism
- ขยายการฝึกไปยัง NVIDIA GPU หลายพันตัวโดยลดต้นทุนการสื่อสารให้น้อยที่สุด
- การฝึกแบบความแม่นยำต่ำ MXFP8 ช่วย เพิ่มความเร็วการอนุมาน และ ไม่จำเป็นต้องทำ post-training quantization
- ระหว่าง RL โมเดลสามารถเรียกใช้เครื่องมือทั้งหมดของ Cursor Agent ได้
- รองรับการแก้ไขโค้ด, การค้นหาเชิงความหมาย, string grep และการรันคำสั่งเทอร์มินัล
- เพื่อรองรับสิ่งนี้ จึงมีการรัน สภาพแวดล้อมคลาวด์แซนด์บ็อกซ์หลายแสนชุด แบบขนาน
- และขยาย โครงสร้างพื้นฐาน Background Agents เดิมเพื่อรับมือกับ ภาระการฝึกแบบ burst
การใช้งานภายในและการเปิดตัว
- ทีม Cursor ใช้ Composer อย่างจริงจังในงานพัฒนาภายในของตนเอง
- วิศวกรจำนวนมาก ใช้ Composer ในงานพัฒนาซอฟต์แวร์ประจำวัน
- การเปิดตัวครั้งนี้เกิดขึ้นพร้อมความคาดหวังว่า นักพัฒนาคนอื่นก็จะนำไปใช้ได้อย่างมีประโยชน์เช่นกัน
ภาคผนวก: การจัดหมวดหมู่เบนช์มาร์กภายใน
- Fast Frontier: โมเดลสำหรับการอนุมานอย่างมีประสิทธิภาพ (Haiku 4.5, Gemini Flash 2.5 เป็นต้น)
- Best Open: โมเดลแบบเปิดน้ำหนัก (Qwen Coder, GLM 4.6 เป็นต้น)
- Frontier 7/2025: โมเดลที่ดีที่สุด ณ เดือนกรกฎาคม 2025
- Best Frontier: โมเดลที่มีประสิทธิภาพสูงกว่า Composer เช่น GPT-5 และ Sonnet 4.5
- การคำนวณ Tokens per Second ถูกทำให้เป็นมาตรฐานตาม Anthropic tokenizer เวอร์ชันล่าสุด
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
รู้สึกว่าขาดความโปร่งใสมากเกินไป
เปิดเผยประสิทธิภาพของโมเดลผ่าน เบนช์มาร์กภายใน เท่านั้น และแม้แต่ข้อมูลนั้นก็ไม่เปิดเผย จึงยากจะเชื่อถือ
แม้จะพูดถึงการฝึกแบบ RL แต่ข้อมูลสำคัญอย่างมี pre-training หรือฟাইনจูนหรือไม่กลับไม่มีเลย
จนกว่าจะเปิดเผยรายละเอียดหรือให้ภายนอกทำเบนช์มาร์กอย่างอิสระได้ ก็ยังคงสงสัยทุกคำกล่าวอ้าง
ถ้าเปิดเผย ข้อมูลนั้นอาจถูกรวมเข้าไปในชุดฝึกของ LLM อื่น ๆ จนทำให้ ความถูกต้องเชิงวิทยาศาสตร์ หายไป
แต่ถ้าไม่เปิดเผย ก็อาจเป็นไปได้ว่าเลือกเฉพาะข้อมูลที่เข้าทางตัวเอง
สุดท้ายมันก็เป็นภาวะกลืนไม่เข้าคายไม่ออกที่แก้ยาก
Cursor เก็บข้อมูล accept/reject หลายพันรายการแบบเรียลไทม์ ดังนั้นนี่คือฟีดแบ็กลูปที่ดีที่สุด
ปฏิกิริยาจากผู้ใช้จริงมีประโยชน์กว่าเบนช์มาร์กมาก และช่วยปรับปรุงโมเดลได้อย่างรวดเร็ว
ช่วงหลังยังเพิ่มฟีเจอร์ multi-agent + การผสานรวมกับ git tree ทำให้ใช้พฤติกรรมผู้ใช้เป็นสัญญาณการเรียนรู้ได้
มองว่านี่คือการแข่งขันที่ช่วยยกระดับคุณภาพทั้งตลาด และทำให้ต้นทุนการใช้งานลดลงด้วย
รู้สึกว่า โมเดล Tab ของ Cursor ยังดีที่สุดอยู่
มีการสรุปไว้ดีในบล็อกทางการ
ถ้านำแนวทางนี้ไปใช้กับ โมเดล agentic coding ได้ก็น่าสนใจมาก
แรงจูงใจของโปรเจกต์นี้เองก็เริ่มจากไอเดียที่อยากสร้างเอเจนต์แบบ Tab
ฉันแทบจะเปิด Claude Code ทิ้งไว้ตลอดเวลา และ Tab จะเข้ามาแค่ตอนที่โมเดลไปต่อไม่ไหวจริง ๆ
น่าประทับใจที่สถานการณ์แบบนั้นค่อย ๆ ลดลง
อยากให้เปลี่ยนเป็นอะไรอย่าง shift+tab
เวลาพิมพ์โค้ดเองแล้วต้องเหมือนแข่งเรื่องการย่อหน้ากับ AI มันรู้สึกไม่สะดวก
ฉันเป็นนักวิจัย ML ของ Cursor และมีส่วนร่วมในโปรเจกต์นี้
ยินดีรับฟีดแบ็กเกี่ยวกับโมเดลหรือบล็อกโพสต์
แต่ถ้า Composer เป็นการฟাইনจูนโมเดลเปิดด้วย RL ก็สงสัยว่าทำไมถึงยัง ไม่เปิดเผย weights
ความได้เปรียบด้านประสิทธิภาพเพียงเล็กน้อยมักอยู่ได้ไม่นาน ดังนั้น กลยุทธ์แบบเปิด น่าจะช่วยสร้างความเชื่อมั่นจากนักพัฒนาได้มากกว่า
ส่วนตัวฉันไม่ค่อยสนใจโมเดลปิด
เมื่อก่อนเคยลอง Cursor แล้วเลิกใช้ไป แต่ Composer1 รอบนี้เร็วและแม่นยำกว่า GPT5 Codex มาก
ทั้งความเร็วและคุณภาพดีมากจนคิดว่าจะกลับไปใช้อีกครั้ง
ถ้ามีเวอร์ชันที่แสดงชื่อแต่ละโมเดลโดยไม่จัดกลุ่มรวมกันก็น่าจะยุติธรรมกว่า
ขั้นวางแผนฉันใช้ Claude แต่พอถึงขั้นลงมือทำ Composer มีประสิทธิภาพกว่ามาก
สำหรับฉัน Sonnet 4.5 คือ เส้นคุณภาพขั้นต่ำ ที่พอยอมรับได้
สิ่งที่สำคัญกว่าความเร็วคือไม่ต้องเสียแรงต่อสู้กับโมเดลเพื่อให้ได้ผลลัพธ์ที่ต้องการ
ฉันอาจเข้าใจผิดก็ได้ แต่สงสัยว่าโมเดลที่เอามาเทียบในโพสต์นี้เป็นโมเดลภายในของ Cursor ทั้งหมดหรือเปล่า
แบบหนึ่งอยากให้โมเดลจัดการงานยาว ๆ ได้เองอย่างอิสระ
อีกแบบอยาก โต้ตอบและทำงานร่วมกัน กับโมเดล
สำหรับแบบหลัง ความเร็วสำคัญกว่ามาก ส่วนแบบแรก ความฉลาดสำคัญกว่า
สำหรับฉัน ปัญหาใหญ่กว่าคือการเข้าใจบริบทที่ยังไม่ดีพอ ดังนั้นมันขึ้นอยู่กับสถานการณ์
ถ้าใช้โมเดลอื่นนอกจาก Claude จะเสียค่าโทเคนมากกว่าและประสิทธิภาพต่ำกว่า
Claude 4.5 Sonnet ทำงานเดียวกันได้ในต้นทุนแค่ครึ่งเดียว
ฉันชอบฟีดแบ็กที่เร็วมากกว่าความแม่นยำ
ดีใจที่มีโมเดลใหม่ออกมา แต่ กราฟไม่มีตัวเลขหรือชื่อโมเดล เลยทำให้เชื่อถือยาก
แม้จะเปิดเผยรายละเอียดการฝึกไม่ได้ แต่บอกว่าได้ผลลัพธ์ว่า RL scale ได้ดี
หลายคนวิจารณ์ Cursor แต่ฉันลองใช้มาหมดแล้วทั้ง Copilot, Claude Code, Codex, Gemini CLI, Cline และพบว่า ความสมบูรณ์ของ Cursor สูงที่สุด
ทั้งความเร็วและความเสถียรโดดเด่นมาก และให้ความรู้สึกเหมือนเป็นผลิตภัณฑ์จริง
หลายครั้งคำขอค้างเกิน 30 วินาที และ Claude Code เร็วกับเสถียรกว่ามาก
วันนี้ลองโมเดลใหม่อีกครั้ง Composer1 เร็วก็จริงแต่ก็ยังมีข้อผิดพลาดการเชื่อมต่ออยู่
ถ้าจะทำสิ่งที่ต้องการให้เสร็จเร็ว Cursor ดีที่สุด
ระบบเติมโค้ดอัตโนมัติก็มีประโยชน์มากเวลารีแฟกเตอร์
ในบรรดาคู่แข่ง มีแค่ Cursor ที่จริงจังกับ เวลาในการตอบจนเสร็จสมบูรณ์
Cursor นำหน้าในจุดนั้นแบบชัดเจน
ลองใช้ระบบใหม่แล้วกลับรู้สึกว่า ประสิทธิภาพแย่ลง
แม้แต่แอปพื้นฐานก็ยังทำงานไม่ถูกต้อง และยังจัดการ CSS กับบริบทในเทอร์มินัลไม่สำเร็จ
ความเร็วก็ช้าลงเรื่อย ๆ สุดท้ายเลยกลับไปใช้ Sonnet
หวังว่านี่ยังไม่ใช่เวอร์ชันที่เสถียร
ฉันชอบ Cursor มากจริง ๆ
ลองใช้มาหลายเครื่องมือทั้ง Copilot, Claude ฯลฯ แต่สุดท้ายก็กลับมาที่ Cursor เสมอ
โดยเฉพาะ Tab autocomplete ที่แม่นมากเวลารีแฟกเตอร์
มันช้าและคุณภาพของคำแนะนำต่ำ
Cursor เร็วกว่ามากและคำแนะนำก็มีประโยชน์กว่า
แต่เพราะเร็วเกินไป บางครั้งก็เด้งคำแนะนำที่ไม่จำเป็นขึ้นมาต่อเนื่อง ซึ่งน่าเสียดาย
อย่างไรก็ตาม มีฟีเจอร์ snooze เลยช่วยแก้ปัญหาได้
มีภาพนกกระทุงของ Composer 1 กำลังปั่นจักรยาน
ลิงก์รูปภาพ