Composer: โมเดลฟรอนเทียร์ความเร็วสูงที่สร้างด้วยการเรียนรู้แบบเสริมกำลัง

(cursor.com)

2 คะแนน โดย GN⁺ 2025-10-30 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Composer ที่ Cursor เปิดตัวคือ โมเดลเอเจนต์อัจฉริยะความเร็วสูงสำหรับวิศวกรรมซอฟต์แวร์ ซึ่งทำความเร็วในการสร้างโค้ดได้ เร็วกว่า 4 เท่า เมื่อเทียบกับโมเดลลักษณะใกล้เคียงกัน
โมเดลถูกฝึกให้แก้ปัญหาบนโค้ดเบสขนาดใหญ่จริง และใช้ เครื่องมือค้นหาและแก้ไข เพื่อจัดการงานที่มีความยากหลากหลาย
ผสานสถาปัตยกรรม Mixture-of-Experts(MoE) กับ การเรียนรู้แบบเสริมกำลัง (RL) เพื่อรองรับ ความเข้าใจและการสร้างบนบริบทยาว เช่น การแก้ไขโค้ด การวางแผน และการตอบคำถาม
ประเมินผ่าน Cursor Bench ซึ่งวัดไม่เพียงความแม่นยำของโมเดล แต่รวมถึง ความสอดคล้องของโค้ดเบสและการปฏิบัติตามแนวทางวิศวกรรม
ใช้ โครงสร้างพื้นฐาน RL แบบอะซิงโครนัสบน PyTorch และ Ray พร้อม การฝึกแบบความแม่นยำต่ำ MXFP8 เพื่อเพิ่มประสิทธิภาพการฝึกบน GPU หลายพันตัวและเร่งความเร็วการอนุมาน

ภาพรวมของ Composer

Composer คือโมเดลเอเจนต์ใหม่ที่พัฒนาขึ้นโดยมุ่งเน้น ความฉลาดและความเร็วสำหรับงานวิศวกรรมซอฟต์แวร์
- ในการทดสอบมาตรฐาน ทำความเร็วในการสร้างโค้ดได้ เร็วกว่า 4 เท่า เมื่อเทียบกับโมเดลลักษณะใกล้เคียงกัน
- ถูกปรับแต่งให้เหมาะกับการเป็น เอเจนต์สำหรับแก้ปัญหาบนโค้ดเบสขนาดใหญ่ ภายใน Cursor
โมเดลนี้ถูกฝึกให้แก้ปัญหาหลายระดับความยากในสภาพแวดล้อมจริง โดยใช้ เครื่องมือค้นหาและแก้ไข
- สิ่งนี้ช่วยมอบ ประสบการณ์การพัฒนาแบบโต้ตอบที่รวดเร็ว

ที่มาของการพัฒนา

Composer มีจุดเริ่มต้นจากประสบการณ์ของ Cursor ในการพัฒนา โมเดลเติมโค้ดอัตโนมัติแบบกำหนดเอง (Cursor Tab)
- ทีมพบว่านักพัฒนาชื่นชอบ โมเดลที่ฉลาดและตอบสนองรวดเร็ว
จากโมเดลทดลองระยะแรก Cheetah Composer ถูกออกแบบให้เป็น เวอร์ชันที่เร็วกว่าและฉลาดกว่า
- เป้าหมายคือการสร้าง โมเดลที่ตอบสนองได้ทันทีโดยไม่ทำให้จังหวะการพัฒนาสะดุด

โครงสร้างโมเดลและวิธีการฝึก

Composer เป็นโมเดลภาษาแบบ Mixture-of-Experts(MoE) ที่รองรับ ความเข้าใจและการสร้างบนบริบทยาว
โมเดลถูกทำให้เชี่ยวชาญในสภาพแวดล้อมการพัฒนาที่หลากหลายผ่าน การเรียนรู้แบบเสริมกำลัง (RL)
- ในแต่ละขั้นของการฝึก โมเดลจะได้รับคำอธิบายปัญหาและสร้าง การแก้ไขโค้ด การวางแผน และคำตอบที่เหมาะสมที่สุด
- โมเดลใช้เครื่องมืออย่าง การอ่านและแก้ไขไฟล์, การรันคำสั่งเทอร์มินัล และ การค้นหาเชิงความหมายทั้งโค้ดเบส
ในกระบวนการ RL โมเดลเรียนรู้พฤติกรรมที่เป็นประโยชน์ได้ด้วยตนเอง เช่น การค้นหาที่ซับซ้อน การแก้ข้อผิดพลาดจาก linter และการเขียนพร้อมรัน unit test

การประเมินและเบนช์มาร์ก

Cursor Bench คือชุดประเมินภายในที่รวมคำขอจริงจากวิศวกรและคำตอบที่เหมาะสมที่สุด
- ใช้วัด ความแม่นยำของโมเดล, การยึดตามนามธรรมของโค้ดเบส และ ความสอดคล้องกับแนวปฏิบัติด้านวิศวกรรมซอฟต์แวร์
Composer ถูกจัดอยู่ในกลุ่มโมเดลระดับ “Fast Frontier” และถูกเปรียบเทียบกับโมเดลที่มุ่งเน้นการอนุมานอย่างมีประสิทธิภาพ เช่น Haiku 4.5 และ Gemini Flash 2.5
- แม้จะช้ากว่า Frontier model ระดับสูงสุด อย่าง GPT-5 และ Sonnet 4.5 แต่ก็มี ประสิทธิภาพต่อความเร็วในระดับสูง

โครงสร้างพื้นฐานและการออกแบบระบบ

เพื่อฝึกโมเดล MoE ขนาดใหญ่ Cursor ได้สร้าง โครงสร้างพื้นฐาน RL แบบอะซิงโครนัสบน PyTorch และ Ray
- ผสาน MXFP8 MoE kernel, expert parallelism และ hybrid sharded data parallelism
- ขยายการฝึกไปยัง NVIDIA GPU หลายพันตัวโดยลดต้นทุนการสื่อสารให้น้อยที่สุด
การฝึกแบบความแม่นยำต่ำ MXFP8 ช่วย เพิ่มความเร็วการอนุมาน และ ไม่จำเป็นต้องทำ post-training quantization
ระหว่าง RL โมเดลสามารถเรียกใช้เครื่องมือทั้งหมดของ Cursor Agent ได้
- รองรับการแก้ไขโค้ด, การค้นหาเชิงความหมาย, string grep และการรันคำสั่งเทอร์มินัล
- เพื่อรองรับสิ่งนี้ จึงมีการรัน สภาพแวดล้อมคลาวด์แซนด์บ็อกซ์หลายแสนชุด แบบขนาน
- และขยาย โครงสร้างพื้นฐาน Background Agents เดิมเพื่อรับมือกับ ภาระการฝึกแบบ burst

การใช้งานภายในและการเปิดตัว

ทีม Cursor ใช้ Composer อย่างจริงจังในงานพัฒนาภายในของตนเอง
- วิศวกรจำนวนมาก ใช้ Composer ในงานพัฒนาซอฟต์แวร์ประจำวัน
การเปิดตัวครั้งนี้เกิดขึ้นพร้อมความคาดหวังว่า นักพัฒนาคนอื่นก็จะนำไปใช้ได้อย่างมีประโยชน์เช่นกัน

ภาคผนวก: การจัดหมวดหมู่เบนช์มาร์กภายใน

Fast Frontier: โมเดลสำหรับการอนุมานอย่างมีประสิทธิภาพ (Haiku 4.5, Gemini Flash 2.5 เป็นต้น)
Best Open: โมเดลแบบเปิดน้ำหนัก (Qwen Coder, GLM 4.6 เป็นต้น)
Frontier 7/2025: โมเดลที่ดีที่สุด ณ เดือนกรกฎาคม 2025
Best Frontier: โมเดลที่มีประสิทธิภาพสูงกว่า Composer เช่น GPT-5 และ Sonnet 4.5
การคำนวณ Tokens per Second ถูกทำให้เป็นมาตรฐานตาม Anthropic tokenizer เวอร์ชันล่าสุด

1 ความคิดเห็น

GN⁺ 2025-10-30

ความคิดเห็นจาก Hacker News

รู้สึกว่าขาดความโปร่งใสมากเกินไป
เปิดเผยประสิทธิภาพของโมเดลผ่าน เบนช์มาร์กภายใน เท่านั้น และแม้แต่ข้อมูลนั้นก็ไม่เปิดเผย จึงยากจะเชื่อถือ
แม้จะพูดถึงการฝึกแบบ RL แต่ข้อมูลสำคัญอย่างมี pre-training หรือฟাইনจูนหรือไม่กลับไม่มีเลย
จนกว่าจะเปิดเผยรายละเอียดหรือให้ภายนอกทำเบนช์มาร์กอย่างอิสระได้ ก็ยังคงสงสัยทุกคำกล่าวอ้าง
- เข้าใจเหตุผลที่ไม่เปิดเผยเบนช์มาร์กภายใน
  ถ้าเปิดเผย ข้อมูลนั้นอาจถูกรวมเข้าไปในชุดฝึกของ LLM อื่น ๆ จนทำให้ ความถูกต้องเชิงวิทยาศาสตร์ หายไป
  แต่ถ้าไม่เปิดเผย ก็อาจเป็นไปได้ว่าเลือกเฉพาะข้อมูลที่เข้าทางตัวเอง
  สุดท้ายมันก็เป็นภาวะกลืนไม่เข้าคายไม่ออกที่แก้ยาก
- จริง ๆ แล้วสิ่งสำคัญคือ ข้อมูลจากผู้ใช้จริง
  Cursor เก็บข้อมูล accept/reject หลายพันรายการแบบเรียลไทม์ ดังนั้นนี่คือฟีดแบ็กลูปที่ดีที่สุด
  ปฏิกิริยาจากผู้ใช้จริงมีประโยชน์กว่าเบนช์มาร์กมาก และช่วยปรับปรุงโมเดลได้อย่างรวดเร็ว
  ช่วงหลังยังเพิ่มฟีเจอร์ multi-agent + การผสานรวมกับ git tree ทำให้ใช้พฤติกรรมผู้ใช้เป็นสัญญาณการเรียนรู้ได้
  มองว่านี่คือการแข่งขันที่ช่วยยกระดับคุณภาพทั้งตลาด และทำให้ต้นทุนการใช้งานลดลงด้วย
รู้สึกว่า โมเดล Tab ของ Cursor ยังดีที่สุดอยู่
มีการสรุปไว้ดีในบล็อกทางการ
ถ้านำแนวทางนี้ไปใช้กับ โมเดล agentic coding ได้ก็น่าสนใจมาก
- ทีมของเราก็ใช้ Tab กันเยอะ
  แรงจูงใจของโปรเจกต์นี้เองก็เริ่มจากไอเดียที่อยากสร้างเอเจนต์แบบ Tab
- อยากรู้ว่าเคยใช้ Windsurfs ไหม
- แม้โมเดล Tab จะดี แต่ก็ให้ความรู้สึกเหมือนเป็น การแข่งขันเพื่อทำแส้ให้ดีขึ้น
  ฉันแทบจะเปิด Claude Code ทิ้งไว้ตลอดเวลา และ Tab จะเข้ามาแค่ตอนที่โมเดลไปต่อไม่ไหวจริง ๆ
  น่าประทับใจที่สถานการณ์แบบนั้นค่อย ๆ ลดลง
- โมเดล Tab ยอดเยี่ยม แต่ก็น่าเสียดายที่ยังไม่เข้าใจ บริบทของเซสชันแชต AI ที่กำลังคุยอยู่
- ฟีเจอร์ดี แต่คีย์ลัดยังไม่น่าพอใจ
  อยากให้เปลี่ยนเป็นอะไรอย่าง shift+tab
  เวลาพิมพ์โค้ดเองแล้วต้องเหมือนแข่งเรื่องการย่อหน้ากับ AI มันรู้สึกไม่สะดวก
ฉันเป็นนักวิจัย ML ของ Cursor และมีส่วนร่วมในโปรเจกต์นี้
ยินดีรับฟีดแบ็กเกี่ยวกับโมเดลหรือบล็อกโพสต์
- คำอธิบายระบบน่าประทับใจมาก
  แต่ถ้า Composer เป็นการฟাইনจูนโมเดลเปิดด้วย RL ก็สงสัยว่าทำไมถึงยัง ไม่เปิดเผย weights
  ความได้เปรียบด้านประสิทธิภาพเพียงเล็กน้อยมักอยู่ได้ไม่นาน ดังนั้น กลยุทธ์แบบเปิด น่าจะช่วยสร้างความเชื่อมั่นจากนักพัฒนาได้มากกว่า
  ส่วนตัวฉันไม่ค่อยสนใจโมเดลปิด
- น่าทึ่งจริง ๆ
  เมื่อก่อนเคยลอง Cursor แล้วเลิกใช้ไป แต่ Composer1 รอบนี้เร็วและแม่นยำกว่า GPT5 Codex มาก
  ทั้งความเร็วและคุณภาพดีมากจนคิดว่าจะกลับไปใช้อีกครั้ง
- กราฟแรกในบล็อกคลุมเครือเกินไป
  ถ้ามีเวอร์ชันที่แสดงชื่อแต่ละโมเดลโดยไม่จัดกลุ่มรวมกันก็น่าจะยุติธรรมกว่า
- วันนี้ลองใช้ Composer, Sonnet 4.5 และ Gemini 2.5 Pro ไปพร้อมกัน และรู้สึกว่าการผสมกันของ ความเร็วกับคุณภาพ ของ Composer น่าพอใจที่สุด
  ขั้นวางแผนฉันใช้ Claude แต่พอถึงขั้นลงมือทำ Composer มีประสิทธิภาพกว่ามาก
- ดูจากกราฟ log แล้ว เหมือนว่าการจะไปถึงระดับ frontier model ต้องใช้คอมพิวต์เพิ่มอีกราว 50% เลยอยากรู้ว่าทำไมถึงหยุดการฝึกไว้ตรงนั้น
สำหรับฉัน Sonnet 4.5 คือ เส้นคุณภาพขั้นต่ำ ที่พอยอมรับได้
สิ่งที่สำคัญกว่าความเร็วคือไม่ต้องเสียแรงต่อสู้กับโมเดลเพื่อให้ได้ผลลัพธ์ที่ต้องการ
ฉันอาจเข้าใจผิดก็ได้ แต่สงสัยว่าโมเดลที่เอามาเทียบในโพสต์นี้เป็นโมเดลภายในของ Cursor ทั้งหมดหรือเปล่า
- Sonnet 4.5 เพิ่งออกมาได้แค่เดือนเดียว แต่ถูกมองเป็น ‘เส้นขั้นต่ำ’ แล้วก็น่าสนุกดี
- คิดว่าผู้ใช้มีอยู่สองประเภท
  แบบหนึ่งอยากให้โมเดลจัดการงานยาว ๆ ได้เองอย่างอิสระ
  อีกแบบอยาก โต้ตอบและทำงานร่วมกัน กับโมเดล
  สำหรับแบบหลัง ความเร็วสำคัญกว่ามาก ส่วนแบบแรก ความฉลาดสำคัญกว่า
  สำหรับฉัน ปัญหาใหญ่กว่าคือการเข้าใจบริบทที่ยังไม่ดีพอ ดังนั้นมันขึ้นอยู่กับสถานการณ์
- Sonnet 4.5 ยอดเยี่ยมก็จริง แต่สงสัยว่าเคยลอง Composer หรือยัง
- ฉันก็คล้ายกัน
  ถ้าใช้โมเดลอื่นนอกจาก Claude จะเสียค่าโทเคนมากกว่าและประสิทธิภาพต่ำกว่า
  Claude 4.5 Sonnet ทำงานเดียวกันได้ในต้นทุนแค่ครึ่งเดียว
- ที่ยกการเปรียบเทียบนี้ขึ้นมาก็เพื่อแสดงให้เห็นว่า Cursor จริงจังกับ ประสบการณ์ผู้ใช้ที่เน้นความเร็ว แค่ไหน
  ฉันชอบฟีดแบ็กที่เร็วมากกว่าความแม่นยำ
ดีใจที่มีโมเดลใหม่ออกมา แต่ กราฟไม่มีตัวเลขหรือชื่อโมเดล เลยทำให้เชื่อถือยาก
- มีคำอธิบายเรื่องโมเดลอยู่ในเชิงอรรถ
  แม้จะเปิดเผยรายละเอียดการฝึกไม่ได้ แต่บอกว่าได้ผลลัพธ์ว่า RL scale ได้ดี
หลายคนวิจารณ์ Cursor แต่ฉันลองใช้มาหมดแล้วทั้ง Copilot, Claude Code, Codex, Gemini CLI, Cline และพบว่า ความสมบูรณ์ของ Cursor สูงที่สุด
ทั้งความเร็วและความเสถียรโดดเด่นมาก และให้ความรู้สึกเหมือนเป็นผลิตภัณฑ์จริง
- ฉันก็เคยใช้ Cursor แต่เลิกเพราะ ปัญหาความน่าเชื่อถือ
  หลายครั้งคำขอค้างเกิน 30 วินาที และ Claude Code เร็วกับเสถียรกว่ามาก
  วันนี้ลองโมเดลใหม่อีกครั้ง Composer1 เร็วก็จริงแต่ก็ยังมีข้อผิดพลาดการเชื่อมต่ออยู่
- ฉันก็ลองมาหลายเครื่องมือ แต่สุดท้ายก็กลับมาที่ Cursor
  ถ้าจะทำสิ่งที่ต้องการให้เสร็จเร็ว Cursor ดีที่สุด
- Cursor บางครั้งก็ค้าง แต่ ย้อนกลับได้ง่ายใน UI เลยไม่ได้ลำบากมาก
  ระบบเติมโค้ดอัตโนมัติก็มีประโยชน์มากเวลารีแฟกเตอร์
- บอกว่าลองทางเลือกมาหลายตัวแล้ว แต่เคยลอง Zed หรือยัง?
- น่าสนใจที่ลอง Claude แล้วก็ยังชอบ Cursor มากกว่า
ในบรรดาคู่แข่ง มีแค่ Cursor ที่จริงจังกับ เวลาในการตอบจนเสร็จสมบูรณ์
Cursor นำหน้าในจุดนั้นแบบชัดเจน
- พวกเราก็ชอบโมเดลหลากหลายแบบ แต่คิดว่าสิ่งสำคัญคือการหาจุดสมดุลระหว่าง เร็วและฉลาด (นักวิจัย Cursor)
ลองใช้ระบบใหม่แล้วกลับรู้สึกว่า ประสิทธิภาพแย่ลง
แม้แต่แอปพื้นฐานก็ยังทำงานไม่ถูกต้อง และยังจัดการ CSS กับบริบทในเทอร์มินัลไม่สำเร็จ
ความเร็วก็ช้าลงเรื่อย ๆ สุดท้ายเลยกลับไปใช้ Sonnet
หวังว่านี่ยังไม่ใช่เวอร์ชันที่เสถียร
ฉันชอบ Cursor มากจริง ๆ
ลองใช้มาหลายเครื่องมือทั้ง Copilot, Claude ฯลฯ แต่สุดท้ายก็กลับมาที่ Cursor เสมอ
โดยเฉพาะ Tab autocomplete ที่แม่นมากเวลารีแฟกเตอร์
- เมื่อเดือนก่อนลองกลับไปใช้ VS Code + Copilot แต่ยอมแพ้ใน 4 วัน
  มันช้าและคุณภาพของคำแนะนำต่ำ
  Cursor เร็วกว่ามากและคำแนะนำก็มีประโยชน์กว่า
  แต่เพราะเร็วเกินไป บางครั้งก็เด้งคำแนะนำที่ไม่จำเป็นขึ้นมาต่อเนื่อง ซึ่งน่าเสียดาย
  อย่างไรก็ตาม มีฟีเจอร์ snooze เลยช่วยแก้ปัญหาได้
มีภาพนกกระทุงของ Composer 1 กำลังปั่นจักรยาน
ลิงก์รูปภาพ
- ออกมาดีกว่าที่คิดไว้มาก

Composer: โมเดลฟรอนเทียร์ความเร็วสูงที่สร้างด้วยการเรียนรู้แบบเสริมกำลัง

ภาพรวมของ Composer

ที่มาของการพัฒนา

โครงสร้างโมเดลและวิธีการฝึก

การประเมินและเบนช์มาร์ก

โครงสร้างพื้นฐานและการออกแบบระบบ

การใช้งานภายในและการเปิดตัว

ภาคผนวก: การจัดหมวดหมู่เบนช์มาร์กภายใน

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News