2 คะแนน โดย GN⁺ 2025-10-30 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Composer ที่ Cursor เปิดตัวคือ โมเดลเอเจนต์อัจฉริยะความเร็วสูงสำหรับวิศวกรรมซอฟต์แวร์ ซึ่งทำความเร็วในการสร้างโค้ดได้ เร็วกว่า 4 เท่า เมื่อเทียบกับโมเดลลักษณะใกล้เคียงกัน
  • โมเดลถูกฝึกให้แก้ปัญหาบนโค้ดเบสขนาดใหญ่จริง และใช้ เครื่องมือค้นหาและแก้ไข เพื่อจัดการงานที่มีความยากหลากหลาย
  • ผสานสถาปัตยกรรม Mixture-of-Experts(MoE) กับ การเรียนรู้แบบเสริมกำลัง (RL) เพื่อรองรับ ความเข้าใจและการสร้างบนบริบทยาว เช่น การแก้ไขโค้ด การวางแผน และการตอบคำถาม
  • ประเมินผ่าน Cursor Bench ซึ่งวัดไม่เพียงความแม่นยำของโมเดล แต่รวมถึง ความสอดคล้องของโค้ดเบสและการปฏิบัติตามแนวทางวิศวกรรม
  • ใช้ โครงสร้างพื้นฐาน RL แบบอะซิงโครนัสบน PyTorch และ Ray พร้อม การฝึกแบบความแม่นยำต่ำ MXFP8 เพื่อเพิ่มประสิทธิภาพการฝึกบน GPU หลายพันตัวและเร่งความเร็วการอนุมาน

ภาพรวมของ Composer

  • Composer คือโมเดลเอเจนต์ใหม่ที่พัฒนาขึ้นโดยมุ่งเน้น ความฉลาดและความเร็วสำหรับงานวิศวกรรมซอฟต์แวร์
    • ในการทดสอบมาตรฐาน ทำความเร็วในการสร้างโค้ดได้ เร็วกว่า 4 เท่า เมื่อเทียบกับโมเดลลักษณะใกล้เคียงกัน
    • ถูกปรับแต่งให้เหมาะกับการเป็น เอเจนต์สำหรับแก้ปัญหาบนโค้ดเบสขนาดใหญ่ ภายใน Cursor
  • โมเดลนี้ถูกฝึกให้แก้ปัญหาหลายระดับความยากในสภาพแวดล้อมจริง โดยใช้ เครื่องมือค้นหาและแก้ไข
    • สิ่งนี้ช่วยมอบ ประสบการณ์การพัฒนาแบบโต้ตอบที่รวดเร็ว

ที่มาของการพัฒนา

  • Composer มีจุดเริ่มต้นจากประสบการณ์ของ Cursor ในการพัฒนา โมเดลเติมโค้ดอัตโนมัติแบบกำหนดเอง (Cursor Tab)
    • ทีมพบว่านักพัฒนาชื่นชอบ โมเดลที่ฉลาดและตอบสนองรวดเร็ว
  • จากโมเดลทดลองระยะแรก Cheetah Composer ถูกออกแบบให้เป็น เวอร์ชันที่เร็วกว่าและฉลาดกว่า
    • เป้าหมายคือการสร้าง โมเดลที่ตอบสนองได้ทันทีโดยไม่ทำให้จังหวะการพัฒนาสะดุด

โครงสร้างโมเดลและวิธีการฝึก

  • Composer เป็นโมเดลภาษาแบบ Mixture-of-Experts(MoE) ที่รองรับ ความเข้าใจและการสร้างบนบริบทยาว
  • โมเดลถูกทำให้เชี่ยวชาญในสภาพแวดล้อมการพัฒนาที่หลากหลายผ่าน การเรียนรู้แบบเสริมกำลัง (RL)
    • ในแต่ละขั้นของการฝึก โมเดลจะได้รับคำอธิบายปัญหาและสร้าง การแก้ไขโค้ด การวางแผน และคำตอบที่เหมาะสมที่สุด
    • โมเดลใช้เครื่องมืออย่าง การอ่านและแก้ไขไฟล์, การรันคำสั่งเทอร์มินัล และ การค้นหาเชิงความหมายทั้งโค้ดเบส
  • ในกระบวนการ RL โมเดลเรียนรู้พฤติกรรมที่เป็นประโยชน์ได้ด้วยตนเอง เช่น การค้นหาที่ซับซ้อน การแก้ข้อผิดพลาดจาก linter และการเขียนพร้อมรัน unit test

การประเมินและเบนช์มาร์ก

  • Cursor Bench คือชุดประเมินภายในที่รวมคำขอจริงจากวิศวกรและคำตอบที่เหมาะสมที่สุด
    • ใช้วัด ความแม่นยำของโมเดล, การยึดตามนามธรรมของโค้ดเบส และ ความสอดคล้องกับแนวปฏิบัติด้านวิศวกรรมซอฟต์แวร์
  • Composer ถูกจัดอยู่ในกลุ่มโมเดลระดับ “Fast Frontier” และถูกเปรียบเทียบกับโมเดลที่มุ่งเน้นการอนุมานอย่างมีประสิทธิภาพ เช่น Haiku 4.5 และ Gemini Flash 2.5
    • แม้จะช้ากว่า Frontier model ระดับสูงสุด อย่าง GPT-5 และ Sonnet 4.5 แต่ก็มี ประสิทธิภาพต่อความเร็วในระดับสูง

โครงสร้างพื้นฐานและการออกแบบระบบ

  • เพื่อฝึกโมเดล MoE ขนาดใหญ่ Cursor ได้สร้าง โครงสร้างพื้นฐาน RL แบบอะซิงโครนัสบน PyTorch และ Ray
    • ผสาน MXFP8 MoE kernel, expert parallelism และ hybrid sharded data parallelism
    • ขยายการฝึกไปยัง NVIDIA GPU หลายพันตัวโดยลดต้นทุนการสื่อสารให้น้อยที่สุด
  • การฝึกแบบความแม่นยำต่ำ MXFP8 ช่วย เพิ่มความเร็วการอนุมาน และ ไม่จำเป็นต้องทำ post-training quantization
  • ระหว่าง RL โมเดลสามารถเรียกใช้เครื่องมือทั้งหมดของ Cursor Agent ได้
    • รองรับการแก้ไขโค้ด, การค้นหาเชิงความหมาย, string grep และการรันคำสั่งเทอร์มินัล
    • เพื่อรองรับสิ่งนี้ จึงมีการรัน สภาพแวดล้อมคลาวด์แซนด์บ็อกซ์หลายแสนชุด แบบขนาน
    • และขยาย โครงสร้างพื้นฐาน Background Agents เดิมเพื่อรับมือกับ ภาระการฝึกแบบ burst

การใช้งานภายในและการเปิดตัว

  • ทีม Cursor ใช้ Composer อย่างจริงจังในงานพัฒนาภายในของตนเอง
    • วิศวกรจำนวนมาก ใช้ Composer ในงานพัฒนาซอฟต์แวร์ประจำวัน
  • การเปิดตัวครั้งนี้เกิดขึ้นพร้อมความคาดหวังว่า นักพัฒนาคนอื่นก็จะนำไปใช้ได้อย่างมีประโยชน์เช่นกัน

ภาคผนวก: การจัดหมวดหมู่เบนช์มาร์กภายใน

  • Fast Frontier: โมเดลสำหรับการอนุมานอย่างมีประสิทธิภาพ (Haiku 4.5, Gemini Flash 2.5 เป็นต้น)
  • Best Open: โมเดลแบบเปิดน้ำหนัก (Qwen Coder, GLM 4.6 เป็นต้น)
  • Frontier 7/2025: โมเดลที่ดีที่สุด ณ เดือนกรกฎาคม 2025
  • Best Frontier: โมเดลที่มีประสิทธิภาพสูงกว่า Composer เช่น GPT-5 และ Sonnet 4.5
  • การคำนวณ Tokens per Second ถูกทำให้เป็นมาตรฐานตาม Anthropic tokenizer เวอร์ชันล่าสุด

1 ความคิดเห็น

 
GN⁺ 2025-10-30
ความคิดเห็นจาก Hacker News
  • รู้สึกว่าขาดความโปร่งใสมากเกินไป
    เปิดเผยประสิทธิภาพของโมเดลผ่าน เบนช์มาร์กภายใน เท่านั้น และแม้แต่ข้อมูลนั้นก็ไม่เปิดเผย จึงยากจะเชื่อถือ
    แม้จะพูดถึงการฝึกแบบ RL แต่ข้อมูลสำคัญอย่างมี pre-training หรือฟাইনจูนหรือไม่กลับไม่มีเลย
    จนกว่าจะเปิดเผยรายละเอียดหรือให้ภายนอกทำเบนช์มาร์กอย่างอิสระได้ ก็ยังคงสงสัยทุกคำกล่าวอ้าง

    • เข้าใจเหตุผลที่ไม่เปิดเผยเบนช์มาร์กภายใน
      ถ้าเปิดเผย ข้อมูลนั้นอาจถูกรวมเข้าไปในชุดฝึกของ LLM อื่น ๆ จนทำให้ ความถูกต้องเชิงวิทยาศาสตร์ หายไป
      แต่ถ้าไม่เปิดเผย ก็อาจเป็นไปได้ว่าเลือกเฉพาะข้อมูลที่เข้าทางตัวเอง
      สุดท้ายมันก็เป็นภาวะกลืนไม่เข้าคายไม่ออกที่แก้ยาก
    • จริง ๆ แล้วสิ่งสำคัญคือ ข้อมูลจากผู้ใช้จริง
      Cursor เก็บข้อมูล accept/reject หลายพันรายการแบบเรียลไทม์ ดังนั้นนี่คือฟีดแบ็กลูปที่ดีที่สุด
      ปฏิกิริยาจากผู้ใช้จริงมีประโยชน์กว่าเบนช์มาร์กมาก และช่วยปรับปรุงโมเดลได้อย่างรวดเร็ว
      ช่วงหลังยังเพิ่มฟีเจอร์ multi-agent + การผสานรวมกับ git tree ทำให้ใช้พฤติกรรมผู้ใช้เป็นสัญญาณการเรียนรู้ได้
      มองว่านี่คือการแข่งขันที่ช่วยยกระดับคุณภาพทั้งตลาด และทำให้ต้นทุนการใช้งานลดลงด้วย
  • รู้สึกว่า โมเดล Tab ของ Cursor ยังดีที่สุดอยู่
    มีการสรุปไว้ดีในบล็อกทางการ
    ถ้านำแนวทางนี้ไปใช้กับ โมเดล agentic coding ได้ก็น่าสนใจมาก

    • ทีมของเราก็ใช้ Tab กันเยอะ
      แรงจูงใจของโปรเจกต์นี้เองก็เริ่มจากไอเดียที่อยากสร้างเอเจนต์แบบ Tab
    • อยากรู้ว่าเคยใช้ Windsurfs ไหม
    • แม้โมเดล Tab จะดี แต่ก็ให้ความรู้สึกเหมือนเป็น การแข่งขันเพื่อทำแส้ให้ดีขึ้น
      ฉันแทบจะเปิด Claude Code ทิ้งไว้ตลอดเวลา และ Tab จะเข้ามาแค่ตอนที่โมเดลไปต่อไม่ไหวจริง ๆ
      น่าประทับใจที่สถานการณ์แบบนั้นค่อย ๆ ลดลง
    • โมเดล Tab ยอดเยี่ยม แต่ก็น่าเสียดายที่ยังไม่เข้าใจ บริบทของเซสชันแชต AI ที่กำลังคุยอยู่
    • ฟีเจอร์ดี แต่คีย์ลัดยังไม่น่าพอใจ
      อยากให้เปลี่ยนเป็นอะไรอย่าง shift+tab
      เวลาพิมพ์โค้ดเองแล้วต้องเหมือนแข่งเรื่องการย่อหน้ากับ AI มันรู้สึกไม่สะดวก
  • ฉันเป็นนักวิจัย ML ของ Cursor และมีส่วนร่วมในโปรเจกต์นี้
    ยินดีรับฟีดแบ็กเกี่ยวกับโมเดลหรือบล็อกโพสต์

    • คำอธิบายระบบน่าประทับใจมาก
      แต่ถ้า Composer เป็นการฟাইনจูนโมเดลเปิดด้วย RL ก็สงสัยว่าทำไมถึงยัง ไม่เปิดเผย weights
      ความได้เปรียบด้านประสิทธิภาพเพียงเล็กน้อยมักอยู่ได้ไม่นาน ดังนั้น กลยุทธ์แบบเปิด น่าจะช่วยสร้างความเชื่อมั่นจากนักพัฒนาได้มากกว่า
      ส่วนตัวฉันไม่ค่อยสนใจโมเดลปิด
    • น่าทึ่งจริง ๆ
      เมื่อก่อนเคยลอง Cursor แล้วเลิกใช้ไป แต่ Composer1 รอบนี้เร็วและแม่นยำกว่า GPT5 Codex มาก
      ทั้งความเร็วและคุณภาพดีมากจนคิดว่าจะกลับไปใช้อีกครั้ง
    • กราฟแรกในบล็อกคลุมเครือเกินไป
      ถ้ามีเวอร์ชันที่แสดงชื่อแต่ละโมเดลโดยไม่จัดกลุ่มรวมกันก็น่าจะยุติธรรมกว่า
    • วันนี้ลองใช้ Composer, Sonnet 4.5 และ Gemini 2.5 Pro ไปพร้อมกัน และรู้สึกว่าการผสมกันของ ความเร็วกับคุณภาพ ของ Composer น่าพอใจที่สุด
      ขั้นวางแผนฉันใช้ Claude แต่พอถึงขั้นลงมือทำ Composer มีประสิทธิภาพกว่ามาก
    • ดูจากกราฟ log แล้ว เหมือนว่าการจะไปถึงระดับ frontier model ต้องใช้คอมพิวต์เพิ่มอีกราว 50% เลยอยากรู้ว่าทำไมถึงหยุดการฝึกไว้ตรงนั้น
  • สำหรับฉัน Sonnet 4.5 คือ เส้นคุณภาพขั้นต่ำ ที่พอยอมรับได้
    สิ่งที่สำคัญกว่าความเร็วคือไม่ต้องเสียแรงต่อสู้กับโมเดลเพื่อให้ได้ผลลัพธ์ที่ต้องการ
    ฉันอาจเข้าใจผิดก็ได้ แต่สงสัยว่าโมเดลที่เอามาเทียบในโพสต์นี้เป็นโมเดลภายในของ Cursor ทั้งหมดหรือเปล่า

    • Sonnet 4.5 เพิ่งออกมาได้แค่เดือนเดียว แต่ถูกมองเป็น ‘เส้นขั้นต่ำ’ แล้วก็น่าสนุกดี
    • คิดว่าผู้ใช้มีอยู่สองประเภท
      แบบหนึ่งอยากให้โมเดลจัดการงานยาว ๆ ได้เองอย่างอิสระ
      อีกแบบอยาก โต้ตอบและทำงานร่วมกัน กับโมเดล
      สำหรับแบบหลัง ความเร็วสำคัญกว่ามาก ส่วนแบบแรก ความฉลาดสำคัญกว่า
      สำหรับฉัน ปัญหาใหญ่กว่าคือการเข้าใจบริบทที่ยังไม่ดีพอ ดังนั้นมันขึ้นอยู่กับสถานการณ์
    • Sonnet 4.5 ยอดเยี่ยมก็จริง แต่สงสัยว่าเคยลอง Composer หรือยัง
    • ฉันก็คล้ายกัน
      ถ้าใช้โมเดลอื่นนอกจาก Claude จะเสียค่าโทเคนมากกว่าและประสิทธิภาพต่ำกว่า
      Claude 4.5 Sonnet ทำงานเดียวกันได้ในต้นทุนแค่ครึ่งเดียว
    • ที่ยกการเปรียบเทียบนี้ขึ้นมาก็เพื่อแสดงให้เห็นว่า Cursor จริงจังกับ ประสบการณ์ผู้ใช้ที่เน้นความเร็ว แค่ไหน
      ฉันชอบฟีดแบ็กที่เร็วมากกว่าความแม่นยำ
  • ดีใจที่มีโมเดลใหม่ออกมา แต่ กราฟไม่มีตัวเลขหรือชื่อโมเดล เลยทำให้เชื่อถือยาก

    • มีคำอธิบายเรื่องโมเดลอยู่ในเชิงอรรถ
      แม้จะเปิดเผยรายละเอียดการฝึกไม่ได้ แต่บอกว่าได้ผลลัพธ์ว่า RL scale ได้ดี
  • หลายคนวิจารณ์ Cursor แต่ฉันลองใช้มาหมดแล้วทั้ง Copilot, Claude Code, Codex, Gemini CLI, Cline และพบว่า ความสมบูรณ์ของ Cursor สูงที่สุด
    ทั้งความเร็วและความเสถียรโดดเด่นมาก และให้ความรู้สึกเหมือนเป็นผลิตภัณฑ์จริง

    • ฉันก็เคยใช้ Cursor แต่เลิกเพราะ ปัญหาความน่าเชื่อถือ
      หลายครั้งคำขอค้างเกิน 30 วินาที และ Claude Code เร็วกับเสถียรกว่ามาก
      วันนี้ลองโมเดลใหม่อีกครั้ง Composer1 เร็วก็จริงแต่ก็ยังมีข้อผิดพลาดการเชื่อมต่ออยู่
    • ฉันก็ลองมาหลายเครื่องมือ แต่สุดท้ายก็กลับมาที่ Cursor
      ถ้าจะทำสิ่งที่ต้องการให้เสร็จเร็ว Cursor ดีที่สุด
    • Cursor บางครั้งก็ค้าง แต่ ย้อนกลับได้ง่ายใน UI เลยไม่ได้ลำบากมาก
      ระบบเติมโค้ดอัตโนมัติก็มีประโยชน์มากเวลารีแฟกเตอร์
    • บอกว่าลองทางเลือกมาหลายตัวแล้ว แต่เคยลอง Zed หรือยัง?
    • น่าสนใจที่ลอง Claude แล้วก็ยังชอบ Cursor มากกว่า
  • ในบรรดาคู่แข่ง มีแค่ Cursor ที่จริงจังกับ เวลาในการตอบจนเสร็จสมบูรณ์
    Cursor นำหน้าในจุดนั้นแบบชัดเจน

    • พวกเราก็ชอบโมเดลหลากหลายแบบ แต่คิดว่าสิ่งสำคัญคือการหาจุดสมดุลระหว่าง เร็วและฉลาด (นักวิจัย Cursor)
  • ลองใช้ระบบใหม่แล้วกลับรู้สึกว่า ประสิทธิภาพแย่ลง
    แม้แต่แอปพื้นฐานก็ยังทำงานไม่ถูกต้อง และยังจัดการ CSS กับบริบทในเทอร์มินัลไม่สำเร็จ
    ความเร็วก็ช้าลงเรื่อย ๆ สุดท้ายเลยกลับไปใช้ Sonnet
    หวังว่านี่ยังไม่ใช่เวอร์ชันที่เสถียร

  • ฉันชอบ Cursor มากจริง ๆ
    ลองใช้มาหลายเครื่องมือทั้ง Copilot, Claude ฯลฯ แต่สุดท้ายก็กลับมาที่ Cursor เสมอ
    โดยเฉพาะ Tab autocomplete ที่แม่นมากเวลารีแฟกเตอร์

    • เมื่อเดือนก่อนลองกลับไปใช้ VS Code + Copilot แต่ยอมแพ้ใน 4 วัน
      มันช้าและคุณภาพของคำแนะนำต่ำ
      Cursor เร็วกว่ามากและคำแนะนำก็มีประโยชน์กว่า
      แต่เพราะเร็วเกินไป บางครั้งก็เด้งคำแนะนำที่ไม่จำเป็นขึ้นมาต่อเนื่อง ซึ่งน่าเสียดาย
      อย่างไรก็ตาม มีฟีเจอร์ snooze เลยช่วยแก้ปัญหาได้
  • มีภาพนกกระทุงของ Composer 1 กำลังปั่นจักรยาน
    ลิงก์รูปภาพ

    • ออกมาดีกว่าที่คิดไว้มาก