Cursor เปิดตัว Composer 2 โมเดล AI สำหรับงานเขียนโค้ดโดยเฉพาะที่ให้ ประสิทธิภาพระดับแนวหน้าในราคาย่อมเยา
ประสิทธิภาพ
ทำผลงานดีขึ้นอย่างมากจากรุ่นก่อนในทุกเบนช์มาร์กหลัก
ประเมินโมเดลด้วยการทดสอบ 3 แบบ
CursorBench — เบนช์มาร์กงานเขียนโค้ดจริงที่ Cursor พัฒนาขึ้นเอง คะแนนเพิ่มจาก 38.0 → 44.2 → 61.3 เมื่อเปลี่ยนจาก Composer 1 → 1.5 → 2 ระหว่างรุ่น 1 ถึง 2 ประสิทธิภาพเพิ่มขึ้นราว 61% และโดยเฉพาะช่วง 1.5 → 2 พุ่งขึ้นประมาณ 17 คะแนน ถือเป็นการก้าวกระโดดครั้งใหญ่ที่สุดของเจเนอเรชันนี้
Terminal-Bench 2.0 — การประเมินเอเจนต์บนเทอร์มินัลที่ดูแลโดย Laude Institute วัดความสามารถในการทำงานให้สำเร็จด้วยการรันคำสั่งจริงในเทอร์มินัล คะแนนเพิ่มจาก 40.0 → 47.9 → 61.7 ซึ่งมีรูปแบบการเติบโตแทบเหมือนกับ CursorBench
SWE-bench Multilingual — เวอร์ชันหลายภาษาของเบนช์มาร์กวิศวกรรมซอฟต์แวร์ชื่อดังที่ใช้การแก้ GitHub issue จริงด้วยโค้ด คะแนนเพิ่มจาก 56.9 → 65.9 → 73.7 โดยตั้งแต่สมัย Composer 1 ก็เริ่มต้นที่ระดับ 56 แล้ว ซึ่งสูงกว่าอีกสองเบนช์มาร์ก แปลว่าความสามารถในการเขียน code patch นั้นแข็งแกร่งมาตั้งแต่ค่อนข้างเร็ว
ประเด็นสำคัญ
ทั้งสามเบนช์มาร์กล้วนมีช่วงเพิ่มขึ้นจาก 1.5 → 2 มากกว่าช่วง 1 → 1.5 อย่างชัดเจน และนี่คือหัวใจของการประกาศครั้งนี้ จุดที่การผสาน continual pretraining + reinforcement learning แสดงผลได้ชัดเจนอยู่ตรงนี้ ตัวเลข 73.7 บน SWE-bench Multilingual จัดอยู่ในกลุ่มสูงสุดของโมเดลที่เปิดเผยต่อสาธารณะในตอนนี้
เวอร์ชันมาตรฐาน: อินพุต $0.50 / เอาต์พุต $2.50 (ต่อหนึ่งล้านโทเค็น)
เวอร์ชันเร็ว (fast): อินพุต $1.50 / เอาต์พุต $7.50 (ต่อหนึ่งล้านโทเค็น)
มีแผนจะให้เวอร์ชันเร็วเป็นตัวเลือกเริ่มต้น และจุดเด่นคือราคาต่ำกว่าโมเดลความเร็วสูงระดับเดียวกัน สำหรับผู้ใช้แพลนส่วนบุคคล จะมีโควตาพื้นฐานที่ให้มาอย่างค่อนข้างมากในพูลการใช้งานแยกต่างหาก
ความเห็น
น่าประทับใจที่ Cursor เริ่มเปลี่ยนผ่านอย่างจริงจังจากการเป็นเลเยอร์ที่ใช้โมเดลภายนอกอย่าง Claude หรือ GPT ไปสู่ทิศทางการฝึกโมเดลของตัวเองโดยตรง โดยเฉพาะการวางตำแหน่งด้านความคุ้มค่าต่อราคาที่ค่อนข้างดุดัน ซึ่งมองได้ว่าเป็นกลยุทธ์สู่การทำ vertical integration จนถึงชั้นโมเดลในตลาด coding agent ผู้ที่เคยใช้ Claude Sonnet หรือ GPT-4o บน Cursor อยู่แล้วก็น่าลองเปลี่ยนมาใช้ Composer 2
5 ความคิดเห็น
เป็นที่ทราบกันว่าเป็นโมเดลที่นำโมเดล Kimi k2 ไปทำ reinforcement learning เพิ่มเติม
ในมุมของคนที่ใช้ทั้ง Kiro และ Cursor เพื่อความคุ้มค่า
รู้สึกว่า Cursor ดูจะทำงานเชิงลึกได้ดีกว่านิดหน่อย
แถมยังเร็วกว่าอีก
ดูสรุปที่เกี่ยวข้องได้ที่ Cursor Composer 2 เป็นโมเดลที่ยืนยันแล้วว่าใช้ RL กับ Kimi K2.5
ที่เกี่ยวข้อง:
ฉันได้แก้ไขชื่อเรื่องให้สอดคล้องกับเนื้อหานี้แล้ว