3 คะแนน โดย princox 4 시간 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Michael Truell ซีอีโอของ Cursor ประกาศบน X ว่า “Composer 2.5 กลายเป็นโมเดลที่ถูกเลือกใช้มากที่สุดใน Cursor แล้ว เราจะมอบปริมาณการใช้งานเพิ่ม 10 เท่าให้ผู้ใช้ทุกคนตลอดหนึ่งวัน”
  • เป็นสัญญาณว่าอัตราการยอมรับหลังเปิดตัวพุ่งขึ้นอย่างรวดเร็ว และกำลังเกิดแนวโน้มที่โมเดลภายในบริษัทถูกเลือกเป็นค่าดีฟอลต์แทนโมเดลของ Anthropic/OpenAI

สรุปประเด็นสำคัญของ Composer 2.5
• โมเดล agentic coding ภายในรุ่นที่ 3 ของ Cursor ซึ่งเปิดตัวอย่างเป็นทางการเมื่อวันที่ 18 พฤษภาคม
• ยังคงใช้ Kimi K2.5 โอเพนซอร์สของ Moonshot AI เป็นฐานเช่นเดียวกับ Composer 2 แต่ครั้งนี้ระบุไว้อย่างชัดเจนตั้งแต่ย่อหน้าแรกของประกาศ (เป็นการตอบรับเสียงวิจารณ์ก่อนหน้านี้ที่เมื่อเดือนมีนาคมไม่ได้เปิดเผยอย่างชัดเจนว่าใช้ Kimi base)
• 85% ของคอมพิวต์ทั้งหมดถูกใช้กับ reinforcement learning pipeline และ post-training ภายในของ Cursor เอง พร้อมใช้ synthetic coding tasks มากกว่า Composer 2 ถึง 25 เท่า
• เพื่อเพิ่มความน่าเชื่อถือในงานแบบ long-horizon จึงนำ “targeted RL based on text feedback” มาใช้ — แทนที่จะให้ reward เดียวหลังจบ rollout ที่ยาว ระบบจะใส่คำใบ้ตรงจุดที่เกิด tool call ผิดพลาดโดยตรง เพื่อทำให้ credit assignment แม่นยำขึ้น
เบนช์มาร์ก (Composer 2.5 vs Opus 4.7 vs GPT-5.5 vs Composer 2)
• Terminal-Bench 2.0: 69.3% vs 69.4% vs 82.7% vs 61.7% — แทบจะเสมอกับ Opus 4.7 แต่ตามหลัง GPT-5.5 ราว 13 คะแนน
• SWE-Bench Multilingual: 79.8% vs 80.5% vs 77.8% vs 73.7% — ตามหลัง Opus 4.7 อยู่ 0.7 คะแนน แต่เหนือกว่า GPT-5.5
• CursorBench v3.1 (default setting): Composer 2.5 63.2%, Opus 4.7 xhigh default 61.6%, GPT-5.5 medium default 59.2% — ในการตั้งค่าดีฟอลต์ที่นักพัฒนาใช้งานจริง แซงหน้าทั้งสอง frontier models
ราคา — อาวุธที่ทรงพลังที่สุด
• Standard tier: อินพุต $0.50/M, เอาต์พุต $2.50/M. Fast tier (ดีฟอลต์สำหรับการใช้งานแบบอินเทอร์แอ็กทีฟ): อินพุต $3.00/M, เอาต์พุต $15.00/M
• ทำคะแนนระดับเดียวกับ Opus 4.7 บน SWE-Bench Multilingual ได้ในราคาประมาณ 1/10 ของ Anthropic
• ทำความแม่นยำได้ 63% ตามเกณฑ์ CursorBench โดยมีต้นทุนเฉลี่ยต่อ task ต่ำกว่า $1 — ขณะที่ Opus/GPT ที่ได้ประสิทธิภาพใกล้เคียงกันมีค่าใช้จ่ายต่อ task สูงกว่าหลายดอลลาร์
ภาพรวมที่ประกาศออกมาพร้อมกัน
• นอกเหนือจาก Composer 2.5 แล้ว Cursor ยังประกาศว่ากำลังฝึกโมเดลที่ใหญ่กว่าเดิม 10 เท่าตั้งแต่ต้น โดยใช้โครงสร้างพื้นฐาน xAI (SpaceXAI) และ GPU ระดับ H100 ของ Colossus 2 ราว 1 ล้านตัว (ยังไม่ระบุวันเปิดตัว)
• ตามคำกล่าวของ Michael Truell ขณะนี้ 35% ของ PR ที่ถูก merge ภายใน Cursor ถูกสร้างโดย autonomous agent
• เป็นภาพของการโต้กลับด้วยโมเดลภายในบริษัท ในช่วงที่ Claude Code กดดัน Cursor อย่างหนักหลังทำ ARR แตะ 2.5 พันล้านดอลลาร์ และมีลูกค้าธุรกิจทะลุ 300,000 ราย
ข้อจำกัดในการใช้งาน / ความเห็น
• Composer 2.5 ใช้ได้เฉพาะใน Cursor IDE, Cursor CLI และ Cursor web เท่านั้น — ไม่มี external API, mirror บน HuggingFace หรือ third-party gateway
• การที่มีฐานมาจาก Kimi K2.5 ยังคงเป็นปัจจัยที่ต้องพิจารณาสำหรับงานในอุตสาหกรรมที่ถูกกำกับดูแลหรือเกี่ยวข้องกับภาครัฐของสหรัฐฯ
• เป็นรีลีสที่แสดงให้เห็นว่า Cursor ซึ่งเริ่มต้นจาก “IDE wrapper” กำลังเปลี่ยนตัวเองเป็น model lab อย่างจริงจัง ตัวอย่างนี้สามารถดันคะแนนเพิ่มขึ้นได้มากกว่า +6 จุดด้วย post-training เพียงอย่างเดียวบน base เดียวกัน จึงเป็น data point ที่น่าสนใจว่า “vertical RL จะเอาชนะ raw scale ได้ไกลแค่ไหน”
• ที่มา: X (@mntruell), Cursor: Introducing Composer 2.5, OfficeChai

1 ความคิดเห็น

 
neneka 3 시간 전

เพิ่งออกมาใหม่เลยลองใช้ดูอยู่ Composer 2.5 ใช้งานได้ดีพอสมควรครับ