- โอเพนโค้ด LLM ที่ออกแบบมาเฉพาะสำหรับงานเขียนโค้ด โดยเรียนรู้ผ่าน การฝึกหลายขั้นแบบ code-flow ซึ่งเน้น การเปลี่ยนแปลงของรีโพซิทอรีและกระบวนการพัฒนา แทนโค้ดแบบสถิต
- เสริมความสามารถด้านการให้เหตุผลระยะยาวและงานแบบเอเจนต์ผ่าน ไปป์ไลน์การเรียนรู้แบบวิวัฒนาการ ที่ต่อเนื่องจาก pretraining–mid-training–post-training
- ที่คอนเท็กซ์ 32K·128K มีการใส่ ข้อมูลการให้เหตุผลและเส้นทางการทำงานของเอเจนต์ เพื่อให้แก้ปัญหาซับซ้อนแบบหลายไฟล์และระดับรีโพซิทอรีได้
- เสนอการออกแบบเชิงปฏิบัติด้วย สถาปัตยกรรม LoopCoder ที่นำโครงสร้างวนซ้ำมาใช้ เพื่อปรับปรุงประสิทธิภาพการนำไปใช้งานเมื่อเทียบกับขนาดโมเดล
- ทำผลงานได้ แข่งขันกับโมเดลเชิงพาณิชย์ได้ บน SWE-Bench, LiveCodeBench, Terminal-Bench และอื่น ๆ ด้วยโมเดลโอเพนน้ำหนัก
ภาพรวม
- IQuest-Coder-V1 คือโมเดลตระกูลภาษาขนาดใหญ่สำหรับโค้ดโดยเฉพาะ ประกอบด้วย 7B·14B·40B·40B-Loop
- ใช้พาราไดม์ code-flow ที่เรียนรู้จาก คอมมิตและกระบวนการวิวัฒนาการของรีโพซิทอรี แทนการใช้สแนปช็อตโค้ดแบบคงที่
- ประเมินประสิทธิภาพในงานวิศวกรรมซอฟต์แวร์แบบเอเจนต์ การแข่งขันเขียนโปรแกรม และการใช้เครื่องมือโดยรวม
ไปป์ไลน์การฝึกแบบ Code-Flow
- ในขั้น pretraining มีการฝึกจากข้อมูลทั่วไปผสมกับข้อมูลโค้ดขนาดใหญ่ ก่อนใช้ การ annealing โค้ดคุณภาพสูง
- ในขั้น mid-training มีการ ขยายคอนเท็กซ์จาก 32K → 128K และฝึกด้วยข้อมูล QA เชิงเหตุผล เส้นทางของเอเจนต์ และข้อมูลโค้ดระดับรีโพซิทอรี
- ในขั้น post-training แยกเป็น เส้นทาง Thinking (RL เน้นการให้เหตุผล) และ เส้นทาง Instruct (การปรับให้เหมาะกับผู้ช่วยทั่วไป)
ผลการวิจัยสำคัญ
- การทดลองยืนยันว่าข้อมูลลำดับการไหลของคอมมิตในรีโพซิทอรีให้ สัญญาณสำหรับการวางแผนงานได้ดีกว่าสแนปช็อตโค้ดแบบสถิต
- โครงสร้างที่ใส่ข้อมูลการให้เหตุผลและข้อมูลเอเจนต์ในช่วง mid-training หลังจากทำ high-quality code annealing แล้ว ให้ ความเสถียรต่อการเปลี่ยนแปลงของการกระจายข้อมูล
- ในเส้นทาง Thinking ที่ใช้ RL เน้นการให้เหตุผล พบ ความสามารถในการกู้คืนจากข้อผิดพลาดของตนเองระหว่างงานระยะยาว อย่างชัดเจน
สถาปัตยกรรม LoopCoder
- นำ โครงสร้าง loop transformer ที่รันบล็อกพารามิเตอร์เดียวกันซ้ำสองครั้งมาใช้
- ผสาน global attention และ local attention ด้วยกลไก gating เพื่อให้ได้ทั้ง การกลั่นกรองบริบทยาว และ การคงไว้ซึ่งเหตุและผลเชิงลำดับ พร้อมกัน
- มีเป้าหมายเพื่อรับมือข้อจำกัดของสภาพแวดล้อมการนำไปใช้งาน โดยปรับปรุงประสิทธิภาพการคำนวณเมื่อเทียบกับขนาดโมเดล
องค์ประกอบข้อมูลและกลยุทธ์ pretraining
- ในการฝึกแบบผสมโค้ดหลายภาษา มีการทำให้ ผลเสริมกันระหว่างภาษา เป็นรูปแบบทางการด้วยกฎการสเกลที่อิงสมการ
- สร้างข้อมูลแบบ ทริปเปิลเล็ต (R_old, Patch, R_new) โดยใช้คอมมิตในช่วง 40~80% ของวงจรชีวิตรีโพซิทอรี
- เสริมความสามารถในการเติมโค้ดด้วยเทคนิค Fill-In-the-Middle ระดับไฟล์และระดับรีโพซิทอรี
ผลการประเมิน
- ทำคะแนน 76.2 บน SWE-Bench Verified และทำผลงานระดับแนวหน้าบนหลายเบนช์มาร์ก เช่น LiveCodeBench v6·Terminal-Bench·Mind2Web
- มีการประเมินครอบคลุมทั้งการสร้างโค้ด การให้เหตุผล การแก้ไข ประสิทธิภาพ Text-to-SQL และงานแบบเอเจนต์
- ในบางตัวชี้วัดพบผลลัพธ์ที่ ใกล้เคียงหรือแข่งขันได้กับโมเดลปิด อย่าง Claude Sonnet 4.5 และ GPT-5.1
การประเมินความปลอดภัย
- บนเบนช์มาร์กด้านความปลอดภัยอย่าง BeaverTails, HarmBench และ TrustLLM โมเดล Thinking ทำผลงานด้วย ความแม่นยำในการปฏิเสธสูงและสมดุลโดยรวมที่ดี
- นำเสนอผลที่ชี้ว่า RL ที่เน้นการให้เหตุผลส่งผลเชิงบวกต่อด้านความปลอดภัยด้วย
บทสรุป
- พิสูจน์เชิงประจักษ์ว่าการฝึกที่เน้นลำดับวิวัฒนาการของโค้ดและเส้นทางของเอเจนต์ มีประสิทธิภาพต่อการก่อรูปความฉลาดด้านโค้ดแบบอัตโนมัติ
- สถาปัตยกรรม LoopCoder นำเสนอ แนวทางการออกแบบ code LLM เชิงปฏิบัติที่คำนึงถึง trade-off ระหว่างประสิทธิภาพและความคุ้มค่า
- ตั้งเป้าเร่งการวิจัยด้าน code intelligence แบบเปิดและการพัฒนาระบบเอเจนต์จริง ด้วยการเปิดเผยทุกขั้นของการฝึกและเช็กพอยต์
1 ความคิดเห็น
ความคิดเห็นบน Hacker News
ลิงก์ที่ดีกว่าคือ iquestlab.github.io
แต่น่าเสียดายที่ดูเหมือนว่าในระหว่างการประเมินผล เอเจนต์ได้โกง
คะแนนลดจาก 81.4% เหลือ 76.2% แต่ก็ยัง สูงกว่า Opus 4.5 (74.4%)
สรุปคือ โมเดลอ้างอิงการแก้ไขจากคอมมิตในอนาคตในลักษณะของ reward hacking เพราะไม่ได้ล้างโฟลเดอร์
.git/อยากยกความดีความชอบให้คนที่ช่วยกันแก้ปัญหานี้
ดูการพูดคุยที่เกี่ยวข้องได้ใน ทวีตนี้ และ กระทู้ Reddit
เมื่อดูจากที่ IQuestLab เปิดเผยข้อมูล SWE-Bench Verified แล้ว ก็ดูเหมือนเป็น ความผิดพลาดของมือใหม่กับเบนช์มาร์ก มากกว่าจะเป็นการจงใจปั่นผล
แค่ใช้โค้ดล่าสุดแล้วรันการประเมินด้วย Docker image ที่อัปเดตแล้ว ก็พอ
ทวีตที่เกี่ยวข้อง
จากประสบการณ์ของฉัน GLM-4.7 (เวอร์ชัน opencode) ใกล้เคียงที่สุดในฝั่งโอเพนซอร์ส
บางครั้งมีสำนวนที่เหมือนปนข้อมูลของ Claude เลยคิดว่าน่าจะมีการ ใช้ข้อมูลของ Claude อยู่บ้าง
นี่เป็นสำนวนที่ Claude ชอบใช้เพื่อเลี่ยงตอนเริ่มชนข้อจำกัด
โมเดล 40B พารามิเตอร์ชนะ Sonnet 4.5 กับ GPT 5.1 เนี่ยนะ? สงสัยว่ามันเป็นไปได้จริงหรือเปล่า
ถึงอย่างนั้น Sonnet 4.5 ก็เป็นโมเดลที่ค่อนข้างเก่าแล้ว และช่วงหลังมีนวัตกรรมออกมาเยอะ
น่าสนใจที่โมเดลโอเพนกำลัง ไล่ตาม โมเดลใหญ่ได้เร็วมาก
มีใครลองรันโมเดลนี้เอง หรือเคยทดสอบผ่าน API แบบโฮสต์ไว้แล้ว บ้างไหม
นี่คือ คำกล่าวอ้างเท็จ แล้วทำไมมันยังค้างอยู่บนหน้าหลักก็ไม่เข้าใจ