- เอเจนต์โค้ดโอเพนซอร์สตัวแรกที่ออกแบบมาสำหรับ Lean 4 โดยมีเป้าหมายเพื่อทำให้ การพิสูจน์เชิงรูปนัย (formal proof) เป็นอัตโนมัติ เพื่อลดภาระการตรวจสอบของมนุษย์
- เปิดเผยน้ำหนักโมเดลภายใต้ Apache 2.0 License และพร้อมใช้งานได้ทันทีผ่านสภาพแวดล้อม Mistral Vibe และ API endpoint ฟรี
- ใช้สถาปัตยกรรมแบบ sparse ที่มี 6B active parameters เพื่อให้ได้ทั้งประสิทธิภาพและการลดต้นทุน พร้อมรองรับการเชื่อมต่อ MCP เช่น lean-lsp-mcp
- บน FLTEval benchmark ทำคะแนนได้สูงกว่าโมเดลโอเพนซอร์สขนาดใหญ่อย่าง Qwen3.5, GLM5 และ Kimi-K2.5 และให้ประสิทธิภาพใกล้เคียงกับ Claude Sonnet ที่ต้นทุนถูกกว่ามากกว่า 15 เท่า
- นำเสนอแนวทางใหม่ที่ผสาน ระบบอัตโนมัติของการพิสูจน์เชิงรูปนัยและการเพิ่มความน่าเชื่อถือของโค้ด ซึ่งมีศักยภาพทั้งในคณิตศาสตร์เชิงวิจัยและการพัฒนาซอฟต์แวร์ mission-critical
ภาพรวมของ Leanstral
- Leanstral คือเอเจนต์โค้ดโอเพนซอร์สตัวแรกสำหรับ Lean 4 ที่ทำงานในสภาพแวดล้อม proof assistant สำหรับการพิสูจน์เชิงรูปนัย
- Lean 4 สามารถใช้แสดงวัตถุทางคณิตศาสตร์ที่ซับซ้อน (เช่น perfectoid spaces) และข้อกำหนดของซอฟต์แวร์ได้
- ต่างจากระบบพิสูจน์เดิมที่มักเน้นเพียง wrapper ของโมเดลทั่วไปหรือโจทย์เดี่ยว Leanstral ถูกฝึกมาให้ทำงานได้อย่างมีประสิทธิภาพใน formal repositories ที่ใกล้เคียงการใช้งานจริง
- ใช้สถาปัตยกรรมแบบ sparse ที่มี 6B active parameters โดยผสาน parallel inference เข้ากับความสามารถในการตรวจสอบของ Lean
- รองรับ MCP integration จึงเข้ากันได้กับโปรโตคอลที่ใช้บ่อยอย่าง lean-lsp-mcp
การเปิดเผยและการเข้าถึง
- เปิดเผยน้ำหนักโมเดลภายใต้ Apache 2.0 License และให้ใช้งานในโหมดเอเจนต์ภายใน Mistral Vibe
- ทุกคนสามารถเข้าถึงได้ผ่าน API endpoint ฟรี (
labs-leanstral-2603) และมีแผนจะนำ feedback จากผู้ใช้ไปใช้ปรับปรุงโมเดลรุ่นถัดไป
- เปิดเผยทั้ง technical report และ เครื่องมือประเมิน FLTEval เพื่อวัดประสิทธิภาพด้านวิศวกรรมการพิสูจน์จริง นอกเหนือจากการประเมินที่เน้นคณิตศาสตร์แบบเดิม
การประเมินประสิทธิภาพ (Evaluation)
- ประเมินจากความสามารถในการทำการพิสูจน์เชิงรูปนัยทั้งหมดและนิยามแนวคิดทางคณิตศาสตร์ใหม่ให้เสร็จสิ้นในระดับ Pull Request ของโครงการ FLT
- โมเดลที่ใช้เปรียบเทียบ: Claude Opus 4.6, Sonnet 4.6, Haiku 4.5, Qwen3.5 397B-A17B, Kimi-K2.5 1T-A32B, GLM5 744B-A40B
Leanstral เทียบกับโมเดลโอเพนซอร์ส
- Leanstral-120B-A6B ทำได้ 26.3 คะแนน (pass@2) สูงกว่า GLM5 (16.6 คะแนน) และ Kimi-K2.5 (20.1 คะแนน)
- ขณะที่ Qwen3.5 ได้ 25.4 คะแนนจากการรัน 4 ครั้ง (pass@4) Leanstral กลับทำคะแนนได้สูงกว่าโดยใช้จำนวนการรันเพียงครึ่งเดียว
- สามารถสเกลแบบเชิงเส้นได้ถึง 29.3 คะแนน (pass@4) ที่ระดับต้นทุนเดียวกัน
Leanstral เทียบกับตระกูล Claude
- มีคะแนนนำ Sonnet อยู่ 2.6 คะแนน (26.3 เทียบกับ 23.7) โดยมีต้นทุนการรันเพียง $36 เทียบกับ $549 หรือถูกกว่ามากกว่า 15 เท่า
- ที่ระดับ pass@16 ทำได้ 31.9 คะแนน สูงกว่า Sonnet อยู่ 8 คะแนน
- Claude Opus 4.6 ซึ่งเป็นรุ่นที่ทำผลงานดีที่สุด ได้ 39.6 คะแนน แต่มีต้นทุนสูงถึง $1,650 หรือสูงกว่า Leanstral 92 เท่า
- benchmark ทั้งหมดรันในสภาพแวดล้อม Mistral Vibe โดยไม่มีการแก้ไขใด ๆ
| โมเดล |
ต้นทุน($) |
คะแนน |
| Haiku |
184 |
23.0 |
| Sonnet |
549 |
23.7 |
| Opus |
1,650 |
39.6 |
| Leanstral |
18 |
21.9 |
| Leanstral pass@2 |
36 |
26.3 |
| Leanstral pass@4 |
72 |
29.3 |
| Leanstral pass@8 |
145 |
31.0 |
| Leanstral pass@16 |
290 |
31.9 |
กรณีศึกษา (Case Studies)
การรับมือกับการเปลี่ยนเวอร์ชันของ Lean
- ป้อนคำถามจาก StackExchange ที่เกี่ยวกับข้อผิดพลาดจาก type alias ใน Lean 4.29.0-rc6
- Leanstral สามารถจำลองสภาพแวดล้อมของปัญหาและวินิจฉัยปัญหาเรื่อง definitional equality ได้อย่างถูกต้อง
- เสนอให้ใช้
abbrev แทน def เพื่อให้ rw tactic กลับมาทำงานได้ตามปกติ
- อธิบายสาเหตุของปัญหาและเหตุผลของแนวทางแก้ไขให้ผู้ใช้อย่างชัดเจน
การให้เหตุผลเกี่ยวกับโปรแกรมและการแปลง
- แปลงนิยามโปรแกรมของ Rocq ไปเป็น Lean พร้อมทั้งสร้าง user-defined notation
- ตัวอย่างเช่น พิสูจน์ได้ว่าคำสั่ง
plus2 ทำหน้าที่เพิ่มค่า 2 ให้กับตัวแปร X
- ทำ theorem ใน Lean ให้สมบูรณ์และดำเนินการพิสูจน์โดยอาศัยเพียงข้อกำหนด Rocq ที่ให้มา
วิธีใช้งาน
- Mistral Vibe integration: ใช้งานได้ทันทีด้วยคำสั่ง
/leanstall
- Labs API: เข้าถึงได้ฟรีหรือมีต้นทุนต่ำ
- ดาวน์โหลดโมเดล: นำไปรันเองได้ภายใต้ Apache 2.0 License
ความสำคัญ
- Leanstral คือความพยายามแบบโอเพนซอร์สครั้งแรกที่ผสาน การสร้างโค้ดและระบบอัตโนมัติของการพิสูจน์เชิงรูปนัย เข้าด้วยกัน
- แสดงศักยภาพในการใช้งานกับ คณิตศาสตร์เชิงวิจัย การพัฒนาซอฟต์แวร์ที่ตรวจสอบได้ และการออกแบบระบบที่ต้องการความน่าเชื่อถือสูง
- ถูกประเมินว่าเป็นโครงสร้างพื้นฐานใหม่สำหรับการตรวจสอบโค้ดที่ให้ทั้ง ความคุ้มค่าด้านต้นทุนและความเปิดกว้าง
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
น่าสนใจที่ตอนนี้ผู้คนเริ่มมองเห็นแพตเทิร์นที่ ระบุพฤติกรรมที่ต้องการให้เอเจนต์ทำ แล้วให้เขียนโค้ดให้ตรงกับสเปกนั้น
ไม่ว่าจะใช้ TDD หรือเครื่องมือตรวจสอบแบบไหน เมื่อเวลาผ่านไป ชุดการตรวจสอบเหล่านี้ก็จะสะสมกลายเป็น คลังเอกสาร ที่รันได้และแสดงให้เห็นว่า “มันควรทำงานอย่างไร”
แนวทางนี้ทรงพลังยิ่งกว่าสเปก Markdown ธรรมดามาก เพราะมันบันทึก พฤติกรรมในรายละเอียด เป็นโค้ด ไม่ใช่แค่เจตนา
ยิ่งซอฟต์แวร์ซับซ้อนขึ้น การถ่ายทอดปากต่อปากแบบ “ไปถาม Jim สิ” ก็ยิ่งมีข้อจำกัด
ความละเอียดและบริบทมักหายไประหว่างการเปลี่ยนระดับความละเอียด
ผมเห็นด้วยกับ TDD หรือการพัฒนาแบบยึดการตรวจสอบเป็นศูนย์กลาง แต่การเขียนสิ่งนั้นเป็นโค้ดไม่ใช่เป้าหมายสุดท้าย
ตอนนี้มีชุดทดสอบอยู่แล้วหลายล้านบรรทัด ดังนั้นการ ต่อยอดจากสิ่งนั้น น่าจะเป็นทางที่สมจริงกว่า
อยากรู้ว่า Lean ช่วยอะไรได้จริง ๆ
เช่นพิสูจน์ state machine ด้วย Lean แล้วค่อยย้ายไป Dart อะไรทำนองนั้นหรือเปล่า?
ผมไม่ค่อยรู้จัก Lean เลยยังจับไม่ค่อยได้ว่านี่เป็นแนวทางที่ใช้งานได้จริงไหม
อย่างที่ถูกพูดถึงในพอดแคสต์ของ Jack Clark (ผู้ร่วมก่อตั้ง Anthropic) กับ Ezra Klein เมื่อไม่นานนี้ มีการพูดกันมากขึ้นว่า alignment ของโมเดล เป็นเรื่องสัมพัทธ์และความหลากหลายมีความสำคัญ
แม้จะมีความเห็นว่าโมเดลของ Mistral ยังตามหลังโมเดลแนวหน้าตัวอื่น แต่การทดลองทั้งวิธี alignment และบริษัทที่หลากหลายก็สำคัญต่อระบบนิเวศ
กรณีความสำเร็จจริงนี้ทำให้นึกถึง Red Green TDD ของ Simon Willison
ผมประทับใจกระบวนการที่ Leanstral สร้างโค้ดทดสอบเพื่อจำลองสภาพแวดล้อมที่ล้มเหลว และค้นพบปัญหา definitional equality
โมเดลนี้ถูกฝึกมาให้เหมาะกับงานเฉพาะทาง แต่ ประสิทธิภาพยังด้อยกว่า Opus
Opus แพงกว่า 6 เท่า แต่ก็ดูเหมือนจะคุ้มค่านั้น
เข้าใจได้ที่สตาร์ตอัปยุโรปซึ่งมีทุนน้อยกว่าจะเจาะตลาดเฉพาะแบบนี้ แต่ก็ดูยากที่จะต่อยอดเป็นรายได้ก้อนใหญ่
น่าจะน่าสนใจกว่าถ้าเทียบกับโมเดลอย่าง Codex
ผมชอบคอนเซปต์เรื่อง “โค้ดที่เชื่อถือได้”
แต่เกณฑ์เปรียบเทียบยังชวนสับสน พวกเขาเน้นว่าถูกกว่า Haiku แต่ Haiku เองก็ไม่ค่อยเก่งกับงานนี้ และ Leanstral ก็ยังแย่กว่านั้น
ถ้าเป้าคือความแม่นยำ ผมไม่เข้าใจว่าการ “ถูกแต่ไม่ค่อยดี” จะสำคัญทำไม
อย่างไรก็ดี Opus เองก็ไม่ได้สมบูรณ์แบบ ดังนั้นถ้าขยายสเกลได้ ผลลัพธ์อาจดีขึ้นก็ได้
ที่ 2 รอบมันดีกว่า Haiku และ Sonnet และที่ 16 รอบก็เข้าใกล้ Opus พร้อมกับมี ความคุ้มค่าต่อราคา สูงกว่า
สำหรับคนที่ไม่รู้จัก Lean ผมสงสัยว่ามันมีคุณค่าโดยตรงหรือเปล่า
มันคือการแนบการพิสูจน์เข้ากับโค้ดภาษาอย่าง Go แบบอัตโนมัติ หรือแค่เป็นเรื่องของการสนับสนุน ความหลากหลายของโมเดลแบบเปิด เท่านั้น?
แต่สุดท้ายสเปก Lean4 เองก็กลายเป็น ซอฟต์แวร์อาร์ติแฟกต์
ถ้าอย่างนั้นก็ย้อนกลับไปสู่ปัญหาว่าสเปกนั้นถูกต้องหรือไม่ — สุดท้ายก็ยังต้องมี การตรวจทานโดยมนุษย์
ผมคาดกระแสแบบนี้ไว้ตั้งแต่หลายสัปดาห์ก่อน และก็ดีใจที่มันเป็นจริง
ในยุค LLM ความเป็นมิตรต่อมนุษย์ของโค้ดอาจสำคัญน้อยกว่า ความสามารถในการพิสูจน์และประสิทธิภาพด้านโทเค็น
Lean กับ Rust อาจถูกผสานเข้าด้วยกันจนเกิดโลกที่ “คอมไพล์ได้เฉพาะโค้ดที่พิสูจน์แล้ว”
มีสรุปการถกเถียงที่เกี่ยวข้องไว้ในคอมเมนต์ก่อนหน้า
มันเพียงรับประกันว่า ใช้ตรรกะได้อย่างถูกต้อง (valid) เท่านั้น
การเข้าใจอย่างถ่องแท้ว่าการพิสูจน์นั้นกำลังพิสูจน์อะไร ยากพอ ๆ กับการทำความเข้าใจโปรแกรม แต่กระบวนการนี้ก็มีข้อดีตรงที่ช่วยให้คิดได้ลึกขึ้น
น่ายินดีที่พวกเขาไม่ได้แค่พูดคำว่า “โอเพนซอร์ส” แต่ปล่อย weights ภายใต้ไลเซนส์ Apache-2.0 ออกมาจริง
ตาม ข่าวอย่างเป็นทางการของ Mistral
Claude Opus มีต้นทุน 1,650 ดอลลาร์และได้คะแนน 39.6,
Leanstral pass@8 อยู่ที่ 145 ดอลลาร์และได้ 31.0, pass@16 อยู่ที่ 290 ดอลลาร์และได้ 31.9
ดังนั้น ประสิทธิภาพต่อราคาที่จ่าย จึงค่อนข้างสูง