- AlphaEvolve คือ เครื่องมือเพิ่มประสิทธิภาพรูปแบบใหม่ ที่ใช้ LLM เพื่อวิวัฒนาการโค้ดเอง และถูกนำไปใช้กับการแก้ปัญหาคณิตศาสตร์
- จากการทดลองกับโจทย์ด้านการวิเคราะห์ คอมบินาทอริกส์ และเรขาคณิต 67 ข้อ พบว่าให้ผลงานในระดับใกล้เคียงกับเครื่องมือเพิ่มประสิทธิภาพเดิม พร้อมมีจุดเด่นด้าน การขยายสเกล
- เครื่องมือนี้มี ความยืดหยุ่นในการปรับใช้ สูง จึงนำไปใช้กับปัญหาคณิตศาสตร์ที่หลากหลายได้แม้ไม่มีความรู้เฉพาะของแต่ละโจทย์ และยังตั้งค่า พารามิเตอร์การทำให้ไม่ต่อเนื่อง ได้เองเพื่อคำนวณอย่างมีประสิทธิภาพ
- โค้ดที่สร้างขึ้นมี ความสามารถในการตีความ ทำให้มนุษย์เข้าใจโครงสร้างการเพิ่มประสิทธิภาพ หรือได้มาซึ่งมุมมองเชิงคณิตศาสตร์ใหม่ ๆ
- ในบางปัญหา ระบบสามารถค้นพบผลลัพธ์เดิมอีกครั้งหรือปรับปรุงได้เล็กน้อย แสดงให้เห็นถึงศักยภาพของ การทำวิจัยคณิตศาสตร์แบบอัตโนมัติและการขยายขอบเขตการสำรวจที่ตรวจสอบได้
AlphaEvolve และภาพรวมของงานวิจัย
- Terence Tao, Bogdan Georgiev, Javier Gómez-Serrano, Adam Zsolt Wagner ร่วมมือกับ Google DeepMind เผยแพร่งานวิจัยที่ใช้ AlphaEvolve บน arXiv
- บทความ: “Mathematical exploration and discovery at scale”
- ข้อมูลที่เกี่ยวข้องและพรอมป์ต์ถูกเผยแพร่ไว้ใน GitHub repository
- AlphaEvolve เป็น ระบบเพิ่มประสิทธิภาพแบบวิวัฒนาการโค้ดที่อิง LLM โดยแทนที่จะวิวัฒนาการค่าป้อนเข้า จะ วิวัฒนาการโค้ดเพื่อทำให้ฟังก์ชันคะแนนสูงสุด
- โค้ดที่ LLM สร้างจะถูกรันเพื่อสร้างอินพุต แล้วจึงประเมินผลลัพธ์
- มีการวิวัฒนาการผ่านการผสมและการกลายพันธุ์ระหว่างรุ่นของโค้ดตามประสิทธิภาพ
- “hallucination” จะถูกคัดทิ้งหากให้ประสิทธิภาพต่ำ แต่บางส่วนช่วยเพิ่มความหลากหลายและ หลุดจาก optimum เฉพาะที่ ได้
- ผู้ใช้สามารถอัปโหลด คำใบ้หรือ PDF ของงานวิจัยที่เกี่ยวข้อง เพื่อปรับปรุงประสิทธิภาพได้
- เครื่องมือที่คล้ายกันมี OpenEvolve, ShinkaEvolve, DeepEvolve เป็นต้น
ขอบเขตการทดลองและผลลัพธ์สำคัญ
- ทำการทดลองกับปัญหาคณิตศาสตร์ 67 ข้อ (รวมการวิเคราะห์ คอมบินาทอริกส์ และเรขาคณิต)
- พบ การจัดเรียงเชิงเรขาคณิต หรือ ฟังก์ชันผู้สมัครของปัญหาแคลคูลัสเชิงแปรผัน ที่มีประสิทธิภาพดีกว่างานเดิม
- จุดเด่นอยู่ที่ การขยายสเกล (scale) โดยสามารถดัดแปลงพรอมป์ต์และเครื่องมือตรวจสอบของปัญหาหนึ่งไปใช้ซ้ำกับปัญหาคล้ายกันได้
- AlphaEvolve มี ความยืดหยุ่นในการปรับใช้ (adaptability) สูง ใช้ได้กับปัญหาหลากหลายโดยไม่ต้องจูนไฮเปอร์พารามิเตอร์แบบละเอียด
- ตัวอย่าง: ในปัญหาแคลคูลัสเชิงแปรผัน ระบบสามารถตั้งค่า พารามิเตอร์การทำให้ไม่ต่อเนื่อง เองเพื่อให้ได้ผลลัพธ์อย่างมีประสิทธิภาพ
- ตัวอย่าง: การทดลองเพิ่มประสิทธิภาพค่าคงที่ของ อสมการ Hausdorff–Young
ความสามารถในการตีความและกรณีตัวอย่าง
- โค้ดผลลัพธ์ของ AlphaEvolve อยู่ในรูปแบบที่ มนุษย์อ่านและวิเคราะห์ได้ จึงมีประโยชน์ต่อการทำความเข้าใจโครงสร้างการเพิ่มประสิทธิภาพ
- ตัวอย่าง: ในปัญหา อสมการ Gagliardo–Nirenberg ระบบค้นพบ ฟังก์ชัน Talenti ที่ถูกต้อง และสร้างโค้ด Python สำหรับสุ่มตัวอย่างจากมัน
- ในบางกรณี ระบบก็เพียงเรียกใช้ซับรูทีนการเพิ่มประสิทธิภาพที่มีอยู่แล้ว หรือใช้วิธีค้นหาแบบง่าย
ข้อมูลฝึกและความแตกต่างด้านประสิทธิภาพ
- สำหรับปัญหาที่อยู่ในข้อมูลฝึก LLM สามารถ เสนอคำตอบเหมาะที่สุดได้ทันที (เช่น Gaussian)
- หากดัดแปลงปัญหาเพื่อซ่อนวิธี Gaussian ระบบจะสำรวจผู้สมัครแบบอื่นแทน
- ตัวอย่าง: ในการทดลองที่เกี่ยวข้องกับ ข้อคาดการณ์ Kakeya เชิงเลขคณิต ระบบเสนอผู้สมัครที่อิง discrete Gaussian และช่วยปรับปรุงขอบล่างเดิมเล็กน้อย
- จากผลนี้ Tao ได้พิสูจน์ พฤติกรรมไม่สมมาตรเชิงทฤษฎี ในบทความอีกฉบับ
การออกแบบตัวตรวจสอบและจุดอ่อน
- AlphaEvolve มักค้นพบ “exploit” ที่อาศัยช่องโหว่ของโค้ดตรวจสอบ
- ตัวอย่าง: ในปัญหาเรขาคณิตที่ยอมให้ค่าคลาดเคลื่อนของระยะมาก ระบบวางจุดไว้ตำแหน่งเดียวกันเพื่อให้ได้คะแนนสูง
- เพื่อป้องกันปัญหานี้ ควรใช้ เลขคณิตแบบแม่นตรง หรือ ฟังก์ชันให้คะแนนแบบอนุรักษ์นิยม
- ตัวอย่าง: ใน ปัญหา Moving Sofa มีการใช้การให้คะแนนแบบอนุรักษ์นิยมจนค้นพบ “Gerver sofa” อีกครั้ง และพบแบบออกแบบใหม่ในปัญหาแปลงรูปแบบ 3D
การทดลองกับโจทย์ยากและข้อคาดการณ์
- มีการทดลองกับข้อคาดการณ์สำคัญที่ยังไม่ถูกแก้ เช่น Sidorenko, Sendov, Crouzeix, Ovals
- ระบบค้นพบผู้สมัครที่ดีที่สุดจากวรรณกรรมเดิมอีกครั้ง แต่ไม่พบตัวอย่างหักล้าง
- สิ่งนี้อาจหมายความว่าข้อคาดการณ์นั้นเป็นจริง หรือ AlphaEvolve สำรวจเฉพาะโครงสร้าง “พื้นฐานชัดเจน” ที่นักวิจัยเดิมเคยลองแล้ว
- เครื่องมือประเภทนี้มีประโยชน์ต่อ การบันทึกผลลัพธ์เชิงลบอย่างเป็นระบบ และอาจใช้เป็น เครื่องมือตรวจสอบอัตโนมัติ เมื่อต้องเสนอข้อคาดการณ์ใหม่
- ในบางปัญหาแปลงรูป ระบบค้นพบ ข้อคาดการณ์ใหม่แบบขยายสองพารามิเตอร์
ความแตกต่างของประสิทธิภาพตามสาขา
- ในปัญหา ทฤษฎีจำนวนเชิงวิเคราะห์ (เช่น การออกแบบ sieve weights สำหรับประมาณทฤษฎีบทจำนวนเฉพาะ) ระบบยังใช้ประโยชน์จากโครงสร้างได้ยาก
- ในทางกลับกัน ระบบทำได้ดีในปัญหาอย่าง Kakeya·Nikodym บน finite field ที่มี โครงสร้างเชิงพีชคณิต
- ในปัญหา Kakeya ระบบค้นพบโครงสร้างที่เหมาะที่สุดแบบอิง quadratic residue อีกครั้ง และในสามมิติยังปรับปรุงได้เล็กน้อย
- ใช้ Deep Think ของ Gemini เพื่อหาข้อพิสูจน์แบบไม่เป็นทางการ และใช้ AlphaProof แปลงเป็นข้อพิสูจน์เชิงรูปนัยใน Lean
- ข้อเสนอการปรับปรุงในสี่มิติถูกพบว่ามีโครงสร้างเดียวกับ บทความของ Bukh–Chao เดิม
- ในปัญหา Nikodym ระบบค้นพบโครงสร้างใหม่ในสามมิติ แต่ยืนยันได้ว่าด้อยกว่าการสร้างแบบสุ่ม
- จากนั้นจึงพัฒนา โครงสร้างแบบผสม เพื่อเพิ่มประสิทธิภาพ และจะมีบทความติดตามผลในภายหลัง
ความสำคัญโดยรวม
- AlphaEvolve แสดงให้เห็นถึงศักยภาพของ การทำให้การสำรวจคณิตศาสตร์ขนาดใหญ่เป็นอัตโนมัติ
- เหนือกว่าเครื่องมือเพิ่มประสิทธิภาพเดิมในด้าน การขยายสเกล ความยืดหยุ่นในการปรับใช้ และความสามารถในการตีความ
- ในบางปัญหานำไปสู่ โครงสร้างและข้อพิสูจน์ใหม่
- ในอนาคต งานวิจัยคณิตศาสตร์อาจเข้าสู่รูปแบบ ความร่วมมือระหว่างการสำรวจด้วย AI กับการตรวจสอบโดยมนุษย์
1 ความคิดเห็น
ความเห็นจาก Hacker News
น่าเหนื่อยกับการที่แฟน ๆ LLM ชอบพูดเกินจริงว่าเป็น “นวัตกรรมปฏิวัติ” ทุกครั้ง แต่กรณีนี้เป็นตัวอย่างของการนำความสามารถปัจจุบันของ LLM มาใช้กับงานวิจัยได้อย่างเหมาะสม
เขาแปลงปัญหาคณิตศาสตร์ให้เป็น ปัญหาของ coding agent แล้วแก้ด้วยวิธีนั้น และแนวทางนี้ก็ดูจะขยายไปยังสาขาอื่นได้ด้วย
ระบบ AlphaEvolve เองก็น่าจะมีจุดที่พัฒนาขึ้นจากเอเจนต์แบบเดิม ทุกปี AI พัฒนาอย่างต่อเนื่องอยู่แล้ว แต่ไม่ว่าฝ่ายสนับสนุนหรือฝ่ายสงสัย การประเมินเกินจริงก็ไม่ได้ช่วยอะไร
แต่ละคนสนุกกับ hype cycle ในจังหวะไม่เหมือนกัน สำหรับบางคนอาจเบื่อแล้ว แต่สำหรับอีกคน การเชื่อมโยง LLM กับคณิตศาสตร์อาจยังเป็นเรื่องใหม่ แรงบันดาลใจแบบนี้อาจเป็นประโยชน์ในระยะยาว
ถึงอย่างนั้น งานวิจัยนี้ก็เป็นตัวอย่างของการใช้ LLM ได้ดี ทุกวันนี้มีการใช้งานจริงจำนวนมากจนไม่เป็นข่าวแล้ว แค่มีแฟนคลับก็ไม่ได้แปลว่าต้องคอยโจมตีพวกเขาทุกครั้ง
งานวิจัยนี้น่าจะช่วยหักล้างคำกล่าวที่ว่า LLM “แก้ได้แค่ปัญหาที่เคยเห็นมาก่อน”
ถ้าฟังจากนักพัฒนา LLM กระบวนการ RL หลังการฝึกไม่ได้เป็นแค่ Markov chain ธรรมดาอีกต่อไป แต่ทำให้เกิด world model ขึ้นมา
ขั้นต่อไปคือการซ้อนความสามารถคล้ายกันนี้บนโมเดลอย่าง Genie 3
LLM เป็นเครื่องมือสำคัญก็จริง แต่เครดิตของความสำเร็จครั้งนี้น่าจะอยู่ที่ evolutionary optimization มากกว่า
ตาม บล็อกของ DeepMind มันอยู่ในสายต่อเนื่องเดียวกับซีรีส์ ‘Alpha’ อย่าง AlphaGo และ AlphaFold
แนวทางนี้น่าจะใช้ได้ดีกับ การทดสอบ ARC-AGI ของ Chollet ด้วย เพียงแต่การที่ Tao ใช้คำว่า ‘extremize’ ฟังดูแปลกพอสมควรในฐานะศัพท์คณิตศาสตร์
งานนี้เหมาะกับปัญหาที่ตรวจสอบได้เร็วและ ตัดกิ่งของคำตอบแย่ ๆ ได้ง่าย ตรงกันข้าม การพัฒนาซอฟต์แวร์โดยมนุษย์มีทั้งอคติด้านการออกแบบ การวิวัฒน์ที่ช้า และความยากในการทดสอบ จึงใช้แนวทางนี้ได้ยาก
อย่างที่ Daniel Litt ชี้ไว้ นี่อาจเป็นเพียงกรณีแรกที่ใส่ ทรัพยากรการคำนวณ (Compute) เข้าไปจำนวนมาก
อสมการบางส่วนของ AlphaEvolve มนุษย์เองก็ปรับปรุงได้ง่ายด้วย Moore’s Law
งานที่เกี่ยวข้องอยู่ที่นี่
มีคอมเมนต์ขอให้ช่วยสรุปสำหรับคนที่พื้นฐานคณิตศาสตร์ไม่มาก
LLM ทำหน้าที่สร้างความแปรผันของโค้ด Python และความพยายามที่ผิดพลาดจะถูกตัดทิ้งโดยอัตโนมัติ
เขาทดสอบปัญหา 67 ข้อ และได้ผลลัพธ์ระดับผู้เชี่ยวชาญอยู่บ่อยครั้ง จุดเด่นคือ การขยายขนาดได้ ความทนทาน และความง่ายต่อการตีความ
แต่ปัญหาที่อยู่ในข้อมูลฝึกจะลู่เข้าเร็ว และถ้านิยามปัญหาหละหลวม มันก็อาจ ‘ฉวยช่องโหว่’ ได้
ในคณิตศาสตร์บางสาขา เช่น analytic number theory ประสิทธิภาพก็ลดลง ถึงอย่างนั้นก็ยังเสนอไอเดียที่มนุษย์นำไปต่อยอดได้
มันไม่ได้เก่งสม่ำเสมอทุกสาขา แต่เป็นแนวทางที่ถนัดการแก้ปัญหาเชิงคำนวณแบบ Ramanujan หรือ Erdős
ไม่รู้มาก่อนเลยว่าปัญหาโซฟา (sofa problem) ถูกแก้ไปแล้ว งานที่เกี่ยวข้องอยู่ที่นี่
สิ่งที่น่าสนใจที่สุดในบทความสำหรับผมคือแนวคิดเรื่อง ‘robustness’ ที่ผู้เขียนพูดถึง
AlphaEvolve ถูกนำไปใช้กับปัญหาหลากหลายได้ง่ายโดยไม่ต้องมีความรู้เฉพาะโดเมน
แต่ในโลกซอฟต์แวร์ ‘robustness’ มักหมายถึง ความทนต่อความผิดพลาด ดังนั้นที่นี่คำว่า ‘adaptability’ น่าจะเหมาะกว่า
จุดแข็งของ LLM คือสามารถ บูรณาการบนฐานข้อความ ได้โดยไม่ต้องทำโมเดลที่ซับซ้อนมาก ถ้าการประมวลผลภาพพัฒนาอีกหน่อย พื้นที่อย่างเกม AI ก็น่าจะเปิดตามมาได้
ที่ Tao บอกว่า “อาจเป็นปัญหาที่ prompt” นั้นถือว่า ใจกว้างมาก
ในงานวิจัย ML อื่น ๆ แทบไม่ค่อยเห็นการวิจารณ์ตัวเองแบบว่า “อาจเพราะจูน hyperparameter ไม่ดี” เมื่อผลลัพธ์ออกมาไม่ดี
เรื่อง การทดลองปริศนาเชิงตรรกะ ในหัวข้อ 44.2 ของเปเปอร์สร้างความประทับใจมาก
AlphaEvolve ต้องหากลยุทธ์ที่เหมาะที่สุดจากการโต้ตอบกับ ‘ผู้พิทักษ์’ สามคน (เทพ, ปีศาจ, และยามเฝ้าประตู) แต่สุดท้ายกลับได้คะแนนเต็มด้วยการใช้ prompt injection เพื่อหลอก LLM อีกตัว
ระหว่างทาง AE ยังเสนอเองด้วยว่า “ลดความซับซ้อนเชิงตรรกะแล้วโจมตีตัวการจำลองแทน”
ต่างจาก เหตุข้อมูลรั่วของ coding benchmark ในอดีตที่อาจเป็นเรื่องบังเอิญ คราวนี้มันเป็น การโจมตีโดยเจตนา
งานวิจัยนี้เหมือน ห้องทดลองคณิตศาสตร์ของ Gauss ในยุคปัจจุบัน
ราวกับจ้างทีมอิเล็กทรอนิกส์แทนนักคณิตศาสตร์หลายคนให้ช่วยค้นหารูปแบบ แล้วค่อยใช้ผลนั้นไปลองพิสูจน์ต่อ
พูดตรง ๆ เลยว่า ถ้า Terence Tao เป็นคนพูด ผมก็เชื่อเลย