LIMO: การให้เหตุผล ยิ่งน้อยยิ่งดี (Less is More for Reasoning)

(arxiv.org)

3 คะแนน โดย GN⁺ 2025-02-10 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

LIMO แสดงให้เห็นว่า ตรงข้ามกับความเชื่อทั่วไปที่ว่าการให้เหตุผลทางคณิตศาสตร์ที่ซับซ้อนต้องใช้ข้อมูลแบบมีผู้สอนจำนวนมาก สามารถดึงความสามารถด้านการให้เหตุผลขั้นสูงออกมาได้ด้วย ตัวอย่างเพียง 800 รายการ
ใช้การ ปรับจูนแบบมีผู้สอน (SFT) อย่างง่ายกับ Qwen2.5-32B-Instruct และทำความแม่นยำได้ 63.3% บน AIME24 และ 95.6% บน MATH500 ซึ่งนำหน้ารุ่นที่ปรับจูนเดิมที่ได้ 6.5% และ 59.2% อย่างมาก
แม้ข้อมูลฝึกจะอยู่ในระดับเพียง 1% ของแนวทางก่อนหน้า แต่แสดงประสิทธิภาพการ generalize ที่ดีกว่าโมเดลที่ฝึกด้วยข้อมูลมากกว่า 100 เท่า ทั้งใน benchmark หลากหลายชุดและสถานการณ์ที่ไม่เคยเห็นมาก่อน
แก่นสำคัญคือสมมติฐานว่า ความรู้โดเมนที่ถูกเข้ารหัสไว้แล้วในโมเดลพื้นฐาน และตัวอย่างคุณภาพสูงจำนวนน้อยที่ช่วยชี้นำกระบวนการแก้ปัญหา ทำงานเหมือน เทมเพลตเชิงการรับรู้
คอขวดของการฝึกการให้เหตุผลไม่ได้ขึ้นอยู่กับความซับซ้อนของโจทย์เองเท่ากับความสมบูรณ์ของความรู้จากการ pretrain และคุณภาพของตัวอย่างหลังการฝึกที่ทำให้โมเดลใช้ chain of reasoning ได้

ความเชื่อเดิมที่สมมติฐาน LIMO มุ่งท้าทาย

แนวโน้มหลักของการฝึกการให้เหตุผลเดิมคือมองว่าหากต้องการแก้โจทย์คณิตศาสตร์และโปรแกรมมิง จำเป็นต้องมีตัวอย่างตั้งแต่หลักหมื่นถึงหลักแสนรายการ
แนวทางเหล่านี้ใช้ข้อมูลแบบมีผู้สอนขนาดใหญ่ เพื่อแสดงตรรกะหลายขั้นตอน การประยุกต์ใช้ความรู้โดเมน และเส้นทางการแก้ปัญหาที่มีโครงสร้างให้โมเดลเห็น
แม้จะมีกรณีที่ประสบความสำเร็จ แต่การรวบรวมข้อมูลและการฝึกในสเกลใหญ่มาพร้อมกับ ต้นทุนการคำนวณจำนวนมาก
สมมติฐาน LIMO มองว่าเกณฑ์ที่จะดึงการให้เหตุผลที่ซับซ้อนออกมา ขึ้นอยู่กับสองเงื่อนไขต่อไปนี้มากกว่าระดับความยากของโจทย์
- ความรู้ที่จำเป็น มีอยู่แบบแฝง อยู่ในพารามิเตอร์ของโมเดลหรือไม่
- ตัวอย่างจำนวนน้อยสามารถแสดงกระบวนการแก้ปัญหาได้อย่างมีประสิทธิภาพ และทำให้โมเดลใช้ พื้นที่การคำนวณขณะ inference ได้หรือไม่

เหตุผลที่ทำได้แม้ใช้ข้อมูลน้อย

โมเดลพื้นฐานรุ่นล่าสุดมีคอนเทนต์คณิตศาสตร์มากขึ้นอย่างมากในขั้นตอน pretraining
- ข้อมูลฝึกทั้งหมดของ Llama 2 คือ 1.8T โทเคน
- Llama 3 ใช้ 3.7T โทเคนสำหรับการให้เหตุผลทางคณิตศาสตร์
การเปลี่ยนแปลงนี้ทำให้จุดโฟกัสของการฝึกการให้เหตุผล ย้ายจากการใส่ความรู้คณิตศาสตร์ใหม่ เข้าไปสู่การ ดึงความรู้ที่เข้ารหัสไว้แล้วออกมาใช้
การขยายการคำนวณขณะ inference ก็เป็นเงื่อนไขสำคัญเช่นกัน
- เทคนิคที่ขยาย chain of reasoning ที่ยาวขึ้นช่วยยกระดับความสามารถในการให้เหตุผลได้อย่างมาก
- การคำนวณขณะ inference ทำงานคล้าย พื้นที่ทำงานเชิงการรับรู้ ที่โมเดลใช้คลี่คลายและประยุกต์ความรู้จาก pretraining
LIMO มองว่าเมื่อความรู้จาก pretraining ที่อุดมสมบูรณ์ผสานกับทรัพยากรการคำนวณขณะ inference ที่เพียงพอ ก็สามารถกระตุ้นความสามารถด้านการให้เหตุผลได้ด้วยตัวอย่างคุณภาพสูงจำนวนน้อยแทนข้อมูลจำนวนมาก

วิธีคัดเลือกตัวอย่าง 800 รายการ

แนวทางของ LIMO ไม่ได้เริ่มจากการรวบรวมข้อมูลจำนวนมาก แต่เริ่มจาก การคัดกรองอย่างเข้มงวด เพื่อค้นหาตัวอย่างคุณภาพสูง
ใช้การกรองหลายชั้นกับพูลคู่คำถาม-คำตอบขนาดใหญ่
- ทำการกรองระดับความยากแบบคร่าว ๆ เพื่อตัดโจทย์ง่ายออกก่อน
- ใช้การประเมินความยากที่ละเอียดขึ้นเพื่อระบุโจทย์ที่ท้าทาย
- เพิ่มความหลากหลายของประเด็นความรู้เพื่อให้ครอบคลุมในวงกว้าง
chain of reasoning จะถูกตรวจสอบแยกต่างหาก
- ความสอดคล้องทางตรรกะ
- ความชัดเจนแบบเป็นขั้นตอน
- ความถูกต้องของการแก้ปัญหา
ผ่านกระบวนการนี้แล้วจึงสร้างชุดข้อมูลขนาดเล็กแต่แข็งแกร่ง ซึ่งประกอบด้วย ตัวอย่างฝึก 800 รายการ ในขั้นสุดท้าย

ประสิทธิภาพบน benchmark

LIMO ใช้ Qwen2.5-32B-Instruct เป็นฐาน และทำ SFT อย่างง่ายโดยใช้เฉพาะตัวอย่าง 800 รายการที่คัดเลือกแล้ว
ผลลัพธ์หลักมีดังนี้
- ความแม่นยำบน AIME24 63.3%
- ความแม่นยำบน MATH500 95.6%
โมเดลที่ปรับจูนเดิมทำได้ 6.5% บน AIME24 และ 59.2% บน MATH500 แสดงช่องว่างอย่างมากเมื่อเทียบกับ LIMO
ข้อมูลฝึกที่ต้องใช้จำกัดอยู่เพียงระดับ 1% ของแนวทางก่อนหน้า
แสดงการ generalize นอกการกระจายที่แข็งแกร่งบน benchmark ทางคณิตศาสตร์และสหวิทยาการหลายชุด และโดยรวมทำการปรับปรุงแบบ absolute ได้ 45.8%
ในหลายสถานการณ์ที่ไม่เคยเห็นมาก่อน ก็ยังทำประสิทธิภาพได้สูงกว่าโมเดลที่ฝึกด้วยข้อมูลมากกว่า 100 เท่า

ผลงานสำคัญและทรัพยากรที่เผยแพร่

ผลงานหลักของ LIMO คือการทำให้ Less-Is-More Reasoning Hypothesis เป็นรูปธรรม ซึ่งระบุว่าสามารถดึงความสามารถด้านการให้เหตุผลที่ซับซ้อนออกมาได้ด้วยตัวอย่างจำนวนน้อย
จัดทำชุดข้อมูลตามหลักการของ LIMO และปรับจูน Qwen2.5-32B-Instruct ด้วย SFT อย่างง่าย
ผลการทดลองแสดงประสิทธิภาพที่แข่งขันได้บน benchmark การให้เหตุผลทางคณิตศาสตร์ที่ยาก และประสิทธิภาพนอกการกระจายที่ยอดเยี่ยม
การวิเคราะห์และ ablation study ตรวจสอบผลของหลักการคัดเลือกข้อมูล และสำรวจความเป็นไปได้ในการประยุกต์ใช้ตามระดับความรู้ของโมเดลพื้นฐาน ขนาดโมเดล และความแตกต่างของสถาปัตยกรรม
ยังศึกษาปริมาณข้อมูลขั้นต่ำที่จำเป็นเพื่อให้ได้ประสิทธิภาพที่แข่งขันได้
โมเดล โค้ด และชุดข้อมูลที่คัดเลือกแล้วเผยแพร่ผ่าน GitHub repository

1 ความคิดเห็น

GN⁺ 2025-02-10

ความคิดเห็นจาก Hacker News

เป็นผลลัพธ์ที่ยอดเยี่ยม แต่มีสองประเด็นที่ควรชี้ให้เห็น: โมเดลนี้ถูกปรับละเอียดมาจาก Qwen-2.5 Instruct ซึ่งในการฝึกล่วงหน้าและการปรับละเอียดแบบมีผู้สอนมีตัวอย่างคณิตศาสตร์ที่คัดสรรแล้วนับล้านรายการอยู่แล้ว
อีกทั้งเพื่อสร้างตัวอย่างคณิตศาสตร์ที่สมบูรณ์แบบ 817 รายการสำหรับ LIMO ก็ได้ใช้โมเดลล้ำสมัยอย่าง R1 คัดกรองพูลโจทย์คณิตศาสตร์ 10 ล้านข้อ
กล่าวคือ มีการใส่ปัญญาจำนวนมากเข้าไปแล้วเพื่อสร้างข้อมูลปรับละเอียดที่มีปริมาณสารสนเทศสูงสุดและถูกกลั่นมาอย่างเข้มข้น ดังนั้นผมไม่แน่ใจว่านี่น่าประทับใจมากกว่าหรือน้อยกว่าการนำพูลตั้งต้นทั้ง 10 ล้านข้อมาปรับละเอียดตรง ๆ แล้วได้ผลลัพธ์เดียวกัน
เพียงแต่วิธีหลังคงไม่ดึงดูดเท่าในพาดหัวข่าว
- ผู้เขียนเองก็ระบุสองประเด็นนี้ไว้ในบทคัดย่อว่าเป็น เงื่อนไขวิกฤตในการดึงการให้เหตุผลที่ซับซ้อนออกมา ได้แก่ โมเดลฐานที่ผ่านการฝึกล่วงหน้ามาอย่างสมบูรณ์แบบยิ่ง และชุดตัวอย่างคุณภาพสูงมากสำหรับการฝึกหลังจากนั้น
  ถ้ามองตามสัญชาตญาณ การปรับละเอียดด้วยพูลตั้งต้น 10 ล้านข้อดูเหมือนจะต้องใช้ข้อมูลปรับละเอียดจำนวนมหาศาลจึงจะขยับประสิทธิภาพได้ และตัวอย่างเพียง 817 รายการยากที่จะเปลี่ยนเกรเดียนต์ได้มาก
  พูลตั้งต้นนั้นทำหน้าที่เสมือนบังคับใช้ regularization ที่ค่อนข้างแรง
  ช่วงนี้ความสนใจเพิ่มขึ้นในการแสดงให้เห็นว่า ข้อมูลขนาดเล็กและการขยายขนาดขณะอนุมาน ให้ผลลัพธ์ก้อนใหญ่
  ตัวอย่างล่าสุดมี TinyZero: https://github.com/Jiayi-Pan/TinyZero, s1 Simple Test Time Scaling: https://arxiv.org/abs/2501.19393
- ไม่เข้าใจว่าทำไมถึงวิจารณ์กันขนาดนี้กับการใช้ข้อมูลจากโมเดลก่อนหน้าเพื่อสร้างโมเดลที่มีประสิทธิภาพกว่า
  การใช้ประโยชน์จากงานวิจัยก่อนหน้าเพื่อสร้างความก้าวหน้าไม่ใช่เรื่องผิด และ การเพิ่มประสิทธิภาพ ก็เป็นความก้าวหน้าเช่นกัน
  เวลาเราทำคอมบูชา เราก็ไม่วิจารณ์กันนี่ว่าไม่ได้ประกอบ SCOBY จากจุลินทรีย์ทีละตัว
- การเลือกตัวอย่าง 817 รายการจาก 10 ล้านรายการ อาจมองได้ว่ามีข้อมูลอยู่ 12,290 บิต
- ลองจินตนาการว่ามีตำราเรียนที่ให้ความเข้าใจซึ่งจำเป็นต่อการทำคะแนนสูงในการแข่งขันคณิตศาสตร์ แต่มีโจทย์อธิบายไม่ถึง 1,000 ข้อ
  แค่นั้นเองก็เป็นการค้นพบครั้งใหญ่ด้าน อภิปัญญา แล้ว
- งานวิจัยและคำอธิบายนี้ค่อนข้างคล้ายกับการสร้างตำราตัวอย่างทางปัญญาที่ “มีปริมาณสารสนเทศสูงสุดและถูกกลั่นมาอย่างเข้มข้น” เพื่อสอนการให้เหตุผลขั้นต่อไปแก่ผู้เรียนที่ผ่านการเรียนพื้นฐานมาแล้ว
  ความก้าวหน้าของ LLM ในช่วงไม่กี่ปีที่ผ่านมาแสดงให้เห็นว่า LLM สามารถสร้างแบบจำลองและทำนายการตอบสนองของมนุษย์ที่ดูสมจริงราวกับเป็นการตอบแบบ “ให้เหตุผล” ของมนุษย์ที่ LLM สร้างขึ้นได้
  พูดอีกอย่างคือ คำตอบจำนวนมากไม่ได้เป็นการให้เหตุผลที่ผ่านการครุ่นคิดเป็นพิเศษ แต่ใกล้เคียงกับ สายโซ่การสร้างโทเค็น มากกว่า
  ถ้าได้นั่งข้างคนที่ “พูดกับตัวเอง” ระหว่างแก้โจทย์ จะยิ่งเห็นชัดขึ้น
  นิยามของ tokgen ดูได้จากการฟังบทสนทนาในร้านอาหาร
  บทสนทนาจำนวนมากไม่ใช่ความคิดลึกซึ้ง แต่เป็นปฏิกิริยาตอบสนองที่ต่อจากพรอมป์ได้แทบจะคาดเดาได้อย่างสมบูรณ์
  เพื่อแยกมันออกจากคำพูดที่ออกมาหลังหยุดคิดพิจารณาสักพัก เราอาจใช้ป้ายกำกับ thought กับ token generation หรือก็คือ tokgen
ผมไม่ใช่ผู้เชี่ยวชาญด้านนี้ แต่คิดว่าโมเดลที่ฝึกล่วงหน้าด้วยอินเทอร์เน็ตนั้นได้ความสามารถส่วนใหญ่ที่จำเป็นต่อการให้เหตุผลทางคณิตศาสตร์มาแล้ว
เพียงแต่เป้าหมายของมันคือการทำนายการกระจายของคำถัดไปบนอินเทอร์เน็ตทั้งหมด และข้อความบนอินเทอร์เน็ตส่วนใหญ่ไม่ใช่ข้อความให้เหตุผลแบบนั้น จึงดูเหมือนว่าปกติแล้วมันไม่ค่อยใช้ความสามารถดังกล่าว
คล้ายกับเมื่อไม่กี่ปีก่อนที่โมเดลสร้างภาพมีคุณภาพผลลัพธ์ดีขึ้นมากเมื่อใส่คำว่า “unreal engine” ในพรอมป์
โมเดลถูกฝึกให้สร้างการกระจายของภาพบนอินเทอร์เน็ต ซึ่งส่วนใหญ่ไม่ได้โดดเด่นเป็นพิเศษ แต่ภาพที่มี “unreal engine” มักเป็นสกรีนช็อตคุณภาพสูง การกระจายของการสร้างภาพจึงขยับไปทางคุณภาพสูงด้วย
ดังนั้นจึงสมเหตุสมผลที่โมเดลมี ความสามารถแฝง ส่วนใหญ่อยู่แล้ว และเพียงต้องปรับการเชื่อมต่อบางส่วนให้ใช้ความสามารถนั้นจริง ๆ ความสามารถด้านการให้เหตุผลทางคณิตศาสตร์จึงเพิ่มขึ้นได้แม้ใช้ตัวอย่างฝึกจำนวนน้อย
- เรื่องนี้ค่อนข้างคล้ายกับที่ Anthropic วิเคราะห์และปรับแต่งค่า activation จนสร้าง golden gate Claude หรือทำให้คุณลักษณะอย่าง “buggy code” สูงสุด/ต่ำสุด[0]
  [0]: https://www.anthropic.com/news/mapping-mind-language-model
- ขอเสริมอีกเล็กน้อยว่า การระบุรูปแบบและต่อยอดรูปแบบ สามารถนำไปใช้กับการประเมินการให้เหตุผลเชิงสัญลักษณ์ได้เช่นกัน
  เช่น หากนิยาม semantics ของภาษาโปรแกรมเชิงฟังก์ชันด้วยกฎการเขียนใหม่ ก็จะเห็นภาพนั้น
  หากโมเดลสามารถแปลงโจทย์เป็นภาษาที่แม่นยำพอ แล้วเริ่มจับคู่รูปแบบกับโปรแกรมเชิงกำเนิดที่เข้ารหัสอยู่ใน LLM และประเมินนัยเชิงตรรกะได้ เราก็จะเข้าสู่พื้นที่ที่น่าสนใจมาก
  การทำนายแบบ autoregressive อาจเปลี่ยนเป็นการประเมินเชิงสัญลักษณ์แบบค่อยเป็นค่อยไปและการคำนวณได้ โดย LLM เบื้องหลังยังคงชี้นำการเลือกการประเมินและการค้นหาเป้าหมาย
  หากในโมเดลฐานมีเนื้อหาเพียงพออยู่แล้วที่จะต่อภาษาที่แม่นยำกว่าเข้าไปได้อย่างเรียบร้อย ก็คงไม่จำเป็นต้องมีคลังข้อความขนาดมหึมาเพื่อเสริมกฎการประเมินแบบนี้
- การให้เหตุผลที่ R1 แสดงให้เห็นส่วนใหญ่ฟังสำหรับผมเหมือนสำนวนของเด็กประถมปีที่ 5 ซึ่งสนับสนุนคำอธิบายข้างต้น
  ถึงอย่างนั้น หากบีบอัดความรู้ที่จำเป็นต่อการให้เหตุผลทางคณิตศาสตร์ต่อไปเรื่อย ๆ สุดท้ายอาจได้รูปแบบที่ผสม ทฤษฎีหมวดหมู่ กับอะไรบางอย่างแบบอิงกฎอย่าง Prolog ก็ได้
- นี่อาจหมายความว่าแม้จะปรับละเอียดโมเดลพื้นฐานด้วยการเรียนรู้แบบมีผู้สอนหรือการเรียนรู้แบบเสริมกำลัง โดยมากแล้วก็ไม่ได้ทำให้โมเดลฉลาดขึ้นโดยเนื้อแท้ และมีเพียงการเรียนรู้แบบกำกับตนเองช่วงต้นระหว่างการฝึกล่วงหน้าเท่านั้นที่ทำเช่นนั้น
  แน่นอนว่า หาก การเรียนรู้แบบเสริมกำลัง ไม่ว่าในปริมาณใดก็ไม่อาจทำให้ LLM ฉลาดขึ้นจริง ๆ ได้เลย นั่นก็คงแปลกเหมือนกัน
ผมเดาว่า บางสาขาอย่างคณิตศาสตร์นั้นแม้จะมีลักษณะทั่วไป แต่ ขนาดคำศัพท์ที่มีผล กลับใหญ่ผิดปกติ เช่น ตัวเลขที่เป็นไปได้ทั้งหมด ทำให้ถ้าฝึกด้วยวิธีที่ใช้ได้กับสาขาที่มีคำศัพท์ขนาดปกติ ต้นทุนก็จะแพงขึ้น
หากฝึกขั้นตอนการให้เหตุผลในโดเมนปัญหาแบบนี้ ก็จะช่วยเสริมคำศัพท์ทั่วไปที่มีจำนวนค่อนข้างน้อยอย่าง “การบวก”, “อินเวอร์ส”, “แก้สมการ” ได้
แบบนั้นเลขคณิตของชุดค่าตัวเลขจะถูกแยกออกจากโจทย์แต่ละข้อ และจะไม่ไปเน้นคำตอบครั้งเดียวเป็นพิเศษ
แค่ต้องฝึกตัวอย่างการให้เหตุผล N ตัวอย่างกับตัวอย่างเลขคณิต M ตัวอย่าง ไม่จำเป็นต้องฝึกโจทย์คณิตศาสตร์แบบเต็มทั้งหมด N*M ข้อ
ดังนั้นถึงจะต้องใช้ทรัพยากรด้านการให้เหตุผลมากขึ้น แต่ก็ได้คำตอบที่ดีกว่าด้วยการฝึกที่น้อยลง
พักเรื่องทฤษฎีไว้ก่อน ในเชิงประยุกต์ วิธีที่ดูดีคือใช้กระบวนการให้เหตุผลทั่วไปแบบนี้เพื่อจัดโครงสร้างสมการสุดท้าย แล้วส่งต่อให้ตัวประเมินแบบดั้งเดิม
แบบนั้นการให้เหตุผลและการฝึกของมันก็ต้องไปให้ถึงแค่การจัดการสัญลักษณ์เท่านั้น
เป็นแนวทางคล้าย Wolfram Alpha ที่การประมวลผลภาษาธรรมชาติถูกส่งต่อให้ตัวประเมินในภายหลังมาก ๆ
- คำถามที่เกี่ยวข้องคือ เคยมี LLM ที่เป็น เครื่องคิดเลขสมบูรณ์แบบ ไหม?
  หมายถึงแบบที่เมื่อป้อนนิพจน์ที่มีการดำเนินการมาตรฐาน +/- และจำนวนเต็ม ฯลฯ แล้วจะคืนผลลัพธ์ที่ถูกต้องเสมอ
  จำไม่ได้ว่าเคยเห็นเปเปอร์ที่เกี่ยวข้อง แต่ผมก็ไม่ใช่ผู้เชี่ยวชาญ
ช่วงนี้เหมือนผมได้อ่านสองอย่างที่ดูขัดแย้งกัน: คำกล่าวว่า LLM ไม่มีทาง generalize การพิสูจน์ทฤษฎีบทได้เลย กับข้อความในเปเปอร์นี้ที่ว่า “LLM สมัยใหม่อาจมีความรู้คณิตศาสตร์จำนวนมากอยู่แล้วในพื้นที่พารามิเตอร์ และภารกิจกำลังเปลี่ยนจากการได้มาซึ่งความรู้ไปเป็น การชี้นำความรู้”
ตอนนี้เลยไม่ค่อยรู้แล้วว่าอะไรเป็นอะไร
- ถ้าจะกลืนยาขมเม็ดนี้ลงไป ก็คงต้องยอมรับว่า ความรู้ทั้งหมดของมนุษย์โดยแท้จริงแล้วเป็นการแจกแจงจำกัดที่ค่อนข้าง “เล็ก” และตอนนี้โมเดลใหญ่พอที่จะจับคู่แพตเทิร์นบนการแจกแจงนั้นได้ LLM จึง “generalize” ได้
- เป็นไปได้ไหมว่า LLM สามารถสร้าง พื้นที่ค้นหา ที่ถูกต้องสำหรับปัญหาได้ แต่กระบวนการระบุคำตอบภายในพื้นที่นั้นไม่มีประสิทธิภาพ?
  พูดอีกแบบคือ นักเรียนส่วนใหญ่ที่เรียนโน้ตวิชาคณิตศาสตร์ระดับมัธยมปลายมีความเป็นไปได้ที่จะได้เหรียญทองโอลิมปิกอยู่ข้างใน
  เพราะตัวคณิตศาสตร์เองไม่ได้เกินเนื้อหาระดับมัธยมปลายไปมากนัก
  แต่การผลักดันนักเรียนมัธยมปลายจริง ๆ ให้ไปถึงระดับเหรียญทองโอลิมปิกนั้นยาก และอาจเป็นอะไรบางอย่างที่คล้ายกับ P กับ NP
- ไม่ว่าจะเป็นฝ่ายที่พูดเกินจริงหรือฝ่ายที่สงสัย คุณจะเห็นคนจำนวนมากที่พูดสิ่งที่ตรวจสอบได้ต่อไปเรื่อย ๆ
  บางครั้งแม้คุณจะมีสกรีนช็อตที่ขัดกับข้ออ้างของพวกเขา พวกเขาก็ยังพูดแบบเดิมต่อไป
  โดยเฉพาะสำหรับฝ่ายสงสัย คุณสามารถลองใช้ LLM ระดับท็อปด้วยตัวเองเพื่อดูว่า “สิ่งที่มีคนอ้างว่ามันทำไม่ได้ มันทำได้จริงหรือไม่?”
  บ่อยครั้งมันทำได้จริง
  ถ้าดูเปเปอร์ที่ฝ่ายสงสัยส่งมาเมื่อเร็ว ๆ นี้ บางครั้งพวกเขาอ้างถึง LLM รุ่นล่าสุด แต่กลับทดสอบแค่เวอร์ชันที่เก่ากว่าหนึ่งปีขึ้นไป
  จริง ๆ แล้วเมื่อไม่นานมานี้ก็มีเรื่องแบบนั้นเกิดขึ้น^
  ถ้าอยากมั่นใจว่าอะไรถูก ก็มีแต่ต้องลองใช้เองแล้วตัดสินว่าอะไรจริง
  ^ https://x.com/tylercowen/status/1881051976102035880
- อาจมี ความรู้คณิตศาสตร์จำนวนมาก แต่ยังพิสูจน์ทฤษฎีบทได้ไม่เก่งก็ได้
  ในทางกลับกัน แม้ไม่มีความรู้คณิตศาสตร์จำนวนมาก ก็อาจพิสูจน์โจทย์คณิตศาสตร์แข่งขันได้ดี
  และก็เป็นไปได้เช่นกันว่ามีความรู้คณิตศาสตร์จำนวนมากและพิสูจน์ทฤษฎีบทได้ดี แต่ทำได้ดีเป็นหลักเฉพาะในสาขาความเชี่ยวชาญของตัวเอง
- คำพูดว่า “LLM ไม่มีทางทำ X ได้” ดูเหมือนจะผิดเสมออยู่แล้ว
เช่นเดียวกับที่โมเดล diffusion สร้างภาพแสดงให้เห็นว่าสามารถสรุปการประมาณโลกทัศน์ทั้งหมดที่ดูสมจริงลงในโมเดลขนาด 5GB ได้ แพตเทิร์นการให้เหตุผล ก็อาจบีบอัดได้คล้ายกันหรือไม่?
แพตเทิร์นการให้เหตุผลที่ใช้ในทุกสาขามีจำนวนน้อยถึงขั้นนับได้จริง ๆ จนสามารถจับได้ด้วยชุดฝึกที่ค่อนข้างเล็กหรือเปล่า?
- ผมคิดว่า “แพตเทิร์นการให้เหตุผล” ที่เป็นทั่วไปอย่างแท้จริง กล่าวคือกลยุทธ์หรือแนวทาง มีไม่มากนัก
  แต่การให้เหตุผลเชิงประยุกต์ต้องการไม่ใช่แค่แพตเทิร์นการให้เหตุผลเท่านั้น แต่ยังต้องมีคลัง ขั้นตอนการให้เหตุผลที่มีผลเฉพาะโดเมน ซึ่งนำไปใช้ได้ตามแนวทางนั้นด้วย
  นอกจากนี้ยังต้องมีการผสมผสานความสามารถในการข้ามจุดติดขัดเมื่อใช้ทั้งความรู้และขั้นตอนการให้เหตุผลที่เรียนรู้มาแล้วแต่ยังไปไม่ถึงคำตอบ
  ในสาขาอย่างคณิตศาสตร์ แม้มีขั้นตอนการให้เหตุผลเฉพาะคณิตศาสตร์เพียงจำนวนน้อย ก็อาจไปได้ค่อนข้างไกล แต่ในตัวคณิตศาสตร์เองก็มีสาขาย่อยจำนวนมาก เช่น พีชคณิต เรขาคณิต แคลคูลัส และทอพอโลยี
  เท่าที่ผมรู้ เทคนิคของสาขาหนึ่งจะมีประโยชน์ต่ออีกสาขาก็ต่อเมื่อสามารถแมปปัญหาไปยังอีกโดเมนหนึ่งได้เท่านั้น
สงสัยว่าชุดโจทย์คณิตศาสตร์คัดสรร 817 ข้อ จะมีประโยชน์ในฐานะ ตำราเรียน สำหรับฝึกนักเรียนคณิตศาสตร์ด้วยโจทย์ที่หลากหลายด้วยหรือไม่
ถ้าตามสมมติฐาน LIMO เราสามารถดึงศักยภาพการให้เหตุผลที่มีประสิทธิภาพภายในโมเดลขนาดเล็กออกมาได้ด้วยการ fine-tune ด้วยชุดข้อมูลขนาดเล็ก ก็อาจเกิด การย้ายอำนาจ ครั้งใหญ่จากโมเดลยักษ์ไปสู่โมเดลขนาดเล็ก
หากกระบวนการนี้ทำซ้ำได้ ก็ดูเหมือนว่าจะให้พลังแทบไม่จำกัด
เพียงแต่เพื่อเลี้ยงวงจรนั้น ชุดข้อมูลต้องมีคุณสมบัติบางอย่าง
ต้องสอนให้ปรับการให้เหตุผลให้เหมาะกับขนาดโมเดล และต้องถูกตรวจสอบในลักษณะคล้าย minimum cover ที่ขยายความลึกของสายโซ่การให้เหตุผลด้วย branching factor ขนาดเล็กในพื้นที่ค้นหา เพื่อให้ตรวจจับแพตเทิร์นเชิงลึกได้
น่าสนใจที่วงการกำลังค่อย ๆ กลายเป็น การศึกษาศาสตร์ของ LLM
การให้เหตุผลคือศิลปะของการพยากรณ์
คือการกลั่น ข้อสังเกตจำนวนมากของความเป็นจริง ให้เป็นโมเดลความเป็นจริงขนาดเล็กที่ทำนายข้อสังเกตใหม่ได้ดีพอ
“โมเดลที่ง่ายที่สุดที่อธิบายสิ่งส่วนใหญ่ที่ผมกำลังเห็นอยู่คืออะไร?” คือคำถามหลักที่จิตใจพยายามตอบ
เมื่อเราเชี่ยวชาญศิลปะการสร้างโมเดลแบบนั้นแล้ว เราก็จะจับคู่แพตเทิร์นของปัญหาใหม่เข้ากับโมเดลของเรา และให้โมเดลนั้นทำนายผลลัพธ์

LIMO: การให้เหตุผล ยิ่งน้อยยิ่งดี (Less is More for Reasoning)

ความเชื่อเดิมที่สมมติฐาน LIMO มุ่งท้าทาย

เหตุผลที่ทำได้แม้ใช้ข้อมูลน้อย

วิธีคัดเลือกตัวอย่าง 800 รายการ

ประสิทธิภาพบน benchmark

ผลงานสำคัญและทรัพยากรที่เผยแพร่

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News