เรียนรู้วิธีคิดด้วย Meta Chain-of-Thought

(arxiv.org)

2 คะแนน โดย GN⁺ 2025-01-12 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Meta Chain-of-Thought (Meta-CoT) คือเฟรมเวิร์กที่ก้าวข้าม CoT ซึ่งเขียนเฉพาะขั้นตอนเฉลยสุดท้าย โดยพยายามโมเดลไปถึง กระบวนการคิดแฝง ก่อนจะได้คำตอบ
ในโจทย์คณิตศาสตร์ระดับยาก เฉลยขั้นสุดท้ายแบบตำราเรียนมักละเว้น การสำรวจ·การตรวจสอบ·การทดลอง ที่เกิดขึ้นในการคิดจริง ทำให้โมเดลเรียนรู้กระบวนการสร้างเฉลยได้ยาก
GPT-4o และ Claude ก็อาจล้มเหลวในการประเมินนิพจน์พีชคณิตบางส่วนได้ แต่ CoT แบบ “step by step” จะเพิ่มการคำนวณระหว่างทาง ทำให้โอกาสตอบถูกสูงขึ้น และเผยให้เห็นความแตกต่างของ ปริมาณการคำนวณเพื่ออนุมาน
ตระกูล OpenAI o1 สร้างเอาต์พุตที่ยาวขึ้นและขยายช่องว่างประสิทธิภาพบนเบนช์มาร์กคณิตศาสตร์ยากอย่าง HARP แสดงพฤติกรรมที่สอดคล้องกับ การค้นหา ณ เวลาอินเฟอเรนซ์
แนวทางการทำ Meta-CoT ถูกเสนอเป็น ไปป์ไลน์การฝึก ที่รวมการกำกับดูแลกระบวนการ, ข้อมูลสังเคราะห์, การค้นหาแบบ MCTS·A*, instruction tuning จากร่องรอยการค้นหาที่ทำให้เป็นเชิงเส้น และการเรียนรู้แบบเสริมกำลังหลังการฝึก

ปัญหาที่ Meta-CoT มุ่งจัดการ

รากฐานของโมเดลภาษาขนาดใหญ่ในปัจจุบันคือ การทำนายโทเค็นถัดไป โดยแบ่งข้อความหรือโมดาลิตีต่อเนื่องออกเป็นลำดับโทเค็นไม่ต่อเนื่อง แล้วฝึกให้เพิ่มความน่าจะเป็นของโทเค็นถัดไปให้สูงสุด
แนวทางนี้มีมุมมองว่า “compression is intelligence” อยู่เบื้องหลัง
- เพื่อทำนายโทเค็นถัดไป โมเดลต้องประมาณการแจกแจงของข้อมูล และทำการอนุมานโดยนัยภายในค่า activation
คำถามสำคัญคือความสัมพันธ์ระหว่าง ความซับซ้อนของสตรีมข้อมูล กับความสามารถของโมเดลในการเรียนรู้อัลกอริทึมที่สร้างข้อมูลนั้น
การให้เหตุผลทางคณิตศาสตร์ถูกใช้เป็นโดเมนที่ดีในการประเมินคำถามนี้
- โจทย์อย่าง “1+2” ส่วนใหญ่มักตอบทันทีว่า “3”
- โจทย์ประเมินนิพจน์พีชคณิตที่ซับซ้อนกว่านั้น แม้จริง ๆ แล้วจะย่อรูปได้เป็น 1 แต่ LLM ที่ทรงพลังอย่าง GPT-4o และ Claude ก็อาจไม่สามารถตอบถูกได้เลยแม้สักครั้ง
คำสั่ง “think step by step” และ CoT ทำให้โมเดลสร้างขั้นตอนระหว่างทาง ซึ่งยกระดับประสิทธิภาพได้อย่างมาก
- ในตัวอย่างนิพจน์พีชคณิต จะแสดงว่าค่าเป็น 1 ผ่านการแยกตัวประกอบ การตัดทอน และการคำนวณตัวส่วนร่วม

ข้อจำกัดของ CoT เดิม

การขยาย CoT ในเชิงทฤษฎีทำให้สามารถทุ่มการคำนวณจำนวนมากเท่าใดก็ได้ให้กับการทำนายโทเค็นคำตอบ
งานทฤษฎีเดิมมองว่า CoT มอบความซับซ้อนเชิงการแทนค่าในระดับใหม่ให้ LLM และภายใต้สมมติฐานอย่างหน่วยความจำไม่จำกัด ก็อาจถึงขั้นเป็น Turing complete ได้
แต่ LLM ในทางปฏิบัติยังคงแก้ได้อย่างเสถียรเฉพาะปัญหาที่มี ความซับซ้อนจำกัด เท่านั้น
กระบวนการสร้างข้อมูลจริงของการให้เหตุผลที่ซับซ้อนไม่ได้ถูกบรรจุอยู่ในข้อมูล CoT ทั่วไปอย่างเพียงพอ
- ขั้นตอนเฉลยแบบตำราเรียนของโจทย์ง่าย ๆ ค่อนข้างสอดคล้องกับกระบวนการสร้างเฉลยจริง
- ขั้นตอนเฉลยสุดท้ายของโจทย์ซับซ้อนจะละเว้น กระบวนการค้นหาแบบไม่เชิงเส้น ก่อนที่จะไปถึงเฉลยนั้น

นิยามของ Meta Chain-of-Thought

Meta-CoT ไม่ได้ไปจากคำถามสู่ขั้นตอนเฉลยสุดท้ายและคำตอบโดยตรง แต่โมเดลความคิดแฝง z1 ... zK ที่มีอยู่ก่อนหน้านั้น
CoT แบบคลาสสิกมองได้ว่าคำตอบ a ถูกกำหนดเงื่อนไขด้วยขั้นตอนเฉลย s1 ... sn
Meta-CoT มองว่าขั้นตอนเฉลยและคำตอบ (a, s1 ... sn) ถูกกำหนดเงื่อนไขด้วยกระบวนการคิดแฝง z1 ... zK
เป็นโครงสร้างที่ทำให้ตรรกะของ CoT เดิมทั่วไปขึ้นอีกหนึ่งระดับ และดึงกระบวนการคิดที่อยู่นอกเฉลยสุดท้ายเข้ามาเป็นเป้าหมายในการเรียนรู้
ในปัญหาซับซ้อน แม้เฉลยสุดท้ายจะสั้น แต่กระบวนการค้นพบเฉลยนั้นอาจยาวและไม่เป็นเชิงเส้น

กรณีศึกษาโจทย์ “windmill” ของ IMO 2011

โจทย์ windmill อันมีชื่อเสียงของ International Mathematics Olympiad 2011 ถูกใช้เป็นตัวอย่างของการให้เหตุผลที่ซับซ้อน
เฉลยที่เผยแพร่ของโจทย์นี้สามารถเขียนได้ในไม่กี่ประโยค และไม่ต้องใช้ความรู้ล่วงหน้าพิเศษ
จุดยากจริงอยู่ที่เฉลยมีโครงสร้างที่ไม่เป็นเชิงเส้นอย่างมาก
- ผู้เข้าแข่งขันจำนวนมากลองใช้การสร้าง convex hull หรือเครื่องมือจาก Hamiltonian graph theory แต่ไม่ได้นำไปสู่เฉลย
- ผู้เข้าแข่งขันที่แก้โจทย์ได้ใช้แนวทางเชิงทดลองที่รวมการสำรวจทางเรขาคณิตและการให้เหตุผลแบบอุปนัยจำนวนมาก
การสร้างองค์ประกอบช่วงต้นของเฉลยสุดท้ายจะเห็นประโยชน์ก็ต่อเมื่อรู้อยู่แล้วว่าแนวทางทั้งหมดเป็นอย่างไร
ดังนั้นกระบวนการสร้างเฉลยจริงจึงไม่เข้ากันนักกับวิธี autoregressive ที่ดำเนินจากซ้ายไปขวา

ผลลัพธ์ HARP และการใช้โทเค็นของตระกูล o1

มีการอภิปรายว่าโมเดลตระกูล OpenAI o1 ทำ การให้เหตุผลแบบ Meta-CoT ในเชิง autoregressive ณ เวลาอินเฟอเรนซ์
บนเบนช์มาร์กคณิตศาสตร์ HARP ตระกูล o1 แสดงประสิทธิภาพโดยรวมสูงกว่าโมเดลอนุมานมาตรฐานเดิม
ยิ่งโจทย์ยาก ช่องว่างประสิทธิภาพระหว่าง o1 กับโมเดลอื่นยิ่งกว้างขึ้น
- อย่างไรก็ตาม มีข้อยกเว้นที่น่าสนใจในโมเดล LLaMa 3.1
ในด้านจำนวนโทเค็นที่สร้าง ตระกูล o1 ก็แสดงพฤติกรรมที่แตกต่างจากโมเดลเดิม
- สำหรับโจทย์ Level 1 จะสร้างโทเค็นในจำนวนใกล้เคียงกับเฉลยที่มนุษย์เขียน
- ในระดับความยากที่สูงขึ้น จะสร้างโทเค็นต่อโจทย์มากขึ้นมาก และในขณะเดียวกันช่องว่างประสิทธิภาพเมื่อเทียบกับโมเดลเดิมก็เพิ่มขึ้นด้วย
เฉลยที่เผยแพร่ของโจทย์ยากไม่สามารถแทนกระบวนการสร้างจริงได้ และนำไปสู่สมมติฐานว่า Meta-CoT ที่ยาวกว่าของตระกูล o1 อาจประมาณกระบวนการนั้นได้ดีกว่า

บทบาทของการค้นหาและการตรวจสอบ

ในปัญหาเชิงเป้าหมายที่ซับซ้อน อาจมี ช่องว่างด้านความยาก ที่มีนัยสำคัญระหว่างการสร้างกับการตรวจสอบ
ช่องว่างนี้เชื่อมโยงกับปัญหาเปิดพื้นฐานในวิทยาการคอมพิวเตอร์เชิงทฤษฎี แต่การพิสูจน์เรื่องนี้อยู่นอกขอบเขตของงานวิจัย
คำตอบของปัญหายากที่อยู่ในคลังข้อความสามารถมองได้ว่าเป็นผลลัพธ์ของกระบวนการค้นหาที่ยาวนาน
แต่โดยทั่วไป กระบวนการค้นหานั้นเอง ไม่ได้ถูกแสดงไว้ในข้อมูล
หากไม่มีข้อมูล Meta-CoT หรือมีอยู่เพียงจำกัด โมเดลจะเรียนรู้กระบวนการสร้างจริงของการให้เหตุผลระดับยากได้โดยตรงได้ลำบาก

การทดลอง LLaMa 3.1 8B

มีการทำ supervised fine-tuning ขนาดใหญ่กับ LLaMa 3.1 8B base model โดยใช้ชุดข้อมูล Numina MATH
แต่ละ intermediate checkpoint ถูกประเมินบนชุดข้อมูลประเมิน Hendrycks MATH จำนวน 500 โจทย์
ในการประเมิน pass@k ที่ใช้ oracle verifier พบว่าเมื่อ k เพิ่มขึ้น ประสิทธิภาพจะกระโดดสูงขึ้นอย่างมาก
Figure 2 แสดงว่าชุดข้อมูลที่ผ่านการกรองมีการสเกลที่ดีกว่าข้อมูลต้นฉบับ และยังไม่ถึง plateau
เมื่อเพิ่ม k ตั้งแต่ pass@2 ถึง pass@64 แม้ในโมเดลขนาดเล็ก ความน่าจะเป็นที่จะได้โซลูชันที่ถูกต้องอย่างน้อยหนึ่งรายการก็เพิ่มขึ้นอย่างมาก

เส้นทางการฝึกและคำถามเปิด

วิธีสร้าง Meta-CoT ที่ถูกกล่าวถึง ได้แก่ การกำกับดูแลกระบวนการ และการสร้างข้อมูลสังเคราะห์จากการค้นหา
การสร้าง Meta-CoT สังเคราะห์รวมถึงอัลกอริทึมค้นหาอย่าง Monte Carlo Tree Search (MCTS) และ A* search
ไปป์ไลน์ที่มุ่งสู่ระบบ end-to-end เดี่ยวผสาน instruction tuning โดยใช้ร่องรอยการค้นหาที่ทำให้เป็นเชิงเส้น กับการเรียนรู้แบบเสริมกำลังหลังการฝึก
โครงการ “Big MATH” เป็นความพยายามรวบรวมโจทย์คณิตศาสตร์คุณภาพสูงที่ตรวจสอบได้มากกว่า 1,000,000 ข้อ เพื่อสนับสนุนงานวิจัยนี้
คำถามวิจัยที่ยังเปิดอยู่รวมถึงกฎการสเกลของการอนุมานและการค้นหา บทบาทของ verifier และความเป็นไปได้ในการค้นพบอัลกอริทึมการให้เหตุผลแบบใหม่ผ่าน meta-RL

1 ความคิดเห็น

GN⁺ 2025-01-12

ความคิดเห็นจาก Hacker News

คำวิจารณ์ CoT มีน้ำหนัก โดยเฉพาะส่วนที่ชี้ให้เห็นช่องว่างระหว่าง การเลียนแบบเชิงอัลกอริทึม กับการสำรวจทางปัญญาที่แท้จริงคือประเด็นสำคัญ
ผู้เขียนยกตัวอย่างคณิตศาสตร์ขั้นสูง เช่น “ปัญหากังหันลม” ของโอลิมปิกคณิตศาสตร์ระหว่างประเทศ เพื่อแสดงให้เห็นปัญหาที่แก้ได้ยากด้วยการคิดแบบเป็นลำดับอย่างดุ่ย ๆ ข้อจำกัดของกรอบที่พึ่งพาชุดข้อมูลแบบคงที่และกระบวนการสร้างที่ตายตัวจึงปรากฏชัด เหตุผลที่ CoT ล้มเหลวไม่ใช่เพราะมันสร้างคำตอบไม่ได้ แต่เพราะมันไม่มีวิธี นึกคำตอบขึ้นมา แบบเดียวกับความคิดสร้างสรรค์ของมนุษย์
ประโยคที่ว่า “อภิปัญญาไม่ได้หมายถึงการค้นพบสิ่งใหม่ แต่คือการค้นพบวิธีใหม่ในการค้นพบ” น่าประทับใจ
- ถ้าอย่างนั้นภายหลังก็อาจมีปัญหาที่ต้องการ “วิธีใหม่ในการค้นพบวิธีใหม่ในการค้นพบ” แล้วก็จะต่อยอดไปแบบนั้นเรื่อย ๆ
- ก็ฝึกด้วย การให้เหตุผลเชิงเมตา ได้ ให้เรียนรู้กระบวนการที่ผู้คนค้นพบวิธีการค้นพบ จึงไม่น่าจะเป็นปัญหาใหญ่ แค่สร้างชุดข้อมูลแล้วฝึกก็พอ ประมาณนั้น
- ชอบประโยคที่อ้างไว้ตอนท้าย สงสัยว่าจำแหล่งที่มาดั้งเดิมได้ไหม
- เกี่ยวกับปัญหากังหันลม มีลิงก์นี้ https://www.3blue1brown.com/lessons/windmills
ไอเดียหลักของเปเปอร์คือ CoT มีข้อจำกัดในปัญหาซับซ้อนบางประเภท มีปัญหาที่ไม่มีวิธี “ตามตำรา” สำหรับหาเฉลย และปัญหาเหล่านี้ต้องการวิธีวิทยาเฉพาะของตัวเอง
ประเด็นสำคัญคือส่วนที่ว่า “โดยแก่นแล้ว หากจะเริ่มสร้างคำตอบ คุณต้องรู้แนวทางทั้งหมดอยู่แล้ว กระบวนการสร้างที่เป็นรากฐานของคำตอบไม่ใช่กระบวนการอัตถดถอยที่ดำเนินจากซ้ายไปขวา”
ในเชิงคณิตศาสตร์ สามารถทำให้เป็นรูปแบบทางการได้ด้วยการตีความการให้เหตุผลเป็น กระบวนการตัวแปรแฝง CoT แบบดั้งเดิมมองความน่าจะเป็นของคำตอบสุดท้ายว่าเป็นการมาร์จินัลไลซ์เหนือสายโซ่การให้เหตุผลแฝง ขณะที่กระบวนการสร้างคำตอบจริงของปัญหาซับซ้อนควรมองว่าการแจกแจงความน่าจะเป็นร่วมของคำตอบถูกกำหนดเงื่อนไขด้วยกระบวนการสร้างแฝง ดังนั้น q → z1 → … → z จึงถูกเรียกว่า Meta-CoT
นี่ดูเป็นจุดเริ่มต้นที่ค่อนข้างสำคัญ เช่น ถ้าถาม o1-pro ว่าจะทำให้เลเซอร์ไดโอด 1550nm ทำงานที่ 1GHz พร้อมลดการสูญเสียเชิงเรขาคณิตโดยไม่ใช้คอลลิเมเตอร์ราคาแพง แต่ใช้วัสดุทั่วไป วิธีการผลิตใหม่ หรือฟิสิกส์จากหลักการพื้นฐานได้อย่างไร ภาพลวงตาว่า o1-pro นั้นสุดยอดจะพังลง “วิศวกรรมใหม่” ยังเข้าถึงได้ยาก และเพราะไม่มีตำราว่าด้วยวิธีทำวิศวกรรมแบบนั้น ปัญหาเหล่านี้จึงแก้แบบอัตถดถอยจากซ้ายไปขวาไม่ได้
- น่าทึ่งว่ามาตรฐานเป้าหมายถูกขยับไปไกลแค่ไหน
  ตอนนี้ดูเหมือนว่าถ้าโมเดล AI จะถือว่า “สุดยอด” ได้ ก็ต้องรับปัญหาในสาขายาก ๆ ใดก็ได้ที่มนุษย์เองยังแก้ไม่ได้ แล้วพ่นวิธีแก้ที่ดีออกมาได้ AI แบบนั้นย่อมสุดยอดและถึงระดับเปลี่ยนโลกแน่นอน แต่เกณฑ์ที่ว่าถ้าทำได้น้อยกว่านั้นก็ไม่ “สุดยอด” อีกต่อไปนี่ค่อนข้างน่าประหลาดใจ
- สงสัยว่ามนุษย์เองจะหาวิธีแก้ที่ใช้ได้จริงสำหรับปัญหานี้ได้หรือไม่ หากไม่ ตั้งคำถามกับความเป็นจริงทางกายภาพ กล่าวคือไม่ทำการทดลอง
  บางส่วนของความเป็นจริงคำนวณไม่ได้ ดังนั้นท้ายที่สุดต้องปล่อยให้จักรวาลจำลองมันเองโดยตรงจึงจะไปถึงได้
- คำว่า “ปัญหาที่ไม่มีวิธีตามตำราสำหรับหาเฉลย” ไม่ตรงกับประสบการณ์ของผมในการโต้ตอบกับ LLM
  แม้จะถามด้วยวิธีที่คนส่วนใหญ่ไม่เข้าใจ แต่เมื่อดูคำตอบก็รู้ได้ว่ามันตีความคำถามเองได้ถูกต้อง ส่วนคำตอบจะถูกหรือไม่นั้นเป็นอีกเรื่อง แต่การตีความที่ไม่ใช่ตัวอย่างตามตำราก็ปรากฏให้เห็นอยู่บ้าง
- ถึงจะบอกว่า “ไม่มีตำราว่าด้วยวิธีทำวิศวกรรมใหม่” แต่ก็มีหนังสือเกี่ยวกับ ระเบียบวิธีวิทยาศาสตร์ ไม่ใช่หรือ
  อย่างที่ความคิดเห็นอื่น ๆ บอก การคาดหวังให้อภิปัญญาที่อยู่ในกล่องค้นพบสิ่งที่ต้องอาศัยการทดลองและการสังเกตนั้นแทบเป็นไปไม่ได้ทางกายภาพ คงจำกัดได้แค่สาขาอย่างคณิตศาสตร์บริสุทธิ์ที่เขียนบนกระดาษแล้วคิดจากสัจพจน์ได้เท่านั้น แต่สาขาแบบนั้นแหละที่จัดอยู่ในกลุ่มที่ความก้าวหน้ายากที่สุด มนุษยชาติเองก็มาถึงจุดนี้ได้จากผู้รอบรู้จำนวนมากที่ช่วยกันเติมส่วนเล็ก ๆ ทีละน้อยมาตลอดหลายพันปี
มีฉันทามติในชุมชนวิจัยแล้วหรือยังว่า “โมเดลภาษาไม่ได้แค่จับคู่ความสัมพันธ์ระหว่างคำที่เรียงต่อกัน แต่เรียนรู้ความหมายโดยนัยของข้อความ”? อยากรู้ว่ามีงานวิจัยที่พูดถึงหัวข้อนี้ไหม
- ชุมชนวิจัยไม่ได้มีฉันทามติเรื่องนี้เลย และมีหลายฝ่ายอยู่ ถ้ามองกว้าง ๆ ในฝั่งการประมวลผลภาษาธรรมชาติ มี 2 มุมมองหลัก
  บทความของ Bender และ Koller ปี 2020[1] โต้แย้งว่าความหมายไม่สามารถเรียนรู้ได้จากรูปแบบเพียงอย่างเดียว และ LLM เรียนรู้จากรูปแบบ ในการทดลองทางความคิด “The Octopus Test” ของบทความ มีปลาหมึกที่สามารถดักฟังบทสนทนาระหว่างมนุษย์สองคนได้ แต่บทความอธิบายว่า “เมื่อมีเพียงรูปแบบเป็นข้อมูลฝึก มันก็ไม่ได้เรียนรู้ความหมาย”
  ในทางกลับกัน บทความของ Yoav Goldberg[2] พูดถึง grounding และสิ่งที่ LLM เรียนรู้อย่างไม่เป็นทางการมากกว่า โดยภาพรวมคือข้อโต้แย้งว่า instruction tuning และ post-training สามารถทำให้คำอย่าง “summarize” ถูกยึดโยงกับความหมายได้อย่างมีนัยสำคัญ
  [1] https://aclanthology.org/2020.acl-main.463/
  [2] https://gist.github.com/yoavg/59d174608e92e845c8994ac2e234c8...
- เท่าที่รู้สึกมาตลอด อาจไม่มีความแตกต่างจริง ๆ ระหว่าง “ความหมายโดยนัยของข้อความ” กับ “ความสัมพันธ์ระหว่างคำที่เรียงต่อกัน” ก็ได้
  ข้อเท็จจริงที่ว่า LLM สามารถสื่อสารกับมนุษย์ได้อย่างมีประสิทธิภาพ น่าจะเป็นการค้นพบเกี่ยวกับ ความเป็นระเบียบของอรรถศาสตร์ในการสื่อสารของมนุษย์ มากกว่าจะเป็นการค้นพบเกี่ยวกับสติปัญญาของโครงข่ายประสาท
- แน่นอนว่าไม่ใช่สิ่งที่มีฉันทามติ ในวิทยาการคอมพิวเตอร์ ทฤษฎีความหมายเดิมทีไม่ได้เป็นส่วนหนึ่งของสาขาวิชา และแทบไม่มีคนที่มีพื้นฐานงานวิจัยก่อนหน้าในเรื่องนี้ จึงมีข้อกล่าวอ้างแรง ๆ แบบนี้โผล่ขึ้นมาหลายที่
  ไม่ว่าจะกำหนดอรรถศาสตร์ของภาษาธรรมชาติอย่างไร ก็ยากที่จะมองว่าโมเดลแมชชีนเลิร์นนิงใช้ความหมายแบบนั้น
  สิ่งที่พอพูดได้ดีที่สุดคือ ภายใต้เป้าหมายของ supervised learning แบบ Transformer หรือก็คือ “การทำนายคำถัดไป” โครงสร้างความสัมพันธ์ของคำสร้างการแจกแจงที่เป็นการประมาณอรรถศาสตร์ของภาษาธรรมชาติแบบหยาบอย่างสุดขั้วขึ้นมา เรื่องนี้เองไม่เคยเป็นประเด็นโต้แย้ง ประเด็นอยู่ที่ว่ามันเป็นการประมาณแบบสุดขั้วชนิดใด
  ตัวอย่างเช่น เงื่อนไขความจริงของ “มีปากกาอยู่ในมือฉัน” ก็คือมีปากกาอยู่ในมือฉันจริง ๆ ในบริบทนั้น การจะหมายความประโยคนี้ได้ น่าจะจำเป็นอย่างยิ่งที่จะต้องเข้าถึงเงื่อนไขความจริงเหล่านี้โดยตรง เครื่องจักรไม่สามารถเข้าถึงเงื่อนไขความจริงของถ้อยคำเช่นนั้นได้ จึงไม่สามารถหมายความประโยคนั้นได้
  หากเครื่องจักรพูดว่า “มีปากกาอยู่ในมือฉัน” ในสถานการณ์ที่เหมาะสม “การประมาณอรรถศาสตร์ของภาษาธรรมชาติแบบสุดขั้ว” ก็เป็นเรื่องเกี่ยวกับสถานการณ์นั้นและว่า “ความเหมาะสม” คืออะไร
  จากมุมมองที่วิจารณ์ LLM และวิธีคิดแบบวิทยาการคอมพิวเตอร์ “สถานการณ์” ที่ทำให้คำตอบเช่นนั้นดูเหมาะสม หรือก็คือขอบเขตของเงื่อนไขในพรอมป์นั้นแคบมาก การที่คำตอบดูเหมาะสมสำหรับผู้ใช้เป็นเงื่อนไขเชิงวิศวกรรมว่าเครื่องมือทำงานได้ดี ไม่ได้หมายความว่าโมเดลเข้าใจอรรถศาสตร์ของภาษาธรรมชาติ
  ดังนั้นจึงกล่าวได้ว่า LLM ประมาณบทสนทนาระหว่างผู้กระทำที่เข้าใจอรรถศาสตร์ในสถานการณ์จำกัด และจำลองการใช้ภาษาที่เหมาะสมได้ อาจเรียกได้ว่าเป็นโมเดล “ความเหมาะสมเฉลี่ยของคำตอบ” แต่ไม่ได้หมายความว่า “มีปากกาอยู่ในมือฉัน” จริง ๆ
ควรระวังสำนวนที่อ้างหลักการ “การบีบอัดคือสติปัญญา” หรือ Solomonoff induction
ในบทความ “A Formal Theory of Inductive Inference” ทั้งสองส่วนที่อ้างข้างต้น คำว่า “intelligence” ปรากฏ 0 ครั้ง “Compression” ก็ 0 ครั้ง และ “reasoning” ปรากฏเพียง 1 ครั้งในวลี “using similar reasoning”
แน่นอนว่าสิ่งที่ Solomonoff สนใจคือ การอนุมานแบบอุปนัย ไม่รู้ว่าเขาเคยพูดว่า “การบีบอัดคือสติปัญญา” หรือไม่ และแนวคิดกับสโลแกนนี้ดูเหมือนจะพัฒนาขึ้นมาทีหลังมาก แหล่งที่มาเดิมก็ไม่ชัดเจน
จริงอยู่ที่ Solomonoff induction เกี่ยวข้องลึกซึ้งกับปัญหาการทำนายสัญลักษณ์ถัดไปในลำดับสัญลักษณ์ แต่ไม่จำเป็นต้องเป็นโทเคนภาษา สำนวนที่พบบ่อยว่า LLM อยู่ใน “ระยะเริ่มต้น” นั้นผิด การทำ language modeling แทบจะเป็นเทคโนโลยีโบราณตามมาตรฐานวิทยาการคอมพิวเตอร์ และเข้าสู่ช่วงเติบโตเต็มที่ทางเทคนิคมานานแล้ว
[1] https://raysolomonoff.com/publications/1964pt1.pdf
[2] https://raysolomonoff.com/publications/1964pt2.pdf
- การบอกว่าสติปัญญาเป็นรูปแบบหนึ่งของการบีบอัดนั้นฟังขึ้นพอสมควร โมเดลอุปนัย มีขนาดเล็ก แต่สามารถสร้างข้อมูลในปริมาณใด ๆ ก็ได้โดยศักยภาพ
เป็นงานที่ใช้ความคิดรอบคอบ หลายเดือนก่อนผม/ฉันก็คิดและทำงานกับไอเดียที่เกี่ยวข้องอยู่ แต่ยังไม่ได้ใช้ทรัพยากรคำนวณในระดับใกล้เคียงกัน และทิศทางก็อาจต่างกันอยู่บ้าง
งานวิจัยนี้ช่วยสร้าง baseline เพื่อใช้ประโยชน์จาก สถาปัตยกรรม decoder Transformer ให้ดีขึ้นได้อย่างแน่นอน
Meta ในที่นี้หมายถึงบริษัท Meta หรือใช้คำว่า “เมตา” กันแน่? หรือทั้งสองอย่าง?
- ใช้เป็นคำ
  https://chatgpt.com/share/67813a3f-c7e8-8001-ab0c-7f024bc41a...
อยากรู้ว่ามีวิธีรู้ไหมว่า กรณีที่นักวิจัยศึกษาสิ่งที่พวกเขาคิดขึ้นเอง กับกรณีที่งานของนักพัฒนาอิสระบนออนไลน์ได้รับความสนใจจนถูกนำไปศึกษาและออกมาเป็นงานวิจัย มีสัดส่วนเท่าไรกัน
การที่บทความยกสมการพีชคณิตแบบแทนค่าง่าย ๆ และการแก้ทีละขั้นเป็นตัวอย่าง ยิ่งตอกย้ำภาพว่า LLM ทำได้แค่ผลิตซ้ำ สูตรวิธีแก้ ที่เคยเห็นมาก่อน
จริง ๆ ก็ไม่ได้ต่างจากวิธีที่เราเรียนคณิตศาสตร์ในโรงเรียนมากนัก ครูแสดงจุดเริ่มต้น แล้วพาไปทีละขั้นจนจบ การเรียกสิ่งนี้ว่า “Meta Chain-of-Thought” ให้ความรู้สึกเหมือนเป็นการพูดเกินจริงกับหลักสูตรพื้นฐาน
คราวหน้าอาจมีคนเรียกการยกช้อนส้อมพื้นฐานว่าอะไรฝืน ๆ อย่าง “ทฤษฎีการเคลื่อนไหวทางกายภาพเชิงลำดับชั้น” ก็ได้ ที่โรงเรียน “Meta Chain-of-Thought” แบบนี้เรียกง่าย ๆ ว่า “แสดงวิธีทำ” มันเป็น “ปรากฏการณ์” ที่ต้องอธิบายจริงหรือ? เราอาจยังเรียนรู้ได้มากขึ้นเกี่ยวกับการอุปนัยเชิงตรรกะ หรือก็คือว่าเราบรรลุขั้นตอนการให้เหตุผลได้อย่างไร แต่ตอนนี้เรายังอยู่ลึกเกินไปในน้ำซุปจนยังบรรยายรูปร่างของหม้อได้ไม่แม่นยำ
- ไม่แน่ใจว่า “ทำได้แค่ผลิตซ้ำสูตรที่เคยเห็นมาก่อน” นี่พูดถึง LLM หรือพูดถึงตัวคุณเอง

เรียนรู้วิธีคิดด้วย Meta Chain-of-Thought

ปัญหาที่ Meta-CoT มุ่งจัดการ

ข้อจำกัดของ CoT เดิม

นิยามของ Meta Chain-of-Thought

กรณีศึกษาโจทย์ “windmill” ของ IMO 2011

ผลลัพธ์ HARP และการใช้โทเค็นของตระกูล o1

บทบาทของการค้นหาและการตรวจสอบ

การทดลอง LLaMa 3.1 8B

เส้นทางการฝึกและคำถามเปิด

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News