ความรู้เชิงกระบวนการจากการฝึกล่วงหน้าช่วยขับเคลื่อนการให้เหตุผลของ LLM

(arxiv.org)

1 คะแนน โดย GN⁺ 2024-12-03 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

การประเมินการให้เหตุผลของ LLM กำลังสั่นคลอนจากการอิ่มตัวของ benchmark และ การปนเปื้อนของข้อมูล งานวิจัยนี้จึงติดตาม เอกสารการฝึกล่วงหน้า ที่มีอิทธิพลต่อเอาต์พุต แทนที่จะดูที่น้ำหนักของโมเดล
ใช้ Cohere Command R 7B และ 35B กับโทเคนการฝึกล่วงหน้า 2.5 พันล้านโทเคน และเอกสาร 5 ล้านฉบับ เพื่อจัดอันดับเอกสารที่มีอิทธิพลต่อคำถามเชิงข้อเท็จจริง 40 ข้อและคำถามเชิงเหตุผล 40 ข้อ
สำหรับคำถามเชิงข้อเท็จจริง เอกสารที่มีอิทธิพลแตกต่างกันไปในแต่ละคำถาม แต่คำถามเชิงเหตุผลในโจทย์คณิตศาสตร์เดียวกันแสดงรูปแบบอิทธิพลที่คล้ายกันข้ามหลายคำถาม ชี้ถึงการมีอยู่ของ ความรู้เชิงกระบวนการ
คำตอบของคำถามเชิงข้อเท็จจริงมักพบในเอกสารที่มีอิทธิพลสูงสุด 0.01% ขณะที่คำตอบที่ถูกต้องหรือคำตอบของขั้นตอนกลางในคำถามเชิงเหตุผลโดยทั่วไปไม่ปรากฏในเอกสารที่มีอิทธิพลสูงสุด
การให้เหตุผลดูใกล้เคียงกับการสังเคราะห์ กระบวนการแก้ปัญหาที่นำไปทั่วไปได้ จากเอกสารที่มีขั้นตอนคล้ายกัน มากกว่าการดึงคำตอบที่เคยเห็นมาก่อนออกมา

ติดตามเอกสารการฝึกล่วงหน้าให้ไกลกว่าการปนเปื้อนของ benchmark

LLM ทำคะแนนได้สูงอย่างรวดเร็วใน benchmark ด้านการให้เหตุผลหลายชุด แต่เพราะ การปนเปื้อนของข้อมูล จึงตีความคะแนนว่าเป็นความสามารถในการ generalize ได้โดยตรงยาก
- ใน machine learning ทั่วไป จะวัดการ generalize โดยแยกข้อมูลฝึกกับข้อมูลทดสอบออกจากกัน
- โมเดลระดับแนวหน้าในปัจจุบันใช้ข้อมูลระดับหลายล้านล้านโทเคน จึงหลีกเลี่ยงได้ยากที่ benchmark จะปะปนอยู่ในข้อมูลการฝึกล่วงหน้า
- ข้อมูล benchmark ที่ถูกเรียบเรียงใหม่ก็อาจเลี่ยงการตรวจจับแบบ N-gram และยังส่งผลต่อประสิทธิภาพได้
คำถามหลักคือ LLM เรียนรู้ การให้เหตุผล จากข้อมูลการฝึกล่วงหน้าได้อย่างไร
- เปรียบเทียบว่ามันค้นคืนและประกอบคำตอบหรือร่องรอยการให้เหตุผลที่เคยเห็นมาก่อนใหม่หรือไม่
- หรือเรียนรู้ขั้นตอนจากเอกสารหลายฉบับที่เกี่ยวข้องกับคำถามในเชิงนามธรรมมากกว่า แล้วนำไป generalize
การวิเคราะห์ไม่ได้ตีความน้ำหนักภายในของโมเดลโดยตรง แต่ย้อนรอยไปยัง เอกสารการฝึกล่วงหน้า ที่มีอิทธิพลต่อเอาต์พุตเฉพาะ
- ใช้วิธี influence function ที่ปรับเทคนิคสถิติแบบ robust ให้เข้ากับ Transformer ขนาดใหญ่
- คำนวณว่าเอกสารการฝึกล่วงหน้าแต่ละฉบับส่งผลต่อ likelihood ของคู่ prompt-completion เฉพาะมากเพียงใด

การตั้งค่าการทดลอง

โมเดลที่ทดลองคือ Command R 7B และ 35B ของ Cohere
ข้อมูลการฝึกล่วงหน้าที่วิเคราะห์มี 2.5 พันล้านโทเคน และจัดการเป็นเอกสาร 5 ล้านฉบับ
คำถามมีทั้งหมด 80 ข้อ
- คำถามเชิงข้อเท็จจริง 40 ข้อ: คำถามที่ต้องค้นคำตอบจากความรู้เชิงพาราเมตริก
- คำถามเชิงเหตุผล 40 ข้อ: คำถามคณิตศาสตร์เชิงเหตุผลง่าย ๆ
คำถามเชิงเหตุผลครอบคลุมโจทย์คณิตศาสตร์ 3 ประเภท
- เลขคณิต 2 ขั้นตอน
- การคำนวณความชัน
- การแก้สมการเชิงเส้น
สำหรับแต่ละคำถาม จัดอันดับเอกสารการฝึกล่วงหน้า 5 ล้านฉบับตามอิทธิพลที่มีต่อ likelihood ของเอาต์พุตโมเดล

ในการให้เหตุผล เอกสารที่มีขั้นตอนเดียวกันส่งอิทธิพลซ้ำ ๆ

คำถามเชิงเหตุผลต่างข้อที่อยู่ในโจทย์คณิตศาสตร์ประเภทเดียวกันแสดง รูปแบบอิทธิพลของเอกสาร ที่คล้ายกัน
- อิทธิพลของเอกสารหนึ่งฉบับต่อร่องรอยการให้เหตุผลของคำถามเชิงเหตุผลข้อหนึ่ง สามารถทำนายอิทธิพลต่อคำถามข้ออื่นในโจทย์ประเภทเดียวกันได้อย่างชัดเจน
- พบรูปแบบนี้ใน 3 จาก 4 กรณี
เอกสารไม่ได้สอดคล้องกับตัวเลขหรือคำตอบเฉพาะเพียงอย่างเดียว แต่มีส่วนช่วยคล้ายกันต่อคำถามหลายข้อที่นำขั้นตอนเดียวกันไปใช้กับตัวเลขที่ต่างกัน
ในทางกลับกัน คำถามเชิงข้อเท็จจริง มักพึ่งพาชุดข้อมูลที่แตกต่างกันในแต่ละคำถาม และไม่พบรูปแบบอิทธิพลร่วมแบบเดียวกับคำถามเชิงเหตุผล
ในโจทย์คำนวณความชัน ความสัมพันธ์ปรากฏเด่นเป็นพิเศษ
- ในคำถามจำนวนมากของโจทย์ประเภทนี้ พบขั้นตอนการแก้ปัญหาในรูปแบบโค้ดหรือคณิตศาสตร์หลายครั้งภายในข้อมูลการฝึกล่วงหน้าสูงสุด 0.002%

การค้นคืนข้อเท็จจริงกับการให้เหตุผลมีลักษณะเอกสารอิทธิพลต่างกัน

ในคำถามเชิงข้อเท็จจริง ตัวคำตอบเองมักปรากฏในเอกสารที่มีอิทธิพลสูง
- ในเอกสาร 500 อันดับแรก หรือเอกสารอิทธิพลสูงสุด 0.01% มีคำตอบอยู่ในคำถามของโมเดล 7B 55% และของโมเดล 35B 30%
ในคำถามเชิงเหตุผล คำตอบที่ถูกต้องแทบไม่ปรากฏในเอกสารที่มีอิทธิพลสูง
- แม้ในกรณีที่พบคำตอบได้จากข้อมูล 2.5 พันล้านโทเคนทั้งหมด คำตอบก็มักไม่ปรากฏในเอกสารที่มีอิทธิพลสูงสุด
- คำตอบของขั้นตอนการให้เหตุผลระหว่างทางโดยทั่วไปก็ไม่อยู่ในเอกสารที่มีอิทธิพลสูงเช่นกัน
สำหรับคำถามเชิงเหตุผล อิทธิพลของเอกสารรายฉบับ ต่อหน่วยปริมาณข้อมูลของคำถามที่โมเดลสร้างขึ้น โดยทั่วไปต่ำกว่าคำถามเชิงข้อเท็จจริง
- โมเดลพึ่งพาเอกสารแต่ละฉบับน้อยกว่าเมื่อสร้างร่องรอยการให้เหตุผล
ขนาดอิทธิพลโดยรวมของชุดเอกสารที่มีอิทธิพลก็แปรผันน้อยกว่าในคำถามเชิงเหตุผล
- การที่ subset แบบสุ่มของโทเคนการฝึกล่วงหน้า 2.5 พันล้านโทเคนจะมีเอกสารที่มีอิทธิพลสูงมากหรือไม่นั้นขึ้นกับความบังเอิญมากกว่าในคำถามเชิงข้อเท็จจริง
เมื่อนำทั้งสองรูปแบบมาดูร่วมกัน การให้เหตุผลดูใกล้เคียงกับการพึ่งพาเอกสารรายฉบับน้อยลง และ generalize จากชุดเอกสารที่มีลักษณะทั่วไปมากกว่า

บทบาทของโค้ดและข้อมูลขั้นตอนคุณภาพสูง

ในส่วนอันดับสูงสุดของอิทธิพลเชิงบวกและเชิงลบสำหรับคำถามคณิตศาสตร์เชิงเหตุผล พบว่า ข้อมูลโค้ด ถูกสุ่มพบมากเกินสัดส่วนอย่างชัดเจนเมื่อเทียบกับการกระจายของข้อมูลฝึก
พบหลักฐานว่าโค้ดมีบทบาทสำคัญในโจทย์คณิตศาสตร์ทั้งหมดที่วิเคราะห์
การให้เหตุผลของโมเดลแตกต่างจากการค้นคำตอบจากความรู้เชิงพาราเมตริกที่ก่อตัวขึ้นระหว่างการฝึกล่วงหน้า
- คำอธิบายขั้นตอนทั่วไป
- ตัวอย่างที่ใช้ขั้นตอนคล้ายกัน
- เอกสารที่แสดงกระบวนการแก้ปัญหาด้วยโค้ดหรือสูตร
แทนที่จะใส่กรณีที่เป็นไปได้ทั้งหมดลงในข้อมูลการฝึกล่วงหน้า การมุ่งเน้น ข้อมูลคุณภาพสูง ที่แสดงขั้นตอนในโจทย์การให้เหตุผลหลากหลายแบบอาจมีประสิทธิภาพมากกว่า
ขอบเขตของงานวิจัยจำกัดอยู่ที่กรณีการเรียนรู้ขั้นตอนภายในโจทย์คณิตศาสตร์ประเภทเดียวกัน
- ยังเป็นคำถามต่อไปว่ามีประเภทข้อมูลการฝึกล่วงหน้า เช่น โค้ด ที่ทำให้เกิดการเรียนรู้ขั้นตอนข้ามหลายประเภทโจทย์ได้หรือไม่

1 ความคิดเห็น

GN⁺ 2024-12-03

ความคิดเห็นจาก Hacker News

ดูเป็นเรื่องชัดเจนว่า LLM ไม่สามารถหา مثالของทุกปัญหาได้จากข้อมูลฝึก ไม่น่าจะมีตัวอย่างมากพอสำหรับการดึงข้อเท็จจริงแบบค้นคืนข้อมูล จึงอาจมองได้ว่ามันสร้างวิธีแก้ใหม่ขึ้นมาด้วย การคาดคะเนออกนอกช่วงบางรูปแบบ สำหรับปัญหาที่ได้รับมา
สิ่งที่น่าสนใจคือบทความนี้ก็ไม่ได้ขัดกับข้อสรุปของงานวิจัย LLM ของ Apple[0] ด้วย งานนั้นดัดแปลงพรอมป์ต์เพื่อทำให้ LLM เกิดข้อผิดพลาด และก็น่าเชื่อได้ว่าแม้ตอนที่ LLM สร้างวิธีแก้ใหม่ มันก็อาจสร้างได้เพียง ความเบี่ยงเบนเล็กน้อย จากวิธีแก้ในตัวอย่างเดิม
ฉันไม่ชอบการเรียกกระบวนการสร้างวิธีแก้นี้ว่า “การให้เหตุผล” มองว่าใกล้เคียงกับคำที่บริษัท LLM ใช้เพื่อชักนำปฏิกิริยาทางอารมณ์เวลาพูดถึงเทคโนโลยี ถึงอย่างนั้น การที่เราสามารถทำให้เครื่องทำตามขั้นตอนชุดหนึ่งได้ด้วยภาษาธรรมชาติและความกำกวมเพียงระดับหนึ่ง ก็ยังถือเป็นความก้าวหน้าครั้งใหญ่
[0] https://machinelearning.apple.com/research/gsm-symbolic
- เห็นด้วยอย่างมากกับมุมมองที่ว่า LLM ไม่เหมาะกับ การให้เหตุผล ในความหมายของการแก้ปัญหาอย่างสร้างสรรค์หรือการประยุกต์ตรรกะ ศักยภาพที่แท้จริงในด้านนี้น่าจะเป็นการใช้มันเป็น ชั้นคอมไพเลอร์ ชนิดหนึ่งที่เชื่อมระหว่างภาษาธรรมชาติที่คลุมเครือ กับภาษารูปแบบอย่าง SQL, Prolog, Python และ Lean
  จากนั้นก็สามารถสังเคราะห์ผลลัพธ์หรือเอาต์พุตจากชั้นภาษารูปแบบนั้นได้ และโดยพื้นฐานแล้วมันก็กลายเป็น “เอเจนต์” เพียงแต่ฉันคิดว่า LLM สามารถทำงาน “การให้เหตุผลเชิงภาษา” ได้อยู่ เส้นแบ่งระหว่างการให้เหตุผลเชิงภาษา เชิงคุณภาพ และเชิงปริมาณอยู่ตรงไหนฉันก็ไม่แน่ใจ และมันทำให้นึกถึงพาร์ตภาษาในข้อสอบมาตรฐาน
- อาจเชื่อได้ว่ามัน “สร้างวิธีแก้ใหม่ด้วยการคาดคะเนออกนอกช่วงบางรูปแบบ” แต่ฉันสงสัยว่าความเชื่อนั้นอาศัย หลักฐานแบบไหน
  แล้วบทคัดย่อของงาน Apple ก็พูดว่ามีการเปลี่ยนค่าตัวเลขตั้งต้น มากกว่าจะใช้ถ้อยคำแยบยลอย่างเช่น “ความเสียหาย”
- การ ทำให้คอมพิวเตอร์มีลักษณะเหมือนมนุษย์ มีมาก่อน ChatGPT นานมากแล้ว ตอนคอมพิวเตอร์ค้างหรือพังจนเอกสารไม่ถูกบันทึกแล้วมีคนพูดว่า “คอมกินการบ้าน” ก็ไม่มีใครคิดว่ามันกินจริง แค่เป็นสำนวนที่ใช้ชี้สิ่งที่เพิ่งเกิดขึ้นได้ง่ายเท่านั้น
  ก่อนยุค LLM เองก็พูดได้เหมือนกันว่า “คอมพิวเตอร์กำลังคิด” ไม่ใช่ทุกคนจะรู้คำศัพท์คณิตศาสตร์ ดังนั้นถ้าพูดว่า “Claude ทำ inner product ให้เรียงความของฉัน” หรือ “ให้ ChatGPT ทำ inner product กับจดหมายที่จะส่งหัวหน้า” คนจำนวนมากก็คงไม่รู้ว่า inner product คืออะไร ต่อให้มีคำกริยาที่แม่นยำกว่าในเชิงเทคนิค ก็คงไม่มีใครใช้
  บริษัท AI อาจผลักคำอย่าง “คิด” หรือ “ให้เหตุผล” จริง แต่คำพวกนี้ก็เป็นคำที่ใช้สะดวกที่สุดด้วย เราพูดว่าโมเดล “คิด” ว่าใน strawberry มีตัว R สองตัว ไม่ได้พูดว่ามัน “ทำ inner product” มันก็ทำทั้งการคูณเมทริกซ์ บางทีก็ softmax และคอนโวลูชันด้วย แต่คนส่วนใหญ่ไม่ใช่ Terence Tao เลยไม่ได้รู้สึกเป็นธรรมชาติที่จะพูดว่ามีบางอย่างกำลัง softmax อยู่
- บริษัทพวกนี้พยายามผลักให้โมเดล AI ของตัวเองดูเหมือนเป็น AI ที่คิดและให้เหตุผลได้เอง แต่ความจริงฉันมองว่ามันใกล้เคียงกับการฝึกด้วยชุดข้อมูลมหาศาล แล้วคาดคะเนออกนอกช่วงจากสิ่งนั้นเพื่อหาคำตอบที่ถูกต้องมากกว่า
  มันก็ยังคิดออกนอก กรอบของชุดข้อมูลตัวเอง ไม่ได้อยู่ดี
แบบนี้หมายความว่ามนุษย์ต้องแก้ปัญหาเป็นขั้นเป็นตอนให้ดู ก่อนที่โครงข่ายประสาทจะเลียนแบบได้งั้นหรือ? พอเขียนออกมาแล้วก็ดูเป็นเรื่องค่อนข้างชัดเจนดี
- ฉันว่าไม่ใช่ ถ้าเข้าใจถูก ประเด็นคือมันซึมซับตัวอย่างการแก้ปัญหาเชิงกระบวนการ แล้วซอฟต์แวร์ก็เรียนรู้ วิธีทั่วไปในการแก้ปัญหา
ถ้าอย่างนั้นก็อาจอธิบายได้ถึง ข้อดีที่คาดไม่ถึงของการฝึกด้วยโค้ด
- ฟังดูน่าสนใจ แต่ฉันไม่ค่อยรู้เรื่อง เลยอยากรู้ว่ามีลิงก์ที่เกี่ยวข้องไหม
  ฉันหา https://arxiv.org/abs/2408.10914 เจอ แต่ไม่มีพื้นฐานพอจะตัดสินได้ว่านี่ใช่งานที่คุณพูดถึงหรือเปล่า
น่าแปลกใจที่ประโยค “LLM แสดงความสามารถทั่วไปในการแก้ปัญหา แต่เมื่อเทียบกับมนุษย์ก็ยังมีช่องว่างด้านการให้เหตุผลที่น่าทึ่ง ซึ่งทำให้เกิดคำถามต่อความแข็งแรงของกลยุทธ์การทำให้ทั่วไป” ได้รับการโหวตขึ้นมา
เพราะบน HN มีคนจำนวนมากอย่างน่าประหลาดที่มองว่า LLM ไม่ได้ให้เหตุผลเลย และควรอธิบายมันผ่านเลนส์ของ ตัวทำนายโทเค็นถัดไป เท่านั้น ตอนคุยเรื่องสติปัญญาของ LLM ครั้งก่อน ก็มีคนพูดอย่างเสียมารยาทให้ไปศึกษาว่า LLM ทำงานอย่างไร โดยยืนยันว่าพวกเขารู้อยู่แล้วว่ามันทำงานอย่างไรอย่างแม่นยำ และมันก็เป็นแค่ตัวทำนายโทเค็นเท่านั้น
- ฉันมองว่า “ช่องว่างที่น่าทึ่ง” นั้นเองเกิดจากการที่ LLM ไม่ได้ให้เหตุผล อย่างน้อยก็ไม่ใช่ในแบบที่มนุษย์ให้เหตุผลเกี่ยวกับสิ่งที่กำลังคิดแก้ปัญหาอยู่ แต่มันใกล้เคียงกับการจัดการ ชุดข้อเท็จจริงอื่นที่มักมีความสัมพันธ์กัน เกี่ยวกับความสัมพันธ์ของโทเค็นในข้อความมากกว่า
  รูปแบบความล้มเหลวทำให้เห็นความต่างนั้นชัดที่สุด เอาต์พุตของ LLM จะมีความหมายในความหมายที่เราพูดกันทั่วไป ก็ต่อเมื่อมนุษย์มาใส่ความหมายภายนอกให้ทีหลังเท่านั้น LLM ไม่ได้หยุดทำงานหรือ “สับสน” ถ้าใส่ข้อความเหลวไหลลงไป เพราะความหมายที่มันดึงออกมาไม่ได้ขึ้นกับความหมายที่มนุษย์ให้ และเราแค่ป้อนสิ่งที่เราเห็นว่าไม่เหลวไหลเข้าไปจนบังเอิญทำให้สองอย่างนี้สอดคล้องกัน เรื่อง “มันทำงานจริง ๆ อย่างไร” จึงเป็นอีกประเด็นหนึ่งต่างหาก
- ดูเหมือนว่าคนที่เสียงดังที่สุดมักอยู่ในจุดยืนสุดขั้ว และคำถามอย่าง “AI ตัวหนึ่งไร้ประโยชน์/เหนือมนุษย์ในบางโดเมนหรือไม่” ก็เช่นกัน อาจเป็นแค่การรับรู้ก็ได้ แต่ตามที่ CGP Grey พูดไว้ ตัวข้อถกเถียงเองอาจเป็นสิ่งที่ทำให้พวกเขาอยู่รอดได้นาน: https://www.youtube.com/watch?v=rE3j_RHkqJc
  ถ้าอยู่ตรงกลาง คุณจะโดนทั้งสองฝั่งโจมตี ความเห็นประมาณว่า “มันเป็นเครื่องมือที่มีประโยชน์ แต่ก็เห็นเส้นทางมากมายที่มันจะพังได้” กลับให้ความรู้สึกเหมือนอยู่นอกกรอบโอเวอร์ตันสำหรับหัวข้อนี้อย่างประหลาด ทำให้อยากรู้ว่าบรรยากาศการถกเถียงในชีวิตประจำวันจริง ๆ เกี่ยวกับเครื่องทอผ้าสมัยปฏิวัติอุตสาหกรรมเป็นอย่างไร ไม่ใช่ฉบับสรุปสมัยใหม่แต่เป็นอารมณ์จริงในยุคนั้น
- ทั้งสองอย่างอาจเป็นจริงพร้อมกันได้ ใช่ LLM คือ ตัวทำนายโทเค็นถัดไป แต่บางครั้งการจะทำแบบนั้นให้ถูกต้อง มันก็ต้องเข้าใจสิ่งที่มาก่อนหน้าทั้งหมดจริง ๆ และให้เหตุผลอย่างมีตรรกะ
  อย่างที่มีคนอ้างว่า Sutskever เคยพูดไว้ ถ้าอินพุตของโมเดลคือเนื้อหาส่วนใหญ่ของนิยายสืบสวน และโทเค็นถัดไปคือชื่อฆาตกร แบบนั้นโมเดลก็เข้าใจนิยายเรื่องนั้น Transformer เป็นตัวประมาณฟังก์ชันทั่วไป ดังนั้นจึงไม่มีขีดจำกัดที่แข็งทื่อแน่นอนว่ามันทำอะไรได้หรือทำอะไรไม่ได้
- ฉันคิดว่าคำว่า “ตัวทำนายโทเค็นถัดไป” กับคำว่า มีสติปัญญา ไม่ได้ขัดกันโดยเนื้อแท้
เกี่ยวข้องอย่างมากกับการถกเถียงล่าสุด https://news.ycombinator.com/item?id=42285128
Google โต้แย้งว่าการใช้ pretraining เป็นข้อกำหนดสำคัญหากต้องการนำเสนอการออกแบบชิปที่ดีขึ้นแม้เพียงเล็กน้อย และยังโต้แย้งด้วยว่างานโต้แย้งที่ไม่ได้ลองทำ pretraining มาก่อนก็ควรถูกคาดหมายไว้อยู่แล้วว่าจะด้อยกว่าระดับแนวหน้าของการออกแบบชิปอย่างมาก
หากการให้เหตุผลมีความสำคัญในการออกแบบชิป และ pretraining ก็มีความสำคัญต่อการดึงความสามารถในการให้เหตุผลออกมาจากโมเดลภาษาขนาดใหญ่ ตรรกะของ Google ก็ถือว่าสมเหตุสมผลพอสมควร หาก Google ใช้ pretraining แล้วยังชนะระดับแนวหน้าได้อย่างฉิวเฉียด ก็ควรคาดหมายได้ว่าความพยายามที่ไม่ทำ pretraining จะต่ำกว่าระดับแนวหน้าปัจจุบันมาก ดังนั้นประสิทธิภาพที่ต่ำของความพยายามครั้งที่สองนั้นจึงไม่ได้บอกอะไรว่า ผลลัพธ์ของ Google น่าเชื่อถือหรือไม่
- ผมไม่ใช่ผู้เชี่ยวชาญเฉพาะทางของโดเมนประยุกต์นั้น แต่ก็พอเข้าใจว่าทำไมข้อโต้แย้งเรื่อง pretraining ถึงอาจใช้ได้ การบอกว่า pretraining ของโครงข่ายประสาทช่วยเพิ่มประสิทธิภาพการเรียนรู้จากตัวอย่างน้อย ๆ นั้นแทบไม่ใช่เรื่องที่มีข้อถกเถียง
  ดูเหมือนว่าทุกปัญหาจะมี จุดเปลี่ยน ที่โครงข่ายประสาทที่ผ่าน pretraining แล้วจะทำการเรียนรู้จากตัวอย่างน้อย ๆ ได้ดีกว่าวิธีที่ต้องใช้ข้อมูลน้อยกว่า เช่น คุณลักษณะที่ทำด้วยมือหรือสมมติฐานตั้งต้นที่แข็งแรงกว่า เพียงแต่คำถามในที่นี้ดูจะเป็นว่า กรณีนี้ได้ไปถึงจุดเปลี่ยนนั้นหรือยัง
“ในกรณีสุดขั้ว โมเดลภาษาที่ตอบคำถามเชิงให้เหตุผลอาจพึ่งพาการดึงข้อมูลจากความรู้ในพารามิเตอร์ที่ได้รับอิทธิพลจากชุดเอกสารจำนวนจำกัดในข้อมูล pretraining อย่างมาก ในกรณีนี้ ข้อมูลที่ถูกดึงออกมา หรือก็คือเอกสารเฉพาะที่มีร่องรอยการให้เหตุผล อาจมีส่วนอย่างมากต่อเอาต์พุตของโมเดล ขณะที่เอกสารอื่นจำนวนมากมีบทบาทเพียงเล็กน้อย”
“ในทางกลับกัน ที่ปลายอีกด้านของสเปกตรัม โมเดลอาจดึงจากเอกสารหลากหลายช่วงกว้างที่เกี่ยวข้องกับคำถามในเชิงนามธรรมมากกว่า โดยแต่ละเอกสารอาจมีอิทธิพลคล้ายกันต่อหลายคำถาม แต่มีส่วนต่อเอาต์พุตสุดท้ายค่อนข้างน้อย เราเสนอว่าการให้เหตุผลที่ทำให้เกิดการทั่วไปได้ควรมีลักษณะเหมือนกลยุทธ์แบบหลัง”
แต่ถ้าโมเดลสามารถทำให้เกิดการทั่วไปได้จาก ตัวอย่างเพียงหนึ่งเดียว แบบนั้นยิ่งน่าประทับใจกว่าไม่ใช่หรือ?
เห็นด้วย ผมคิดว่า ข้อมูลฝึกสำหรับการให้เหตุผล สำคัญกว่าข้อเท็จจริงเสียอีก ข้อมูลไม่สังเคราะห์ที่น่าจะหาได้ง่ายที่สุดคงเป็นบทพิสูจน์ทางคณิตศาสตร์
ถ้าใช้สิ่งอย่าง Prolog ก็สามารถสร้างเส้นทางการให้เหตุผลทางเลือกได้หลายแบบ เส้นทางหลายแบบเหล่านี้จะช่วยการฝึก LLM หรือไม่ คงยากจะบอกได้หากไม่ได้เข้าถึงเครื่องมหึมาแล้วลองเอง มันไม่ยุติธรรมเอาเสียเลย
ข้อสรุปนี้คล้ายกับ AlphaGo เทียบกับ AlphaZero ตามที่คนนอกอย่างผมเข้าใจหรือเปล่า? คือความรู้เชิงกระบวนการของมนุษย์ช่วยการฝึกแมชชีนเลิร์นนิงได้ถึงจุดหนึ่ง แต่หลังจากนั้นกลับกลายเป็นข้อจำกัด?
- ไม่ใช่ สิ่งที่เขาพูดคือ โมเดลที่วิเคราะห์นั้นใช้ข้อมูลเกี่ยวกับ วิธีแก้ โจทย์คณิตศาสตร์เป็นหลัก มากกว่าใช้เอกสารที่มีคำตอบของโจทย์คณิตศาสตร์เดียวกันอยู่แล้วในข้อมูลฝึก
  “เราตรวจสอบว่าข้อมูลแบบใดมีอิทธิพลต่อร่องรอยการให้เหตุผลที่โมเดลสร้างขึ้น และข้อมูลนั้นเกี่ยวข้องอย่างไรกับปัญหาเฉพาะที่มันกล่าวถึง โมเดลเพียงแค่ ‘ค้นคืน’ คำตอบจากข้อมูล pretraining ที่เคยเห็นมาก่อนแล้วนำมาประกอบใหม่ หรือว่ามันใช้กลยุทธ์การทั่วไปที่แข็งแรงกว่า?”
  “เมื่อจำแนกเอกสารอันดับต้น ๆ สำหรับคำถามเชิงให้เหตุผลในเชิงคุณภาพ เราพบว่าเอกสารที่มีอิทธิพลมักบรรจุความรู้เชิงกระบวนการ เช่น แสดงวิธีหาคำตอบโดยใช้สูตรหรือโค้ด ผลลัพธ์ของเราชี้ว่าแนวทางการให้เหตุผลที่โมเดลใช้แตกต่างจากการค้นคืน และใกล้เคียงกับกลยุทธ์ที่ทำให้เกิดการทั่วไปได้มากกว่า ซึ่งเป็นการสังเคราะห์ความรู้เชิงกระบวนการจากเอกสารที่ทำการให้เหตุผลลักษณะคล้ายกัน”
  ตัวอย่างคำถามเชิงให้เหตุผล: “Prompt Calculate the answer: (7 - 4) * 7 Think step-by-step.”
หมายความว่า LLM จะทำได้ดีขึ้นถ้าฝึกด้วยข้อมูลปริมาณมากอย่าง สมุดโน้ตของนักเรียน ข้อสอบ บทวิจารณ์หนังสือ ใช่ไหม? ถ้าใช่ก็น่าสนใจมาก
- บางทีก็สงสัยว่าทำไมเราไม่ฝึกระบบ AI ด้วยหลักสูตรที่ผสมเกมและการเล่นมากขึ้น
  การลองใช้ระบบการศึกษาที่หลากหลายจากทั่วโลก แล้วดูว่าจะได้อะไรออกมา ก็น่าหลงใหลเหมือนกัน
อาจเป็นคำถามโง่ ๆ แต่ถ้าอย่างนั้นทำไมภาพที่สร้างขึ้นถึงกลายเป็นภาพเพ้อฝันเหมือนฝันร้าย? ทำไมมันถึงจัดองค์ประกอบ ไดอะแกรมแบบเป็นขั้นตอนเชิงกระบวนการ ไม่ได้?

ความรู้เชิงกระบวนการจากการฝึกล่วงหน้าช่วยขับเคลื่อนการให้เหตุผลของ LLM

ติดตามเอกสารการฝึกล่วงหน้าให้ไกลกว่าการปนเปื้อนของ benchmark

การตั้งค่าการทดลอง

ในการให้เหตุผล เอกสารที่มีขั้นตอนเดียวกันส่งอิทธิพลซ้ำ ๆ

การค้นคืนข้อเท็จจริงกับการให้เหตุผลมีลักษณะเอกสารอิทธิพลต่างกัน

บทบาทของโค้ดและข้อมูลขั้นตอนคุณภาพสูง

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News