2 คะแนน โดย GN⁺ 2024-03-17 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Quiet-STaR: สามารถสอนให้โมเดลภาษาคิดก่อนพูดได้

  • มนุษย์มักหยุดเพื่อคิดเป็นครั้งคราวระหว่างการเขียนหรือการพูด และการให้เหตุผลลักษณะนี้ก็แฝงอยู่ในข้อความที่เป็นลายลักษณ์อักษรแทบทั้งหมด
  • ใน Self-Taught Reasoner (STaR) มีการนำเสนอวิธีเรียนรู้ความคิดที่เป็นประโยชน์ โดยให้อนุมานเหตุผลจากตัวอย่างเพียงไม่กี่ตัวอย่างในรูปแบบถาม-ตอบ และเรียนรู้จากเหตุผลที่นำไปสู่คำตอบที่ถูกต้อง
  • Quiet-STaR เป็นการทำให้ STaR ใช้ได้กว้างขึ้น โดยฝึกให้โมเดลภาษาสร้างเหตุผลในแต่ละโทเค็นเพื่ออธิบายข้อความในอนาคต และช่วยปรับปรุงการคาดการณ์

ความท้าทายหลักและแนวทางแก้ไข

  • มีความท้าทายหลายอย่าง เช่น ต้นทุนการคำนวณของการสร้างข้อความต่อเนื่อง ปัญหาที่โมเดลภาษาในช่วงแรกยังไม่รู้วิธีสร้างหรือใช้ความคิดภายในของตนเอง และความจำเป็นในการคาดการณ์ให้ไกลกว่าโทเค็นถัดไปเพียงตัวเดียว
  • เพื่อแก้ปัญหาเหล่านี้ จึงมีการเสนออัลกอริทึมการสุ่มตัวอย่างแบบขนานรายโทเค็นที่ใช้โทเค็นซึ่งเรียนรู้ได้เพื่อระบุจุดเริ่มต้นและจุดสิ้นสุดของความคิด รวมถึงเทคนิค teacher-forcing แบบขยาย

การปรับปรุงประสิทธิภาพของโมเดล

  • เหตุผลที่ถูกสร้างขึ้นช่วยในการทำนายโทเค็นที่ยาก และช่วยเพิ่มความสามารถของโมเดลภาษาในการตอบคำถามที่ยากได้โดยตรง
  • จากการพรีเทรนต่อโมเดลภาษาบนคอร์ปัสข้อความอินเทอร์เน็ตด้วย Quiet-STaR พบว่ามีการปรับปรุงแบบ zero-shot ใน GSM8K (5.9%→10.9%) และ CommonsenseQA (36.3%→47.2%) พร้อมทั้งสังเกตเห็นการปรับปรุงค่า perplexity ของโทเค็นที่ยากในข้อความธรรมชาติ
  • การปรับปรุงเหล่านี้เกิดขึ้นได้โดยไม่ต้องมีการ fine-tuning สำหรับงานดังกล่าว

ความเห็นของ GN⁺

  • Quiet-STaR แสดงให้เห็นว่าโมเดลภาษาก้าวไปอีกขั้นในการเรียนรู้การให้เหตุผลในรูปแบบที่ทั่วไปและขยายต่อได้มากขึ้น
  • งานวิจัยนี้สะท้อนความก้าวหน้าสำคัญในการเสริมความสามารถด้านความเข้าใจภาษาและการให้เหตุผลในแวดวงปัญญาประดิษฐ์ และอาจช่วยผลักดันพัฒนาการของเทคโนโลยีประมวลผลภาษาธรรมชาติ
  • หากมองอย่างวิพากษ์ เทคโนโลยีลักษณะนี้อาจก่อให้เกิดผลลัพธ์ที่ไม่คาดคิดเมื่อถูกนำไปใช้กับปัญหาซับซ้อนในโลกจริง จึงยังจำเป็นต้องมีการวิจัยเพิ่มเติมและมาตรการด้านความปลอดภัย
  • โครงการอื่นที่มีความสามารถคล้ายกัน ได้แก่ซีรีส์ GPT ของ OpenAI และ BERT ของ Google ซึ่งต่างก็ยังมีการวิจัยเพื่อพัฒนาความสามารถด้านความเข้าใจและการสร้างภาษาอย่างต่อเนื่อง
  • ประเด็นที่ควรพิจารณาเมื่อนำเทคโนโลยีนี้มาใช้ ได้แก่ คุณภาพและความหลากหลายของข้อมูลฝึก การใช้งานโมเดลอย่างมีจริยธรรม และต้นทุนการคำนวณ ขณะที่ข้อดีของการเลือกใช้เทคโนโลยีนี้คือการสร้างโมเดลภาษาที่แม่นยำและละเอียดมากขึ้น

1 ความคิดเห็น

 
GN⁺ 2024-03-17
ความคิดเห็นจาก Hacker News
  • หากเครือข่ายมีความลึกราว 50 ชั้น นั่นหมายความว่าเครือข่ายนี้สามารถให้เหตุผลกับคำถามเชิงสัญลักษณ์ได้เพียง 50 'ขั้น' เท่านั้น อาจหมายความได้ว่า 50 ขั้นในปริภูมิย่อยที่โมเดลถูกฝึกมาสามารถทำได้มากกว่าหนึ่งขั้นของมนุษย์ แต่เราก็รู้ว่ามนุษย์มีความสามารถที่จะคิดและไตร่ตรองได้ไกลเกินกว่าขั้นเหล่านั้น
  • Edsger Dijkstra แม้จะมีภาษาดัตช์เป็นภาษาแม่ แต่ก็มีสไตล์การเขียนภาษาอังกฤษที่แม่นยำมาก เขาเคยเล่าว่าตั้งแต่เด็กเขาถูกสอนว่าก่อนจะเริ่มประโยค เขาต้องรู้ก่อนว่าจะจบประโยคนั้นอย่างไร มีข้อคาดเดาว่าน่าจะมีความสัมพันธ์เชิงเหตุระหว่างข้อสังเกตทั้งสองนี้
  • ทำให้นึกได้ว่ารูปแบบการให้เหตุผลแบบ 'chain of thought' ที่ช่วยเพิ่มประสิทธิภาพให้ระบบที่อิง LLM นั้นขนานไปกับโมเดลสองระบบในหนังสือ Thinking, Fast and Slow ของ Kahneman โดย 'System 1' คือความคิดที่ใช้ความพยายามและการคำนวณต่ำ ส่วน 'System 2' ใช้กับงานรับรู้ที่มีสติและซับซ้อนสูง ต่อคำวิจารณ์ที่ว่า LLM ดูเหมือนใช้เพียง 'System 1' เมื่อเราชี้นำให้ LLM คิดทีละขั้น นี่ก็คล้ายกับการมอบ sandbox สำหรับการตัดสินใจแบบ 'System 2'
  • วิธีนี้คือชิ้นส่วนที่ขาดหายไปซึ่งจะทำให้เราฝึก AI ได้กับงานจำนวนมากที่มีคำตอบที่ทราบอยู่แล้ว แต่ไม่มีขั้นตอนการให้เหตุผลกำกับไว้ ด้วยวิธีนี้ เราอาจเข้าถึงความสามารถในการให้เหตุผลได้ด้วยข้อมูลที่ใส่คำอธิบายประกอบเพียงเล็กน้อย หากความคิดที่สร้างขึ้นนั้นแม้มนุษย์จะเข้าใจได้ยาก แต่ช่วยให้ได้คำตอบที่ถูกต้องดีกว่ามาก เราก็อาจพูดได้ว่าเราได้สร้างบางสิ่งที่ฉลาดกว่าตัวเราเอง
  • ความหมายจำนวนมากในข้อความซ่อนอยู่ระหว่างบรรทัด และหากผู้อ่านไม่เข้าใจว่าทำไมข้อความนั้นจึงปรากฏในเอกสาร ก็จะมีเพียงความเข้าใจแบบผิวเผินเท่านั้น อย่างไรก็ตาม คนส่วนใหญ่มี world model อยู่แล้ว และพอจะรู้เหตุผลของข้อความที่ปรากฏในหนังสือในระดับหนึ่ง ตัวอย่างเช่น เวลาอ่านตำรากลศาสตร์ของไหล คุณอาจไม่เข้าใจคณิตศาสตร์ทั้งหมด แต่ก็ยังรู้ว่าทำไมข้อความนั้นจึงอยู่ตรงนั้น
  • มีคำถามว่าผู้เขียนบทความนี้เกี่ยวข้องกับโมเดล Q* ที่มีข่าวลือหนาหูของ OpenAI หรือไม่ หรือเป็นเพียงชื่อที่บังเอิญเหมือนกัน
  • พวกเขาไม่ได้อ้างอิงงาน [1] เมื่อเกือบ 8 ปีก่อน ซึ่งมาก่อนงานของพวกเขาและว่าด้วย language modeling บน RNN ที่ใช้การคำนวณแบบแปรผัน (ที่เรียนรู้ได้) ตอนนั้น Microsoft ก็มีงานคล้ายกันสำหรับการรู้จำภาพด้วย
  • โดยพื้นฐานแล้วนี่แทบจะเหมือนกับสิ่งที่ฉันลองทำเมื่อเช้านี้ในระดับพรอมป์ต์ แต่ก้าวไปอีกขั้นด้วยการใส่ 'meta-token' เพื่อช่วยให้ LLM สำรวจบริบทของตัวเองซ้ำได้ ฉันคิดว่า meta-token บางตัวอาจมีผลข้างเคียงอย่างการเน้น จัดโครงสร้าง สรุป หรือแม้แต่ลืมบางส่วนของบริบทได้ นี่อาจไม่เพียงมอบความสามารถด้านตรรกะ/การให้เหตุผลแก่ LLM แต่ยังให้วิธีการสร้างโครงสร้างการรับรู้ของตัวเองขึ้นมาด้วย
  • มีกรณีที่ทีม Intel พยายามใช้ Base Mistral 7B ในลักษณะที่ไม่เหมาะกับการประเมิน เช่นเดียวกับ NeuralChat
  • งานวิจัยนี้ดูน่าสนใจมาก และมีคำถามว่านักวิจัยมีแนวโน้มจะเปิดเผยโค้ดในเร็ว ๆ นี้หรือไม่