เทคนิคการตรวจจับความไม่แน่นอนของ LLM
(thariq.io)การตรวจจับความไม่แน่นอนของ LLM
บทความนี้อธิบายเทคนิคการอนุมานแบบใหม่ที่พัฒนาขึ้นใน Entropix ซึ่งเป็นโปรเจ็กต์ใหม่ของ XJDR โดย Entropix พยายามปรับปรุงการอนุมานของโมเดลด้วยการทำให้การสุ่มตัวอย่างฉลาดขึ้นในช่วงเวลาที่ไม่แน่นอน อย่างไรก็ตาม ยังไม่มีการประเมินในวงกว้าง จึงยังไม่แน่ชัดว่าช่วยได้มากเพียงใดในทางปฏิบัติ
ภาพรวมของความไม่แน่นอน
- การสุ่มตัวอย่างคือกระบวนการเลือกโทเค็นจากการกระจายของโทเค็นที่เป็นไปได้ (logits) ที่ LLM เลือก
- ความมั่นใจของโมเดลต่อการคาดการณ์สามารถดูได้จากการกระจายนี้
- Entropix ใช้ adaptive sampling เพื่อให้โมเดลตัดสินใจได้ดีขึ้นเมื่อมีความไม่แน่นอน
ความหมายและความสำคัญของความไม่แน่นอน
- ความไม่แน่นอนของ logits อาจเกิดได้จากหลายสาเหตุ และไม่ใช่ทุกกรณีที่เป็นเรื่องไม่ดี
- สาเหตุอาจรวมถึงคำพ้องความหมายหรือโทเค็นที่เทียบเท่ากัน เส้นทางที่แตกแขนง หรือกรณีที่ AI ไม่มั่นใจ
- Entropix เสนอว่าควรเลือกโทเค็นถัดไปด้วยวิธีที่ต่างกันตามระดับของความไม่แน่นอน
Entropy และ Varentropy
- Entropix ใช้ตัวชี้วัดสองอย่างในการวัดความไม่แน่นอน ได้แก่ entropy และ varentropy
- entropy วัดว่า logits ที่คาดการณ์ไว้แตกต่างกันมากเพียงใด
- varentropy แสดง “รูปแบบ” ของความไม่แน่นอน โดย varentropy ที่สูงบ่งชี้ว่าบางค่าต่างจากค่าอื่นอย่างมาก
คำอธิบายทางคณิตศาสตร์
- surprisal เป็นแนวคิดที่ใช้วัดความคาดเดาไม่ได้ของเหตุการณ์
- entropy คือค่าคาดหมายของ surprisal สำหรับผลลัพธ์ที่เป็นไปได้ทั้งหมด
- varentropy คำนวณจากความแปรปรวนของ surprisal
Adaptive sampling ที่อิงตาม entropy และ varentropy
entropy ต่ำ, varentropy ต่ำ
- เป็นกรณีในอุดมคติที่โมเดลมั่นใจไม่ใช่แค่ตัวเลือกแรก แต่รวมถึงตัวเลือกอื่นด้วย
- ใช้การสุ่มตัวอย่างแบบ argmax มาตรฐานเพื่อเลือกโทเค็นที่มีความน่าจะเป็นสูงสุด
entropy ต่ำ, varentropy สูง
- เป็นกรณีที่โมเดลคาดการณ์บางตัวเลือกไว้สูงมาก
- อาจบ่งชี้ถึงการแตกแขนงของผลลัพธ์ใหม่ และสามารถนำการแตกแขนงไปใช้งานได้หลายวิธี
entropy สูง, varentropy ต่ำ
- โมเดลอาจกำลังเห็นสิ่งที่มันไม่รู้จัก หรือทุกตัวเลือกอาจใช้แทนกันได้
- ใช้ โทเค็น “คิด” เพื่อกระตุ้นให้โมเดลใช้เวลาในการคำนวณมากขึ้น
entropy สูง, varentropy สูง
- เป็นกรณีที่โมเดลไม่มีความชอบที่ชัดเจน แต่มั่นใจกับผลลัพธ์บางอย่างมากกว่า
- อาจเลือกแบบสุ่ม หรือแทรกการแตกแขนงและโทเค็นคิดได้
การแตกแขนงและโทเค็นคิด
- การคาดการณ์แบบแตกแขนงคือวิธีติดตาม logits บางตัวเพื่อดูว่านำไปสู่โทเค็นอื่นอย่างไร
- โทเค็นคิดคือวิธีทำให้มีการคำนวณเพิ่มขึ้นในสถานะที่ไม่แน่นอน
Attention entropy
- Entropix ใช้ attention entropy เพื่อปรับอุณหภูมิ
- attention entropy และ attention agreement อาจให้สัญญาณเพิ่มเติมสำหรับการสุ่มตัวอย่าง
เรื่องนี้สำคัญหรือไม่?
- อินไซต์ของ Entropix เข้าใจได้ง่ายและไม่ใช่เรื่องใหม่ทั้งหมด
- แม้การประเมินอาจไม่แสดงให้เห็นประโยชน์อย่างมาก เทคนิคการอนุมานลักษณะนี้ก็เป็นแนวทางที่ทดลองได้ง่าย
สรุปของ GN⁺
- Entropix เสนอแนวทางใหม่ในการจัดการความไม่แน่นอนของ LLM
- ใช้ entropy และ varentropy เพื่อวัดระดับความมั่นใจของโมเดล และสามารถตัดสินใจได้ดีขึ้นผ่าน adaptive sampling
- เทคนิคเหล่านี้เปิดโอกาสให้แฮ็กเกอร์โอเพนซอร์สสามารถปรับปรุงความสามารถในการอนุมานของโมเดลได้โดยไม่ต้องใช้งบประมาณขนาดใหญ่
- โปรเจ็กต์ที่มีความสามารถคล้ายกันที่แนะนำคือ Transformers ของ Hugging Face
1 ความคิดเห็น
ความคิดเห็นบน Hacker News
Charles Babbage รู้สึกสับสนกับคำถามที่ว่าข้อมูลนำเข้าที่ผิดพลาดจะให้ผลลัพธ์ที่ถูกต้องได้หรือไม่
เทคนิคแบบอาศัยการสุ่มตัวอย่างที่ใช้ฮาร์ดแวร์สำหรับผู้บริโภคเป็นโอกาสที่พบได้ไม่บ่อยในการปรับปรุงโมเดล SOTA อย่างไรก็ตาม สิ่งนี้จะไม่ยั่งยืน และท้ายที่สุดก็น่าจะต้องมี sampler ที่ฝึกได้
ปัญหาหลายอย่างของ LLM เกิดจาก semantic leakage หรือข้อมูลที่ไม่เกี่ยวข้อง อาจยังมีช่องให้ปรับปรุง attention ได้
GPT สมัยใหม่สร้าง logits จากตัวจำแนกขนาดใหญ่บนคลังคำโทเค็น ซึ่งมีอยู่ในปริภูมิและสามารถคำนวณ manifold ที่มีคุณสมบัติความนูนผิดปกติได้
จำเป็นต้องมีความสามารถที่ทำให้โมเดลตรวจจับความไม่แน่นอนและเตือนผู้ใช้ได้ในสถานการณ์ที่มี entropy สูง
ไม่แน่ใจว่ามีเทคนิคสำหรับตัดสินความไม่แน่นอนของ LLM หรือไม่ งานวิจัยล่าสุดใช้ semantic entropy เพื่อหาปริมาณเชิงสถิติว่า LLM กำลังเดาหรือไม่
สงสัยว่ามีใครเคยทดลองเอาต์พุตในกรณีที่ไม่ยอมให้โมเดลมีความไม่แน่นอนหรือไม่ โดยให้ sampler ย้อนกลับจนกว่าโทเค็นทั้งหมดจะมีความมั่นใจสูงกว่าเกณฑ์
มีข้อสงสัยเกี่ยวกับการเชื่อถือ LLM ให้ทำงานโดยมีการกำกับดูแลน้อยที่สุด เพราะทุกอย่างอาจเป็น "ภาพหลอน" หรือการเดาได้
ปัญหาของ LLM ไม่ได้มีแค่ "ความไม่แน่นอน" อย่างเดียว แต่มีหลายมิติ ทั้งการขาดความหมายของคำถาม การขาดข้อมูล การไม่มีฉันทามติจากผู้เชี่ยวชาญ และเหตุผลอื่น ๆ
มีกลยุทธ์การสุ่มตัวอย่างมากมายสำหรับ language model และยากที่จะพิสูจน์เชิงประจักษ์ว่ากลยุทธ์ใดเหนือกว่า top-k หรือ top-p sampling แบบมาตรฐาน