1 คะแนน โดย GN⁺ 2024-10-27 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

การตรวจจับความไม่แน่นอนของ LLM

บทความนี้อธิบายเทคนิคการอนุมานแบบใหม่ที่พัฒนาขึ้นใน Entropix ซึ่งเป็นโปรเจ็กต์ใหม่ของ XJDR โดย Entropix พยายามปรับปรุงการอนุมานของโมเดลด้วยการทำให้การสุ่มตัวอย่างฉลาดขึ้นในช่วงเวลาที่ไม่แน่นอน อย่างไรก็ตาม ยังไม่มีการประเมินในวงกว้าง จึงยังไม่แน่ชัดว่าช่วยได้มากเพียงใดในทางปฏิบัติ

ภาพรวมของความไม่แน่นอน

  • การสุ่มตัวอย่างคือกระบวนการเลือกโทเค็นจากการกระจายของโทเค็นที่เป็นไปได้ (logits) ที่ LLM เลือก
  • ความมั่นใจของโมเดลต่อการคาดการณ์สามารถดูได้จากการกระจายนี้
  • Entropix ใช้ adaptive sampling เพื่อให้โมเดลตัดสินใจได้ดีขึ้นเมื่อมีความไม่แน่นอน

ความหมายและความสำคัญของความไม่แน่นอน

  • ความไม่แน่นอนของ logits อาจเกิดได้จากหลายสาเหตุ และไม่ใช่ทุกกรณีที่เป็นเรื่องไม่ดี
  • สาเหตุอาจรวมถึงคำพ้องความหมายหรือโทเค็นที่เทียบเท่ากัน เส้นทางที่แตกแขนง หรือกรณีที่ AI ไม่มั่นใจ
  • Entropix เสนอว่าควรเลือกโทเค็นถัดไปด้วยวิธีที่ต่างกันตามระดับของความไม่แน่นอน

Entropy และ Varentropy

  • Entropix ใช้ตัวชี้วัดสองอย่างในการวัดความไม่แน่นอน ได้แก่ entropy และ varentropy
  • entropy วัดว่า logits ที่คาดการณ์ไว้แตกต่างกันมากเพียงใด
  • varentropy แสดง “รูปแบบ” ของความไม่แน่นอน โดย varentropy ที่สูงบ่งชี้ว่าบางค่าต่างจากค่าอื่นอย่างมาก

คำอธิบายทางคณิตศาสตร์

  • surprisal เป็นแนวคิดที่ใช้วัดความคาดเดาไม่ได้ของเหตุการณ์
  • entropy คือค่าคาดหมายของ surprisal สำหรับผลลัพธ์ที่เป็นไปได้ทั้งหมด
  • varentropy คำนวณจากความแปรปรวนของ surprisal

Adaptive sampling ที่อิงตาม entropy และ varentropy

entropy ต่ำ, varentropy ต่ำ

  • เป็นกรณีในอุดมคติที่โมเดลมั่นใจไม่ใช่แค่ตัวเลือกแรก แต่รวมถึงตัวเลือกอื่นด้วย
  • ใช้การสุ่มตัวอย่างแบบ argmax มาตรฐานเพื่อเลือกโทเค็นที่มีความน่าจะเป็นสูงสุด

entropy ต่ำ, varentropy สูง

  • เป็นกรณีที่โมเดลคาดการณ์บางตัวเลือกไว้สูงมาก
  • อาจบ่งชี้ถึงการแตกแขนงของผลลัพธ์ใหม่ และสามารถนำการแตกแขนงไปใช้งานได้หลายวิธี

entropy สูง, varentropy ต่ำ

  • โมเดลอาจกำลังเห็นสิ่งที่มันไม่รู้จัก หรือทุกตัวเลือกอาจใช้แทนกันได้
  • ใช้ โทเค็น “คิด” เพื่อกระตุ้นให้โมเดลใช้เวลาในการคำนวณมากขึ้น

entropy สูง, varentropy สูง

  • เป็นกรณีที่โมเดลไม่มีความชอบที่ชัดเจน แต่มั่นใจกับผลลัพธ์บางอย่างมากกว่า
  • อาจเลือกแบบสุ่ม หรือแทรกการแตกแขนงและโทเค็นคิดได้

การแตกแขนงและโทเค็นคิด

  • การคาดการณ์แบบแตกแขนงคือวิธีติดตาม logits บางตัวเพื่อดูว่านำไปสู่โทเค็นอื่นอย่างไร
  • โทเค็นคิดคือวิธีทำให้มีการคำนวณเพิ่มขึ้นในสถานะที่ไม่แน่นอน

Attention entropy

  • Entropix ใช้ attention entropy เพื่อปรับอุณหภูมิ
  • attention entropy และ attention agreement อาจให้สัญญาณเพิ่มเติมสำหรับการสุ่มตัวอย่าง

เรื่องนี้สำคัญหรือไม่?

  • อินไซต์ของ Entropix เข้าใจได้ง่ายและไม่ใช่เรื่องใหม่ทั้งหมด
  • แม้การประเมินอาจไม่แสดงให้เห็นประโยชน์อย่างมาก เทคนิคการอนุมานลักษณะนี้ก็เป็นแนวทางที่ทดลองได้ง่าย

สรุปของ GN⁺

  • Entropix เสนอแนวทางใหม่ในการจัดการความไม่แน่นอนของ LLM
  • ใช้ entropy และ varentropy เพื่อวัดระดับความมั่นใจของโมเดล และสามารถตัดสินใจได้ดีขึ้นผ่าน adaptive sampling
  • เทคนิคเหล่านี้เปิดโอกาสให้แฮ็กเกอร์โอเพนซอร์สสามารถปรับปรุงความสามารถในการอนุมานของโมเดลได้โดยไม่ต้องใช้งบประมาณขนาดใหญ่
  • โปรเจ็กต์ที่มีความสามารถคล้ายกันที่แนะนำคือ Transformers ของ Hugging Face

1 ความคิดเห็น

 
GN⁺ 2024-10-27
ความคิดเห็นบน Hacker News
  • Charles Babbage รู้สึกสับสนกับคำถามที่ว่าข้อมูลนำเข้าที่ผิดพลาดจะให้ผลลัพธ์ที่ถูกต้องได้หรือไม่

  • เทคนิคแบบอาศัยการสุ่มตัวอย่างที่ใช้ฮาร์ดแวร์สำหรับผู้บริโภคเป็นโอกาสที่พบได้ไม่บ่อยในการปรับปรุงโมเดล SOTA อย่างไรก็ตาม สิ่งนี้จะไม่ยั่งยืน และท้ายที่สุดก็น่าจะต้องมี sampler ที่ฝึกได้

    • optillm คือโปรเจ็กต์ที่นำเทคนิคดังกล่าวไปใช้งาน
    • การคำนวณเพิ่มเติมของ Entropics ไม่ได้ให้ผลลัพธ์ที่ดีกว่า CoT decoding
  • ปัญหาหลายอย่างของ LLM เกิดจาก semantic leakage หรือข้อมูลที่ไม่เกี่ยวข้อง อาจยังมีช่องให้ปรับปรุง attention ได้

    • เขียนบล็อกโพสต์ที่เกี่ยวข้อง: semantic leakage, LLM และการให้เหตุผล, O(1) reasoning time Turing machine
  • GPT สมัยใหม่สร้าง logits จากตัวจำแนกขนาดใหญ่บนคลังคำโทเค็น ซึ่งมีอยู่ในปริภูมิและสามารถคำนวณ manifold ที่มีคุณสมบัติความนูนผิดปกติได้

  • จำเป็นต้องมีความสามารถที่ทำให้โมเดลตรวจจับความไม่แน่นอนและเตือนผู้ใช้ได้ในสถานการณ์ที่มี entropy สูง

  • ไม่แน่ใจว่ามีเทคนิคสำหรับตัดสินความไม่แน่นอนของ LLM หรือไม่ งานวิจัยล่าสุดใช้ semantic entropy เพื่อหาปริมาณเชิงสถิติว่า LLM กำลังเดาหรือไม่

  • สงสัยว่ามีใครเคยทดลองเอาต์พุตในกรณีที่ไม่ยอมให้โมเดลมีความไม่แน่นอนหรือไม่ โดยให้ sampler ย้อนกลับจนกว่าโทเค็นทั้งหมดจะมีความมั่นใจสูงกว่าเกณฑ์

  • มีข้อสงสัยเกี่ยวกับการเชื่อถือ LLM ให้ทำงานโดยมีการกำกับดูแลน้อยที่สุด เพราะทุกอย่างอาจเป็น "ภาพหลอน" หรือการเดาได้

  • ปัญหาของ LLM ไม่ได้มีแค่ "ความไม่แน่นอน" อย่างเดียว แต่มีหลายมิติ ทั้งการขาดความหมายของคำถาม การขาดข้อมูล การไม่มีฉันทามติจากผู้เชี่ยวชาญ และเหตุผลอื่น ๆ

  • มีกลยุทธ์การสุ่มตัวอย่างมากมายสำหรับ language model และยากที่จะพิสูจน์เชิงประจักษ์ว่ากลยุทธ์ใดเหนือกว่า top-k หรือ top-p sampling แบบมาตรฐาน