1 คะแนน โดย GN⁺ 2023-08-06 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • บทความว่าด้วยความไม่เป็นกำหนดที่สังเกตพบใน GPT-4 ซึ่งเป็นโมเดลภาษาที่พัฒนาโดย OpenAI
  • GPT-4/GPT-3.5-turbo มีพฤติกรรมไม่เป็นกำหนดแม้ที่ temp=0 ทั้งที่โมเดลแบบ dense decoder-only ควรหมายถึงความเป็นกำหนดอย่างสมบูรณ์
  • ในช่วงแรก ความไม่เป็นกำหนดนี้ถูกคาดว่าอาจเป็นบั๊กที่แฝงอยู่ หรือเกิดจากความไม่เป็นกำหนดของการคำนวณเลขทศนิยมลอยตัวที่ถูกปรับแต่งให้มีประสิทธิภาพ
  • สมมติฐานใหม่ของผู้เขียน: ความไม่เป็นกำหนดของ GPT-4 ส่วนใหญ่เกิดจากสถาปัตยกรรม Sparse Mixture of Experts (MoE) ที่ไม่สามารถบังคับความเป็นกำหนดในระดับลำดับได้
  • แนวทาง Sparse MoE ทำให้เกิดความไม่เป็นกำหนดในระดับซีเควนซ์ โดยทำการ route โทเคนภายในกลุ่มขนาดคงที่และรักษาสมดุลภายในกลุ่ม
  • เพื่อตรวจสอบสมมติฐานนี้ ผู้เขียนได้ขอให้ GPT-4 เขียนสคริปต์ และสังเกตว่ามีผลลัพธ์ที่สมบูรณ์แตกต่างกันจำนวนมากจาก GPT-4 จึงยืนยันได้ว่ามีสาเหตุที่ทำให้ GPT-4 ไม่เป็นกำหนดมากกว่าโมเดลอื่นอย่างมาก
  • ผู้เขียนยังคาดว่า GPT-3.5-turbo อาจเป็นโมเดล MoE เช่นกัน เนื่องจากความเร็ว ความไม่เป็นกำหนด และการถอด logprobs ออก
  • นัยสำคัญของการค้นพบนี้มีมาก: หากความไม่เป็นกำหนดเป็นคุณลักษณะโดยเนื้อแท้ของการอนุมานแบบแบตช์ร่วมกับ Sparse MoE ข้อเท็จจริงนี้ก็ควรถูกสื่อสารอย่างชัดเจนต่อทุกคนที่ทำงานกับโมเดลประเภทนี้
  • ผู้เขียนสรุปว่า แม้โดยทั่วไปความไม่เป็นกำหนดในโมเดล GPT ของ OpenAI จะถูกอธิบายว่าเป็นความคลาดเคลื่อนจากการดำเนินการเลขทศนิยมลอยตัวของ CUDA ที่ไม่เป็นกำหนด แต่สาเหตุรากฐานอาจเป็นการอนุมานแบบแบตช์ในโมเดล Sparse MoE

1 ความคิดเห็น

 
GN⁺ 2023-08-06
ความคิดเห็นจาก Hacker News
  • ความไม่เป็นเชิงกำหนดของ GPT-4 มีสาเหตุมาจากโมเดล Sparse Mixture of Experts (MoE)
  • ความคลาดเคลื่อนของเลขทศนิยมแบบลอยตัวในระบบ AI/ML โดยมากมักเป็นแบบกำหนดได้ และผลลัพธ์ที่ต่างกันอาจเกิดจากสถานะหรือแหล่งกำเนิดเอนโทรปีอื่น
  • บทความวิจัยเสนอว่าการอนุมานอย่างมีประสิทธิภาพของ GPT-4 อาจอาศัยการผสมโทเค็นจากอินพุตที่แยกจากกัน ซึ่งนำความไม่เป็นเชิงกำหนดเข้ามาและอาจส่งผลต่อคุณภาพของคำตอบ
  • คุณภาพของคำตอบอาจขึ้นอยู่กับจำนวนคำขอพร้อมกันที่แข่งขันกันเพื่อการจัดสรร "ผู้เชี่ยวชาญ" เดียวกันด้วย
  • สิ่งนี้อาจอธิบายการรับรู้ว่าคุณภาพลดลงเมื่อเวลาผ่านไป และการใช้งานพร้อมกันที่มากขึ้นอาจนำไปสู่ผลลัพธ์ที่เชื่อถือได้น้อยลง
  • การใช้โมเดลแบบ MoE ใน GPT-3.5 หมายความว่าสามารถทำน้อยแต่ได้มาก จึงอาจมอบความหวังให้กับขบวนการโอเพนซอร์ส
  • หากลำดับภายในแบตช์สามารถส่งผลต่อการกำหนดเส้นทางของลำดับอื่นได้ ก็จะเปิดโอกาสให้เกิดการโจมตีแบบ side-channel
  • แนวทาง MoE นำความน่าจะเป็นหรือความสุ่มเข้าสู่การทำงานของโมเดล โดยเลือก "ผู้เชี่ยวชาญ" หรือส่วนต่าง ๆ ของโมเดลสำหรับส่วนที่ต่างกันของข้อมูลนำเข้า
  • ข้อมูลนำเข้าชุดเดียวกันที่ถูกประมวลผลสองครั้งในบริบทที่ต่างกันเล็กน้อย อาจไปปรึกษาชุดผู้เชี่ยวชาญที่ต่างกันเล็กน้อย ทำให้ได้ผลลัพธ์ที่ต่างกันเล็กน้อย
  • ภายใต้ภาระงานหนัก ผลลัพธ์อาจเปลี่ยนไปได้เพราะโทเค็นต้องแข่งขันกันเพื่อแย่งตำแหน่งที่มีอยู่ในบัฟเฟอร์ผู้เชี่ยวชาญ
  • การแข่งขันในบัฟเฟอร์ผู้เชี่ยวชาญนี้อาจอธิบายได้ด้วยว่าทำไม ChatGPT จึงเขียน placeholder แทนฟังก์ชันเมื่อถูกขอโค้ดยาว ๆ