- Byte Latent Transformer (BLT) คือสถาปัตยกรรมใหม่ของโมเดลภาษาขนาดใหญ่ (LLM) ระดับไบต์ ซึ่ง ให้ประสิทธิภาพเทียบเท่ากับโมเดลที่อาศัย tokenization แต่ปรับปรุงทั้งประสิทธิภาพในการอนุมานและความทนทานได้อย่างมาก
- เข้ารหัสไบต์เป็น patch ขนาดไดนามิก โดยให้ patch ทำหน้าที่เป็นหน่วยหลักของการคำนวณ
- การแบ่ง patch แบบไดนามิก: จัดสรรทรัพยากรการคำนวณมากขึ้นให้กับข้อมูลที่มีความซับซ้อนสูง โดยอิงจากเอนโทรปีของไบต์ถัดไป
- งานวิจัยการสเกลแบบควบคุม FLOP ครั้งแรกของโมเดลที่อิงกับไบต์:
- สเกลได้ถึง พารามิเตอร์ 8B (8 พันล้าน) และ ไบต์สำหรับการฝึก 4 ล้านล้าน (4T)
- ยืนยันความเป็นไปได้ในการฝึกโมเดลด้วย raw byte โดยไม่ต้องใช้คำศัพท์คงที่ (fixed vocabulary)
ผลลัพธ์สำคัญ
- การฝึกและการอนุมานที่มีประสิทธิภาพ:
- เลือกใช้ patch ที่ยาวขึ้น เมื่อข้อมูลคาดเดาได้ เพื่อลดปริมาณการคำนวณ
- โมเดล ปรับ patch แบบไดนามิกตามความซับซ้อน เพื่อเพิ่มประสิทธิภาพการใช้ทรัพยากร
- การสเกลที่ดีขึ้น:
- ให้ประสิทธิภาพที่ดีกว่าโมเดลแบบ tokenization ภายใต้ ต้นทุนการอนุมานคงที่
- ทำให้เกิดประสิทธิภาพในการสเกลโดยเพิ่มทั้งขนาด patch และขนาดโมเดลพร้อมกัน
- การปรับปรุงเชิงคุณภาพของประสิทธิภาพ:
- ความสามารถด้านการให้เหตุผลและการทั่วไปดีขึ้น: มีการปรับปรุงเชิงคุณภาพในการให้เหตุผลและการจัดการข้อมูลเบาบาง (long-tail)
- ก้าวข้ามข้อจำกัดของแนวทางที่อิงกับคำศัพท์คงที่
ความสำคัญ
- BLT ประมวลผล raw byte ได้โดยไม่ต้องทำ tokenization พร้อมทั้ง พิสูจน์ประสิทธิภาพของการฝึกด้วยข้อมูลและโมเดลขนาดใหญ่
- ให้ประสิทธิภาพที่ดีกว่าเมื่อเทียบกับต้นทุนการอนุมาน และ บ่งชี้ถึงศักยภาพของ LLM ระดับไบต์ยุคถัดไป
- โดยเฉพาะเมื่อจัดการกับข้อมูลที่ซับซ้อน วิธีแบบ dynamic patch อาจกลายเป็น มาตรฐานใหม่ของการทำโมเดลแบบปรับตัวได้
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
ตอนที่ BERT เปิดตัวในช่วงฤดูร้อน ผมทำงานอยู่ที่สตาร์ตอัปแห่งหนึ่งที่ใช้โมเดล CNN แบบอิงตัวอักษรสำหรับงานจัดประเภท ทีมสนใจ word vector แต่คิดว่าคำที่อยู่นอกพจนานุกรมมีเยอะเกินไปจนมีโอกาสล้มเหลว
โครงสร้างแบบลำดับชั้นน่าสนใจ แต่เสียดายที่มีแค่สองชั้น การซ้อนชั้นให้มากกว่านี้อาจเป็นทิศทางของงานวิจัย
ใช้โมเดลขนาดเล็กเพื่อทำนายความเป็นไปได้ของอักขระถัดไปในสตริงอินพุตเพื่อสร้าง patch
การ sampling เป็นจุดยากของ LLM แต่ก็ทำให้เกิดการใช้งานที่น่าสนใจได้ เช่น บังคับให้แสดงผลเป็น JSON ที่ถูกต้องเสมอ หรือปรับ temperature เพื่อให้ได้การกระจายที่หลากหลาย
มีคำถามว่า AI จะ pretrain กับไฟล์ไบนารีได้หรือไม่
มีคำถามว่าจะทำให้ tokenization เป็นแบบแฝง แล้วป้อนให้โมเดลเห็นแค่ byte (หรือตัวอักษร) ได้หรือไม่
คำพูดที่เกี่ยวข้องของ Karpathy: tokenization คือศูนย์กลางของความแปลกประหลาดมากมายใน LLM
เป็นโมเดลที่ประกอบด้วย 3 องค์ประกอบ
วิธีจัดกลุ่ม byte
มีข้อได้เปรียบเหนือ byte pair tokenization ของ LLM ปัจจุบัน
ผมคิดว่าเราควรเข้าสู่ช่วงชะงักงัน