LEAF: บรรลุประสิทธิภาพ 97% ของ OpenAI Embedding ด้วยพารามิเตอร์ 23M และทำงานได้ด้วย CPU เพียงอย่างเดียว
(aisparkup.com)LEAF (Lightweight Embedding Alignment Framework) เป็นโมเดล embedding ที่พัฒนาโดย MongoDB Research โดยใช้เทคนิค knowledge distillation เพื่อแก้ปัญหาด้านต้นทุนและความเร็วของระบบ RAG (Retrieval-Augmented Generation) ได้อย่างน่าสนใจ โมเดล embedding ประสิทธิภาพสูงแบบเดิมมักต้องใช้เซิร์ฟเวอร์ GPU แต่ LEAF ใช้โมเดลขนาดเล็กเพียง 23M พารามิเตอร์ และยังคงทำผลงานได้ถึง 97% ของ text-embedding-3-large ของ OpenAI พร้อมทั้งทำงานได้ด้วย CPU เพียงอย่างเดียว
ที่มาและปัญหา
- ในระบบ RAG การทำดัชนีเอกสารอาจช้าได้ แต่การตอบสนองต่อคำค้นหาของผู้ใช้ต้องเกิดขึ้นภายในไม่กี่ร้อยมิลลิวินาที
- เมื่อใช้โมเดลประสิทธิภาพสูง ต้นทุน GPU มักเป็นภาระ แต่หากเปลี่ยนไปใช้โมเดลต้นทุนต่ำ ประสิทธิภาพก็มักลดลง กลายเป็นภาวะกลืนไม่เข้าคายไม่ออก
- LEAF แก้ปัญหานี้ด้วยแนวคิด "ความเข้ากันได้ของโมเดลครู-นักเรียน"
- ต่างจากวิธี distillation แบบเดิมที่จัดแนวทุกเลเยอร์ LEAF จัดให้ตรงกันเฉพาะผลลัพธ์สุดท้าย (embedding) เท่านั้น ทำให้สามารถใช้โมเดลครูขนาดใหญ่ในการทำดัชนีเอกสาร และใช้โมเดลนักเรียนขนาดเล็กประมวลผลคำค้นหาบน CPU ได้อย่างรวดเร็ว อีกทั้งยังนำดัชนีเดิมกลับมาใช้ซ้ำได้เมื่อมีการเปลี่ยนโมเดล
- สามารถฝึกได้ด้วย A100 GPU เพียง 1 ใบโดยไม่ต้องติดป้ายกำกับข้อมูลฝึก จึงเข้าถึงได้ง่าย
โมเดลที่เปิดเผยและประสิทธิภาพ
MongoDB เปิดเผย 2 โมเดลภายใต้ไลเซนส์ Apache 2.0:
- mdbr-leaf-ir: โมเดลที่ปรับให้เหมาะกับงานค้นหา/RAG ได้ 53.55 คะแนนบนเบนช์มาร์ก BEIR (สูงกว่า OpenAI small ที่ 51.08 คะแนน และคิดเป็น 97% ของ large ที่ 55.43 คะแนน)
- mdbr-leaf-mt: โมเดลอเนกประสงค์ (การจัดประเภท/การทำคลัสเตอร์) ได้ 63.97 คะแนนบน MTEB v2 (ใกล้เคียง OpenAI small ที่ 64.56 คะแนน) และเป็นผลงานที่ดีที่สุดในกลุ่มโมเดลต่ำกว่า 30M พารามิเตอร์
โมเดลเหล่านี้ประมวลผลได้ 120 คำค้นหาต่อวินาทีบน CPU 2 คอร์ ใช้หน่วยความจำเพียง 87MB จึงสามารถทำงานแบบออฟไลน์บนสมาร์ตโฟนหรืออุปกรณ์ IoT ได้
บทสรุปและนัยสำคัญ
- LEAF ช่วยลดการพึ่งพา GPU ทำให้ embedding ประสิทธิภาพสูงเข้าถึงได้กว้างขึ้น และช่วยเร่งการนำ RAG ไปใช้งานในสตาร์ตอัปหรือสภาพแวดล้อม edge computing
- ข้อจำกัดคือมีการสูญเสียประสิทธิภาพ 3% เมื่อเทียบกับโมเดลต้นฉบับ แต่ในงานใช้งานจริงส่วนใหญ่ถือว่าแทบไม่มีนัยสำคัญ
- สามารถดาวน์โหลดโมเดลและ recipe การฝึกได้จาก Hugging Face และปรับ fine-tuning ด้วยข้อมูลเฉพาะโดเมนได้ง่าย
1 ความคิดเห็น
จริง ๆ แล้ว bge-m3 กับ gemma ขนาด 300m ก็ทำได้ดีอยู่แล้ว และไม่ได้เล็กไม่ใช่เหรอ