RAG ยังไม่ตาย
(hamel.dev)> อนาคตของ RAG ไม่ได้อยู่ที่ "context window ที่ใหญ่ขึ้น" แต่คือ "retrieval ที่ดีกว่าเดิม"
- คำพูดที่ว่า "RAG Is Dead" ใช้ได้แค่กับ แนวทางติดตั้ง RAG แบบเรียบง่ายในยุค 2023 เท่านั้น และปัญหาที่แท้จริงคือ retrieval แบบอิงเวกเตอร์เดี่ยว ที่ทำให้ข้อมูลสูญหายมาก
- ตัวชี้วัดการประเมิน IR แบบเดิมไม่เหมาะกับ RAG และจำเป็นต้องมี เกณฑ์การประเมินใหม่ ที่เน้น ความครอบคลุมของข้อเท็จจริง ความหลากหลาย และความเกี่ยวข้อง
- ตัว retriever ของ RAG กำลังพัฒนาจากการจับคู่แบบง่าย ๆ ไปสู่แนวทางที่ เข้าใจคำสั่งและเลือกเอกสารที่เกี่ยวข้องด้วยการให้เหตุผล
- โมเดล late interaction สไตล์ ColBERT รักษาการแทนข้อมูลระดับโทเคนไว้ได้โดยไม่บีบอัดข้อมูล ทำให้โมเดลขนาดเล็กเอาชนะโมเดลขนาดใหญ่ได้
- แทนที่จะมองหา embedding ที่สมบูรณ์แบบเพียงตัวเดียว ตอนนี้ multi-index สำหรับการแทนข้อมูลหลายรูปแบบและโครงสร้าง smart routing กำลังกลายเป็นมาตรฐานใหม่
Why the future of RAG lies in better retrieval, not bigger context windows
ข้อโต้แย้งต่อคำกล่าวว่า “RAG ตายแล้ว”
> Part 1. I don’t use RAG, I just retrieve documents - สิ่งที่ตายคือการค้นหาแบบเวกเตอร์อย่างง่าย ไม่ใช่ RAG เอง
- Hamel และ Ben Clavié ยืนยันว่า RAG ยังไม่ตาย และตอนนี้ต่างหากคือช่วงเวลาที่ สถาปัตยกรรมการค้นหาควรวิวัฒน์
- วิธีนำเอกสารใส่ไว้ใน vector DB แล้วค้นหาด้วย cosine similarity นั้นเก่าแล้ว และมีการสูญเสียข้อมูลสูง
- เพราะข้อมูลของ LLM ถูกตรึงไว้หลังช่วงเวลาที่ฝึกสอน การเติมข้อมูลด้วย retrieval (RAG) จึงยังสำคัญอยู่
- การเพิ่ม context window อย่างเดียวไม่มีประสิทธิภาพพอสำหรับการยัดทุกข้อมูลเข้าไป
ตัวชี้วัดการประเมินที่ผิดทิศ
> Part 2. Modern IR Evals For RAG - อธิบายว่าตัวชี้วัดการประเมิน IR แบบดั้งเดิมไม่เหมาะกับ RAG และเสนอ FreshStack
- Nandan Thakur ชี้ว่า ตัวชี้วัดการประเมินด้าน information retrieval (IR) แบบดั้งเดิมไม่เหมาะกับ RAG
- benchmark อย่าง BEIR ปรับจูนเพื่อการหาเอกสารอันดับ 1 เพียงอย่างเดียว
- แต่ RAG ต้องคำนึงถึงความครอบคลุมของข้อเท็จจริง มุมมองที่หลากหลาย และความเกี่ยวข้องตามบริบท ร่วมกัน
- จึงมีการเสนอ FreshStack เป็นระบบประเมินแบบใหม่สำหรับเรื่องนี้
Retriever ที่ให้เหตุผลได้
> Part 3. Optimizing Retrieval with Reasoning Models - การออกแบบ retriever ที่เข้าใจคำสั่งและให้เหตุผลได้
- ระบบ Rank1 ของ Orion Weller ทำให้ retriever สามารถเข้าใจคำสั่งซับซ้อนอย่าง "เอกสารที่มีอุปมาเกี่ยวกับความเป็นส่วนตัวของข้อมูล" ได้
- แทนที่จะคำนวณความคล้ายคลึงแบบง่าย ๆ ระบบจะสร้าง reasoning trace ที่ชัดเจน เพื่อแสดงเหตุผลของการตัดสินความเกี่ยวข้อง
- เอกสารที่ระบบค้นหาแบบเดิมหาไม่เจอ ก็สามารถถูกค้นพบได้ด้วยการค้นหาที่อิงความเข้าใจและการให้เหตุผล
ศักยภาพของโมเดล late interaction
> Part 4. Late Interaction Models For RAG - คงการแทนข้อมูลไว้โดยไม่สูญเสียข้อมูลด้วยสถาปัตยกรรมอย่าง ColBERT
- Antoine Chaffin แสดงให้เห็นว่าผ่าน โมเดลที่อิง late interaction อย่าง ColBERT
- เอกสารไม่จำเป็นต้องถูกบีบอัดให้เหลือเวกเตอร์เดียว และยัง รักษาข้อมูลระดับโทเคน ไว้ได้
- ผลลัพธ์คือมีกรณีที่ โมเดล 150M พารามิเตอร์มีความสามารถด้านการให้เหตุผลเหนือกว่าโมเดล 7B
- หัวใจสำคัญคือ โครงสร้างการแทนข้อมูลที่เก็บข้อมูลไว้แทนที่จะตัดทิ้ง
ไม่ใช่แผนที่ใบเดียว แต่ต้องมีหลายแผนที่
> Part 5. RAG with Multiple Representations - เพิ่มประสิทธิภาพการค้นหาด้วย multi-index ตามวัตถุประสงค์
- Bryan Bischof และ Ayush Chaurasia ชี้ว่า embedding เพียงชุดเดียวไม่สามารถตอบโจทย์การค้นหาที่หลากหลายได้
- ตัวอย่าง: เมื่อค้นหารูปภาพ
- คำอธิบายเชิงข้อความ
- การตีความเชิงกวี
- รูปภาพที่คล้ายกัน
ควรถูกค้นจากคนละดัชนี
- ตัวอย่าง: เมื่อค้นหารูปภาพ
- บทสรุปคือ อย่าพยายามหา embedding ที่สมบูรณ์แบบ แต่ควรใช้ multi-index ที่ออกแบบตามรูปแบบการแทนข้อมูลที่หลากหลาย พร้อมระบบ routing อัจฉริยะ
กลยุทธ์อนาคตของ RAG
มีการเสนอ 4 ข้อต่อไปนี้เป็นอนาคตของ RAG:
- สร้าง เกณฑ์การประเมินใหม่ที่เหมาะกับเป้าหมายการใช้งาน
- ใช้ retriever ที่เข้าใจคำสั่งและให้เหตุผลได้
- ใช้ โครงสร้างที่แทนข้อมูลตามจริงโดยไม่บีบอัดทิ้ง
- ใช้ แนวทางที่ผสานดัชนีหลายแบบตามวัตถุประสงค์และทำ routing อย่างชาญฉลาด
Annotated Notes From the Series
ซีรีส์นี้ประกอบด้วย 5 ตอน และมี สรุปพร้อมใส่ timestamp ให้กับสไลด์สำคัญ โปรดดูรายละเอียดตามลิงก์ของแต่ละ Part
| พาร์ต | ชื่อเรื่อง | คำอธิบาย |
|---|---|---|
| Part 1 | I don’t use RAG, I just retrieve documents | สิ่งที่ตายคือการค้นหาแบบเวกเตอร์อย่างง่าย ไม่ใช่ RAG เอง |
| Part 2 | Modern IR Evals For RAG | อธิบายว่าตัวชี้วัดการประเมิน IR แบบดั้งเดิมไม่เหมาะกับ RAG และเสนอ FreshStack |
| Part 3 | Optimizing Retrieval with Reasoning Models | การออกแบบ retriever ที่เข้าใจคำสั่งและให้เหตุผลได้ |
| Part 4 | Late Interaction Models For RAG | คงการแทนข้อมูลไว้โดยไม่สูญเสียข้อมูลด้วยสถาปัตยกรรมอย่าง ColBERT |
| Part 5 | RAG with Multiple Representations | เพิ่มประสิทธิภาพการค้นหาด้วย multi-index ตามวัตถุประสงค์ |
1 ความคิดเห็น
RAG ยังไม่ตาย
"อย่ามัวหา embedding ที่สมบูรณ์แบบ แต่ให้ใช้ระบบ multi-index + intelligent routing ที่ปรับให้เข้ากับรูปแบบการแสดงออกที่หลากหลาย"
ก็เพราะว่ามันไม่ใช่เรื่องง่าย...