ข้อจำกัดของ RAG และ GraphRAG ซึ่งเป็นหนึ่งในวิธีเสริมข้อจำกัดนั้น

hankor · 2024-08-05T17:13:39+09:00

ยุคของ ChatGPT มาถึงแล้ว ทุกวันนี้เราใช้ชีวิตอยู่ในยุคที่อิทธิพลของโมเดลภาษาขนาดใหญ่ยิ่งใหญ่มากจนถูกเรียกว่าเป็นการปฏิวัติอุตสาหกรรมครั้งที่ 3 แม้แต่คุณแม่ของผมเอง หากมีเรื่องสงสัยก็ยังใช้ ChatGPT ได้ แสดงให้เห็นว่าขอบเขตการใช้งานกำลังกว้างขึ้นเรื่อย ๆ โดยไม่จำกัดวัย หากลองคิดดูว่าทำไมขอบเขตการใช้งานถึงกว้างขึ้นเช่นนี้ ก็น่าจะเป็นเพราะมันสามารถดึงข้อมูลที่ผู้ใช้ต้องการมาได้อย่างแม่นยำและถ่ายทอดออกมาได้ดี สำหรับผู้คนที่เหนื่อยล้ากับข้อมูลท่วมท้น มันช่วยคัดเลือกข้อมูลที่ "จำเป็น" แล้วนำมาให้ได้อย่างเหมาะสม แม้ว่าจนถึงตอนนี้จะมีความก้าวหน้าแบบก้าวกระโดด แต่ก็ยังมีอุปสรรคอยู่มากเช่นกัน หากยกตัวอย่างหนึ่งก็คือสิ่งที่เรียกว่า "อาการหลอน" ข้อมูลนั้นถูกนำมาให้ก็จริง แต่เป็นข้อมูลที่ไม่แม่นยำ ปรากฏการณ์นี้มีหลายสาเหตุ หากจะพูดถึงสาเหตุที่พบบ่อยที่สุด ก็คือการตีความเจตนาของผู้ใช้ผิด แล้วดึงข้อมูลที่ไม่เกี่ยวข้องมาให้ วิธีแก้สาเหตุนี้นั้นเรียบง่าย คือทำความเข้าใจเจตนาของผู้ใช้ให้ "ดี" และส่งมอบข้อมูลที่ "เกี่ยวข้อง" 4, เพื่อปรับปรุงเรื่องนี้ จึงมีความพยายามหลากหลายรูปแบบ โดยหลัก ๆ สามารถจำแนกได้ 4 วิธี คือ 1. วิธีสร้างโมเดลภาษาขนาดใหญ่ขึ้นมาตั้งแต่ต้น 2. วิธีนำโมเดลภาษาขนาดใหญ่ที่ผ่านการฝึกมา "อย่างดี" แล้ว มาฝึกเพิ่มเติมให้เหมาะกับโดเมนที่ต้องการ 3. วิธีใช้โมเดลภาษาขนาดใหญ่แบบเดิม แต่เพิ่มบริบทเพิ่มเติมให้กับคำถามของผู้ใช้ 4. วิธีคงโมเดลภาษาขนาดใหญ่ไว้ แต่ในกระบวนการตอบผู้ใช้ จะให้บริบทเพิ่มเติมเกี่ยวกับ "ข้อมูลที่เกี่ยวข้อง" เพื่อเน้นความเชื่อมโยงนั้น ยิ่งมีหลายวิธี ก็ยิ่งมีทั้งข้อดีและข้อเสียแตกต่างกันไป ข้อ 1 มีข้อดีคือเมื่อสร้างขึ้นมาตั้งแต่ต้น ก็สามารถนำเสนอบริบทของข้อมูลที่ชัดเจนให้กับโมเดลภาษาขนาดใหญ่ได้ตั้งแต่แรก แต่ข้อเสียคือเมื่อสร้างใหม่ทั้งหมด ต้นทุนในการสร้างก็สูงไม่น้อย 2 มีข้อดีคือสามารถนำบริบทของโมเดลภาษาขนาดใหญ่ที่ผ่านการฝึกมา "อย่างดี" มาใช้ แล้วคัดเลือกและประยุกต์ใช้ข้อมูลจำนวนน้อยที่เฉพาะทางกับโดเมนได้ จึงมีต้นทุนค่อนข้างต่ำและรับประกันความแม่นยำได้ในระดับหนึ่ง แต่ข้อเสียคือทำได้ยากที่จะรักษาบริบทเดิมของโมเดลภาษาขนาดใหญ่ไว้โดยไม่สูญหาย พร้อมกับคงบริบทเฉพาะโดเมนให้อยู่ร่วมกันอย่างกลมกลืน 3 มีข้อดีคือต้นทุนต่ำ เพราะเพียงแค่ประมวลผลคำถามของผู้ใช้และเติมบริบทของเจตนาให้ "ดี" ก็เพียงพอ แต่ข้อเสียคือในกระบวนการเติมบริบทนั้น อาจมีมุมมองส่วนตัวของผู้เติมบริบทแทรกเข้ามา ทำให้บริบทขาดความเป็นกลาง และหากมีอคติสะท้อนอยู่มากเกินไป บริบทนั้นก็อาจส่งผลในทางลบแทนได้ 4 มีข้อดีคือสามารถตอบคำถามของผู้ใช้ด้วยคำตอบที่สะท้อนข้อมูลค่อนข้างล่าสุด และมีต้นทุนเริ่มต้นต่ำ แต่ข้อเสียคือคุณภาพของคำถามแตกต่างกันไปมากตามเอกสารที่เกี่ยวข้อง จึงต้องมีกลยุทธ์ในการแยกแยะและดึงเอกสารที่เกี่ยวข้องมาใช้อย่างมีประสิทธิภาพ รวมถึงต้องผสมผสานองค์ประกอบหลายด้านอย่างรอบคอบ ทำให้มีความซับซ้อนสูง นอกจากนี้ ยังมีการบันทึกรายละเอียดการเปรียบเทียบอย่างรอบด้านใน 5 มิติ ได้แก่ cost, accuracy, domain-specific terminology, up-to-date response, transparency and interpretability ไว้อย่างดีที่ https://deci.ai/blog/… จึงแนะนำให้ลองอ้างอิงดูสักครั้ง จนถึงตอนนี้เราได้พูดถึงวิธีการต่าง ๆ ที่กำลังถูกทดลองใช้เพื่อแก้ปัญหาอาการหลอน ซึ่งเป็นปัญหาที่เกิดขึ้นในโมเดลภาษาขนาดใหญ่ ในโพสต์นี้ เราจะมาดู RAG (Retrieval Augment Generation) ซึ่งเป็นเทคโนโลยีสำหรับดึง "ข้อมูลที่เกี่ยวข้อง" มาเติมบริบทได้อย่างเหมาะสม อันเป็นวิธีการในข้อ 4 รวมถึงข้อจำกัดของ RAG และ GraphRAG ซึ่งเป็นหนึ่งในแนวทางเพื่อเสริมข้อจำกัดนั้น

(inblog.ai)

7 คะแนน โดย hankor 2024-08-05 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

ยุคของ ChatGPT มาถึงแล้ว ทุกวันนี้เราใช้ชีวิตอยู่ในยุคที่อิทธิพลของโมเดลภาษาขนาดใหญ่ยิ่งใหญ่มากจนถูกเรียกว่าเป็นการปฏิวัติอุตสาหกรรมครั้งที่ 3 แม้แต่คุณแม่ของผมเอง หากมีเรื่องสงสัยก็ยังใช้ ChatGPT ได้ แสดงให้เห็นว่าขอบเขตการใช้งานกำลังกว้างขึ้นเรื่อย ๆ โดยไม่จำกัดวัย
หากลองคิดดูว่าทำไมขอบเขตการใช้งานถึงกว้างขึ้นเช่นนี้ ก็น่าจะเป็นเพราะมันสามารถดึงข้อมูลที่ผู้ใช้ต้องการมาได้อย่างแม่นยำและถ่ายทอดออกมาได้ดี สำหรับผู้คนที่เหนื่อยล้ากับข้อมูลท่วมท้น มันช่วยคัดเลือกข้อมูลที่ "จำเป็น" แล้วนำมาให้ได้อย่างเหมาะสม
แม้ว่าจนถึงตอนนี้จะมีความก้าวหน้าแบบก้าวกระโดด แต่ก็ยังมีอุปสรรคอยู่มากเช่นกัน หากยกตัวอย่างหนึ่งก็คือสิ่งที่เรียกว่า "อาการหลอน" ข้อมูลนั้นถูกนำมาให้ก็จริง แต่เป็นข้อมูลที่ไม่แม่นยำ ปรากฏการณ์นี้มีหลายสาเหตุ หากจะพูดถึงสาเหตุที่พบบ่อยที่สุด ก็คือการตีความเจตนาของผู้ใช้ผิด แล้วดึงข้อมูลที่ไม่เกี่ยวข้องมาให้ วิธีแก้สาเหตุนี้นั้นเรียบง่าย คือทำความเข้าใจเจตนาของผู้ใช้ให้ "ดี" และส่งมอบข้อมูลที่ "เกี่ยวข้อง"
4, เพื่อปรับปรุงเรื่องนี้ จึงมีความพยายามหลากหลายรูปแบบ โดยหลัก ๆ สามารถจำแนกได้ 4 วิธี คือ 1. วิธีสร้างโมเดลภาษาขนาดใหญ่ขึ้นมาตั้งแต่ต้น 2. วิธีนำโมเดลภาษาขนาดใหญ่ที่ผ่านการฝึกมา "อย่างดี" แล้ว มาฝึกเพิ่มเติมให้เหมาะกับโดเมนที่ต้องการ 3. วิธีใช้โมเดลภาษาขนาดใหญ่แบบเดิม แต่เพิ่มบริบทเพิ่มเติมให้กับคำถามของผู้ใช้ 4. วิธีคงโมเดลภาษาขนาดใหญ่ไว้ แต่ในกระบวนการตอบผู้ใช้ จะให้บริบทเพิ่มเติมเกี่ยวกับ "ข้อมูลที่เกี่ยวข้อง" เพื่อเน้นความเชื่อมโยงนั้น ยิ่งมีหลายวิธี ก็ยิ่งมีทั้งข้อดีและข้อเสียแตกต่างกันไป
ข้อ 1 มีข้อดีคือเมื่อสร้างขึ้นมาตั้งแต่ต้น ก็สามารถนำเสนอบริบทของข้อมูลที่ชัดเจนให้กับโมเดลภาษาขนาดใหญ่ได้ตั้งแต่แรก แต่ข้อเสียคือเมื่อสร้างใหม่ทั้งหมด ต้นทุนในการสร้างก็สูงไม่น้อย
2 มีข้อดีคือสามารถนำบริบทของโมเดลภาษาขนาดใหญ่ที่ผ่านการฝึกมา "อย่างดี" มาใช้ แล้วคัดเลือกและประยุกต์ใช้ข้อมูลจำนวนน้อยที่เฉพาะทางกับโดเมนได้ จึงมีต้นทุนค่อนข้างต่ำและรับประกันความแม่นยำได้ในระดับหนึ่ง แต่ข้อเสียคือทำได้ยากที่จะรักษาบริบทเดิมของโมเดลภาษาขนาดใหญ่ไว้โดยไม่สูญหาย พร้อมกับคงบริบทเฉพาะโดเมนให้อยู่ร่วมกันอย่างกลมกลืน
3 มีข้อดีคือต้นทุนต่ำ เพราะเพียงแค่ประมวลผลคำถามของผู้ใช้และเติมบริบทของเจตนาให้ "ดี" ก็เพียงพอ แต่ข้อเสียคือในกระบวนการเติมบริบทนั้น อาจมีมุมมองส่วนตัวของผู้เติมบริบทแทรกเข้ามา ทำให้บริบทขาดความเป็นกลาง และหากมีอคติสะท้อนอยู่มากเกินไป บริบทนั้นก็อาจส่งผลในทางลบแทนได้
4 มีข้อดีคือสามารถตอบคำถามของผู้ใช้ด้วยคำตอบที่สะท้อนข้อมูลค่อนข้างล่าสุด และมีต้นทุนเริ่มต้นต่ำ แต่ข้อเสียคือคุณภาพของคำถามแตกต่างกันไปมากตามเอกสารที่เกี่ยวข้อง จึงต้องมีกลยุทธ์ในการแยกแยะและดึงเอกสารที่เกี่ยวข้องมาใช้อย่างมีประสิทธิภาพ รวมถึงต้องผสมผสานองค์ประกอบหลายด้านอย่างรอบคอบ ทำให้มีความซับซ้อนสูง
นอกจากนี้ ยังมีการบันทึกรายละเอียดการเปรียบเทียบอย่างรอบด้านใน 5 มิติ ได้แก่ cost, accuracy, domain-specific terminology, up-to-date response, transparency and interpretability ไว้อย่างดีที่ https://deci.ai/blog/… จึงแนะนำให้ลองอ้างอิงดูสักครั้ง
จนถึงตอนนี้เราได้พูดถึงวิธีการต่าง ๆ ที่กำลังถูกทดลองใช้เพื่อแก้ปัญหาอาการหลอน ซึ่งเป็นปัญหาที่เกิดขึ้นในโมเดลภาษาขนาดใหญ่ ในโพสต์นี้ เราจะมาดู RAG (Retrieval Augment Generation) ซึ่งเป็นเทคโนโลยีสำหรับดึง "ข้อมูลที่เกี่ยวข้อง" มาเติมบริบทได้อย่างเหมาะสม อันเป็นวิธีการในข้อ 4 รวมถึงข้อจำกัดของ RAG และ GraphRAG ซึ่งเป็นหนึ่งในแนวทางเพื่อเสริมข้อจำกัดนั้น

ข้อจำกัดของ RAG และ GraphRAG ซึ่งเป็นหนึ่งในวิธีเสริมข้อจำกัดนั้น

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น