คิดว่าแค่โยน PDF ให้ก็น่าจะจบ - บันทึกล้มเหลวในการนำ RAG ไปใช้กับ GPTs

computerphilosopher · 2025-03-24T00:58:43+09:00

ที่มาของการพัฒนา GPT ด้านพุทธศาสนา ต้องการนำ GPT มาใช้ในการศึกษาพุทธศาสนา แต่ประสิทธิภาพพื้นฐานต่ำกว่าที่คาดไว้ คุณภาพคำตอบดีขึ้นเมื่อให้เรียนรู้จากเอกสาร PDF ได้รับข้อเสนอให้เรียนรู้พระไตรปิฎกชาดก จึงเริ่มโครงการ ข้อจำกัดของการเรียนรู้จาก PDF หลังเรียนรู้จาก PDF ของชาดกแล้ว อาการหลอนรุนแรงมาก โครงสร้างไม่เชิงเส้น เช่น หลายคอลัมน์ ตาราง และภาพ กลายเป็นอุปสรรคต่อ GPT วิธีที่ลองทำ (ล้มเหลวทั้งหมด) ใช้ฟอร์แมต epub ปรับ instruction แปลงเป็น Markdown + crawl เพิ่มดัชนี csv เบาะแสของทางแก้ ปัญหาคือความขัดกันระหว่างโครงสร้างแบบอิงหมายเลขของชาดกกับธรรมชาติแบบกำเนิดข้อความของ GPT GPT ใช้ csv ได้ไม่ดีนัก เมื่อมีคนแนะนำให้ใช้ดัชนี JSON และนำไปใช้จริง ความแม่นยำก็พุ่งสูงขึ้น วิธีนำไปใช้จริง epub → แปลงเป็น Markdown (pandoc) แก้ heading และลบข้อความที่ไม่จำเป็น ในบางกรณีจัดโครงสร้าง Markdown ด้วยมือ เหตุผลที่ยุติบริการ เกิดอาการหลอนในคำถามเกี่ยวกับอภิธรรม Sujato Bhante ผู้แปล มีจุดยืนคัดค้านการนำไปฝึก AI อาจเข้าข่ายละเมิดไลเซนส์ของ SuttaCentral บทสรุป RAG ไม่ได้เรียบง่าย เอกสารสำหรับฝึก AI ต้องตรวจสอบไลเซนส์ให้แน่ชัด

(velog.io)

20 คะแนน โดย computerphilosopher 2025-03-24 | 4 ความคิดเห็น | แชร์ทาง WhatsApp

ที่มาของการพัฒนา GPT ด้านพุทธศาสนา

ต้องการนำ GPT มาใช้ในการศึกษาพุทธศาสนา แต่ประสิทธิภาพพื้นฐานต่ำกว่าที่คาดไว้
คุณภาพคำตอบดีขึ้นเมื่อให้เรียนรู้จากเอกสาร PDF
ได้รับข้อเสนอให้เรียนรู้พระไตรปิฎกชาดก จึงเริ่มโครงการ

ข้อจำกัดของการเรียนรู้จาก PDF

หลังเรียนรู้จาก PDF ของชาดกแล้ว อาการหลอนรุนแรงมาก
โครงสร้างไม่เชิงเส้น เช่น หลายคอลัมน์ ตาราง และภาพ กลายเป็นอุปสรรคต่อ GPT

วิธีที่ลองทำ (ล้มเหลวทั้งหมด)

ใช้ฟอร์แมต epub
ปรับ instruction
แปลงเป็น Markdown + crawl
เพิ่มดัชนี csv

เบาะแสของทางแก้

ปัญหาคือความขัดกันระหว่างโครงสร้างแบบอิงหมายเลขของชาดกกับธรรมชาติแบบกำเนิดข้อความของ GPT
GPT ใช้ csv ได้ไม่ดีนัก
เมื่อมีคนแนะนำให้ใช้ดัชนี JSON และนำไปใช้จริง ความแม่นยำก็พุ่งสูงขึ้น

วิธีนำไปใช้จริง

epub → แปลงเป็น Markdown (pandoc)
แก้ heading และลบข้อความที่ไม่จำเป็น
ในบางกรณีจัดโครงสร้าง Markdown ด้วยมือ

เหตุผลที่ยุติบริการ

เกิดอาการหลอนในคำถามเกี่ยวกับอภิธรรม
Sujato Bhante ผู้แปล มีจุดยืนคัดค้านการนำไปฝึก AI
อาจเข้าข่ายละเมิดไลเซนส์ของ SuttaCentral

บทสรุป

RAG ไม่ได้เรียบง่าย
เอกสารสำหรับฝึก AI ต้องตรวจสอบไลเซนส์ให้แน่ชัด

4 ความคิดเห็น

pkj3186 2025-03-24

น่าจะช่วยกับการเรียนรู้ประเภทอื่นที่ใช้รูปแบบการเขียนคล้ายคัมภีร์ได้เหมือนกันนะ เช่น หนังสือของเพลโต...

bus710 2025-03-24

นี่ๆ... ไม่ใช่ว่าทิ้งพวกเราไว้แล้วบรรลุนิพพานไปคนเดียวหรอกใช่ไหม?

1206good 2025-03-24

ตอนแรกคิดว่าน่าจะใช้ Doc As Prompt ได้ดีด้วย Mistral OCR แต่ผมก็เจอปัญหาคล้ายกันครับ ได้เบาะแสกลับไปเลย

halfenif 2025-03-24

ทำให้นึกถึงประโยคที่ว่า "เรื่องปรึกษาความรักที่คุยกับเพื่อนยาก ลองคุยกับ LLM แบบสบาย ๆ ดูสิ" เลยนะ