ที่มาของการพัฒนา GPT ด้านพุทธศาสนา
- ต้องการนำ GPT มาใช้ในการศึกษาพุทธศาสนา แต่ประสิทธิภาพพื้นฐานต่ำกว่าที่คาดไว้
- คุณภาพคำตอบดีขึ้นเมื่อให้เรียนรู้จากเอกสาร PDF
- ได้รับข้อเสนอให้เรียนรู้พระไตรปิฎกชาดก จึงเริ่มโครงการ
ข้อจำกัดของการเรียนรู้จาก PDF
- หลังเรียนรู้จาก PDF ของชาดกแล้ว อาการหลอนรุนแรงมาก
- โครงสร้างไม่เชิงเส้น เช่น หลายคอลัมน์ ตาราง และภาพ กลายเป็นอุปสรรคต่อ GPT
วิธีที่ลองทำ (ล้มเหลวทั้งหมด)
- ใช้ฟอร์แมต epub
- ปรับ instruction
- แปลงเป็น Markdown + crawl
- เพิ่มดัชนี csv
เบาะแสของทางแก้
- ปัญหาคือความขัดกันระหว่างโครงสร้างแบบอิงหมายเลขของชาดกกับธรรมชาติแบบกำเนิดข้อความของ GPT
- GPT ใช้ csv ได้ไม่ดีนัก
- เมื่อมีคนแนะนำให้ใช้ดัชนี JSON และนำไปใช้จริง ความแม่นยำก็พุ่งสูงขึ้น
วิธีนำไปใช้จริง
- epub → แปลงเป็น Markdown (
pandoc)
- แก้ heading และลบข้อความที่ไม่จำเป็น
- ในบางกรณีจัดโครงสร้าง Markdown ด้วยมือ
เหตุผลที่ยุติบริการ
- เกิดอาการหลอนในคำถามเกี่ยวกับอภิธรรม
- Sujato Bhante ผู้แปล มีจุดยืนคัดค้านการนำไปฝึก AI
- อาจเข้าข่ายละเมิดไลเซนส์ของ SuttaCentral
บทสรุป
- RAG ไม่ได้เรียบง่าย
- เอกสารสำหรับฝึก AI ต้องตรวจสอบไลเซนส์ให้แน่ชัด
4 ความคิดเห็น
น่าจะช่วยกับการเรียนรู้ประเภทอื่นที่ใช้รูปแบบการเขียนคล้ายคัมภีร์ได้เหมือนกันนะ เช่น หนังสือของเพลโต...
นี่ๆ... ไม่ใช่ว่าทิ้งพวกเราไว้แล้วบรรลุนิพพานไปคนเดียวหรอกใช่ไหม?
ตอนแรกคิดว่าน่าจะใช้ Doc As Prompt ได้ดีด้วย Mistral OCR แต่ผมก็เจอปัญหาคล้ายกันครับ ได้เบาะแสกลับไปเลย
ทำให้นึกถึงประโยคที่ว่า "เรื่องปรึกษาความรักที่คุยกับเพื่อนยาก ลองคุยกับ LLM แบบสบาย ๆ ดูสิ" เลยนะ