บันทึกการสร้าง sLLM เฉพาะโดเมนภาครัฐ — แชตบอต RAG ที่ fine-tune Gemma-3-1B ด้วยข้อมูลกระทรวงที่ดิน โครงสร้างพื้นฐาน และคมนาคม

(riss.kr)

2 คะแนน โดย chohi 2 시간 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

บันทึกการสร้าง sLLM เฉพาะโดเมนภาครัฐ — molit-gemma + RAG

กรณีศึกษาการสร้าง แชตบอตเฉพาะโดเมนแบบ on-premises ภายใต้สภาพแวดล้อมด้านความปลอดภัยที่หน่วยงานสาธารณะใช้งาน LLM ภายนอกอย่าง ChatGPT/Claude ได้ยาก

fine-tune Google Gemma-3-1B ด้วยเอกสารนโยบายของกระทรวงที่ดิน โครงสร้างพื้นฐาน และคมนาคม → molit-gemma
ลดอาการหลอนด้วย RAG บน OpenSearch
BLEU 0.6258, LLM-as-a-Judge 4.34/5.0
ติดตั้งใช้งานแบบ on-premises ทั้งหมด (external API 0)

การตอบคำร้องเรียนหรือคำถามประชาชนของภาครัฐมีความเสี่ยงด้านข้อมูลรั่วไหลหากเรียกใช้ external API
โมเดลระดับ 70B มีภาระด้านโครงสร้างพื้นฐาน GPU สูง → ใช้โมเดล 1B + RAG เพื่อชดเชย
การ fine-tune เฉพาะโดเมนให้ความแม่นยำดีกว่า LLM ทั่วไป

คำถามของผู้ใช้ → ค้นหาด้วย OpenSearch → เอกสารนโยบาย Top-K → molit-gemma สร้างคำตอบ → อ้างอิงแหล่งที่มา

jhk0530 6 분 전

ขอแสดงความยินดีกับวิทยานิพนธ์ครับ!