ฝึก ModernBERT ที่เล็กกว่าถึง 100 เท่า โดยอาศัยความสามารถด้านการให้เหตุผลของ DeepSeek R1
(link.medium.com)สามารถใช้เลเบลที่สร้างจาก DeepSeek R1 เพื่อฝึกให้โมเดล ModernBERT ทำนายได้ว่า “บทความวิจัยแนะนำชุดข้อมูลใหม่หรือไม่” โมเดลที่สร้างขึ้นด้วยวิธีนี้สามารถนำไปใช้งานได้ทันที และเมื่อใช้งานเฉพาะการอนุมานในสภาพแวดล้อมบริการจริง ก็ไม่ต้องใช้ทรัพยากรขนาดมหาศาลแบบ LLM ถึงอย่างนั้น เนื่องจากเป็นการถ่ายทอดความสามารถด้านการให้เหตุผลของ LLM ทางอ้อมไปยังปัญหาการจำแนกประเภทที่ต้องใช้เลเบล จึงยังคงรักษาความแม่นยำได้ในระดับหนึ่ง
โดยเฉพาะในงาน RAG ที่ไม่สามารถแก้ได้ด้วยการจับคู่ข้อความแบบง่าย ๆ เพียงอย่างเดียวและต้องอาศัยการให้เหตุผลอยู่บ้าง หรือในกรณีที่เลเบลมีไม่เพียงพอหรือสร้างได้ยาก แนวทางการฝึกโมเดล ModernBERT โดยอิงจากเลเบลที่ DeepSeek สร้างขึ้นนั้นมีประโยชน์อย่างมาก
ยังไม่มีความคิดเห็น