การเรียนรู้ของ BERT ที่ใช้งานมาตั้งแต่ปี 2018 ถูกพบว่ามีหลักการเดียวกับโมเดล diffusion สมัยใหม่ ซึ่งแสดงให้เห็นไม่ใช่เพียงการค้นพบเชิงวิชาการ แต่ยังสะท้อนถึงศักยภาพเชิงปฏิบัติในการแปลงโมเดล BERT เดิมให้เป็นโมเดลสร้างข้อความแบบ GPT

สาระสำคัญ:

  • Masked Language Modeling (MLM) ของ BERT คือขั้นตอน diffusion ที่มีอัตราคงที่: การฝึก BERT ที่ใช้มานาน 7 ปีเป็นหลักการเดียวกันกับการกำจัด noise แบบ diffusion หากปรับสัดส่วนการ masking ได้แบบปรับตัว จะสามารถแปลงเป็นโมเดลสร้างข้อความแบบสมบูรณ์ได้
  • สร้างการสร้างข้อความระดับ GPT-2 ด้วยการฝึกเพียง 30 นาที: เปลี่ยนโมเดล RoBERTa เดิมให้เป็นโมเดลสร้างข้อความด้วย fine-tuning เล็กน้อย โดยทำงานด้วยการกู้คืนประโยคทั้งหมดแบบค่อยเป็นค่อยไป แทนการพยากรณ์แต่ละคำทีละคำตามแนวทาง GPT
  • ความเป็นไปได้ใหม่สำหรับการสร้างข้อความ: เสนอวิธีทางเลือกแบบ diffusion-based generation นอกเหนือจากแนวทาง autoregressive ของ GPT และเป็นจุดเริ่มต้นของแนวโน้มใหม่พร้อมกับ Google DeepMind Gemini Diffusion

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น