1 คะแนน โดย GN⁺ 2024-07-06 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Diffusion Forcing

แนะนำ Diffusion Forcing

  • "Diffusion Forcing" เป็นชื่อที่มาจาก "teacher forcing" และ "diffusion models"
  • Diffusion Forcing สามารถใช้ประโยชน์จากจุดแข็งหลักของทั้งโมเดลการทำนายโทเคนถัดไปและโมเดล diffusion แบบทั้งลำดับได้
  • การฝึกเพียงครั้งเดียวทำให้สามารถทำงานได้อย่างยืดหยุ่นกับช่วงเวลาการสุ่มตัวอย่างที่หลากหลาย

หลักการทำงานของ Diffusion Forcing

  • ฝึก sequence diffusion โดยใช้ระดับ noise ที่แตกต่างกันกับแต่ละโทเคน
  • noise ใน diffusion สามารถมองได้ว่าเป็นการ masking ในหลายระดับ
  • ในช่วงเวลาการสุ่มตัวอย่าง สามารถบรรลุการทำงานที่ยืดหยุ่นได้ด้วยการใช้ระดับ noise ที่ต่างกันตลอดทั้งลำดับ

การคาดการณ์วิดีโอ

  • การคาดการณ์วิดีโอด้วย Diffusion Forcing ให้ผลลัพธ์ที่เสถียรและสอดคล้องกัน
  • บนชุดข้อมูล DMLab และ Minecraft, Diffusion Forcing แสดงประสิทธิภาพเหนือกว่าวิธีเดิม

การทำให้การ roll out แบบไม่สิ้นสุดมีเสถียรภาพโดยไม่ใช้ sliding window

  • Diffusion Forcing สามารถ roll out วิดีโอที่ยาวกว่าความยาวลำดับสูงสุดที่ใช้ฝึกอย่างมากได้
  • สามารถ roll out RNN ได้โดยไม่ต้องใช้ sliding window
  • บนชุดข้อมูล DMLab และ Minecraft สามารถ roll out ได้มากกว่า 2000 เฟรม

Diffusion Planning

  • Diffusion Forcing สามารถใช้เป็น planner ได้โดยใช้ guidance ในช่วงทดสอบ
  • กำหนดแต่ละโทเคนเป็น [a_t, o_{t+1}] เพื่อสร้างแบบจำลองความเป็นเหตุเป็นผลอย่างชัดเจน
  • สามารถอัปเดตด้วยการประมาณภายหลังได้หลังจากมีการสังเกตใหม่เกิดขึ้น

การเรียนรู้การเลียนแบบระยะยาว

  • งานจริงจำนวนมากไม่มีคุณสมบัติแบบ Markov และต้องการหน่วยความจำระยะยาว
  • แสดงผลลัพธ์ที่ประสบความสำเร็จในงานที่แขนหุ่นยนต์สลับตำแหน่งช่องผลไม้สองช่อง
  • Diffusion Forcing สามารถทำงานได้อย่างทนทานต่อสิ่งรบกวนที่ไม่เคยเห็นในช่วงทดสอบ

ความเห็นของ GN⁺

  • Diffusion Forcing ผสานข้อดีของโมเดลการทำนายโทเคนถัดไปและโมเดล diffusion แบบทั้งลำดับเข้าด้วยกัน ทำให้สุ่มตัวอย่างได้อย่างยืดหยุ่น
  • แสดงประสิทธิภาพเหนือกว่าวิธีเดิมในการคาดการณ์วิดีโอและการ roll out ซึ่งช่วยเพิ่มศักยภาพในการประยุกต์ใช้จริง
  • ความสำเร็จในการเรียนรู้การเลียนแบบระยะยาวแสดงให้เห็นถึงความสามารถด้านการควบคุมแบบป้อนกลับที่แข็งแกร่งของ Diffusion Forcing
  • ผลด้านการทำให้เสถียรของ Diffusion Forcing ช่วยเพิ่มความเป็นไปได้ในการใช้งานกับลำดับความยาวที่หลากหลาย
  • เมื่อนำเทคโนโลยีใหม่มาใช้ ควรพิจารณาความซับซ้อนของโมเดลและต้นทุนการคำนวณด้วย

1 ความคิดเห็น

 
GN⁺ 2024-07-06
ความคิดเห็นบน Hacker News
  • มีการเสนอแนวทางใหม่ที่ผสานไอเดีย sequence masking เข้ากับ diffusion model

    • ติดตามระดับ "ความไม่แน่นอน" ของแต่ละพิกเซลแล้วใช้เป็นระดับ "noise" ของ diffusion model
    • สามารถกำหนดบางส่วนของภาพให้แน่นอนได้ก่อน จึงนำไปใช้กับการแก้เขาวงกตได้
    • ยังถูกนำไปใช้ควบคุมแขนหุ่นยนต์ด้วย
    • ชื่อเรื่องดูประเมินไอเดียนี้ต่ำไป; ที่จริงนี่คือวิธีทำ "fractional masking"
    • มีคำถามมากมายเกี่ยวกับ codebase; เช่น ตั้งค่างานติดตามในเขาวงกตและงานขยายวิดีโออย่างไร รวมถึงเชื่อมต่อแขนหุ่นยนต์อย่างไร
    • ตัวสถาปัตยกรรมเองยังต้องการการวิจัยและคำอธิบายเพิ่มเติม
  • สงสัยว่ามีงานวิจัยหรือเครื่องมือที่สามารถผสาน text-generation LLM ที่มีอยู่เข้ากับเทคนิค diffusion ได้โดยไม่ต้อง pretrain ใหม่หรือไม่

    • มีแนวทางคล้ายกันอย่าง Tree of Thoughts และ MCTS แต่กำลังมองหาสิ่งที่ใกล้กับการสร้างระดับโทเคนมากกว่า
    • สงสัยว่าสามารถทำงานร่วมกับโมเดล GPT ขนาดเล็ก / Phi 3 / Gwen ได้หรือไม่
  • Russ กำลังศึกษางานด้าน diffusion อยู่; ดูเหมือนจะประยุกต์ใช้กับงานหุ่นยนต์ได้มาก

  • ในฐานะคนที่ทำงานในสาขานี้ งานวิจัยนี้ถูกนำเสนออย่างเข้าใจยากมาก

    • สงสัยว่าปัญหาที่ต้องการแก้คืออะไร และกำลังเสนอ generative model แบบใหม่หรือไม่
  • สงสัยว่าอาจพลาดเรื่องเวลาในการฝึกไปหรือไม่; หากเพิ่ม noise ต่อโทเคน การฝึกจะช้าลงมากหรือไม่

    • เป็นงานวิจัยที่ยอดเยี่ยม
  • เป็นงานวิจัยที่เจ๋งมาก แต่สงสัยว่าทำไมถึงเรียกว่า "diffusion forcing"