• Janus-Pro: เวอร์ชันที่ปรับปรุงของโมเดลแบบรวมสำหรับความเข้าใจและการสร้างแบบมัลติโหมด
  • เป็นโมเดลที่พัฒนาต่อยอดจาก Janus เดิม โดยมีการปรับปรุงดังต่อไปนี้
    • กลยุทธ์การฝึกที่ปรับให้เหมาะสม
    • ขยายข้อมูลฝึก
    • ขยายไปสู่ขนาดโมเดลที่ใหญ่ขึ้น
  • เป้าหมาย: ยกระดับประสิทธิภาพด้านความเข้าใจแบบมัลติโหมดและการสร้างภาพจากข้อความ พร้อมเสริมความเสถียรของการสร้าง

การปรับปรุงประสิทธิภาพหลัก

ความเข้าใจแบบมัลติโหมด

  • Janus-Pro ทำคะแนนสูงสุด 79.2 บนเบนช์มาร์กความเข้าใจแบบมัลติโหมด (MMBench)
  • ให้ประสิทธิภาพเหนือกว่าโมเดลเดิมอย่าง Janus, TokenFlow และ MetaMorph
  • แยก visual encoding ออกมาเพื่อลดความขัดแย้งระหว่างการทำความเข้าใจและการสร้าง

การสร้างภาพจากข้อความ

  • บนเบนช์มาร์ก GenEval ทำความแม่นยำได้ 80% เหนือกว่า DALL-E 3 (67%), SD3-Medium (74%) เป็นต้น
  • ทำได้ 84.19 คะแนนบน DPG-Bench ซึ่งดีกว่าโมเดลอื่นทั้งหมด

โครงสร้างโมเดลและการปรับปรุง

สถาปัตยกรรมโมเดล

  • แยก visual encoding สำหรับความเข้าใจแบบมัลติโหมดและการสร้างออกจากกัน
  • ใช้ SigLIP encoder เพื่อดึงคุณลักษณะเชิงความหมายระดับสูง
  • image decoder จะแปลงภาพเป็น ID แล้วเชื่อมต่อเป็นอินพุตของ LLM

กลยุทธ์การฝึกที่ปรับให้เหมาะสม

  • การฝึกแบบเป็นขั้นตอน: ปรับปรุงความไม่มีประสิทธิภาพของกลยุทธ์ 3 ขั้นก่อนหน้า
    • ใช้เวลาฝึกนานขึ้นกับข้อมูล ImageNet (Stage I)
    • มุ่งฝึกด้วยข้อมูลข้อความ-ภาพเท่านั้น (Stage II)
  • ปรับสัดส่วนข้อมูล: ลดสัดส่วนข้อมูลข้อความ-ภาพและเสริมความสามารถด้านความเข้าใจแบบมัลติโหมด

การขยายข้อมูลและโมเดล

  • การขยายข้อมูล:
    • เพิ่มตัวอย่าง 90 ล้านรายการสำหรับความเข้าใจแบบมัลติโหมด
    • เสริมข้อมูลสร้างภาพจากข้อความด้วยข้อมูลสุนทรียศาสตร์สังเคราะห์ 70 ล้านรายการ
  • การขยายโมเดล:
    • ขยายจากขนาด 1.5B เป็น 7B พร้อมยกระดับประสิทธิภาพการเรียนรู้และสมรรถนะอย่างมาก

การทดลองและการประเมินผล

การเปรียบเทียบประสิทธิภาพ

  • Janus-Pro-7B แสดงประสิทธิภาพสูงสุดเมื่อเทียบกับโมเดลขนาดใกล้เคียงกัน
    • เหนือกว่าโมเดลขนาดใหญ่อย่าง TokenFlow-XL (13B) ทั้งในด้านความเข้าใจแบบมัลติโหมดและการสร้าง
  • ทั้งความเสถียรและคุณภาพเชิงสุนทรียะของภาพที่สร้างขึ้นได้รับการปรับปรุง

ข้อจำกัด

  • ความละเอียดต่ำ (384 × 384) ยังเป็นข้อจำกัดสำหรับงานที่ต้องการรายละเอียดมาก เช่น OCR
  • ยังขาดรายละเอียดระดับละเอียดในการสร้างภาพจากข้อความ

บทสรุป

  • Janus-Pro เป็นความก้าวหน้าสำคัญทั้งในด้านกลยุทธ์การฝึก ข้อมูล และขนาดโมเดล
  • ทำผลงานระดับสูงสุดได้ทั้งด้านความเข้าใจแบบมัลติโหมดและการสร้างภาพจากข้อความ
  • มีแผนแก้โจทย์งานละเอียดในอนาคตด้วยการเพิ่มความละเอียด

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น