- Janus-Pro: เวอร์ชันที่ปรับปรุงของโมเดลแบบรวมสำหรับความเข้าใจและการสร้างแบบมัลติโหมด
- เป็นโมเดลที่พัฒนาต่อยอดจาก Janus เดิม โดยมีการปรับปรุงดังต่อไปนี้
- กลยุทธ์การฝึกที่ปรับให้เหมาะสม
- ขยายข้อมูลฝึก
- ขยายไปสู่ขนาดโมเดลที่ใหญ่ขึ้น
- เป้าหมาย: ยกระดับประสิทธิภาพด้านความเข้าใจแบบมัลติโหมดและการสร้างภาพจากข้อความ พร้อมเสริมความเสถียรของการสร้าง
การปรับปรุงประสิทธิภาพหลัก
ความเข้าใจแบบมัลติโหมด
- Janus-Pro ทำคะแนนสูงสุด 79.2 บนเบนช์มาร์กความเข้าใจแบบมัลติโหมด (MMBench)
- ให้ประสิทธิภาพเหนือกว่าโมเดลเดิมอย่าง Janus, TokenFlow และ MetaMorph
- แยก visual encoding ออกมาเพื่อลดความขัดแย้งระหว่างการทำความเข้าใจและการสร้าง
การสร้างภาพจากข้อความ
- บนเบนช์มาร์ก GenEval ทำความแม่นยำได้ 80% เหนือกว่า DALL-E 3 (67%), SD3-Medium (74%) เป็นต้น
- ทำได้ 84.19 คะแนนบน DPG-Bench ซึ่งดีกว่าโมเดลอื่นทั้งหมด
โครงสร้างโมเดลและการปรับปรุง
สถาปัตยกรรมโมเดล
- แยก visual encoding สำหรับความเข้าใจแบบมัลติโหมดและการสร้างออกจากกัน
- ใช้ SigLIP encoder เพื่อดึงคุณลักษณะเชิงความหมายระดับสูง
- image decoder จะแปลงภาพเป็น ID แล้วเชื่อมต่อเป็นอินพุตของ LLM
กลยุทธ์การฝึกที่ปรับให้เหมาะสม
- การฝึกแบบเป็นขั้นตอน: ปรับปรุงความไม่มีประสิทธิภาพของกลยุทธ์ 3 ขั้นก่อนหน้า
- ใช้เวลาฝึกนานขึ้นกับข้อมูล ImageNet (Stage I)
- มุ่งฝึกด้วยข้อมูลข้อความ-ภาพเท่านั้น (Stage II)
- ปรับสัดส่วนข้อมูล: ลดสัดส่วนข้อมูลข้อความ-ภาพและเสริมความสามารถด้านความเข้าใจแบบมัลติโหมด
การขยายข้อมูลและโมเดล
- การขยายข้อมูล:
- เพิ่มตัวอย่าง 90 ล้านรายการสำหรับความเข้าใจแบบมัลติโหมด
- เสริมข้อมูลสร้างภาพจากข้อความด้วยข้อมูลสุนทรียศาสตร์สังเคราะห์ 70 ล้านรายการ
- การขยายโมเดล:
- ขยายจากขนาด 1.5B เป็น 7B พร้อมยกระดับประสิทธิภาพการเรียนรู้และสมรรถนะอย่างมาก
การทดลองและการประเมินผล
การเปรียบเทียบประสิทธิภาพ
- Janus-Pro-7B แสดงประสิทธิภาพสูงสุดเมื่อเทียบกับโมเดลขนาดใกล้เคียงกัน
- เหนือกว่าโมเดลขนาดใหญ่อย่าง TokenFlow-XL (13B) ทั้งในด้านความเข้าใจแบบมัลติโหมดและการสร้าง
- ทั้งความเสถียรและคุณภาพเชิงสุนทรียะของภาพที่สร้างขึ้นได้รับการปรับปรุง
ข้อจำกัด
- ความละเอียดต่ำ (384 × 384) ยังเป็นข้อจำกัดสำหรับงานที่ต้องการรายละเอียดมาก เช่น OCR
- ยังขาดรายละเอียดระดับละเอียดในการสร้างภาพจากข้อความ
บทสรุป
- Janus-Pro เป็นความก้าวหน้าสำคัญทั้งในด้านกลยุทธ์การฝึก ข้อมูล และขนาดโมเดล
- ทำผลงานระดับสูงสุดได้ทั้งด้านความเข้าใจแบบมัลติโหมดและการสร้างภาพจากข้อความ
- มีแผนแก้โจทย์งานละเอียดในอนาคตด้วยการเพิ่มความละเอียด
ยังไม่มีความคิดเห็น