DeepSeek เปิดตัว Janus Pro โมเดลสร้างภาพจากข้อความ [PDF]

(github.com/deepseek-ai)

5 คะแนน โดย GN⁺ 2025-01-28 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

Janus-Pro: เวอร์ชันที่ปรับปรุงของโมเดลแบบรวมสำหรับความเข้าใจและการสร้างแบบมัลติโหมด
เป็นโมเดลที่พัฒนาต่อยอดจาก Janus เดิม โดยมีการปรับปรุงดังต่อไปนี้
- กลยุทธ์การฝึกที่ปรับให้เหมาะสม
- ขยายข้อมูลฝึก
- ขยายไปสู่ขนาดโมเดลที่ใหญ่ขึ้น
เป้าหมาย: ยกระดับประสิทธิภาพด้านความเข้าใจแบบมัลติโหมดและการสร้างภาพจากข้อความ พร้อมเสริมความเสถียรของการสร้าง

การปรับปรุงประสิทธิภาพหลัก

ความเข้าใจแบบมัลติโหมด

Janus-Pro ทำคะแนนสูงสุด 79.2 บนเบนช์มาร์กความเข้าใจแบบมัลติโหมด (MMBench)
ให้ประสิทธิภาพเหนือกว่าโมเดลเดิมอย่าง Janus, TokenFlow และ MetaMorph
แยก visual encoding ออกมาเพื่อลดความขัดแย้งระหว่างการทำความเข้าใจและการสร้าง

การสร้างภาพจากข้อความ

บนเบนช์มาร์ก GenEval ทำความแม่นยำได้ 80% เหนือกว่า DALL-E 3 (67%), SD3-Medium (74%) เป็นต้น
ทำได้ 84.19 คะแนนบน DPG-Bench ซึ่งดีกว่าโมเดลอื่นทั้งหมด

โครงสร้างโมเดลและการปรับปรุง

สถาปัตยกรรมโมเดล

แยก visual encoding สำหรับความเข้าใจแบบมัลติโหมดและการสร้างออกจากกัน
ใช้ SigLIP encoder เพื่อดึงคุณลักษณะเชิงความหมายระดับสูง
image decoder จะแปลงภาพเป็น ID แล้วเชื่อมต่อเป็นอินพุตของ LLM

กลยุทธ์การฝึกที่ปรับให้เหมาะสม

การฝึกแบบเป็นขั้นตอน: ปรับปรุงความไม่มีประสิทธิภาพของกลยุทธ์ 3 ขั้นก่อนหน้า
- ใช้เวลาฝึกนานขึ้นกับข้อมูล ImageNet (Stage I)
- มุ่งฝึกด้วยข้อมูลข้อความ-ภาพเท่านั้น (Stage II)
ปรับสัดส่วนข้อมูล: ลดสัดส่วนข้อมูลข้อความ-ภาพและเสริมความสามารถด้านความเข้าใจแบบมัลติโหมด

การขยายข้อมูลและโมเดล

การขยายข้อมูล:
- เพิ่มตัวอย่าง 90 ล้านรายการสำหรับความเข้าใจแบบมัลติโหมด
- เสริมข้อมูลสร้างภาพจากข้อความด้วยข้อมูลสุนทรียศาสตร์สังเคราะห์ 70 ล้านรายการ
การขยายโมเดล:
- ขยายจากขนาด 1.5B เป็น 7B พร้อมยกระดับประสิทธิภาพการเรียนรู้และสมรรถนะอย่างมาก

การทดลองและการประเมินผล

การเปรียบเทียบประสิทธิภาพ

Janus-Pro-7B แสดงประสิทธิภาพสูงสุดเมื่อเทียบกับโมเดลขนาดใกล้เคียงกัน
- เหนือกว่าโมเดลขนาดใหญ่อย่าง TokenFlow-XL (13B) ทั้งในด้านความเข้าใจแบบมัลติโหมดและการสร้าง
ทั้งความเสถียรและคุณภาพเชิงสุนทรียะของภาพที่สร้างขึ้นได้รับการปรับปรุง

ข้อจำกัด

ความละเอียดต่ำ (384 × 384) ยังเป็นข้อจำกัดสำหรับงานที่ต้องการรายละเอียดมาก เช่น OCR
ยังขาดรายละเอียดระดับละเอียดในการสร้างภาพจากข้อความ

บทสรุป

Janus-Pro เป็นความก้าวหน้าสำคัญทั้งในด้านกลยุทธ์การฝึก ข้อมูล และขนาดโมเดล
ทำผลงานระดับสูงสุดได้ทั้งด้านความเข้าใจแบบมัลติโหมดและการสร้างภาพจากข้อความ
มีแผนแก้โจทย์งานละเอียดในอนาคตด้วยการเพิ่มความละเอียด

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น