Apple ได้เปิดเผยผลการวิจัยเกี่ยวกับ Multimodal LLM ที่ชื่อว่า MM1 แล้ว (ไม่ได้เปิดเผยโค้ดโมเดลหรือน้ำหนักโมเดล และดูเหมือนว่าจะไม่เปิดเผยในอนาคตด้วย)

จึงขอแชร์เนื้อหาที่สรุปร่วมกับ ChatGPT ซึ่งน่าจะคุ้มค่าแก่การลองอ่านสำหรับผู้ที่ฝึกโมเดลเองหรือทำการจูนโมเดล โดยเฉพาะในส่วนของ Image Encoder, VL-Connector รวมถึงชุดข้อมูลและวิธีการฝึก

ต้นฉบับสามารถดูได้ที่ arXiv ในชื่อ 'MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training'


บทเรียนจากอินโค้ดเดอร์: ความละเอียดของภาพมีผลมากที่สุด รองลงมาคือขนาดโมเดลและองค์ประกอบของข้อมูลฝึก

Encoder lesson: Image resolution has the highest impact, followed by model size and training data composition.

บทเรียนจาก VL Connector: จำนวน visual token และความละเอียดของภาพสำคัญที่สุด ส่วนประเภทของ VL connector แทบไม่มีผล

VL Connector Lesson: Number of visual tokens and image resolution matters most, while the type of VL connector has little effect.

บทเรียนด้านข้อมูล 1: ข้อมูลแบบ interleaved มีบทบาทสำคัญต่อประสิทธิภาพแบบ few-shot และ text-only ขณะที่ข้อมูล captioning ช่วยยกระดับประสิทธิภาพแบบ zero-shot

Data lesson 1: interleaved data is instrumental for few-shot and textonly performance, while captioning data lifts zero-shot performance.

บทเรียนด้านข้อมูล 2: ข้อมูล text-only ช่วยเรื่องประสิทธิภาพแบบ few-shot และ text-only

Data lesson 2: text-only data helps with few-shot and text-only performance.

บทเรียนด้านข้อมูล 3: การผสมข้อมูลภาพและข้อมูลข้อความอย่างรอบคอบสามารถให้ประสิทธิภาพแบบ multimodal ที่เหมาะสมที่สุด พร้อมคงประสิทธิภาพด้านข้อความที่แข็งแกร่งไว้ได้

Data lesson 3: Careful mixture of image and text data can yield optimal multimodal performance and retain strong text performance.

บทเรียนด้านข้อมูล 4: ข้อมูลสังเคราะห์ช่วยในการเรียนรู้แบบ few-shot

Data lesson 4: Synthetic data helps with few-shot learning.

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น