Chameleon: LLM มัลติโหมดใหม่ของ Meta

(arxiv.org)

4 คะแนน โดย GN⁺ 2024-05-23 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

Chameleon เป็นตระกูลโมเดลมัลติโหมดแบบผสมที่ใช้โทเคนและการหลอมรวมตั้งแต่ต้น ซึ่งสามารถเข้าใจและสร้างทั้งภาพและข้อความได้ในลำดับใดก็ได้
ตระกูลโมเดลนี้ประกอบด้วยแนวทางการฝึกที่มีเสถียรภาพ สูตรการจัดแนว และพารามิเตอร์สถาปัตยกรรมสำหรับการตั้งค่าแบบผสมมัลติโหมดที่ใช้โทเคนและการหลอมรวมตั้งแต่ต้น
ใช้แนวทางการฝึกที่มีเสถียรภาพตั้งแต่เริ่มต้น และออกแบบทั้งสูตรการจัดแนวกับพารามิเตอร์สถาปัตยกรรมให้เหมาะกับการตั้งค่าแบบผสมมัลติโหมดที่ใช้โทเคนและการหลอมรวมตั้งแต่ต้น
ได้รับการประเมินในงานที่ครอบคลุม เช่น visual question answering, การสร้างคำบรรยายภาพ, การสร้างข้อความ, การสร้างภาพ และการสร้างมัลติโหมดแบบผสมระยะยาว
- แสดงประสิทธิภาพระดับล้ำสมัยในงานสร้างคำบรรยายภาพ
- ในงานที่ใช้ข้อความล้วน มีประสิทธิภาพเหนือกว่า Llama-2 และแข่งขันได้กับโมเดลอย่าง Mixtral 8x7B และ Gemini-Pro
- มีความสามารถในการสร้างภาพที่ยอดเยี่ยม และสามารถทำงานได้หลากหลายด้วยโมเดลเดียว
- ในการประเมินการสร้างมัลติโหมดแบบผสมรูปแบบยาว เมื่อพรอมป์ต์หรือผลลัพธ์มีลำดับผสมของภาพและข้อความ ประสิทธิภาพเทียบเท่าหรือเหนือกว่าโมเดลที่ใหญ่กว่ามากอย่าง Gemini Pro และ GPT-4V
Chameleon เป็นความก้าวหน้าสำคัญในการสร้างแบบจำลองแบบบูรณาการของเอกสารมัลติโหมดแบบสมบูรณ์
สิ่งนี้นำเสนอเกณฑ์มาตรฐานใหม่ของโมเดลมัลติโหมดแบบรวมศูนย์ที่มีความสามารถรอบด้านในงานหลากหลายประเภท

ความเห็นของ GN⁺

โมเดลมัลติโหมดสามารถประมวลผลรูปแบบอินพุตที่หลากหลายได้พร้อมกัน จึงมีประโยชน์มากในงานใช้งานจริง เช่น ระบบ visual question answering หรือการสร้างคำบรรยายภาพ
Chameleon แสดงประสิทธิภาพที่แข่งขันได้เมื่อเทียบกับ Llama-2, Mixtral 8x7B, Gemini-Pro เป็นต้น ซึ่งพิสูจน์ให้เห็นถึงความยืดหยุ่นและประสิทธิภาพในงานที่หลากหลาย
เมื่อนำเทคโนโลยีใหม่มาใช้ ควรพิจารณาเสถียรภาพของโมเดล ต้นทุนการฝึก และความต้องการด้านข้อมูล เป็นต้น สำหรับ Chameleon แม้แนวทางการหลอมรวมตั้งแต่ต้นจะมีเสถียรภาพ แต่ในการใช้งานจริงอาจต้องใช้ข้อมูลและทรัพยากรคอมพิวต์อย่างเพียงพอ
ประสิทธิภาพในการสร้างมัลติโหมดแบบผสมระยะยาวนั้นน่าสนใจมาก ซึ่งเปิดโอกาสสำคัญสำหรับการสร้างเอกสารที่ซับซ้อนหรือการผลิตคอนเทนต์มัลติมีเดีย
ในอุตสาหกรรมมีโมเดลมัลติโหมดหลากหลาย เช่น GPT-4 ของ OpenAI และ BERT ของ Google การเปรียบเทียบคุณลักษณะ รวมถึงข้อดีข้อเสียของแต่ละโมเดล เพื่อเลือกใช้โมเดลที่เหมาะสมจึงเป็นสิ่งสำคัญ

2 ความคิดเห็น

fastkoder 2024-06-19

เช็กพอยต์ของโมเดล: https://ai.meta.com/resources/models-and-libraries/…
บล็อก: https://ai.meta.com/blog/meta-fair-research-new-releases/
รีโพซิทอรีบน Github: https://github.com/facebookresearch/chameleon
เผยแพร่เมื่อ 8 ชั่วโมงก่อน!

GN⁺ 2024-05-23

ความเห็นบน Hacker News

สรุปความคิดเห็นจากคอมเมนต์บน Hacker News

งานวิจัยพื้นฐานและปัญหา softmax
- งานวิจัยพื้นฐานน่าสนใจมาก โดยเฉพาะการวิเคราะห์ความยากของการใช้ softmax กับพื้นที่การทำ tokenization ที่หลากหลายซึ่งน่าประทับใจ
- ปัญหาเด่นชัดที่สุดในโมเดลขนาด 34b และเตือนให้เห็นว่าการฝึกโมเดลขนาดใหญ่ก่อให้เกิดปัญหาใหม่ ๆ
มัลติโหมดและ Mirasol3B
- เมื่อเทียบกับ Mirasol3B แล้ว ยังไม่รองรับเสียง โดย Mirasol3B ของ Google ทำเดโมได้ด้วยการแปลงเสียงเป็นภาพ
- Meta ก็กำลังมุ่งหน้าไปในทิศทางของมัลติโหมดเช่นกัน และโหมดเสียงใหม่ของ GPT ก็น่าจะใช้สถาปัตยกรรมแบบเดียวกัน
- เมื่อเพิ่ม modality ใหม่เข้าไป ประสิทธิภาพของโมเดลจะดีขึ้นภายใต้ขนาดพารามิเตอร์เท่าเดิม
เวลาและต้นทุนในการฝึก
- เวลาในการฝึกอยู่ที่ 4282407 ชั่วโมง ซึ่งหากใช้ GPU 200W จะใช้พลังงานราว 1 GWh และมีต้นทุนประมาณ $100,000
- หากใช้ GPU เดียว จะต้องใช้เวลาฝึกราว 500 ปีและมีค่าไฟประมาณ $100,000 แต่ในทางปฏิบัติสามารถฝึกด้วย GPU 3000 ตัวเป็นเวลา 2 เดือน
ประสิทธิภาพของโมเดล Chameleon
- โมเดล Chameleon ทำผลงานได้เทียบเท่าหรือดีกว่าโมเดลที่ใหญ่กว่าอย่าง Gemini Pro และ GPT-4V และแสดงผลที่ยอดเยี่ยมในการประเมินการสร้างแบบผสมหลาย modality
- ถือเป็นความก้าวหน้าที่สำคัญในการสร้างแบบจำลองแบบบูรณาการของเอกสารมัลติโหมด
ความเร็วของพัฒนาการทางเทคโนโลยี
- ความก้าวหน้าทางเทคโนโลยีรวดเร็วมาก มีหลายอย่างที่น่าสนใจและเข้าใจได้ไม่ยาก
- อย่างไรก็ตาม อาจทำให้รู้สึกล้าได้ และด้วยเงินจำนวนมากที่ถูกทุ่มลงไป จนอาจรู้สึกว่าส่วนใหญ่เหมือนเป็นเรื่องหลอกลวง การเจาะลึกหัวข้อเดียวและอ่านงานวิจัยที่เกี่ยวข้องน่าจะดีกว่า
การยอมรับของโมเดลมัลติโหมด
- ช่วงหลังมานี้โมเดลมัลติโหมดถูกนำมาใช้อย่างแพร่หลาย แต่ก็ยังคงใช้ encoder หรือ decoder แยกกันตามแต่ละ modality
- ตัวอย่างเช่น Gemini Pro ใช้ image token และ GPT-4V ก็คล้ายกัน โดยมีการ pretrain tokenizer ที่แตกต่างกันสองตัว
โมเดลแบบบูรณาการและการแข่งขันระหว่าง modality
- โมเดลแบบบูรณาการนั้นน่าสนใจ แต่การค้นพบเรื่อง "การแข่งขันระหว่าง modality" ชี้ว่าในระยะสั้น การฝึกโมเดลที่เฉพาะทางสำหรับแต่ละ modality อาจดีกว่า
แผนโอเพนซอร์สของ Meta
- มีคนสงสัยว่า Meta มีแผนจะเปิดโอเพนซอร์สโมเดลเหล่านี้หรือไม่
- มีคำถามว่าโมเดลนี้สามารถดาวน์โหลดได้หรือไม่