- มอบความสามารถด้านวิสัยทัศน์-ภาษาแบบใหม่ที่คล้ายกับสิ่งที่สาธิตไว้ใน GPT-4
- อธิบายภาพได้อย่างละเอียด บอกวิธีทำอาหารจากภาพอาหาร ค้นหาปัญหา สร้างข้อความโฆษณา หรือเขียนเรื่องราวและบทกวีที่ได้แรงบันดาลใจจากภาพ
- แสดงประสิทธิภาพที่โดดเด่นเพียงแค่เชื่อมต่อ BLIP-2 และ Vicuna เข้าด้วยกันด้วย projection layer เพียงชั้นเดียว
- ฝึกโมเดลเป็น 2 ขั้นตอน
- ฝึกด้วยคู่ข้อมูลภาพ-ข้อความ 5 ล้านคู่ โดยใช้ A100 4 ตัวเป็นเวลา 10 ชั่วโมง ขั้นตอนนี้เพียงอย่างเดียวทำให้ Vicuna เข้าใจภาพได้ แต่ความสามารถในการสร้างผลลัพธ์ได้รับผลกระทบอย่างมาก
- เพื่อแก้ปัญหาและปรับปรุงการใช้งาน จึงเสนอวิธีใหม่ในการสร้างคู่ข้อมูลภาพ-ข้อความคุณภาพสูง โดยใช้ทั้งตัวโมเดลเองและ ChatGPT ร่วมกัน
- จากแนวทางนี้ ได้สร้างชุดข้อมูลคุณภาพสูงขนาดเล็กจำนวนรวม 3,500 คู่
- ในขั้นตอน fine-tuning ครั้งที่ 2 ได้นำชุดข้อมูลขนาดเล็กนี้มาฝึกด้วยเทมเพลตเชิงสนทนา เพื่อเพิ่มความน่าเชื่อถือในการสร้างผลลัพธ์และปรับปรุงการใช้งานโดยรวม
- น่าทึ่งที่ขั้นตอนนี้มีประสิทธิภาพด้านการคำนวณสูง และใช้เวลาเพียง 7 นาทีบน A100 เพียงตัวเดียว
ยังไม่มีความคิดเห็น