• มอบความสามารถด้านวิสัยทัศน์-ภาษาแบบใหม่ที่คล้ายกับสิ่งที่สาธิตไว้ใน GPT-4
    • อธิบายภาพได้อย่างละเอียด บอกวิธีทำอาหารจากภาพอาหาร ค้นหาปัญหา สร้างข้อความโฆษณา หรือเขียนเรื่องราวและบทกวีที่ได้แรงบันดาลใจจากภาพ
  • แสดงประสิทธิภาพที่โดดเด่นเพียงแค่เชื่อมต่อ BLIP-2 และ Vicuna เข้าด้วยกันด้วย projection layer เพียงชั้นเดียว
  • ฝึกโมเดลเป็น 2 ขั้นตอน
    • ฝึกด้วยคู่ข้อมูลภาพ-ข้อความ 5 ล้านคู่ โดยใช้ A100 4 ตัวเป็นเวลา 10 ชั่วโมง ขั้นตอนนี้เพียงอย่างเดียวทำให้ Vicuna เข้าใจภาพได้ แต่ความสามารถในการสร้างผลลัพธ์ได้รับผลกระทบอย่างมาก
    • เพื่อแก้ปัญหาและปรับปรุงการใช้งาน จึงเสนอวิธีใหม่ในการสร้างคู่ข้อมูลภาพ-ข้อความคุณภาพสูง โดยใช้ทั้งตัวโมเดลเองและ ChatGPT ร่วมกัน
    • จากแนวทางนี้ ได้สร้างชุดข้อมูลคุณภาพสูงขนาดเล็กจำนวนรวม 3,500 คู่
    • ในขั้นตอน fine-tuning ครั้งที่ 2 ได้นำชุดข้อมูลขนาดเล็กนี้มาฝึกด้วยเทมเพลตเชิงสนทนา เพื่อเพิ่มความน่าเชื่อถือในการสร้างผลลัพธ์และปรับปรุงการใช้งานโดยรวม
    • น่าทึ่งที่ขั้นตอนนี้มีประสิทธิภาพด้านการคำนวณสูง และใช้เวลาเพียง 7 นาทีบน A100 เพียงตัวเดียว

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น