MiniGPT-4: ยกระดับความเข้าใจด้านวิสัยทัศน์-ภาษาโดยใช้ LLM ขั้นสูง

xguru · 2023-04-18T11:21:01+09:00

มอบความสามารถด้านวิสัยทัศน์-ภาษาแบบใหม่ที่คล้ายกับสิ่งที่สาธิตไว้ใน GPT-4 อธิบายภาพได้อย่างละเอียด บอกวิธีทำอาหารจากภาพอาหาร ค้นหาปัญหา สร้างข้อความโฆษณา หรือเขียนเรื่องราวและบทกวีที่ได้แรงบันดาลใจจากภาพ แสดงประสิทธิภาพที่โดดเด่นเพียงแค่เชื่อมต่อ BLIP-2 และ Vicuna เข้าด้วยกันด้วย projection layer เพียงชั้นเดียว ฝึกโมเดลเป็น 2 ขั้นตอน ฝึกด้วยคู่ข้อมูลภาพ-ข้อความ 5 ล้านคู่ โดยใช้ A100 4 ตัวเป็นเวลา 10 ชั่วโมง ขั้นตอนนี้เพียงอย่างเดียวทำให้ Vicuna เข้าใจภาพได้ แต่ความสามารถในการสร้างผลลัพธ์ได้รับผลกระทบอย่างมาก เพื่อแก้ปัญหาและปรับปรุงการใช้งาน จึงเสนอวิธีใหม่ในการสร้างคู่ข้อมูลภาพ-ข้อความคุณภาพสูง โดยใช้ทั้งตัวโมเดลเองและ ChatGPT ร่วมกัน จากแนวทางนี้ ได้สร้างชุดข้อมูลคุณภาพสูงขนาดเล็กจำนวนรวม 3,500 คู่ ในขั้นตอน fine-tuning ครั้งที่ 2 ได้นำชุดข้อมูลขนาดเล็กนี้มาฝึกด้วยเทมเพลตเชิงสนทนา เพื่อเพิ่มความน่าเชื่อถือในการสร้างผลลัพธ์และปรับปรุงการใช้งานโดยรวม น่าทึ่งที่ขั้นตอนนี้มีประสิทธิภาพด้านการคำนวณสูง และใช้เวลาเพียง 7 นาทีบน A100 เพียงตัวเดียว

(minigpt-4.github.io)

15 คะแนน โดย xguru 2023-04-18 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

มอบความสามารถด้านวิสัยทัศน์-ภาษาแบบใหม่ที่คล้ายกับสิ่งที่สาธิตไว้ใน GPT-4
- อธิบายภาพได้อย่างละเอียด บอกวิธีทำอาหารจากภาพอาหาร ค้นหาปัญหา สร้างข้อความโฆษณา หรือเขียนเรื่องราวและบทกวีที่ได้แรงบันดาลใจจากภาพ
แสดงประสิทธิภาพที่โดดเด่นเพียงแค่เชื่อมต่อ BLIP-2 และ Vicuna เข้าด้วยกันด้วย projection layer เพียงชั้นเดียว
ฝึกโมเดลเป็น 2 ขั้นตอน
- ฝึกด้วยคู่ข้อมูลภาพ-ข้อความ 5 ล้านคู่ โดยใช้ A100 4 ตัวเป็นเวลา 10 ชั่วโมง ขั้นตอนนี้เพียงอย่างเดียวทำให้ Vicuna เข้าใจภาพได้ แต่ความสามารถในการสร้างผลลัพธ์ได้รับผลกระทบอย่างมาก
- เพื่อแก้ปัญหาและปรับปรุงการใช้งาน จึงเสนอวิธีใหม่ในการสร้างคู่ข้อมูลภาพ-ข้อความคุณภาพสูง โดยใช้ทั้งตัวโมเดลเองและ ChatGPT ร่วมกัน
- จากแนวทางนี้ ได้สร้างชุดข้อมูลคุณภาพสูงขนาดเล็กจำนวนรวม 3,500 คู่
- ในขั้นตอน fine-tuning ครั้งที่ 2 ได้นำชุดข้อมูลขนาดเล็กนี้มาฝึกด้วยเทมเพลตเชิงสนทนา เพื่อเพิ่มความน่าเชื่อถือในการสร้างผลลัพธ์และปรับปรุงการใช้งานโดยรวม
- น่าทึ่งที่ขั้นตอนนี้มีประสิทธิภาพด้านการคำนวณสูง และใช้เวลาเพียง 7 นาทีบน A100 เพียงตัวเดียว

MiniGPT-4: ยกระดับความเข้าใจด้านวิสัยทัศน์-ภาษาโดยใช้ LLM ขั้นสูง

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น