Qwen VLo - จากการ "เข้าใจ" โลกสู่การ "พรรณนา" โลก
(qwenlm.github.io)- Qwen VLo เป็น โมเดลมัลติโหมดแบบรวมสำหรับการเข้าใจและการสร้าง ที่ไม่เพียงเข้าใจภาพ แต่ยังสร้างภาพคุณภาพสูงได้ด้วย
- ผู้ใช้สามารถให้ คำสั่งเชิงสร้างสรรค์ ด้วยภาษาธรรมชาติ และสร้างหรือแก้ไขภาพได้โดยตรงหลากหลายรูปแบบ เช่น การแปลงสไตล์ การเปลี่ยนฉากหลัง
- รองรับ หลายภาษา ทำให้ผู้ใช้ทั่วโลกใช้งานได้สะดวกโดยไม่มีอุปสรรคด้านภาษา
- ใช้วิธีสร้างแบบค่อยเป็นค่อยไปที่ ปรับปรุงและเพิ่มประสิทธิภาพของภาพอย่างต่อเนื่อง เพื่อมอบคุณภาพด้านภาพที่ดีขึ้นและการควบคุมที่สูงขึ้น
- ขณะนี้ยังอยู่ในขั้นพรีวิว จึงอาจมี ความไม่เสถียรของบางฟีเจอร์ อยู่บ้าง แต่กำลังปรับปรุงอย่างต่อเนื่อง
แนะนำ
- ความก้าวหน้าของโมเดลขนาดใหญ่แบบมัลติโหมดกำลังผลักขยายขีดจำกัดของเทคโนโลยีอย่างต่อเนื่อง
- ตั้งแต่ QwenVL จนถึง Qwen2.5 VL ได้มีการเสริมความสามารถในการเข้าใจเนื้อหาภาพมาโดยตลอด และตอนนี้ Qwen VLo ได้ปรากฏขึ้นในฐานะโมเดลมัลติโหมดรุ่นใหม่ที่ครอบคลุมทั้งการเข้าใจและการสร้าง
- Qwen VLo ไม่ได้หยุดอยู่แค่การ "เข้าใจ" โลก แต่ยังสามารถ "สร้าง" ภาพอย่างละเอียดจากความเข้าใจนั้นได้อีกด้วย
- โมเดลนี้เชื่อม เส้นแบ่งระหว่างการรับรู้และการสร้างสรรค์ เข้าด้วยกันอย่างเป็นรูปธรรม
- ปัจจุบันเปิดให้ใช้งานในเวอร์ชันพรีวิวบน Qwen Chat โดยสามารถสร้างภาพด้วยคำสั่งอย่าง "สร้างภาพแมวน่ารัก" และหลังอัปโหลดภาพแล้วก็สามารถแก้ไขอย่าง "ใส่หมวกให้แมว" ได้เช่นกัน
กระบวนการสร้างสรรค์เชิงสร้างภาพ
- ดังที่เห็นได้จากวิดีโอสาธิตการสร้างภาพของ Qwen VLo โมเดลนี้ใช้ วิธีการสร้างแบบค่อยเป็นค่อยไป
- มันค่อย ๆ สร้างภาพจากมุมซ้ายบนไปยังมุมขวาล่าง พร้อมปรับการคาดการณ์ให้แม่นยำขึ้นอย่างต่อเนื่องเพื่อให้ได้ ผลลัพธ์ที่สอดคล้องและกลมกลืน
- กลไกการสร้างนี้ช่วยยกระดับคุณภาพด้านภาพ และช่วยให้ผู้ใช้ควบคุมกระบวนการสร้างสรรค์ได้อย่างยืดหยุ่นและละเอียดมากขึ้น
จากความเข้าใจสู่ความคิดสร้างสรรค์: ความสามารถด้านการสร้างมัลติโหมดที่ยกระดับขึ้น
จุดเสริมหลักของ Qwen VLo
-
การเข้าใจและถ่ายทอดเนื้อหาได้อย่างแม่นยำ
- โมเดลมัลติโหมดแบบเดิมมักเกิดปัญหาความหมายไม่สอดคล้องระหว่างการสร้าง เช่น จำรถผิดประเภทหรือทำให้โครงสร้างเดิมหายไป
- Qwen VLo มีความสามารถในการจับรายละเอียดที่ดีขึ้น และรักษา ความสอดคล้องเชิงความหมายในระดับสูง ได้
- ตัวอย่างเช่น หากขอให้เปลี่ยนสีของภาพรถ โมเดลจะคงรุ่นและโครงสร้างจริงของรถไว้ พร้อมเปลี่ยนเฉพาะสีอย่างเป็นธรรมชาติ ให้ผลลัพธ์ที่สมจริง
-
รองรับการแก้ไขตามคำสั่งแบบปลายเปิด
- ผู้ใช้สามารถป้อน คำสั่งเชิงสร้างสรรค์อย่างอิสระ ด้วยภาษาธรรมชาติได้ เช่น "เปลี่ยนภาพนี้ให้เป็นสไตล์ Van Gogh", "ให้เหมือนภาพถ่ายศตวรรษที่ 19", หรือ "เพิ่มท้องฟ้าแจ่มใส"
- ไม่เพียงรองรับการแปลงสไตล์ การจัดองค์ประกอบฉากใหม่ และการแก้ไขรายละเอียดเท่านั้น แต่ยังรองรับงานวิชันแบบดั้งเดิมของดีปเลิร์นนิงอย่าง depth map, segmentation, edge estimation ได้ด้วยคำสั่งง่าย ๆ
- แม้แต่คำสั่งซับซ้อน เช่น แก้วัตถุ + แก้ข้อความ + เปลี่ยนฉากหลัง ก็ทำได้ในครั้งเดียว
-
รองรับคำสั่งหลายภาษา
- Qwen VLo รองรับการสั่งงานด้วยภาษาหลากหลาย เช่น ภาษาจีน ภาษาอังกฤษ เป็นต้น
- มอบความสะดวกในการใช้งานระดับโลกโดยไม่มีอุปสรรคด้านภาษา
กรณีใช้งานเดโม
Qwen VLo ทำให้จินตนาการเป็นจริงได้จาก ความเข้าใจเช่นเดียวกับศิลปินมนุษย์ โดยสามารถเปลี่ยนฉากหลัง เพิ่มวัตถุ เปลี่ยนสไตล์ รวมถึงรองรับการแก้ไขขนาดใหญ่และงานตรวจจับ/แบ่งส่วนตามคำสั่งแบบปลายเปิด
โดยเฉพาะฟังก์ชันสร้างใหม่จากความเข้าใจ รองรับการแปลงสไตล์สร้างสรรค์ได้กว้าง เช่น การ์ตูน→ภาพจริง, บุคคลเฉพาะ→ลูกโป่ง
- ด้วยความสามารถขั้นสูงในการตีความภาพและคำสั่ง โมเดลจึงทำคำสั่งซับซ้อนหลายอย่างได้ในครั้งเดียว เช่น การทำโปสเตอร์ การรวมหลายออบเจ็กต์ และ ทำงานหลายขั้นตอนให้เสร็จในคราวเดียว
นอกจากนี้ Qwen VLo ยังรองรับ ฟังก์ชันใส่คำอธิบายประกอบ/ทำเครื่องหมายบนข้อมูลเดิม เช่น การตรวจจับ การแบ่งส่วน และ edge detection
- กำลังเตรียมความสามารถในการประมวลผลอินพุตหลายภาพไว้ด้วย (จะเปิดตัวอย่างเป็นทางการในอนาคต)
- รองรับไม่เพียงอินพุตแบบข้อความ+ภาพ แต่ยังรองรับ การสร้างข้อความ→ภาพ (ภาพทั่วไป, โปสเตอร์ที่ผสมภาษาจีน-อังกฤษ ฯลฯ)
- รองรับการสร้างภาพในสัดส่วนแนวนอน/แนวตั้งที่ยาวมาก (สูงสุด 4:1, 1:3 เป็นต้น) (จะเปิดตัวอย่างเป็นทางการ)
- โมเดลสามารถทำความเข้าใจ/วิเคราะห์ภาพที่ตนเองสร้างขึ้นอีกครั้ง เพื่อทำงานอย่าง จำแนกสายพันธุ์สุนัขและแมว ได้ด้วย
วิธีใช้งาน
Qwen VLo ใช้ การเรียนรู้และการสร้างแบบความละเอียดไดนามิก ทำให้สามารถใช้ ความละเอียดและอัตราส่วนของภาพอินพุต/เอาต์พุตได้อย่างอิสระ ผู้ใช้จึงสร้างภาพขนาดตามต้องการได้โดยไม่ยึดติดกับฟอร์แมตคงที่ เช่น โปสเตอร์ ภาพประกอบ เว็บแบนเนอร์ หรือหน้าปกโซเชียลมีเดีย
- กลไกการสร้าง: การสร้างแบบค่อยเป็นค่อยไปจากซ้ายบน→ขวาล่าง (Progressive generation)
- สำหรับงานที่ต้องการการควบคุมอย่างละเอียด เช่น โฆษณาหรือช่องการ์ตูนที่มีข้อความยาว สามารถปรับละเอียดระหว่างกระบวนการได้แบบเรียลไทม์
ข้อจำกัด
Qwen VLo ยังอยู่ใน ขั้นพรีวิว จึงยังมีข้อบกพร่องบางประการ ระหว่างการสร้างอาจเกิด ความแม่นยำไม่เพียงพอ ความไม่ตรงกับต้นฉบับ การไม่ทำตามคำสั่ง หรือความไม่เสถียรในการเข้าใจภาพ ได้ ขณะนี้กำลังมีการปรับปรุงและอัปเดตเสถียรภาพอย่างต่อเนื่อง
ขั้นถัดไป
- เมื่อโมเดลขนาดใหญ่แบบมัลติโหมดมี อินพุตและเอาต์พุตแบบข้อความ-วิชันสองทิศทาง ก็จะเปิดทางให้เกิดรูปแบบใหม่ของการแสดงออกและการปฏิสัมพันธ์
- ในอนาคต โมเดลจะไม่ได้สื่อสารด้วยคำตอบข้อความเท่านั้น แต่ยังสามารถถ่ายทอดแนวคิดผ่าน ไดอะแกรม เส้นช่วย เน้นไฮไลต์ และคอนเทนต์เชิงภาพอื่น ๆ ได้
- ความสามารถด้านการสร้าง ที่พัฒนาขึ้นจะถูกนำไปใช้ตรวจสอบและปรับปรุงความเข้าใจของตัวโมเดลเองด้วย
- ตัวอย่างเช่น มันสามารถพิสูจน์และเสริมความเข้าใจของตนเองได้ด้วยการ สร้างผลลัพธ์ขั้นกลางโดยตรง เช่น segmentation map และ detection map
- กำลังสำรวจทิศทางการวิจัยนี้อย่างต่อเนื่อง
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
รู้สึกเสียดายที่ Qwen ไม่ปล่อย open weights เพราะที่ผ่านมาหนึ่งในจุดแข็งที่สุดของ Qwen ก็คือกลยุทธ์ open weights อยากเห็นโมเดล open weights ของจริงที่แข่งขันกับการสร้างภาพอัตโนมัติของ 4o ได้ มีทิศทางงานวิจัยสนุก ๆ หลายอย่างที่ทำได้ก็ต่อเมื่อต้องเข้าถึง weights โดยตรง ถ้าปัญหาคือการคืนทุนค่าใช้จ่ายในการพัฒนา ก็แนะนำให้ดูโมเดล Flux Kontext Dev ของ BFL เป็นตัวอย่าง มีแนวทางคือเปิด weights ให้ฟรีสำหรับนักวิจัยและบุคคลทั่วไป แล้วให้สตาร์ตอัปซื้อไลเซนส์เชิงพาณิชย์ในราคาที่เหมาะสม
ภาพของ Qwen ดูออกชัดเลยว่าฝึกจากผลงานของ OpenAI แค่ดูจากโทนแสงส้มในภาพก็รู้แล้ว (ตัวอย่าง1, ตัวอย่าง2, ตัวอย่าง3) สงสัยว่าเคยพยายามเก็บข้อมูลของตัวเองบ้างหรือเปล่า สุดท้ายก็แค่เดินตาม OAI แบบตรง ๆ แล้วซ่อนทุกอย่างไว้หลัง API ไม่เพียงปิดเหมือน OAI แต่ประสิทธิภาพก็ยังด้อยกว่าอีก เลยรู้สึกว่าเข้าใจกลยุทธ์แบบนี้ได้ยาก
ถ้าพูดถึง open weights แต่ในขณะเดียวกันก็เสนอให้มี weights แยกสำหรับนักวิจัย/บุคคลทั่วไป และให้สตาร์ตอัปซื้อไลเซนส์เชิงพาณิชย์ ก็รู้สึกว่ามันห่างไกลจาก open weights ของจริงมาก ความเป็น "โอเพน" ที่แท้จริงควรมีอิสระแบบ "โอเพนซอร์ส" ที่จะนำไปใช้ได้ตามต้องการ ไม่อย่างนั้นคำว่าโอเพนอาจสูญเสียความหมายไป
ไม่คิดว่าจะสามารถคืนทุนจากเงินลงทุนระดับหลายสิบล้านดอลลาร์ ค่า GPU และค่าแรงวิศวกร ได้ด้วยค่าบริการสร้างภาพเพียงอย่างเดียว
เหมือนยุค open weights จากจีนสิ้นสุดลงอย่างกะทันหัน Alibaba หยุดปล่อย Qwen, Tencent ก็หยุดปล่อย Hunyuan และ Bytedance ก็ปิด Seedream ขณะที่การฝึกบนโมเดลตะวันตกก็ยังชัดเจนเหมือนเดิม กลับคิดว่าการเปิด 100% แล้วหารายได้จาก infrastructure และบริการน่าจะเป็นกลยุทธ์ที่ฉลาดกว่า
ก่อนส่งภาพเข้า language model ภาพจะถูกบีบอัดเหลือ 256 โทเค็น เช่น ถ้าขอให้เพิ่มหมวก ก็จะวาดหน้าใหม่ทั้งหน้า ออบเจ็กต์แต่ละชิ้นไม่ได้ถูกเก็บแยกกัน และตัวละครหมีเองก็มีอยู่แค่ชั่วคราว มันถูกเก็บใน latent space แบบหลอมรวมเดียว แล้วสุ่มใหม่ภายใต้เงื่อนไขใหม่ พอแก้ prompt แค่นิดเดียว ภาพทั้งภาพก็เปลี่ยนหมด พูดอีกแบบคือมันสร้างฉากใหม่ทุกครั้ง ซึ่งก็ดูเหมาะกับการใช้งานได้หลากหลาย
ดูตัวอย่างการแก้ไขภาพหมีแล้วพบว่ามีหลายส่วนเปลี่ยนมากกว่าที่ขอ ขอให้เปลี่ยนแค่ฉากหลังก็กลายเป็นว่าตัวหมีเปลี่ยนไปมาก หรือพอบอกให้เปลี่ยนหมีเป็นลูกโป่ง พื้นหลังอย่างแผ่นทางเท้าก็หายไป หรือเมล็ดแตงโมก็หายด้วย มีการเปลี่ยนแปลก ๆ ที่ไม่เกี่ยวข้องออกมาด้วย เลยสงสัยว่านี่เป็นปัญหาที่แก้ได้ด้วยการเขียน prompt ให้ดีขึ้น หรือเป็นข้อจำกัดของสถาปัตยกรรมโมเดลกันแน่
ลองสร้างภาพนกกระทุงขี่จักรยาน และลองสร้างภาพแอคคอร์เดียนด้วย จุดอ่อนอยู่ที่รายละเอียดเล็ก ๆ เช่นนิ้วมือหรือสีดำของคีย์ต่าง ๆ ที่แสดงผิด แต่ความเร็วในการสร้างถือว่าค่อนข้างเร็ว ลิงก์ตัวอย่าง
ในตัวอย่างการเปลี่ยนภาพ เช่นการแก้ไขหรือเปลี่ยนสไตล์ สังเกตเห็นโทนเหลืองอ่อน ๆ แฝงอยู่ ซึ่ง GPT Image 1 ก็เป็น แต่ Flux Kontext ไม่มี เลยสงสัยว่าเกิดจากอะไร
ทุกภาพให้ความรู้สึก uncanny valley สีและเงาดูแปลกไปหมด
ในฐานะนักวิจัย machine learning และคนที่มีปริญญาฟิสิกส์ ผมไม่สบายใจกับการใช้คำว่า "เข้าใจ" หรือ "อธิบาย" กับโมเดลแบบนี้ เพราะมันไม่ได้ช่วยอะไรจริงและกลับทำให้สับสน ในฟิสิกส์เราใช้คณิตศาสตร์เพื่อความแม่นยำ และการเขียนโค้ดก็เป็นสิ่งที่เฉพาะเจาะจงมาก เราได้รับอิทธิพลจากรายละเอียดนับไม่ถ้วนในชีวิต แต่โมเดลยังเก็บความละเอียดอ่อนแบบนั้นไม่ได้ อยากให้ไปอ่าน Asimov เรื่อง "Relativity of Wrong"(ลิงก์) จริง ๆ ถ้าจะบอกว่า "เข้าใจ" โมเดลควรสร้างผลลัพธ์ที่ไม่เคยได้ยินมาก่อน เช่น การค้นพบ/การอนุมาน/การนิยามแนวคิดใหม่ มนุษย์มีความคิดเชิงสวนทางข้อเท็จจริงโดยธรรมชาติ(ลิงก์) แต่โมเดล ML สมัยใหม่ไม่ใช่ กรณีอย่างจำนวนนิ้วผิดในภาพของ OP หรือการจัดวางปุ่มคีย์บอร์ดผิด เป็นตัวอย่างชัดเจน ภายนอกดูเหมือนสมจริง แต่ยิ่งจ้องก็ยิ่งเห็นความแปลก ซึ่งเป็นลักษณะ uncanny valley แบบ典型
สงสัยว่าจะปิดฟังก์ชันอ่านออกเสียงอัตโนมัติได้อย่างไร อยากให้เวลาเข้าเว็บแล้วมันแค่อยู่เฉย ๆ จนกว่าจะกดเอง Firefox บน iOS เล่นวิดีโอเต็มจออัตโนมัติแล้วจู่ ๆ ก็เริ่มอ่านขึ้นมา
สงสัยว่ามีรายงานทางเทคนิคเกี่ยวกับสถาปัตยกรรมการสร้างภาพแบบ 4o หรือไม่ และอยากรู้รายละเอียดของโมเดลอื่น ๆ ที่สร้างภาพด้วยวิธีคล้ายกันด้วย
โดยส่วนตัวคิดว่า machine learning พัฒนาไปได้ไกลกว่ามากในด้าน "การบรรยาย" มากกว่า "การเข้าใจ"