Qwen VLo - จากการ "เข้าใจ" โลกสู่การ "พรรณนา" โลก

(qwenlm.github.io)

1 คะแนน โดย GN⁺ 2025-06-29 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Qwen VLo เป็น โมเดลมัลติโหมดแบบรวมสำหรับการเข้าใจและการสร้าง ที่ไม่เพียงเข้าใจภาพ แต่ยังสร้างภาพคุณภาพสูงได้ด้วย
ผู้ใช้สามารถให้ คำสั่งเชิงสร้างสรรค์ ด้วยภาษาธรรมชาติ และสร้างหรือแก้ไขภาพได้โดยตรงหลากหลายรูปแบบ เช่น การแปลงสไตล์ การเปลี่ยนฉากหลัง
รองรับ หลายภาษา ทำให้ผู้ใช้ทั่วโลกใช้งานได้สะดวกโดยไม่มีอุปสรรคด้านภาษา
ใช้วิธีสร้างแบบค่อยเป็นค่อยไปที่ ปรับปรุงและเพิ่มประสิทธิภาพของภาพอย่างต่อเนื่อง เพื่อมอบคุณภาพด้านภาพที่ดีขึ้นและการควบคุมที่สูงขึ้น
ขณะนี้ยังอยู่ในขั้นพรีวิว จึงอาจมี ความไม่เสถียรของบางฟีเจอร์ อยู่บ้าง แต่กำลังปรับปรุงอย่างต่อเนื่อง

แนะนำ

ความก้าวหน้าของโมเดลขนาดใหญ่แบบมัลติโหมดกำลังผลักขยายขีดจำกัดของเทคโนโลยีอย่างต่อเนื่อง
ตั้งแต่ QwenVL จนถึง Qwen2.5 VL ได้มีการเสริมความสามารถในการเข้าใจเนื้อหาภาพมาโดยตลอด และตอนนี้ Qwen VLo ได้ปรากฏขึ้นในฐานะโมเดลมัลติโหมดรุ่นใหม่ที่ครอบคลุมทั้งการเข้าใจและการสร้าง
Qwen VLo ไม่ได้หยุดอยู่แค่การ "เข้าใจ" โลก แต่ยังสามารถ "สร้าง" ภาพอย่างละเอียดจากความเข้าใจนั้นได้อีกด้วย
โมเดลนี้เชื่อม เส้นแบ่งระหว่างการรับรู้และการสร้างสรรค์ เข้าด้วยกันอย่างเป็นรูปธรรม
ปัจจุบันเปิดให้ใช้งานในเวอร์ชันพรีวิวบน Qwen Chat โดยสามารถสร้างภาพด้วยคำสั่งอย่าง "สร้างภาพแมวน่ารัก" และหลังอัปโหลดภาพแล้วก็สามารถแก้ไขอย่าง "ใส่หมวกให้แมว" ได้เช่นกัน

กระบวนการสร้างสรรค์เชิงสร้างภาพ

ดังที่เห็นได้จากวิดีโอสาธิตการสร้างภาพของ Qwen VLo โมเดลนี้ใช้ วิธีการสร้างแบบค่อยเป็นค่อยไป
มันค่อย ๆ สร้างภาพจากมุมซ้ายบนไปยังมุมขวาล่าง พร้อมปรับการคาดการณ์ให้แม่นยำขึ้นอย่างต่อเนื่องเพื่อให้ได้ ผลลัพธ์ที่สอดคล้องและกลมกลืน
กลไกการสร้างนี้ช่วยยกระดับคุณภาพด้านภาพ และช่วยให้ผู้ใช้ควบคุมกระบวนการสร้างสรรค์ได้อย่างยืดหยุ่นและละเอียดมากขึ้น

จากความเข้าใจสู่ความคิดสร้างสรรค์: ความสามารถด้านการสร้างมัลติโหมดที่ยกระดับขึ้น

จุดเสริมหลักของ Qwen VLo

การเข้าใจและถ่ายทอดเนื้อหาได้อย่างแม่นยำ
- โมเดลมัลติโหมดแบบเดิมมักเกิดปัญหาความหมายไม่สอดคล้องระหว่างการสร้าง เช่น จำรถผิดประเภทหรือทำให้โครงสร้างเดิมหายไป
- Qwen VLo มีความสามารถในการจับรายละเอียดที่ดีขึ้น และรักษา ความสอดคล้องเชิงความหมายในระดับสูง ได้
- ตัวอย่างเช่น หากขอให้เปลี่ยนสีของภาพรถ โมเดลจะคงรุ่นและโครงสร้างจริงของรถไว้ พร้อมเปลี่ยนเฉพาะสีอย่างเป็นธรรมชาติ ให้ผลลัพธ์ที่สมจริง
รองรับการแก้ไขตามคำสั่งแบบปลายเปิด
- ผู้ใช้สามารถป้อน คำสั่งเชิงสร้างสรรค์อย่างอิสระ ด้วยภาษาธรรมชาติได้ เช่น "เปลี่ยนภาพนี้ให้เป็นสไตล์ Van Gogh", "ให้เหมือนภาพถ่ายศตวรรษที่ 19", หรือ "เพิ่มท้องฟ้าแจ่มใส"
- ไม่เพียงรองรับการแปลงสไตล์ การจัดองค์ประกอบฉากใหม่ และการแก้ไขรายละเอียดเท่านั้น แต่ยังรองรับงานวิชันแบบดั้งเดิมของดีปเลิร์นนิงอย่าง depth map, segmentation, edge estimation ได้ด้วยคำสั่งง่าย ๆ
- แม้แต่คำสั่งซับซ้อน เช่น แก้วัตถุ + แก้ข้อความ + เปลี่ยนฉากหลัง ก็ทำได้ในครั้งเดียว
รองรับคำสั่งหลายภาษา
- Qwen VLo รองรับการสั่งงานด้วยภาษาหลากหลาย เช่น ภาษาจีน ภาษาอังกฤษ เป็นต้น
- มอบความสะดวกในการใช้งานระดับโลกโดยไม่มีอุปสรรคด้านภาษา

กรณีใช้งานเดโม

Qwen VLo ทำให้จินตนาการเป็นจริงได้จาก ความเข้าใจเช่นเดียวกับศิลปินมนุษย์ โดยสามารถเปลี่ยนฉากหลัง เพิ่มวัตถุ เปลี่ยนสไตล์ รวมถึงรองรับการแก้ไขขนาดใหญ่และงานตรวจจับ/แบ่งส่วนตามคำสั่งแบบปลายเปิด

โดยเฉพาะฟังก์ชันสร้างใหม่จากความเข้าใจ รองรับการแปลงสไตล์สร้างสรรค์ได้กว้าง เช่น การ์ตูน→ภาพจริง, บุคคลเฉพาะ→ลูกโป่ง

ด้วยความสามารถขั้นสูงในการตีความภาพและคำสั่ง โมเดลจึงทำคำสั่งซับซ้อนหลายอย่างได้ในครั้งเดียว เช่น การทำโปสเตอร์ การรวมหลายออบเจ็กต์ และ ทำงานหลายขั้นตอนให้เสร็จในคราวเดียว

นอกจากนี้ Qwen VLo ยังรองรับ ฟังก์ชันใส่คำอธิบายประกอบ/ทำเครื่องหมายบนข้อมูลเดิม เช่น การตรวจจับ การแบ่งส่วน และ edge detection

กำลังเตรียมความสามารถในการประมวลผลอินพุตหลายภาพไว้ด้วย (จะเปิดตัวอย่างเป็นทางการในอนาคต)
รองรับไม่เพียงอินพุตแบบข้อความ+ภาพ แต่ยังรองรับ การสร้างข้อความ→ภาพ (ภาพทั่วไป, โปสเตอร์ที่ผสมภาษาจีน-อังกฤษ ฯลฯ)
รองรับการสร้างภาพในสัดส่วนแนวนอน/แนวตั้งที่ยาวมาก (สูงสุด 4:1, 1:3 เป็นต้น) (จะเปิดตัวอย่างเป็นทางการ)
โมเดลสามารถทำความเข้าใจ/วิเคราะห์ภาพที่ตนเองสร้างขึ้นอีกครั้ง เพื่อทำงานอย่าง จำแนกสายพันธุ์สุนัขและแมว ได้ด้วย

วิธีใช้งาน

Qwen VLo ใช้ การเรียนรู้และการสร้างแบบความละเอียดไดนามิก ทำให้สามารถใช้ ความละเอียดและอัตราส่วนของภาพอินพุต/เอาต์พุตได้อย่างอิสระ ผู้ใช้จึงสร้างภาพขนาดตามต้องการได้โดยไม่ยึดติดกับฟอร์แมตคงที่ เช่น โปสเตอร์ ภาพประกอบ เว็บแบนเนอร์ หรือหน้าปกโซเชียลมีเดีย

กลไกการสร้าง: การสร้างแบบค่อยเป็นค่อยไปจากซ้ายบน→ขวาล่าง (Progressive generation)
สำหรับงานที่ต้องการการควบคุมอย่างละเอียด เช่น โฆษณาหรือช่องการ์ตูนที่มีข้อความยาว สามารถปรับละเอียดระหว่างกระบวนการได้แบบเรียลไทม์

ข้อจำกัด

Qwen VLo ยังอยู่ใน ขั้นพรีวิว จึงยังมีข้อบกพร่องบางประการ ระหว่างการสร้างอาจเกิด ความแม่นยำไม่เพียงพอ ความไม่ตรงกับต้นฉบับ การไม่ทำตามคำสั่ง หรือความไม่เสถียรในการเข้าใจภาพ ได้ ขณะนี้กำลังมีการปรับปรุงและอัปเดตเสถียรภาพอย่างต่อเนื่อง

ขั้นถัดไป

เมื่อโมเดลขนาดใหญ่แบบมัลติโหมดมี อินพุตและเอาต์พุตแบบข้อความ-วิชันสองทิศทาง ก็จะเปิดทางให้เกิดรูปแบบใหม่ของการแสดงออกและการปฏิสัมพันธ์
ในอนาคต โมเดลจะไม่ได้สื่อสารด้วยคำตอบข้อความเท่านั้น แต่ยังสามารถถ่ายทอดแนวคิดผ่าน ไดอะแกรม เส้นช่วย เน้นไฮไลต์ และคอนเทนต์เชิงภาพอื่น ๆ ได้

ความสามารถด้านการสร้าง ที่พัฒนาขึ้นจะถูกนำไปใช้ตรวจสอบและปรับปรุงความเข้าใจของตัวโมเดลเองด้วย
ตัวอย่างเช่น มันสามารถพิสูจน์และเสริมความเข้าใจของตนเองได้ด้วยการ สร้างผลลัพธ์ขั้นกลางโดยตรง เช่น segmentation map และ detection map
กำลังสำรวจทิศทางการวิจัยนี้อย่างต่อเนื่อง

1 ความคิดเห็น

GN⁺ 2025-06-29

ความคิดเห็นจาก Hacker News

รู้สึกเสียดายที่ Qwen ไม่ปล่อย open weights เพราะที่ผ่านมาหนึ่งในจุดแข็งที่สุดของ Qwen ก็คือกลยุทธ์ open weights อยากเห็นโมเดล open weights ของจริงที่แข่งขันกับการสร้างภาพอัตโนมัติของ 4o ได้ มีทิศทางงานวิจัยสนุก ๆ หลายอย่างที่ทำได้ก็ต่อเมื่อต้องเข้าถึง weights โดยตรง ถ้าปัญหาคือการคืนทุนค่าใช้จ่ายในการพัฒนา ก็แนะนำให้ดูโมเดล Flux Kontext Dev ของ BFL เป็นตัวอย่าง มีแนวทางคือเปิด weights ให้ฟรีสำหรับนักวิจัยและบุคคลทั่วไป แล้วให้สตาร์ตอัปซื้อไลเซนส์เชิงพาณิชย์ในราคาที่เหมาะสม
- ภาพของ Qwen ดูออกชัดเลยว่าฝึกจากผลงานของ OpenAI แค่ดูจากโทนแสงส้มในภาพก็รู้แล้ว (ตัวอย่าง1, ตัวอย่าง2, ตัวอย่าง3) สงสัยว่าเคยพยายามเก็บข้อมูลของตัวเองบ้างหรือเปล่า สุดท้ายก็แค่เดินตาม OAI แบบตรง ๆ แล้วซ่อนทุกอย่างไว้หลัง API ไม่เพียงปิดเหมือน OAI แต่ประสิทธิภาพก็ยังด้อยกว่าอีก เลยรู้สึกว่าเข้าใจกลยุทธ์แบบนี้ได้ยาก
- ถ้าพูดถึง open weights แต่ในขณะเดียวกันก็เสนอให้มี weights แยกสำหรับนักวิจัย/บุคคลทั่วไป และให้สตาร์ตอัปซื้อไลเซนส์เชิงพาณิชย์ ก็รู้สึกว่ามันห่างไกลจาก open weights ของจริงมาก ความเป็น "โอเพน" ที่แท้จริงควรมีอิสระแบบ "โอเพนซอร์ส" ที่จะนำไปใช้ได้ตามต้องการ ไม่อย่างนั้นคำว่าโอเพนอาจสูญเสียความหมายไป
- ไม่คิดว่าจะสามารถคืนทุนจากเงินลงทุนระดับหลายสิบล้านดอลลาร์ ค่า GPU และค่าแรงวิศวกร ได้ด้วยค่าบริการสร้างภาพเพียงอย่างเดียว
- เหมือนยุค open weights จากจีนสิ้นสุดลงอย่างกะทันหัน Alibaba หยุดปล่อย Qwen, Tencent ก็หยุดปล่อย Hunyuan และ Bytedance ก็ปิด Seedream ขณะที่การฝึกบนโมเดลตะวันตกก็ยังชัดเจนเหมือนเดิม กลับคิดว่าการเปิด 100% แล้วหารายได้จาก infrastructure และบริการน่าจะเป็นกลยุทธ์ที่ฉลาดกว่า
ก่อนส่งภาพเข้า language model ภาพจะถูกบีบอัดเหลือ 256 โทเค็น เช่น ถ้าขอให้เพิ่มหมวก ก็จะวาดหน้าใหม่ทั้งหน้า ออบเจ็กต์แต่ละชิ้นไม่ได้ถูกเก็บแยกกัน และตัวละครหมีเองก็มีอยู่แค่ชั่วคราว มันถูกเก็บใน latent space แบบหลอมรวมเดียว แล้วสุ่มใหม่ภายใต้เงื่อนไขใหม่ พอแก้ prompt แค่นิดเดียว ภาพทั้งภาพก็เปลี่ยนหมด พูดอีกแบบคือมันสร้างฉากใหม่ทุกครั้ง ซึ่งก็ดูเหมาะกับการใช้งานได้หลากหลาย
- ใน Flux Kontext รายละเอียดค่อนข้างคงอยู่ดีเหมือน multimodal model ตรงนี้เลยชอบ ส่วน GPT-Image-1 เหมาะกับการเปลี่ยนสไตล์ทั้งภาพแบบ "ทำให้เป็นสไตล์จิบลิ" แต่ถ้าเป็นการแก้แบบละเอียดอย่างเพิ่มแว่นให้ภาพ photorealistic จะรักษารายละเอียดได้ไม่ค่อยดี
ดูตัวอย่างการแก้ไขภาพหมีแล้วพบว่ามีหลายส่วนเปลี่ยนมากกว่าที่ขอ ขอให้เปลี่ยนแค่ฉากหลังก็กลายเป็นว่าตัวหมีเปลี่ยนไปมาก หรือพอบอกให้เปลี่ยนหมีเป็นลูกโป่ง พื้นหลังอย่างแผ่นทางเท้าก็หายไป หรือเมล็ดแตงโมก็หายด้วย มีการเปลี่ยนแปลก ๆ ที่ไม่เกี่ยวข้องออกมาด้วย เลยสงสัยว่านี่เป็นปัญหาที่แก้ได้ด้วยการเขียน prompt ให้ดีขึ้น หรือเป็นข้อจำกัดของสถาปัตยกรรมโมเดลกันแน่
- เป็นทั้งสองอย่าง ถ้า optimize prompt ผลลัพธ์อาจดีขึ้นได้บ้าง แต่ต้นตอจริง ๆ คือข้อจำกัดของสถาปัตยกรรมและวิธีฝึกของโมเดล หรือก็คือข้อจำกัดของ architecture และ methodology
ลองสร้างภาพนกกระทุงขี่จักรยาน และลองสร้างภาพแอคคอร์เดียนด้วย จุดอ่อนอยู่ที่รายละเอียดเล็ก ๆ เช่นนิ้วมือหรือสีดำของคีย์ต่าง ๆ ที่แสดงผิด แต่ความเร็วในการสร้างถือว่าค่อนข้างเร็ว ลิงก์ตัวอย่าง
- ดูเหมือนจะพลาดประเด็นสำคัญของ Simon test ที่อยู่ตรงฟอร์แมต SVG งานภาพนกกระทุงขี่จักรยานนั้นเป็นโจทย์ที่ Stable Diffusion 2/3 แก้ได้ง่ายมาตั้งแต่หลังยุคนั้นแล้ว ความท้าทายคือใน SVG ไม่ใช่ภาพพิกเซล เพราะต้องการทั้งการให้เหตุผลเชิงตรรกะและความแม่นยำ
ในตัวอย่างการเปลี่ยนภาพ เช่นการแก้ไขหรือเปลี่ยนสไตล์ สังเกตเห็นโทนเหลืองอ่อน ๆ แฝงอยู่ ซึ่ง GPT Image 1 ก็เป็น แต่ Flux Kontext ไม่มี เลยสงสัยว่าเกิดจากอะไร
ทุกภาพให้ความรู้สึก uncanny valley สีและเงาดูแปลกไปหมด
- ผลลัพธ์โดยรวมดูหยาบ ๆ ถ้าไม่ใช่งานวิจัยก็ยากจะนึกถึงกรณีใช้งานจริงสำหรับภาพแบบนี้
ในฐานะนักวิจัย machine learning และคนที่มีปริญญาฟิสิกส์ ผมไม่สบายใจกับการใช้คำว่า "เข้าใจ" หรือ "อธิบาย" กับโมเดลแบบนี้ เพราะมันไม่ได้ช่วยอะไรจริงและกลับทำให้สับสน ในฟิสิกส์เราใช้คณิตศาสตร์เพื่อความแม่นยำ และการเขียนโค้ดก็เป็นสิ่งที่เฉพาะเจาะจงมาก เราได้รับอิทธิพลจากรายละเอียดนับไม่ถ้วนในชีวิต แต่โมเดลยังเก็บความละเอียดอ่อนแบบนั้นไม่ได้ อยากให้ไปอ่าน Asimov เรื่อง "Relativity of Wrong"(ลิงก์) จริง ๆ ถ้าจะบอกว่า "เข้าใจ" โมเดลควรสร้างผลลัพธ์ที่ไม่เคยได้ยินมาก่อน เช่น การค้นพบ/การอนุมาน/การนิยามแนวคิดใหม่ มนุษย์มีความคิดเชิงสวนทางข้อเท็จจริงโดยธรรมชาติ(ลิงก์) แต่โมเดล ML สมัยใหม่ไม่ใช่ กรณีอย่างจำนวนนิ้วผิดในภาพของ OP หรือการจัดวางปุ่มคีย์บอร์ดผิด เป็นตัวอย่างชัดเจน ภายนอกดูเหมือนสมจริง แต่ยิ่งจ้องก็ยิ่งเห็นความแปลก ซึ่งเป็นลักษณะ uncanny valley แบบ典型
- สำหรับคนที่ลงมือสร้างของจริง การถกเถียงแบบนี้อาจรู้สึกน่าเหนื่อยใจ แค่การอธิบายแนวคิด input และ output ให้เข้าใจง่ายก็มีคุณค่าเพียงพอแล้ว ถ้าอ่านเอกสารรีลีสจะเห็นว่าเดิม Qwen เป็น VLM สำหรับบทบาทอย่าง "การเข้าใจ/การระบุ/การรับรู้" และตอนนี้ความสามารถได้ขยายไปสู่ "การสร้าง/การบรรยาย/การวาด" ไม่จำเป็นต้องตีความเกินไปหรือมองเป็นวิกฤตอะไร
สงสัยว่าจะปิดฟังก์ชันอ่านออกเสียงอัตโนมัติได้อย่างไร อยากให้เวลาเข้าเว็บแล้วมันแค่อยู่เฉย ๆ จนกว่าจะกดเอง Firefox บน iOS เล่นวิดีโอเต็มจออัตโนมัติแล้วจู่ ๆ ก็เริ่มอ่านขึ้นมา
- การตั้งค่า > การตั้งค่าไซต์ > บล็อกการเล่นอัตโนมัติของเสียงและวิดีโอ ใน Android Firefox ทำได้ และบน iOS หรือเดสก์ท็อปก็น่าจะมีตัวเลือกคล้ายกัน รวมถึงสามารถบล็อกคำขอสิทธิ์แจ้งเตือนได้ทั้งหมด
สงสัยว่ามีรายงานทางเทคนิคเกี่ยวกับสถาปัตยกรรมการสร้างภาพแบบ 4o หรือไม่ และอยากรู้รายละเอียดของโมเดลอื่น ๆ ที่สร้างภาพด้วยวิธีคล้ายกันด้วย
โดยส่วนตัวคิดว่า machine learning พัฒนาไปได้ไกลกว่ามากในด้าน "การบรรยาย" มากกว่า "การเข้าใจ"
- อยากรู้ว่าพื้นฐานของความคิดที่ว่ามนุษย์เข้าใจโลกได้ดีกว่าคืออะไร มนุษย์มีปฏิกิริยาทางอารมณ์ต่อโลกมากก็จริง แต่ตัวอารมณ์เองไม่ได้ทำให้เกิดความเข้าใจ คำว่า "เข้าใจ" เองก็จริง ๆ เป็นเกณฑ์ที่ค่อนข้างอัตวิสัยมาก