- FLUX.1 Kontext จาก Black Forest Labs เป็นโมเดล AI สร้างสรรค์รุ่นใหม่ที่ รับข้อความและภาพเป็นอินพุตพร้อมกัน เพื่อทำความเข้าใจบริบท และสามารถ แก้ไขหรือสร้างได้ทันที โดยยังคงลักษณะและสไตล์ของภาพเดิมไว้
- เมื่อเทียบกับอัลกอริทึมสร้างภาพจากข้อความแบบเดิม โมเดลนี้แสดงประสิทธิภาพที่เหนือกว่าในด้าน ความสม่ำเสมอของตัวอักษรและวัตถุ, การแก้ไขเฉพาะจุด, การอ้างอิงสไตล์ และ การตอบสนองความเร็วสูง
- ผู้ใช้สามารถป้อนเฉพาะข้อความ หรือผสานภาพกับข้อความเพื่อเปลี่ยนเฉพาะบางส่วน ใช้เฉพาะสไตล์ หรือทำการแก้ไขหลายขั้นตอนได้ ทำให้รองรับ งานภาพแบบโต้ตอบ ได้หลากหลาย
- FLUX.1 Kontext [pro] รักษาความสม่ำเสมอของภาพได้แม้ผ่านการแก้ไขหลายครั้ง และทำงานด้วยความเร็วระดับแนวหน้าของอุตสาหกรรม
- โมเดลโอเพนซอร์สเวอร์ชัน [dev] เป็น diffusion transformer แบบเบา 12B ที่เปิดให้ใช้งานใน private beta สำหรับงานวิจัยและการคัสตอม
แนะนำ FLUX.1 Kontext
- FLUX.1 Kontext ก้าวข้ามข้อจำกัดของโมเดลเดิมที่สร้างภาพได้จากข้อความเท่านั้น โดย รับข้อความและภาพร่วมกัน เพื่อให้สามารถ สร้างและแก้ไขภาพตามบริบท ได้ ด้วยโมเดลสร้างสรรค์แบบ flow matching
- สามารถใช้ text prompt และภาพพร้อมกันเพื่อ ลบ/เพิ่ม/เปลี่ยน องค์ประกอบบางอย่างในภาพ และสร้างฉากใหม่โดยยังคงสไตล์หรือลักษณะเดิมไว้
ฟีเจอร์หลัก
- ความสม่ำเสมอของตัวละคร: บุคคล วัตถุ และสไตล์เดิมยังคงความสม่ำเสมอได้แม้อยู่ในฉากและสภาพแวดล้อมที่หลากหลาย
- การแก้ไขเฉพาะจุด: แก้ไขเฉพาะบางส่วนของภาพด้วยคำสั่งข้อความได้ (เช่น ลบองค์ประกอบบางอย่างบนใบหน้า เปลี่ยนเฉพาะตัวอักษร เป็นต้น)
- การอ้างอิงสไตล์: นำสไตล์อันโดดเด่นจากภาพอ้างอิงไปใช้กับฉากใหม่ได้
- ความเร็วระดับอินเทอร์แอกทีฟ: รองรับการแก้ไขและสร้างแบบเรียลไทม์ ด้วยความเร็วในการอนุมานสูงสุดมากกว่าโมเดลเดิมถึง 8 เท่า
การรวมการแก้ไขแบบข้อความสู่ภาพและภาพสู่ภาพ
- FLUX.1 Kontext ไม่ได้รองรับเพียงการแก้ไขครั้งเดียว แต่ยังรักษาคุณภาพและลักษณะของภาพไว้ได้แม้มี คำสั่งซ้ำหลายขั้นตอน
- สามารถใช้ prompt และผลลัพธ์ภาพก่อนหน้าอย่างต่อเนื่อง เพื่อค่อยๆ ไปถึงผลลัพธ์ที่ต้องการทีละขั้น
ไลน์อัปโมเดล FLUX.1 Kontext
- FLUX.1 Kontext [pro]
- โมเดลเรือธงที่ออกแบบมาสำหรับการแก้ไขและสร้างแบบวนซ้ำอย่างรวดเร็ว
- รับทั้งข้อความและภาพอ้างอิงพร้อมกัน เพื่อทำ การแก้ไขพื้นที่เป้าหมาย และ การแปลงฉากที่ซับซ้อน ได้อย่างรวดเร็วและสม่ำเสมอ
- FLUX.1 Kontext [max]
- โมเดลสเปกสูงสุดเชิงทดลอง ที่ยกระดับความเข้าใจ prompt ความสามารถด้านตัวอักษร และการแก้ไขแบบสม่ำเสมอความเร็วสูง
- FLUX.1 Kontext [dev]
- โมเดลแบบเบา (12B) สำหรับงานวิจัยและการคัสตอม เปิดให้ใช้งานใน private beta
- เมื่อเปิดใช้งานจะให้บริการผ่านพาร์ตเนอร์โครงสร้างพื้นฐาน AI หลัก เช่น FAL, Replicate, Runware, DataCrunch, TogetherAI และ HuggingFace
การรองรับและการเข้าถึง
- ซีรีส์ FLUX.1 Kontext สามารถใช้งานได้บนบริการต่างๆ เช่น KreaAI, Freepik, Lightricks, OpenArt, LeonardoAI และบนโครงสร้างพื้นฐานอย่าง FAL, Replicate, Runware, DataCrunch, TogetherAI, ComfyOrg
- ผ่าน FLUX Playground (https://playground.bfl.ai/) สำหรับการทดลองใช้งานและเดโมแบบเรียลไทม์ ผู้ใช้สามารถตรวจสอบประสิทธิภาพของโมเดลและดูผลลัพธ์ได้ง่ายโดยไม่ต้องทำอินทิเกรชันเพิ่มเติม
การประเมินประสิทธิภาพ
- มีการประเมินเปรียบเทียบกับโมเดลระดับ SOTA ใน 6 งานสร้างและแก้ไขภาพ บนเบนช์มาร์กภายในชื่อ KontextBench
- ทำคะแนนได้ในระดับแนวหน้าของอุตสาหกรรมในด้าน การแก้ไขข้อความ และ การคงตัวละคร
- ความเร็วในการอนุมาน ก็ทำได้โดดเด่นเช่นกัน โดยมี latency ต่ำกว่ารุ่นประสิทธิภาพสูงเดิมอย่างชัดเจน
- ยังพิสูจน์ความสามารถในการแข่งขันได้ในหลายเกณฑ์ เช่น ความสวยงาม ความเข้าใจ prompt การจัดวางตัวอักษร และความสมจริง
ข้อจำกัดและโจทย์ในอนาคต
- หากมีการแก้ไขซ้ำหลายขั้นตอน (มากกว่า 6 ครั้ง) อาจเกิด visual noise (artifact) ทำให้คุณภาพของภาพลดลง
- บางครั้งอาจไม่สามารถทำตามคำสั่งรายละเอียดของ prompt บางประเภทได้อย่างแม่นยำ
- ยังมีข้อจำกัดด้านความรู้เกี่ยวกับโลกและความเข้าใจบริบท ทำให้อาจสร้างภาพที่ไม่ถูกต้องตามบริบท
- ในกระบวนการทำให้โมเดลมีขนาดเบาและ distillation คุณภาพของภาพอาจลดลงได้
1 ความคิดเห็น
ความเห็นบน Hacker News
ลองใช้เองแล้วเจออาการ "context slip" แบบน่าสนใจอยู่ ภาพที่เกี่ยวข้อง โดยสร้างภาพจากพรอมต์เป็นยานอวกาศลงจอดบนดาวเคราะห์อันห่างไกล แล้วขอแก้ไขว่า "ทำให้ยานอวกาศมีสีสันมากขึ้นและแสดงให้ใหญ่ขึ้นในภาพ" สุดท้ายยานอวกาศกลับกลายเป็นเรือคอนเทนเนอร์ ทั้งที่ประวัติแชตยังอยู่ จึงควรเข้าใจได้ว่าฉันต้องการยานอวกาศ แต่กลับพลาดบริบทสำคัญ ทำให้ผลลัพธ์ออกมาเพี้ยน
ตอนนี้กำลังทดสอบด้วย FLUX Kontext Pro endpoint ของ Replicate โดยตรง และยังมีแอป Replicate ที่โชว์วิธีใช้งานการแก้ไขภาพหลากหลายแบบของ FLUX Kontext ด้วย FLUX Kontext Apps คุณภาพภาพในกรณีสร้างแบบ image-to-image ธรรมดาอยู่ในระดับใกล้เคียงกับการสร้างภาพของ GPT-4o และความเร็วในการสร้างก็ถือว่าไวประมาณ 4 วินาที ส่วน prompt engineering รู้สึกว่ายังค่อนข้างจุกจิกนอกจากตัวอย่างที่ให้มา แต่คิดว่าน่าจะดีขึ้นเรื่อย ๆ การเปลี่ยนสไตล์หรือคำขอรายละเอียดก็ทำได้ แต่ยิ่งสั่งละเอียดมาก กลับยิ่งมีแนวโน้มจะเมินข้อกำหนดปลีกย่อย
รู้สึกว่าบางตัวอย่างคัดมาแต่ผลลัพธ์ที่ดีเกินไป มีใครลองแอปโปรเฟสชันนัลเฮดช็อตใน Kontext Apps ไหม? ฉันลองใส่รูปตัวเองหลายรูปแล้ว แต่ทุกครั้งออกมากลายเป็นคนละคนไปเลย ส่วนเฮดช็อตสุดท้ายก็ดูโปรจริง
กำลังคิดว่าจะเพิ่มโมเดล FLUX Kontext ลงในเว็บไซต์เปรียบเทียบภาพ GenAI ของตัวเองดีไหม รุ่น Max ได้คะแนนด้านความตรงตามพรอมต์สูงกว่าเกือบ 2 เท่า แต่ก็ยังตามหลัง OpenAI gpt-image-1 อยู่มาก (ไม่นับเรื่องคุณภาพภาพ) โดย gpt-image-1 อยู่อันดับ 1 ของลีดเดอร์บอร์ด ส่วน Flux 1.D ยังเก็บไว้เป็น baseline สำหรับความสามารถ GenAI แบบรันโลคัล เว็บไซต์เปรียบเทียบ เพิ่งเพิ่มโมเดล Hunyuan Image 2.0 ไปไม่นานนี้ แต่ตามสไตล์โมเดลเรียลไทม์ คะแนนจึงออกมาต่ำ อนึ่ง โมเดลของ Black Forest Labs ตัวนี้ดูจะเน้นการแก้ไขและปรับภาพเดิมแบบวนซ้ำ มากกว่าจะเน้น text-to-image
สงสัยว่าภาพ input จำกัดแค่ภาพเดียวหรือไม่ อยากลองใส่หลายภาพแล้วใช้พรอมต์ผสม เช่น "เอาไอเท็มจากภาพ A ไปวางในภาพ B" หรือ "เอาคาแรกเตอร์ A ไปใส่ในฉาก B"
สำหรับคนที่อยากอ่านรายละเอียดเชิงเทคนิค ขอแชร์ รายงานอย่างเป็นทางการ
ถ้าจะปรับแต่งหรือฝึกมันเองบนเครื่องโลคัล ต้องมีความเชี่ยวชาญระดับไหน? ฉันใช้ RTX 4090 บน Windows และลองไล่ทำ LoRA tuning กับ Flux 1 dev เองมา 2 วันแล้วแต่ยังไม่สำเร็จ เลยสงสัยว่าต้องลงลึกแค่ไหน อุปสรรคในการเริ่มต้นต่ำไหม มือใหม่ทำได้หรือเหมาะกับคนมีประสบการณ์เท่านั้น
ไม่ค่อยเข้าใจตัวอย่าง remove from face ถ้าไม่มีรูปหน้าอื่นอยู่แล้ว สุดท้ายมันก็แค่ใช้ภาพหน้าทั่วไปไม่ใช่หรือ?
มีคนถามว่ามันสร้างภาพหมากรุกได้ไหม ลิงก์คำทำนาย AI เรื่องหมากรุก
มีคอมเมนต์คาดเดาว่าเวอร์ชันนักพัฒนาแบบเปิดจะออกเมื่อไร ภายในสัปดาห์นี้หรืออาจต้องรออีกหนึ่งถึงสองเดือน