- FLUX.2 เป็นโมเดลสร้างภาพคุณภาพสูงสำหรับ เวิร์กโฟลว์เชิงสร้างสรรค์ ในการใช้งานจริง โดยรักษา ความสม่ำเสมอของตัวละครและสไตล์ ระหว่างภาพอ้างอิงหลายภาพ พร้อมรองรับการจัดการข้อความและการปฏิบัติตามแนวทางแบรนด์
- สามารถแก้ไขภาพอย่างละเอียดได้ที่ความละเอียดสูงสุด 4 เมกะพิกเซล และควบคุมองค์ประกอบภาพ เช่น แสง เลย์เอาต์ และโลโก้ ได้อย่างเสถียร
- ผ่าน กลยุทธ์โอเพนคอร์ ที่ให้ทั้งโมเดลแบบเปิดน้ำหนักและ API ระดับโปรดักชันควบคู่กัน พร้อมยกระดับระบบนิเวศแบบเปิดที่สร้างไว้ใน FLUX.1 ไปสู่ยุค FLUX.2
- เพิ่มความสามารถสำคัญใหม่ ได้แก่ รองรับหลายภาพอ้างอิง, การเรนเดอร์ตัวอักษรอย่างประณีต, การประมวลผลพรอมป์ต์ที่ดีขึ้น, และ การสะท้อนความรู้จากโลกจริง
- ตระกูลโมเดลประกอบด้วย pro, flex, dev, klein, VAE และมีให้ใช้งานทั้งแบบโอเพนเวตและ API เชิงพาณิชย์
- Black Forest Labs มีเป้าหมายสู่ การพัฒนา visual intelligence แบบเปิด โดยผสานงานวิจัยแบบเปิดเข้ากับโครงสร้างพื้นฐานเชิงพาณิชย์
ภาพรวมของ FLUX.2
- FLUX.2 เป็นโมเดลสร้างภาพสำหรับ สภาพแวดล้อมการผลิตจริง ไม่ใช่เพียงเดโม
- รักษาความสม่ำเสมอของตัวละครและสไตล์จากภาพอ้างอิงหลายภาพ
- ปฏิบัติตามพรอมป์ต์แบบมีโครงสร้าง และสามารถอ่านและเขียนข้อความที่ซับซ้อนได้
- จัดการแนวทางแบรนด์ แสง เลย์เอาต์ และโลโก้ ได้อย่างเสถียร
- รองรับการแก้ไขภาพโดยคงรายละเอียดและความสม่ำเสมอไว้ได้ที่ความละเอียดสูงสุด 4MP
ปรัชญาโอเพนคอร์ของ Black Forest Labs
- เสนอหลักการว่า visual intelligence คือสิ่งที่ นักวิจัย ครีเอเตอร์ และนักพัฒนา ต้องร่วมกันผลักดันให้ก้าวหน้า
- ให้บริการควบคู่กันทั้ง โมเดลโอเพนเวต และ API endpoint ระดับเชิงพาณิชย์
- โมเดลเปิดช่วยส่งเสริมการทดลอง ลดต้นทุน และเพิ่มความโปร่งใส
- นับตั้งแต่ก่อตั้งในปี 2024 ได้วางรากฐานนวัตกรรมแบบเปิดผ่าน FLUX.1 [dev] และ FLUX.1 Kontext [pro]
- FLUX.1 [dev] ถูกกล่าวถึงว่าเป็นโมเดลภาพแบบเปิดที่ได้รับความนิยมมากที่สุดในโลก
- FLUX.1 Kontext [pro] ถูกใช้งานโดยทีมสำคัญอย่าง Adobe และ Meta
จาก FLUX.1 สู่ FLUX.2
- หาก FLUX.1 แสดงให้เห็นถึง ศักยภาพในฐานะเครื่องมือสร้างสรรค์ FLUX.2 จะมุ่งไปที่ การปฏิวัติเวอร์ก์โฟลว์การผลิต
- เสริมความสามารถด้าน ความแม่นยำ ประสิทธิภาพ การควบคุม และความสมจริง เพื่อยกระดับความคุ้มค่าทางเศรษฐศาสตร์ของการสร้างภาพอย่างมาก
- ผลลัพธ์คือมีแนวโน้มจะกลายเป็น องค์ประกอบแกนหลักของโครงสร้างพื้นฐานด้านความคิดสร้างสรรค์
ความสามารถหลัก (What’s New)
- รองรับหลายภาพอ้างอิง: อ้างอิงภาพพร้อมกันได้สูงสุด 10 ภาพ เพื่อคงความสม่ำเสมอของตัวละคร สินค้า และสไตล์
- รายละเอียดและความสมจริงที่สูงขึ้น: เหมาะกับภาพถ่ายสินค้า งานวิชวลไลซ์ และผลลัพธ์ระดับภาพถ่ายจริง
- การเรนเดอร์ข้อความที่ดีขึ้น: เพิ่มความอ่านง่ายในงานตัวอักษรซับซ้อน อินโฟกราฟิก และ UI mockup
- การประมวลผลพรอมป์ต์ที่แข็งแกร่งขึ้น: สะท้อนพรอมป์ต์หลายโครงสร้างและเงื่อนไขเชิงผสมได้อย่างแม่นยำ
- ขยายความรู้จากโลกจริง: สร้างฉากได้อย่างสม่ำเสมอบนพื้นฐานของตรรกะด้านแสงและพื้นที่
- การแก้ไขความละเอียดสูง: รองรับสัดส่วนอินพุตและเอาต์พุตที่ยืดหยุ่นที่ความละเอียดสูงสุด 4MP
ตระกูลผลิตภัณฑ์ FLUX.2
- FLUX.2 [pro]
- มีคุณภาพภาพ การทำตามพรอมป์ต์ และความเที่ยงตรงเชิงภาพที่สามารถแข่งขันกับโมเดลปิดระดับสูงสุดได้
- เด่นที่ความเร็วในการสร้างสูงและต้นทุนต่ำ พร้อมให้ใช้งานบน BFL Playground, API และแพลตฟอร์มพาร์ตเนอร์
- FLUX.2 [flex]
- เป็นโมเดลที่สามารถปรับพารามิเตอร์ เช่น จำนวนสเต็ปและ guidance scale ได้โดยตรง เพื่อเพิ่มประสิทธิภาพด้านคุณภาพ ความเร็ว และการเรนเดอร์ข้อความ
- เด่นเป็นพิเศษด้านการแสดงผลตัวอักษรอย่างแม่นยำ
- FLUX.2 [dev]
- โมเดลโอเพนเวต 32B ที่รองรับทั้ง text-to-image และการแก้ไขภาพจากหลายอินพุตในเช็กพอยต์เดียว และเป็นโมเดลสาธารณะที่ทรงพลังที่สุดในปัจจุบัน
- มีน้ำหนักโมเดลให้บน Hugging Face พร้อมการปรับแต่งประสิทธิภาพ FP8 ที่พัฒนาร่วมกับ NVIDIA และ ComfyUI
- ใช้งานผ่าน API ได้บน FAL, Replicate, Runware, Verda, TogetherAI, Cloudflare, DeepInfra และอื่น ๆ
- FLUX.2 [klein] (กำลังจะมา)
- โมเดลโอเพนซอร์สภายใต้ Apache 2.0 ซึ่งจะเปิดให้ใช้งานในรูปแบบขนาดเล็ก น้ำหนักเบา และประสิทธิภาพสูง ด้วยการกลั่นขนาดจาก FLUX.2
- FLUX.2 – VAE
- VAE ใหม่ที่ปรับสมดุลด้านความง่ายในการฝึก คุณภาพ และอัตราการบีบอัดอย่างเหมาะสม เป็นองค์ประกอบสำคัญของแบ็กโบน FLUX.2
- ให้บริการบน Hugging Face ภายใต้สัญญาอนุญาต Apache 2.0
ประสิทธิภาพและคุณค่า
- ตระกูลโมเดล FLUX.2 มอบ คุณภาพการสร้างภาพระดับล้ำสมัย ใน ราคาที่แข่งขันได้
- ในบรรดาโมเดลโอเพนเวต FLUX.2 [dev] ทำผลงานได้ เหนือกว่าทางเลือกแบบเปิดทั้งหมด ทั้งในงานสร้างข้อความเป็นภาพและการแก้ไขจากภาพอ้างอิงเดี่ยวหรือหลายภาพ
- ทุกโมเดลถูกจัดการทั้งก่อนและหลังการเปิดตัวตาม หลักการพัฒนาอย่างรับผิดชอบ
โครงสร้างทางเทคนิค (How It Works)
- ใช้สถาปัตยกรรม latent flow matching ที่รวมการสร้างและแก้ไขภาพไว้ในโครงสร้างเดียว
- ผสาน Mistral-3 24B vision-language model เข้ากับ Rectified Flow Transformer
- VLM มอบความรู้เกี่ยวกับโลกจริงและความเข้าใจบริบท
- Transformer จัดการความสัมพันธ์เชิงพื้นที่ คุณสมบัติของวัสดุ และตรรกะขององค์ประกอบ
- สามารถรวมภาพอ้างอิงได้สูงสุด 10 ภาพเพื่อสร้างผลลัพธ์ใหม่
- ฝึก latent space ของโมเดลใหม่เพื่อปรับปรุง โจทย์สามทาง (trilemma) ด้านความสามารถในการฝึก คุณภาพ และอัตราการบีบอัด
ข้อมูลเพิ่มเติม
ทิศทางในอนาคต (Into the New)
- FLUX.2 เป็นอีกก้าวสู่ โมเดลมัลติโหมดที่บูรณาการการรับรู้ การสร้าง ความจำ และการให้เหตุผล
- มีเป้าหมายเป็น เทคโนโลยีพื้นฐานของโครงสร้างพื้นฐาน visual intelligence ที่จะเปลี่ยนวิธีการรับรู้และทำความเข้าใจโลก
- ปัจจุบันกำลังรับสมัครบุคลากรใน Freiburg และซานฟรานซิสโก
1 ความคิดเห็น
ความเห็นจาก Hacker News
ช่วงนี้มีโมเดลใหม่ออกถี่เกินไป จนอัปเดต เว็บเปรียบเทียบ GenAI แทบให้ความรู้สึกเหมือนซิซิฟัส
ถึงอย่างนั้นก็ได้เพิ่มผลลัพธ์ของ โมเดล Flux 2 Pro Editing ตัวใหม่เข้าไปแล้ว
ดูได้ที่หน้าผลลัพธ์
โมเดลนี้ได้คะแนนสูงกว่า Kontext ของ BFL เล็กน้อย และได้ 6 คะแนน อยู่ระดับกลางจากทั้งหมด 12 ตัว
เร็ว ๆ นี้มีแผนจะเพิ่ม ตัวชี้วัดเชิงตัวเลข สำหรับการประเมินที่ละเอียดขึ้น
ถ้าอยากเทียบเฉพาะ Flux 2 Pro, Nano Banana Pro และ Kontext ก็ดูได้ที่ลิงก์นี้
อนึ่ง ดูเหมือนว่า BFL จะรองรับ โครงสร้าง JSON สำหรับการแก้ไขที่ละเอียดกว่า เลยสงสัยว่าถ้าใช้สิ่งนี้แล้วความแม่นยำจะดีขึ้นหรือไม่
การที่ Flux กับ Gemini Pro 3 ได้คะแนนเท่ากันทำให้คุณภาพของเบนช์มาร์กลดลง
โมเดลของ OpenAI มีลายเซ็นเฉพาะตัวแรงเกินไปจนจับสไตล์ได้ไม่ดี ส่วน Flux ก็ให้ผลงานต่างกันตามสไตล์
Flux พยายามหลีกเลี่ยงการฝึกแบบเฉลี่ยหลายสไตล์รวมกัน แต่ก็ขัดกับเป้าหมายในการสร้างภาพที่ดึงดูดสายตา
สุดท้ายปัญหาเรื่องความสม่ำเสมอของสไตล์คงยังอยู่ไปอีกพักใหญ่
Seedream ก็น่าประทับใจมาก จนเวอร์ชันถัดไปน่าจะขึ้นมาแข่งกับ Google ได้
การสร้างภาพดูแทบจะเป็น ปัญหาที่ถูกแก้แล้ว
โมเดลใหม่ก็ยังอยู่แค่ระดับกลาง ๆ และฝั่งโอเพนซอร์สก็ไม่ได้เปิดกว้างเท่ากับโมเดลจีน
คุณภาพภาพของ Flux ยังดูเป็น ผิวพลาสติก พื้นผิวประดิษฐ์
ต่อให้ผ่านในเชิงเทคนิค แต่ในเวิร์กโฟลว์จริงก็คงไม่เลือก Flux
อาจเป็นปัญหาของทีมข้อมูลที่ขาดเซนส์ด้านความงาม
BFL อยู่ในตำแหน่งที่ลำบาก ระหว่าง Google กับระบบนิเวศจีน
บริษัทโมเดลสื่ออื่น ๆ อย่าง RunwayML, PikaLabs, LumaLabs ก็เจอความยากลำบากคล้ายกัน
แม้ BFL จะเพิ่งได้เงินลงทุนก้อนใหญ่ แต่ก็ยังดูหนักเกินไปที่จะสู้กับ ไฮเปอร์สเกลเลอร์
น่ายินดีที่โมเดลใหม่นี้ถูกปล่อยออกมาในแบบ เวอร์ชัน open weights ด้วย
แต่ก็สงสัยว่า โมเดลวิดีโอ SOTA ที่เคยประกาศไว้ก่อนหน้านี้หายไปไหน
เคยพูดถึงในวิดีโอ YouTubeด้วย แต่หน้าที่เกี่ยวข้อง(bfl.ai/up-next)ถูกลบไปแล้ว
โมเดลภาพมีกรณีใช้งานมากกว่า และชุดข้อมูลก็อุดมสมบูรณ์กว่ามาก
ภาพคือพื้นฐานของวิดีโอ และมีองค์ประกอบที่ควบคุมได้มากกว่ามาก
โมเดลภาพให้ฟีดแบ็กเร็วและเพิ่มประสิทธิภาพการทำงาน ขณะที่เรื่อง การควบคุมสไตล์·ท่าโพส·ความสม่ำเสมอ ยังต้องพัฒนาอีกไกล
Midjourney เด่นด้านสุนทรียะอย่างมาก แต่ควบคุมได้ไม่ดี
Flux ดูเป็นพลาสติก, Imagen ออกแนวการ์ตูน, OpenAI ให้ความรู้สึกเก่า
ท้ายที่สุดต้องแข่งกันให้ได้ทั้ง สุนทรียะ·การควบคุม·ความสามารถในการทำซ้ำ
วิดีโอจึงเป็นตัวรบกวนงานนี้
ได้ลองทดสอบ Flux 2 Pro โดยตรงแล้ว (ลิงก์ Replicate)
เมื่อเทียบกับ Nano Banana ก็ไม่ได้มีจุดต่างใหญ่ และเมื่อเทียบกับ Flux 1.1 Pro ก็เป็นเพียง การปรับปรุงแบบค่อยเป็นค่อยไป
ถ้า Google ขึ้นราคาหรือเปลี่ยน API ก็ไม่มีทางเลือก แต่ BFL ยังมีตัวเลือกรันโลคัล
มีการเติมรายละเอียดเกินจำเป็นคล้ายการอัปสเกลด้วย ESRGAN (ลิงก์ทดสอบ)
FLUX.1 Pro Kontext ยังโดดเด่นทั้งด้านการแสดงออกเชิงศิลป์และ ความเข้าใจคำสั่ง
ดูได้จากบล็อกเปรียบเทียบ Nano Bananaเช่นกัน
สามารถรัน FLUX.2 [dev] แบบโลคัลบน RTX GPU ด้วยเวอร์ชันที่ปรับแต่ง fp8 ได้
การคง open weights ไว้เป็นเรื่องดี แต่ขนาดโมเดลโตจาก 12B เป็น 32B จึง ใช้งานโลคัลได้ลำบากขึ้น
กำลังรอเวอร์ชัน distill
text encoder ใช้ 48GB และโมเดลสร้างภาพใช้ 64GB รวมแล้วเกิน 100GB
ถือเป็น กำแพงการเข้าถึง สำหรับผู้ใช้โลคัล
text encoder ของรุ่นนี้คือ Mistral-Small-3.2-24B-Instruct-2506 ซึ่งดีกว่าชุด CLIP/T5 เดิม แต่มีขนาดใหญ่
ถ้ารอปล่อยโมเดลที่ distill ภายใต้ Apache 2.0 ก่อน ก็น่าจะแตกต่างจาก Nano Banana ได้มากกว่า
โครงสร้างราคาก็แปลกอยู่ — อินพุตคิด $0.015 ต่อ MP, เอาต์พุต MP แรก $0.03 และหลังจากนั้น $0.015 ต่อ MP
ดีใจที่ Nano Banana Pro มี คู่แข่ง
ช่วยให้การแข่งขันด้านราคายังคงอยู่
Google, OpenAI และ Claude ต่างก็สมัครใช้งานไม่ได้
อนึ่ง FLUX.2-DEV เวอร์ชันโอเพนซอร์สใช้เชิงพาณิชย์ไม่ได้
ข้อความเต็มของไลเซนส์
ลองเทียบ Nano Banana Pro กับ Flux 2 Pro ด้วยพรอมป์ต์ “family guy cyberpunk 2077” แล้ว
โมเดลของ Google เข้ากับฉากในเกมได้ดีกว่า ส่วน Flux ให้ความรู้สึก สมจริงเกินไป
Flux 2 Pro ก็มีแนวโน้มคล้ายกัน
แต่ถ้ามีระบบนิเวศ LoRA และใช้เวลาจูนเพิ่ม Flux 1 Dev ก็ยังแข็งแกร่งด้าน การจัดสไตล์เชิงสร้างสรรค์
มีเวอร์ชัน 18GB 4bit quant ให้ใช้ผ่าน diffusers จึงรันได้แม้ในสภาพแวดล้อม VRAM ต่ำ