FLUX.2: โมเดลสร้างและแก้ไขภาพยุคถัดไป

(bfl.ai)

2 คะแนน โดย GN⁺ 2025-11-27 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

FLUX.2 เป็นโมเดลสร้างภาพคุณภาพสูงสำหรับ เวิร์กโฟลว์เชิงสร้างสรรค์ ในการใช้งานจริง โดยรักษา ความสม่ำเสมอของตัวละครและสไตล์ ระหว่างภาพอ้างอิงหลายภาพ พร้อมรองรับการจัดการข้อความและการปฏิบัติตามแนวทางแบรนด์
สามารถแก้ไขภาพอย่างละเอียดได้ที่ความละเอียดสูงสุด 4 เมกะพิกเซล และควบคุมองค์ประกอบภาพ เช่น แสง เลย์เอาต์ และโลโก้ ได้อย่างเสถียร
ผ่าน กลยุทธ์โอเพนคอร์ ที่ให้ทั้งโมเดลแบบเปิดน้ำหนักและ API ระดับโปรดักชันควบคู่กัน พร้อมยกระดับระบบนิเวศแบบเปิดที่สร้างไว้ใน FLUX.1 ไปสู่ยุค FLUX.2
เพิ่มความสามารถสำคัญใหม่ ได้แก่ รองรับหลายภาพอ้างอิง, การเรนเดอร์ตัวอักษรอย่างประณีต, การประมวลผลพรอมป์ต์ที่ดีขึ้น, และ การสะท้อนความรู้จากโลกจริง
ตระกูลโมเดลประกอบด้วย pro, flex, dev, klein, VAE และมีให้ใช้งานทั้งแบบโอเพนเวตและ API เชิงพาณิชย์
Black Forest Labs มีเป้าหมายสู่ การพัฒนา visual intelligence แบบเปิด โดยผสานงานวิจัยแบบเปิดเข้ากับโครงสร้างพื้นฐานเชิงพาณิชย์

ภาพรวมของ FLUX.2

FLUX.2 เป็นโมเดลสร้างภาพสำหรับ สภาพแวดล้อมการผลิตจริง ไม่ใช่เพียงเดโม
- รักษาความสม่ำเสมอของตัวละครและสไตล์จากภาพอ้างอิงหลายภาพ
- ปฏิบัติตามพรอมป์ต์แบบมีโครงสร้าง และสามารถอ่านและเขียนข้อความที่ซับซ้อนได้
- จัดการแนวทางแบรนด์ แสง เลย์เอาต์ และโลโก้ ได้อย่างเสถียร
รองรับการแก้ไขภาพโดยคงรายละเอียดและความสม่ำเสมอไว้ได้ที่ความละเอียดสูงสุด 4MP

ปรัชญาโอเพนคอร์ของ Black Forest Labs

เสนอหลักการว่า visual intelligence คือสิ่งที่ นักวิจัย ครีเอเตอร์ และนักพัฒนา ต้องร่วมกันผลักดันให้ก้าวหน้า
ให้บริการควบคู่กันทั้ง โมเดลโอเพนเวต และ API endpoint ระดับเชิงพาณิชย์
- โมเดลเปิดช่วยส่งเสริมการทดลอง ลดต้นทุน และเพิ่มความโปร่งใส
นับตั้งแต่ก่อตั้งในปี 2024 ได้วางรากฐานนวัตกรรมแบบเปิดผ่าน FLUX.1 [dev] และ FLUX.1 Kontext [pro]
- FLUX.1 [dev] ถูกกล่าวถึงว่าเป็นโมเดลภาพแบบเปิดที่ได้รับความนิยมมากที่สุดในโลก
- FLUX.1 Kontext [pro] ถูกใช้งานโดยทีมสำคัญอย่าง Adobe และ Meta
โฆษณา

จาก FLUX.1 สู่ FLUX.2

หาก FLUX.1 แสดงให้เห็นถึง ศักยภาพในฐานะเครื่องมือสร้างสรรค์ FLUX.2 จะมุ่งไปที่ การปฏิวัติเวอร์ก์โฟลว์การผลิต
เสริมความสามารถด้าน ความแม่นยำ ประสิทธิภาพ การควบคุม และความสมจริง เพื่อยกระดับความคุ้มค่าทางเศรษฐศาสตร์ของการสร้างภาพอย่างมาก
ผลลัพธ์คือมีแนวโน้มจะกลายเป็น องค์ประกอบแกนหลักของโครงสร้างพื้นฐานด้านความคิดสร้างสรรค์

ความสามารถหลัก (What’s New)

รองรับหลายภาพอ้างอิง: อ้างอิงภาพพร้อมกันได้สูงสุด 10 ภาพ เพื่อคงความสม่ำเสมอของตัวละคร สินค้า และสไตล์
รายละเอียดและความสมจริงที่สูงขึ้น: เหมาะกับภาพถ่ายสินค้า งานวิชวลไลซ์ และผลลัพธ์ระดับภาพถ่ายจริง
การเรนเดอร์ข้อความที่ดีขึ้น: เพิ่มความอ่านง่ายในงานตัวอักษรซับซ้อน อินโฟกราฟิก และ UI mockup
การประมวลผลพรอมป์ต์ที่แข็งแกร่งขึ้น: สะท้อนพรอมป์ต์หลายโครงสร้างและเงื่อนไขเชิงผสมได้อย่างแม่นยำ
ขยายความรู้จากโลกจริง: สร้างฉากได้อย่างสม่ำเสมอบนพื้นฐานของตรรกะด้านแสงและพื้นที่
การแก้ไขความละเอียดสูง: รองรับสัดส่วนอินพุตและเอาต์พุตที่ยืดหยุ่นที่ความละเอียดสูงสุด 4MP

ตระกูลผลิตภัณฑ์ FLUX.2

FLUX.2 [pro]
- มีคุณภาพภาพ การทำตามพรอมป์ต์ และความเที่ยงตรงเชิงภาพที่สามารถแข่งขันกับโมเดลปิดระดับสูงสุดได้
- เด่นที่ความเร็วในการสร้างสูงและต้นทุนต่ำ พร้อมให้ใช้งานบน BFL Playground, API และแพลตฟอร์มพาร์ตเนอร์
FLUX.2 [flex]
- เป็นโมเดลที่สามารถปรับพารามิเตอร์ เช่น จำนวนสเต็ปและ guidance scale ได้โดยตรง เพื่อเพิ่มประสิทธิภาพด้านคุณภาพ ความเร็ว และการเรนเดอร์ข้อความ
- เด่นเป็นพิเศษด้านการแสดงผลตัวอักษรอย่างแม่นยำ
โฆษณา
FLUX.2 [dev]
- โมเดลโอเพนเวต 32B ที่รองรับทั้ง text-to-image และการแก้ไขภาพจากหลายอินพุตในเช็กพอยต์เดียว และเป็นโมเดลสาธารณะที่ทรงพลังที่สุดในปัจจุบัน
- มีน้ำหนักโมเดลให้บน Hugging Face พร้อมการปรับแต่งประสิทธิภาพ FP8 ที่พัฒนาร่วมกับ NVIDIA และ ComfyUI
- ใช้งานผ่าน API ได้บน FAL, Replicate, Runware, Verda, TogetherAI, Cloudflare, DeepInfra และอื่น ๆ
FLUX.2 [klein] (กำลังจะมา)
- โมเดลโอเพนซอร์สภายใต้ Apache 2.0 ซึ่งจะเปิดให้ใช้งานในรูปแบบขนาดเล็ก น้ำหนักเบา และประสิทธิภาพสูง ด้วยการกลั่นขนาดจาก FLUX.2
FLUX.2 – VAE
- VAE ใหม่ที่ปรับสมดุลด้านความง่ายในการฝึก คุณภาพ และอัตราการบีบอัดอย่างเหมาะสม เป็นองค์ประกอบสำคัญของแบ็กโบน FLUX.2
- ให้บริการบน Hugging Face ภายใต้สัญญาอนุญาต Apache 2.0

ประสิทธิภาพและคุณค่า

ตระกูลโมเดล FLUX.2 มอบ คุณภาพการสร้างภาพระดับล้ำสมัย ใน ราคาที่แข่งขันได้
ในบรรดาโมเดลโอเพนเวต FLUX.2 [dev] ทำผลงานได้ เหนือกว่าทางเลือกแบบเปิดทั้งหมด ทั้งในงานสร้างข้อความเป็นภาพและการแก้ไขจากภาพอ้างอิงเดี่ยวหรือหลายภาพ
ทุกโมเดลถูกจัดการทั้งก่อนและหลังการเปิดตัวตาม หลักการพัฒนาอย่างรับผิดชอบ

โครงสร้างทางเทคนิค (How It Works)

ใช้สถาปัตยกรรม latent flow matching ที่รวมการสร้างและแก้ไขภาพไว้ในโครงสร้างเดียว
ผสาน Mistral-3 24B vision-language model เข้ากับ Rectified Flow Transformer
- VLM มอบความรู้เกี่ยวกับโลกจริงและความเข้าใจบริบท
- Transformer จัดการความสัมพันธ์เชิงพื้นที่ คุณสมบัติของวัสดุ และตรรกะขององค์ประกอบ
สามารถรวมภาพอ้างอิงได้สูงสุด 10 ภาพเพื่อสร้างผลลัพธ์ใหม่
ฝึก latent space ของโมเดลใหม่เพื่อปรับปรุง โจทย์สามทาง (trilemma) ด้านความสามารถในการฝึก คุณภาพ และอัตราการบีบอัด

ข้อมูลเพิ่มเติม

ทิศทางในอนาคต (Into the New)

FLUX.2 เป็นอีกก้าวสู่ โมเดลมัลติโหมดที่บูรณาการการรับรู้ การสร้าง ความจำ และการให้เหตุผล
มีเป้าหมายเป็น เทคโนโลยีพื้นฐานของโครงสร้างพื้นฐาน visual intelligence ที่จะเปลี่ยนวิธีการรับรู้และทำความเข้าใจโลก
ปัจจุบันกำลังรับสมัครบุคลากรใน Freiburg และซานฟรานซิสโก

1 ความคิดเห็น

GN⁺ 2025-11-27

ความเห็นจาก Hacker News

ช่วงนี้มีโมเดลใหม่ออกถี่เกินไป จนอัปเดต เว็บเปรียบเทียบ GenAI แทบให้ความรู้สึกเหมือนซิซิฟัส
ถึงอย่างนั้นก็ได้เพิ่มผลลัพธ์ของ โมเดล Flux 2 Pro Editing ตัวใหม่เข้าไปแล้ว
ดูได้ที่หน้าผลลัพธ์
โมเดลนี้ได้คะแนนสูงกว่า Kontext ของ BFL เล็กน้อย และได้ 6 คะแนน อยู่ระดับกลางจากทั้งหมด 12 ตัว
เร็ว ๆ นี้มีแผนจะเพิ่ม ตัวชี้วัดเชิงตัวเลข สำหรับการประเมินที่ละเอียดขึ้น
ถ้าอยากเทียบเฉพาะ Flux 2 Pro, Nano Banana Pro และ Kontext ก็ดูได้ที่ลิงก์นี้
อนึ่ง ดูเหมือนว่า BFL จะรองรับ โครงสร้าง JSON สำหรับการแก้ไขที่ละเอียดกว่า เลยสงสัยว่าถ้าใช้สิ่งนี้แล้วความแม่นยำจะดีขึ้นหรือไม่
- อยากให้ระบบคะแนนเปลี่ยนเป็น สเกล 0~10 มากกว่าจะเป็นแค่ผ่าน/ไม่ผ่าน
  การที่ Flux กับ Gemini Pro 3 ได้คะแนนเท่ากันทำให้คุณภาพของเบนช์มาร์กลดลง
- การเปรียบเทียบมีประโยชน์ แต่ยังขาด ความหลากหลายของสไตล์
  โมเดลของ OpenAI มีลายเซ็นเฉพาะตัวแรงเกินไปจนจับสไตล์ได้ไม่ดี ส่วน Flux ก็ให้ผลงานต่างกันตามสไตล์
  Flux พยายามหลีกเลี่ยงการฝึกแบบเฉลี่ยหลายสไตล์รวมกัน แต่ก็ขัดกับเป้าหมายในการสร้างภาพที่ดึงดูดสายตา
  สุดท้ายปัญหาเรื่องความสม่ำเสมอของสไตล์คงยังอยู่ไปอีกพักใหญ่
- ตอนนี้ Google นำอยู่ชัดเจน
  Seedream ก็น่าประทับใจมาก จนเวอร์ชันถัดไปน่าจะขึ้นมาแข่งกับ Google ได้
  การสร้างภาพดูแทบจะเป็น ปัญหาที่ถูกแก้แล้ว
- มีคำพิมพ์ผิดในเว็บ: ควรแก้ s/sttae/state/g
- สงสัยว่า BFL จะยังเหลือ พลังในการแข่ง กับบริษัทยักษ์ใหญ่อย่าง Google และ ByteDance (SeeDream) ต่อไปได้หรือไม่
  โมเดลใหม่ก็ยังอยู่แค่ระดับกลาง ๆ และฝั่งโอเพนซอร์สก็ไม่ได้เปิดกว้างเท่ากับโมเดลจีน
  คุณภาพภาพของ Flux ยังดูเป็น ผิวพลาสติก พื้นผิวประดิษฐ์
  ต่อให้ผ่านในเชิงเทคนิค แต่ในเวิร์กโฟลว์จริงก็คงไม่เลือก Flux
  อาจเป็นปัญหาของทีมข้อมูลที่ขาดเซนส์ด้านความงาม
  BFL อยู่ในตำแหน่งที่ลำบาก ระหว่าง Google กับระบบนิเวศจีน
  บริษัทโมเดลสื่ออื่น ๆ อย่าง RunwayML, PikaLabs, LumaLabs ก็เจอความยากลำบากคล้ายกัน
  แม้ BFL จะเพิ่งได้เงินลงทุนก้อนใหญ่ แต่ก็ยังดูหนักเกินไปที่จะสู้กับ ไฮเปอร์สเกลเลอร์
น่ายินดีที่โมเดลใหม่นี้ถูกปล่อยออกมาในแบบ เวอร์ชัน open weights ด้วย
แต่ก็สงสัยว่า โมเดลวิดีโอ SOTA ที่เคยประกาศไว้ก่อนหน้านี้หายไปไหน
เคยพูดถึงในวิดีโอ YouTubeด้วย แต่หน้าที่เกี่ยวข้อง(bfl.ai/up-next)ถูกลบไปแล้ว
- ในฐานะสตาร์ตอัป บริษัทได้ pivot ไปโฟกัสที่ โมเดลภาพแทนวิดีโอ
  โมเดลภาพมีกรณีใช้งานมากกว่า และชุดข้อมูลก็อุดมสมบูรณ์กว่ามาก
- จากที่ได้ยินมา การฝึกโมเดลวิดีโอจบลงด้วย ความล้มเหลวครั้งใหญ่ จนโปรเจกต์ถูกยกเลิก
- โมเดลภาพยังคงเป็น แกนเทคโนโลยีหลัก
  ภาพคือพื้นฐานของวิดีโอ และมีองค์ประกอบที่ควบคุมได้มากกว่ามาก
  โมเดลภาพให้ฟีดแบ็กเร็วและเพิ่มประสิทธิภาพการทำงาน ขณะที่เรื่อง การควบคุมสไตล์·ท่าโพส·ความสม่ำเสมอ ยังต้องพัฒนาอีกไกล
  Midjourney เด่นด้านสุนทรียะอย่างมาก แต่ควบคุมได้ไม่ดี
  Flux ดูเป็นพลาสติก, Imagen ออกแนวการ์ตูน, OpenAI ให้ความรู้สึกเก่า
  ท้ายที่สุดต้องแข่งกันให้ได้ทั้ง สุนทรียะ·การควบคุม·ความสามารถในการทำซ้ำ
  วิดีโอจึงเป็นตัวรบกวนงานนี้
ได้ลองทดสอบ Flux 2 Pro โดยตรงแล้ว (ลิงก์ Replicate)
เมื่อเทียบกับ Nano Banana ก็ไม่ได้มีจุดต่างใหญ่ และเมื่อเทียบกับ Flux 1.1 Pro ก็เป็นเพียง การปรับปรุงแบบค่อยเป็นค่อยไป
- ความสม่ำเสมอของพรอมป์ต์ดีขึ้น แต่คุณภาพภาพกลับดูประดิษฐ์มากขึ้น
- คู่มือพรอมป์ต์ Flux 2แนะนำให้ใช้ พรอมป์ต์ JSON และ การระบุสีแบบ HEX เป็นค่าเริ่มต้น
- หากเปิดใช้Prompt Upsampling ความสามารถด้านการอนุมานจะดีขึ้น แต่ถ้าปิดไว้บางครั้งผลลัพธ์จะเพี้ยน
- Flux 2 API มี ความอ่อนไหวด้าน IP สูง จนบางกรณีต้องเปิด upsampling จึงจะผ่านได้ (ตัวอย่าง)
- ค่าใช้จ่ายและความเร็วใกล้เคียง Nano Banana แต่ถ้าใช้ ฟังก์ชันรับภาพเข้า ฝั่ง Flux 2 Pro จะแพงกว่า
- ผลลัพธ์ของ Flux 1.1 กับ 2 ไม่ได้มีตัวไหนเหนือกว่าอย่างเป็นกลาง
- แค่มี ความเป็นไปได้ที่จะรัน Flux แบบโลคัล ก็ถือเป็นข้อดีแล้ว
  ถ้า Google ขึ้นราคาหรือเปลี่ยน API ก็ไม่มีทางเลือก แต่ BFL ยังมีตัวเลือกรันโลคัล
- เอาต์พุต ความละเอียดสูง (4K) ของ Flux 2 Pro บางครั้งกลับสร้างปัญหา
  มีการเติมรายละเอียดเกินจำเป็นคล้ายการอัปสเกลด้วย ESRGAN (ลิงก์ทดสอบ)
- Flux 2 Dev เวอร์ชัน ไม่มีการเซ็นเซอร์ด้าน IP
FLUX.1 Pro Kontext ยังโดดเด่นทั้งด้านการแสดงออกเชิงศิลป์และ ความเข้าใจคำสั่ง
ดูได้จากบล็อกเปรียบเทียบ Nano Bananaเช่นกัน
สามารถรัน FLUX.2 [dev] แบบโลคัลบน RTX GPU ด้วยเวอร์ชันที่ปรับแต่ง fp8 ได้
การคง open weights ไว้เป็นเรื่องดี แต่ขนาดโมเดลโตจาก 12B เป็น 32B จึง ใช้งานโลคัลได้ลำบากขึ้น
กำลังรอเวอร์ชัน distill
- ถ้าดูจากหน้า Hugging Face
  text encoder ใช้ 48GB และโมเดลสร้างภาพใช้ 64GB รวมแล้วเกิน 100GB
  ถือเป็น กำแพงการเข้าถึง สำหรับผู้ใช้โลคัล
text encoder ของรุ่นนี้คือ Mistral-Small-3.2-24B-Instruct-2506 ซึ่งดีกว่าชุด CLIP/T5 เดิม แต่มีขนาดใหญ่
ถ้ารอปล่อยโมเดลที่ distill ภายใต้ Apache 2.0 ก่อน ก็น่าจะแตกต่างจาก Nano Banana ได้มากกว่า
โครงสร้างราคาก็แปลกอยู่ — อินพุตคิด $0.015 ต่อ MP, เอาต์พุต MP แรก $0.03 และหลังจากนั้น $0.015 ต่อ MP
- Qwen-Image-Edit-2511 มีกำหนดเปิดตัวภายใต้ Apache 2.0 ในสัปดาห์หน้า ดูเหมือน BFL จะรีบปล่อยออกมาก่อน
- CLIP นั้นแทบเป็น ตัวเลือกที่ไม่มีความหมาย เลย ต่อให้ตั้งน้ำหนักเป็น 0 ผลลัพธ์ก็แทบไม่ต่าง
- ชุด CLIP+T5 เป็นสิ่งที่โมเดลสร้างภาพจำนวนมากใช้กันในเวลานั้น จึงไม่ใช่ตัวเลือกที่แปลกนัก
- ดูเหมือนการรีบทำ GTM strategy จะทำให้ ตลาดยุโรปเสียประโยชน์
ดีใจที่ Nano Banana Pro มี คู่แข่ง
ช่วยให้การแข่งขันด้านราคายังคงอยู่
- ในพื้นที่อย่างฮ่องกงที่ การใช้โมเดลสหรัฐถูกจำกัด ทางเลือกแบบนี้ยิ่งสำคัญ
  Google, OpenAI และ Claude ต่างก็สมัครใช้งานไม่ได้
- ดีเหมือนกันที่ได้เห็น บริษัทยุโรป โชว์ผลงาน
อนึ่ง FLUX.2-DEV เวอร์ชันโอเพนซอร์สใช้เชิงพาณิชย์ไม่ได้
ข้อความเต็มของไลเซนส์
ลองเทียบ Nano Banana Pro กับ Flux 2 Pro ด้วยพรอมป์ต์ “family guy cyberpunk 2077” แล้ว
โมเดลของ Google เข้ากับฉากในเกมได้ดีกว่า ส่วน Flux ให้ความรู้สึก สมจริงเกินไป
- Flux ถูกปรับให้เข้ากับ ชุดข้อมูลที่เน้นภาพถ่าย จึงไม่ถนัดสไตล์เชิงศิลป์
  Flux 2 Pro ก็มีแนวโน้มคล้ายกัน
  แต่ถ้ามีระบบนิเวศ LoRA และใช้เวลาจูนเพิ่ม Flux 1 Dev ก็ยังแข็งแกร่งด้าน การจัดสไตล์เชิงสร้างสรรค์
มีเวอร์ชัน 18GB 4bit quant ให้ใช้ผ่าน diffusers จึงรันได้แม้ในสภาพแวดล้อม VRAM ต่ำ

FLUX.2: โมเดลสร้างและแก้ไขภาพยุคถัดไป

ภาพรวมของ FLUX.2

ปรัชญาโอเพนคอร์ของ Black Forest Labs

จาก FLUX.1 สู่ FLUX.2

ความสามารถหลัก (What’s New)

ตระกูลผลิตภัณฑ์ FLUX.2

ประสิทธิภาพและคุณค่า

โครงสร้างทางเทคนิค (How It Works)

ข้อมูลเพิ่มเติม

ทิศทางในอนาคต (Into the New)

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นจาก Hacker News