2 คะแนน โดย GN⁺ 2025-11-27 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • FLUX.2 เป็นโมเดลสร้างภาพคุณภาพสูงสำหรับ เวิร์กโฟลว์เชิงสร้างสรรค์ ในการใช้งานจริง โดยรักษา ความสม่ำเสมอของตัวละครและสไตล์ ระหว่างภาพอ้างอิงหลายภาพ พร้อมรองรับการจัดการข้อความและการปฏิบัติตามแนวทางแบรนด์
  • สามารถแก้ไขภาพอย่างละเอียดได้ที่ความละเอียดสูงสุด 4 เมกะพิกเซล และควบคุมองค์ประกอบภาพ เช่น แสง เลย์เอาต์ และโลโก้ ได้อย่างเสถียร
  • ผ่าน กลยุทธ์โอเพนคอร์ ที่ให้ทั้งโมเดลแบบเปิดน้ำหนักและ API ระดับโปรดักชันควบคู่กัน พร้อมยกระดับระบบนิเวศแบบเปิดที่สร้างไว้ใน FLUX.1 ไปสู่ยุค FLUX.2
  • เพิ่มความสามารถสำคัญใหม่ ได้แก่ รองรับหลายภาพอ้างอิง, การเรนเดอร์ตัวอักษรอย่างประณีต, การประมวลผลพรอมป์ต์ที่ดีขึ้น, และ การสะท้อนความรู้จากโลกจริง
  • ตระกูลโมเดลประกอบด้วย pro, flex, dev, klein, VAE และมีให้ใช้งานทั้งแบบโอเพนเวตและ API เชิงพาณิชย์
  • Black Forest Labs มีเป้าหมายสู่ การพัฒนา visual intelligence แบบเปิด โดยผสานงานวิจัยแบบเปิดเข้ากับโครงสร้างพื้นฐานเชิงพาณิชย์

ภาพรวมของ FLUX.2

  • FLUX.2 เป็นโมเดลสร้างภาพสำหรับ สภาพแวดล้อมการผลิตจริง ไม่ใช่เพียงเดโม
    • รักษาความสม่ำเสมอของตัวละครและสไตล์จากภาพอ้างอิงหลายภาพ
    • ปฏิบัติตามพรอมป์ต์แบบมีโครงสร้าง และสามารถอ่านและเขียนข้อความที่ซับซ้อนได้
    • จัดการแนวทางแบรนด์ แสง เลย์เอาต์ และโลโก้ ได้อย่างเสถียร
  • รองรับการแก้ไขภาพโดยคงรายละเอียดและความสม่ำเสมอไว้ได้ที่ความละเอียดสูงสุด 4MP

ปรัชญาโอเพนคอร์ของ Black Forest Labs

  • เสนอหลักการว่า visual intelligence คือสิ่งที่ นักวิจัย ครีเอเตอร์ และนักพัฒนา ต้องร่วมกันผลักดันให้ก้าวหน้า
  • ให้บริการควบคู่กันทั้ง โมเดลโอเพนเวต และ API endpoint ระดับเชิงพาณิชย์
    • โมเดลเปิดช่วยส่งเสริมการทดลอง ลดต้นทุน และเพิ่มความโปร่งใส
  • นับตั้งแต่ก่อตั้งในปี 2024 ได้วางรากฐานนวัตกรรมแบบเปิดผ่าน FLUX.1 [dev] และ FLUX.1 Kontext [pro]
    • FLUX.1 [dev] ถูกกล่าวถึงว่าเป็นโมเดลภาพแบบเปิดที่ได้รับความนิยมมากที่สุดในโลก
    • FLUX.1 Kontext [pro] ถูกใช้งานโดยทีมสำคัญอย่าง Adobe และ Meta

จาก FLUX.1 สู่ FLUX.2

  • หาก FLUX.1 แสดงให้เห็นถึง ศักยภาพในฐานะเครื่องมือสร้างสรรค์ FLUX.2 จะมุ่งไปที่ การปฏิวัติเวอร์ก์โฟลว์การผลิต
  • เสริมความสามารถด้าน ความแม่นยำ ประสิทธิภาพ การควบคุม และความสมจริง เพื่อยกระดับความคุ้มค่าทางเศรษฐศาสตร์ของการสร้างภาพอย่างมาก
  • ผลลัพธ์คือมีแนวโน้มจะกลายเป็น องค์ประกอบแกนหลักของโครงสร้างพื้นฐานด้านความคิดสร้างสรรค์

ความสามารถหลัก (What’s New)

  • รองรับหลายภาพอ้างอิง: อ้างอิงภาพพร้อมกันได้สูงสุด 10 ภาพ เพื่อคงความสม่ำเสมอของตัวละคร สินค้า และสไตล์
  • รายละเอียดและความสมจริงที่สูงขึ้น: เหมาะกับภาพถ่ายสินค้า งานวิชวลไลซ์ และผลลัพธ์ระดับภาพถ่ายจริง
  • การเรนเดอร์ข้อความที่ดีขึ้น: เพิ่มความอ่านง่ายในงานตัวอักษรซับซ้อน อินโฟกราฟิก และ UI mockup
  • การประมวลผลพรอมป์ต์ที่แข็งแกร่งขึ้น: สะท้อนพรอมป์ต์หลายโครงสร้างและเงื่อนไขเชิงผสมได้อย่างแม่นยำ
  • ขยายความรู้จากโลกจริง: สร้างฉากได้อย่างสม่ำเสมอบนพื้นฐานของตรรกะด้านแสงและพื้นที่
  • การแก้ไขความละเอียดสูง: รองรับสัดส่วนอินพุตและเอาต์พุตที่ยืดหยุ่นที่ความละเอียดสูงสุด 4MP

ตระกูลผลิตภัณฑ์ FLUX.2

  • FLUX.2 [pro]
    • มีคุณภาพภาพ การทำตามพรอมป์ต์ และความเที่ยงตรงเชิงภาพที่สามารถแข่งขันกับโมเดลปิดระดับสูงสุดได้
    • เด่นที่ความเร็วในการสร้างสูงและต้นทุนต่ำ พร้อมให้ใช้งานบน BFL Playground, API และแพลตฟอร์มพาร์ตเนอร์
  • FLUX.2 [flex]
    • เป็นโมเดลที่สามารถปรับพารามิเตอร์ เช่น จำนวนสเต็ปและ guidance scale ได้โดยตรง เพื่อเพิ่มประสิทธิภาพด้านคุณภาพ ความเร็ว และการเรนเดอร์ข้อความ
    • เด่นเป็นพิเศษด้านการแสดงผลตัวอักษรอย่างแม่นยำ
  • FLUX.2 [dev]
    • โมเดลโอเพนเวต 32B ที่รองรับทั้ง text-to-image และการแก้ไขภาพจากหลายอินพุตในเช็กพอยต์เดียว และเป็นโมเดลสาธารณะที่ทรงพลังที่สุดในปัจจุบัน
    • มีน้ำหนักโมเดลให้บน Hugging Face พร้อมการปรับแต่งประสิทธิภาพ FP8 ที่พัฒนาร่วมกับ NVIDIA และ ComfyUI
    • ใช้งานผ่าน API ได้บน FAL, Replicate, Runware, Verda, TogetherAI, Cloudflare, DeepInfra และอื่น ๆ
  • FLUX.2 [klein] (กำลังจะมา)
    • โมเดลโอเพนซอร์สภายใต้ Apache 2.0 ซึ่งจะเปิดให้ใช้งานในรูปแบบขนาดเล็ก น้ำหนักเบา และประสิทธิภาพสูง ด้วยการกลั่นขนาดจาก FLUX.2
  • FLUX.2 – VAE
    • VAE ใหม่ที่ปรับสมดุลด้านความง่ายในการฝึก คุณภาพ และอัตราการบีบอัดอย่างเหมาะสม เป็นองค์ประกอบสำคัญของแบ็กโบน FLUX.2
    • ให้บริการบน Hugging Face ภายใต้สัญญาอนุญาต Apache 2.0

ประสิทธิภาพและคุณค่า

  • ตระกูลโมเดล FLUX.2 มอบ คุณภาพการสร้างภาพระดับล้ำสมัย ใน ราคาที่แข่งขันได้
  • ในบรรดาโมเดลโอเพนเวต FLUX.2 [dev] ทำผลงานได้ เหนือกว่าทางเลือกแบบเปิดทั้งหมด ทั้งในงานสร้างข้อความเป็นภาพและการแก้ไขจากภาพอ้างอิงเดี่ยวหรือหลายภาพ
  • ทุกโมเดลถูกจัดการทั้งก่อนและหลังการเปิดตัวตาม หลักการพัฒนาอย่างรับผิดชอบ

โครงสร้างทางเทคนิค (How It Works)

  • ใช้สถาปัตยกรรม latent flow matching ที่รวมการสร้างและแก้ไขภาพไว้ในโครงสร้างเดียว
  • ผสาน Mistral-3 24B vision-language model เข้ากับ Rectified Flow Transformer
    • VLM มอบความรู้เกี่ยวกับโลกจริงและความเข้าใจบริบท
    • Transformer จัดการความสัมพันธ์เชิงพื้นที่ คุณสมบัติของวัสดุ และตรรกะขององค์ประกอบ
  • สามารถรวมภาพอ้างอิงได้สูงสุด 10 ภาพเพื่อสร้างผลลัพธ์ใหม่
  • ฝึก latent space ของโมเดลใหม่เพื่อปรับปรุง โจทย์สามทาง (trilemma) ด้านความสามารถในการฝึก คุณภาพ และอัตราการบีบอัด

ข้อมูลเพิ่มเติม

ทิศทางในอนาคต (Into the New)

  • FLUX.2 เป็นอีกก้าวสู่ โมเดลมัลติโหมดที่บูรณาการการรับรู้ การสร้าง ความจำ และการให้เหตุผล
  • มีเป้าหมายเป็น เทคโนโลยีพื้นฐานของโครงสร้างพื้นฐาน visual intelligence ที่จะเปลี่ยนวิธีการรับรู้และทำความเข้าใจโลก
  • ปัจจุบันกำลังรับสมัครบุคลากรใน Freiburg และซานฟรานซิสโก

1 ความคิดเห็น

 
GN⁺ 2025-11-27
ความเห็นจาก Hacker News
  • ช่วงนี้มีโมเดลใหม่ออกถี่เกินไป จนอัปเดต เว็บเปรียบเทียบ GenAI แทบให้ความรู้สึกเหมือนซิซิฟัส
    ถึงอย่างนั้นก็ได้เพิ่มผลลัพธ์ของ โมเดล Flux 2 Pro Editing ตัวใหม่เข้าไปแล้ว
    ดูได้ที่หน้าผลลัพธ์
    โมเดลนี้ได้คะแนนสูงกว่า Kontext ของ BFL เล็กน้อย และได้ 6 คะแนน อยู่ระดับกลางจากทั้งหมด 12 ตัว
    เร็ว ๆ นี้มีแผนจะเพิ่ม ตัวชี้วัดเชิงตัวเลข สำหรับการประเมินที่ละเอียดขึ้น
    ถ้าอยากเทียบเฉพาะ Flux 2 Pro, Nano Banana Pro และ Kontext ก็ดูได้ที่ลิงก์นี้
    อนึ่ง ดูเหมือนว่า BFL จะรองรับ โครงสร้าง JSON สำหรับการแก้ไขที่ละเอียดกว่า เลยสงสัยว่าถ้าใช้สิ่งนี้แล้วความแม่นยำจะดีขึ้นหรือไม่

    • อยากให้ระบบคะแนนเปลี่ยนเป็น สเกล 0~10 มากกว่าจะเป็นแค่ผ่าน/ไม่ผ่าน
      การที่ Flux กับ Gemini Pro 3 ได้คะแนนเท่ากันทำให้คุณภาพของเบนช์มาร์กลดลง
    • การเปรียบเทียบมีประโยชน์ แต่ยังขาด ความหลากหลายของสไตล์
      โมเดลของ OpenAI มีลายเซ็นเฉพาะตัวแรงเกินไปจนจับสไตล์ได้ไม่ดี ส่วน Flux ก็ให้ผลงานต่างกันตามสไตล์
      Flux พยายามหลีกเลี่ยงการฝึกแบบเฉลี่ยหลายสไตล์รวมกัน แต่ก็ขัดกับเป้าหมายในการสร้างภาพที่ดึงดูดสายตา
      สุดท้ายปัญหาเรื่องความสม่ำเสมอของสไตล์คงยังอยู่ไปอีกพักใหญ่
    • ตอนนี้ Google นำอยู่ชัดเจน
      Seedream ก็น่าประทับใจมาก จนเวอร์ชันถัดไปน่าจะขึ้นมาแข่งกับ Google ได้
      การสร้างภาพดูแทบจะเป็น ปัญหาที่ถูกแก้แล้ว
    • มีคำพิมพ์ผิดในเว็บ: ควรแก้ s/sttae/state/g
    • สงสัยว่า BFL จะยังเหลือ พลังในการแข่ง กับบริษัทยักษ์ใหญ่อย่าง Google และ ByteDance (SeeDream) ต่อไปได้หรือไม่
      โมเดลใหม่ก็ยังอยู่แค่ระดับกลาง ๆ และฝั่งโอเพนซอร์สก็ไม่ได้เปิดกว้างเท่ากับโมเดลจีน
      คุณภาพภาพของ Flux ยังดูเป็น ผิวพลาสติก พื้นผิวประดิษฐ์
      ต่อให้ผ่านในเชิงเทคนิค แต่ในเวิร์กโฟลว์จริงก็คงไม่เลือก Flux
      อาจเป็นปัญหาของทีมข้อมูลที่ขาดเซนส์ด้านความงาม
      BFL อยู่ในตำแหน่งที่ลำบาก ระหว่าง Google กับระบบนิเวศจีน
      บริษัทโมเดลสื่ออื่น ๆ อย่าง RunwayML, PikaLabs, LumaLabs ก็เจอความยากลำบากคล้ายกัน
      แม้ BFL จะเพิ่งได้เงินลงทุนก้อนใหญ่ แต่ก็ยังดูหนักเกินไปที่จะสู้กับ ไฮเปอร์สเกลเลอร์
  • น่ายินดีที่โมเดลใหม่นี้ถูกปล่อยออกมาในแบบ เวอร์ชัน open weights ด้วย
    แต่ก็สงสัยว่า โมเดลวิดีโอ SOTA ที่เคยประกาศไว้ก่อนหน้านี้หายไปไหน
    เคยพูดถึงในวิดีโอ YouTubeด้วย แต่หน้าที่เกี่ยวข้อง(bfl.ai/up-next)ถูกลบไปแล้ว

    • ในฐานะสตาร์ตอัป บริษัทได้ pivot ไปโฟกัสที่ โมเดลภาพแทนวิดีโอ
      โมเดลภาพมีกรณีใช้งานมากกว่า และชุดข้อมูลก็อุดมสมบูรณ์กว่ามาก
    • จากที่ได้ยินมา การฝึกโมเดลวิดีโอจบลงด้วย ความล้มเหลวครั้งใหญ่ จนโปรเจกต์ถูกยกเลิก
    • โมเดลภาพยังคงเป็น แกนเทคโนโลยีหลัก
      ภาพคือพื้นฐานของวิดีโอ และมีองค์ประกอบที่ควบคุมได้มากกว่ามาก
      โมเดลภาพให้ฟีดแบ็กเร็วและเพิ่มประสิทธิภาพการทำงาน ขณะที่เรื่อง การควบคุมสไตล์·ท่าโพส·ความสม่ำเสมอ ยังต้องพัฒนาอีกไกล
      Midjourney เด่นด้านสุนทรียะอย่างมาก แต่ควบคุมได้ไม่ดี
      Flux ดูเป็นพลาสติก, Imagen ออกแนวการ์ตูน, OpenAI ให้ความรู้สึกเก่า
      ท้ายที่สุดต้องแข่งกันให้ได้ทั้ง สุนทรียะ·การควบคุม·ความสามารถในการทำซ้ำ
      วิดีโอจึงเป็นตัวรบกวนงานนี้
  • ได้ลองทดสอบ Flux 2 Pro โดยตรงแล้ว (ลิงก์ Replicate)
    เมื่อเทียบกับ Nano Banana ก็ไม่ได้มีจุดต่างใหญ่ และเมื่อเทียบกับ Flux 1.1 Pro ก็เป็นเพียง การปรับปรุงแบบค่อยเป็นค่อยไป

    • ความสม่ำเสมอของพรอมป์ต์ดีขึ้น แต่คุณภาพภาพกลับดูประดิษฐ์มากขึ้น
    • คู่มือพรอมป์ต์ Flux 2แนะนำให้ใช้ พรอมป์ต์ JSON และ การระบุสีแบบ HEX เป็นค่าเริ่มต้น
    • หากเปิดใช้Prompt Upsampling ความสามารถด้านการอนุมานจะดีขึ้น แต่ถ้าปิดไว้บางครั้งผลลัพธ์จะเพี้ยน
    • Flux 2 API มี ความอ่อนไหวด้าน IP สูง จนบางกรณีต้องเปิด upsampling จึงจะผ่านได้ (ตัวอย่าง)
    • ค่าใช้จ่ายและความเร็วใกล้เคียง Nano Banana แต่ถ้าใช้ ฟังก์ชันรับภาพเข้า ฝั่ง Flux 2 Pro จะแพงกว่า
    • ผลลัพธ์ของ Flux 1.1 กับ 2 ไม่ได้มีตัวไหนเหนือกว่าอย่างเป็นกลาง
    • แค่มี ความเป็นไปได้ที่จะรัน Flux แบบโลคัล ก็ถือเป็นข้อดีแล้ว
      ถ้า Google ขึ้นราคาหรือเปลี่ยน API ก็ไม่มีทางเลือก แต่ BFL ยังมีตัวเลือกรันโลคัล
    • เอาต์พุต ความละเอียดสูง (4K) ของ Flux 2 Pro บางครั้งกลับสร้างปัญหา
      มีการเติมรายละเอียดเกินจำเป็นคล้ายการอัปสเกลด้วย ESRGAN (ลิงก์ทดสอบ)
    • Flux 2 Dev เวอร์ชัน ไม่มีการเซ็นเซอร์ด้าน IP
  • FLUX.1 Pro Kontext ยังโดดเด่นทั้งด้านการแสดงออกเชิงศิลป์และ ความเข้าใจคำสั่ง
    ดูได้จากบล็อกเปรียบเทียบ Nano Bananaเช่นกัน

  • สามารถรัน FLUX.2 [dev] แบบโลคัลบน RTX GPU ด้วยเวอร์ชันที่ปรับแต่ง fp8 ได้
    การคง open weights ไว้เป็นเรื่องดี แต่ขนาดโมเดลโตจาก 12B เป็น 32B จึง ใช้งานโลคัลได้ลำบากขึ้น
    กำลังรอเวอร์ชัน distill

    • ถ้าดูจากหน้า Hugging Face
      text encoder ใช้ 48GB และโมเดลสร้างภาพใช้ 64GB รวมแล้วเกิน 100GB
      ถือเป็น กำแพงการเข้าถึง สำหรับผู้ใช้โลคัล
  • text encoder ของรุ่นนี้คือ Mistral-Small-3.2-24B-Instruct-2506 ซึ่งดีกว่าชุด CLIP/T5 เดิม แต่มีขนาดใหญ่
    ถ้ารอปล่อยโมเดลที่ distill ภายใต้ Apache 2.0 ก่อน ก็น่าจะแตกต่างจาก Nano Banana ได้มากกว่า
    โครงสร้างราคาก็แปลกอยู่ — อินพุตคิด $0.015 ต่อ MP, เอาต์พุต MP แรก $0.03 และหลังจากนั้น $0.015 ต่อ MP

    • Qwen-Image-Edit-2511 มีกำหนดเปิดตัวภายใต้ Apache 2.0 ในสัปดาห์หน้า ดูเหมือน BFL จะรีบปล่อยออกมาก่อน
    • CLIP นั้นแทบเป็น ตัวเลือกที่ไม่มีความหมาย เลย ต่อให้ตั้งน้ำหนักเป็น 0 ผลลัพธ์ก็แทบไม่ต่าง
    • ชุด CLIP+T5 เป็นสิ่งที่โมเดลสร้างภาพจำนวนมากใช้กันในเวลานั้น จึงไม่ใช่ตัวเลือกที่แปลกนัก
    • ดูเหมือนการรีบทำ GTM strategy จะทำให้ ตลาดยุโรปเสียประโยชน์
  • ดีใจที่ Nano Banana Pro มี คู่แข่ง
    ช่วยให้การแข่งขันด้านราคายังคงอยู่

    • ในพื้นที่อย่างฮ่องกงที่ การใช้โมเดลสหรัฐถูกจำกัด ทางเลือกแบบนี้ยิ่งสำคัญ
      Google, OpenAI และ Claude ต่างก็สมัครใช้งานไม่ได้
    • ดีเหมือนกันที่ได้เห็น บริษัทยุโรป โชว์ผลงาน
  • อนึ่ง FLUX.2-DEV เวอร์ชันโอเพนซอร์สใช้เชิงพาณิชย์ไม่ได้
    ข้อความเต็มของไลเซนส์

  • ลองเทียบ Nano Banana Pro กับ Flux 2 Pro ด้วยพรอมป์ต์ “family guy cyberpunk 2077” แล้ว
    โมเดลของ Google เข้ากับฉากในเกมได้ดีกว่า ส่วน Flux ให้ความรู้สึก สมจริงเกินไป

    • Flux ถูกปรับให้เข้ากับ ชุดข้อมูลที่เน้นภาพถ่าย จึงไม่ถนัดสไตล์เชิงศิลป์
      Flux 2 Pro ก็มีแนวโน้มคล้ายกัน
      แต่ถ้ามีระบบนิเวศ LoRA และใช้เวลาจูนเพิ่ม Flux 1 Dev ก็ยังแข็งแกร่งด้าน การจัดสไตล์เชิงสร้างสรรค์
  • มีเวอร์ชัน 18GB 4bit quant ให้ใช้ผ่าน diffusers จึงรันได้แม้ในสภาพแวดล้อม VRAM ต่ำ