- FLUX.2 [klein] คือ ตระกูลโมเดลสร้างภาพความเร็วสูงพิเศษ ที่รวมการสร้างและการแก้ไขภาพไว้ด้วยกัน โดยให้ความเร็วในการอนุมานต่ำกว่า 1 วินาทีและรองรับ GPU ระดับผู้บริโภค
- รองรับความสามารถด้าน text-to-image, การแก้ไขภาพ, และการสร้างแบบอ้างอิงหลายแหล่งภายใต้ สถาปัตยกรรมเดียว พร้อมคงคุณภาพในระดับใกล้เคียงโมเดลขนาดใหญ่
- โมเดล 9B เปิดเผยภายใต้ ไลเซนส์ FLUX NCL และโมเดล 4B ภายใต้ ไลเซนส์ Apache 2.0 ทำให้นักพัฒนาเข้าถึงและปรับแต่งได้ง่าย
- เวอร์ชัน quantized แบบ FP8·NVFP4 ถูกพัฒนาร่วมกับ NVIDIA เพื่อลดการใช้ VRAM ได้สูงสุด 55% และเพิ่มความเร็วได้สูงสุด 2.7 เท่า
- เป็นอีกก้าวสู่วิสัยทัศน์ ‘Interactive Visual Intelligence’ ที่มุ่งสู่การสร้างแบบเรียลไทม์และการโต้ตอบ และสามารถนำไปใช้กับเครื่องมือออกแบบและสร้างคอนเทนต์แบบเรียลไทม์ได้
ภาพรวมของ FLUX.2 [klein]
- FLUX.2 [klein] คือ ตระกูลโมเดลสร้างภาพที่เร็วที่สุด ที่ Black Forest Labs เปิดตัว โดยรวมการสร้างและการแก้ไขไว้ในโครงสร้างเดียว
- ความเร็วในการอนุมานแบบ end-to-end ต่ำกว่า 1 วินาที สร้างภาพคุณภาพสูงได้แบบเรียลไทม์
- ใช้งานได้ด้วย VRAM เพียง 13GB จึงรันได้บน GPU ระดับ RTX 3090/4070
- ชื่อโมเดล ‘klein’ มาจากภาษาเยอรมันที่แปลว่า ‘เล็ก’ สื่อถึง โครงสร้างขนาดเล็กและค่าหน่วงต่ำ
- แต่ประสิทธิภาพยังเทียบชั้นโมเดลขนาดใหญ่ และรองรับทั้ง การสร้าง text-to-image, การแก้ไข, และการสร้างแบบอ้างอิงหลายแหล่ง
คุณสมบัติหลัก
- สร้างหรือแก้ไขภาพได้ด้วย การอนุมานต่ำกว่า 0.5 วินาที
- ให้ ความสมจริงระดับภาพถ่าย และความหลากหลายสูง
- โครงสร้างโมเดลแบบรวมศูนย์ ทำงาน text-to-image, image-to-image, และงานแบบอ้างอิงหลายแหล่งได้ในโมเดลเดียว
- รองรับ GPU ระดับผู้บริโภค: โมเดล 4B ทำงานได้บน VRAM ราว 13GB
- เป็นมิตรต่อนักพัฒนา มากขึ้น: โมเดล 4B เปิดภายใต้ Apache 2.0 และโมเดล 9B ภายใต้ FLUX NCL
- มีทั้ง API และ open weights จึงรองรับทั้ง การรันแบบโลคัลและการดีพลอยสู่โปรดักชัน
องค์ประกอบของโมเดล
FLUX.2 [klein] 9B
- โมเดลหลัก ที่กำหนดสมดุลระหว่างคุณภาพและค่าหน่วง
- ในงาน text-to-image, การแก้ไขแบบ single-reference, และการสร้างแบบอ้างอิงหลายแหล่ง ให้ ประสิทธิภาพเทียบเท่าหรือดีกว่าโมเดลที่ใหญ่กว่า 5 เท่า
- ความเร็วในการอนุมาน ต่ำกว่า 0.5 วินาที
- พัฒนาบนพื้นฐานของ โมเดล flow 9B และ Qwen3 text embedder 8B
- ใช้โครงสร้างการอนุมาน 4 ขั้นตอน (step-distilled) เพื่อเพิ่มประสิทธิภาพสูงสุด
- ไลเซนส์: FLUX NCL
FLUX.2 [klein] 4B
- โมเดลที่เปิดเผยเต็มรูปแบบ ภายใต้ ไลเซนส์ Apache 2.0
- รันได้บน GPU ระดับผู้บริโภคอย่าง RTX 3090/4070
- รองรับ text-to-image (T2I), image-to-image (I2I), และ การสร้างแบบอ้างอิงหลายแหล่ง
- แม้มีขนาดเล็กแต่ให้ คุณภาพสูงเมื่อเทียบกับขนาด
- เหมาะสำหรับ การพัฒนาแบบโลคัลและการดีพลอยที่เอดจ์
FLUX.2 [klein] Base 9B / 4B
- เวอร์ชัน ไม่ distilled (full-capacity) ที่คงสัญญาณการฝึกไว้ครบถ้วน
- เหมาะสำหรับ การ fine-tuning, การฝึก LoRA, และ pipeline สำหรับงานวิจัย
- มี ความหลากหลายของผลลัพธ์ สูงกว่าโมเดล distilled
- ไลเซนส์: 4B Base ใช้ Apache 2.0 และ 9B Base ใช้ FLUX NCL
เวอร์ชัน quantized
- เปิดตัวเวอร์ชัน FP8 และ NVFP4 ร่วมกับ NVIDIA
- FP8: เร็วขึ้นสูงสุด 1.6 เท่า และลด VRAM ได้ 40%
- NVFP4: เร็วขึ้นสูงสุด 2.7 เท่า และลด VRAM ได้ 55%
- ทดสอบ benchmark 1024×1024 T2I บน RTX 5080/5090
- ยังคงใช้โครงสร้างไลเซนส์เดิม: 4B เป็น Apache 2.0 และ 9B เป็น FLUX NCL
การวิเคราะห์ประสิทธิภาพ
- FLUX.2 [klein] ให้คุณภาพเทียบเท่าหรือดีกว่า Qwen โดยใช้ค่าหน่วงและ VRAM ต่ำกว่า
- ให้ประสิทธิภาพเหนือกว่า Z-Image และรองรับทั้ง text-to-image กับการแก้ไขแบบอ้างอิงหลายแหล่งใน โมเดลเดียว
- เวอร์ชัน Base แม้จะช้ากว่าเล็กน้อย แต่เหมาะกับ การปรับแต่งและงานวิจัย มากกว่า
- การวัดความเร็วทำในสภาพแวดล้อม GB200 (bf16)
วิสัยทัศน์ Interactive Visual Intelligence
- FLUX.2 [klein] ไม่ได้เป็นเพียงการเพิ่มความเร็ว แต่คือความก้าวหน้าสู่ ปัญญาด้านภาพแบบโต้ตอบเรียลไทม์
- มุ่งสู่ ระบบที่ AI สามารถมองเห็น สร้างสรรค์ และทำซ้ำได้
- สิ่งนี้เปิดทางสู่การใช้งานใหม่ เช่น เครื่องมือออกแบบแบบเรียลไทม์, การให้เหตุผลเชิงภาพ, และการสร้างคอนเทนต์แบบโต้ตอบ
แหล่งข้อมูลและช่องทางเข้าถึง
2 ความคิดเห็น
อ้า บน Mac คงใช้ไม่ได้แล้วล่ะครับ ขึ้นว่า No GPU or XPU found ฮ่าๆ ,,
ความเห็นจาก Hacker News
ยังไม่ได้เพิ่ม Klein เข้าไปในเว็บไซต์ GenAI Showdown ของฉัน
แต่ถ้ามันคล้ายกับ Z-Image Turbo ก็น่าจะมีประสิทธิภาพที่ดีมาก
สำหรับอ้างอิง Z-Image Turbo ได้ 4 คะแนนจาก 15 คะแนนเต็ม และเมื่อพิจารณาว่า Flux.2 (32b) ซึ่งเป็นโมเดลที่ใหญ่กว่ามาก ได้มากกว่าแค่ 1 คะแนน ก็ถือว่าน่าประทับใจทีเดียว
ดูผลเปรียบเทียบโมเดลแบบรันในเครื่องได้ที่นี่
การทดสอบที่อิงข้อมูลแบบมีโครงสร้างอาจสร้าง ความมั่นใจผิด ๆ ได้ ตอนนี้ text-to-image แบบง่าย ๆ ไม่ใช่ benchmark ที่ดีอีกต่อไปแล้ว
น่าทึ่งที่โมเดลยิ่งเล็กลง แต่คุณภาพและประสิทธิภาพกลับสูงขึ้นเรื่อย ๆ
Z-Image Turbo ยอดเยี่ยมมาก และฉันก็อยากลองโมเดลนี้เร็ว ๆ
เธรดเก่าที่เกี่ยวข้องดูได้ที่นี่
โมเดลขนาด 100GB นั้นดาวน์โหลดและรันได้ยาก แต่โมเดล 4GB นักพัฒนาส่วนใหญ่ลองได้ทันที
โดยเฉพาะในเรื่องบุคคล ศิลปิน และการแสดงวัตถุเฉพาะทาง
หลัง GPT 3.5 ทาง Deepseek ฝึกโมเดลด้วยต้นทุนที่ต่ำกว่ามาก และตอนนี้ก็มีโมเดลที่เหนือกว่า 3.5 รันบนโน้ตบุ๊กได้แล้ว เลยสงสัยว่าจะย่อให้เล็กลงได้อีกแค่ไหน
โมเดลนี้สร้างภาพ pogo stick ไม่ได้
ฉันลองให้สร้างภาพ "เสือกำลังกระโดดบน pogo stick" แต่แม้แต่ตัว pogo stick เองก็ยังสร้างไม่ได้
การ จัดการเชิงกายภาพ แบบนี้โมเดลยังทำไม่ได้ ดังนั้นงานที่เกี่ยวข้องก็น่าจะยังปลอดภัยไปอีกพักใหญ่
ดูตัวอย่างจากหลายโมเดลได้ที่นี่
โมเดลเล็กต้องการ พรอมป์เพิ่มเติม เพื่ออธิบายวัตถุเฉพาะอย่าง "pogo stick"
ถ้าโมเดลมี ความสามารถในการให้เหตุผล มากพอ มันก็น่าจะใช้ภาพอ้างอิงภายนอกเพื่อเติมเต็มความรู้ได้ แต่นี่ก็ยังไม่ถึงขั้นนั้น
ตัวอย่างเสือ, อันนี้ไม่ใช่ pogo stick, ตัวอย่าง Nano Banana Pro
มีการบอกว่า FLUX.2 [klein] 4B เป็นเวอร์ชันที่เร็วที่สุดในตระกูล Klein ออกแบบมาสำหรับ พรีวิวแบบเรียลไทม์ หรือ สภาพแวดล้อมโปรดักชันที่ความหน่วงมีความสำคัญ
เลยสงสัยว่าสภาพแวดล้อมแบบนั้นคือกรณีไหนบ้าง
โดยเฉพาะงาน แก้ไขภาพ ความเร็วสำคัญมาก
ตอนแรกนึกว่าพูดถึงแอป F.lux ที่เปลี่ยนหน้าจอให้เป็นโทนส้มตอนกลางคืน
ทุกวันนี้มีเป็นฟีเจอร์พื้นฐานในทุก OS แล้ว เลยไม่จำเป็นอีกต่อไป
ถ้ามองโมเดล GenAI เป็น ตัวแทนการบีบอัด ข้อความจะถูกบีบอัดได้ดี แต่ภาพและวิดีโอไม่ค่อยเป็นแบบนั้น
แต่ถึงอย่างนั้น โมเดล text-to-image และ text-to-video รุ่นล่าสุดก็ยังเล็กกว่า LLM อย่าง Llama-3 มาก
นี่อาจเป็นเพราะเราฝึกมันด้วยแค่ ขอบเขตแคบ ๆ ที่ยึดมนุษย์เป็นศูนย์กลาง ของโลกการมองเห็น ยังมีพื้นที่ของการผสมผสานเชิงภาพที่ยังไม่ถูกสำรวจอีกมาก
ถ้าเป็นการบีบอัดแบบสูญเสียข้อมูลที่มนุษย์แยกไม่ออก ภาพอาจมีประสิทธิภาพมากกว่าด้วยซ้ำ
ข้อความอยู่ราว 4:1~6:1 แต่ภาพยังแทบไม่สูญเสียในเชิงการมองเห็นแม้เกิน 10:1 และวิดีโอก็มีประสิทธิภาพยิ่งกว่าเพราะ ความต่อเนื่องตามเวลา
ขณะเดียวกันก็ไม่ควรประเมินต่ำไปว่ามันมี เมตาความรู้ แฝงอยู่อีกมากแค่ไหน
มีใครเคยลอง Flux 2 Klein บ้างไหม
ตอนนี้ฉันเลิกตามโมเดลใหม่ ๆ แล้ว และกำลังสร้างทั้งแอปด้วย Nano Banana Pro ตัวเดียว
ผลลัพธ์น่าพอใจเพียงพอมาก
picxstudio.com
ฉันสนุกกับ Flux 1 มากจริง ๆ และตอนนี้กำลังเล่นกับ Z-Image Turbo อยู่
ถ้า Flux2 Klein ถูกเพิ่มเข้า Invoke เมื่อไหร่ก็ตั้งใจจะลอง
อยากรู้ว่าเมื่อเทียบกับเวอร์ชัน GPT แล้ว ความสามารถในการโต้ตอบ เป็นอย่างไร
ชอบที่เป็นเวอร์ชันเล็กแต่ก็ปล่อยเป็น โอเพนซอร์ส
ทำให้มีโอกาสมากขึ้นโดยไม่ต้องใช้งบมหาศาล
การเพิ่มความเร็วก็ถือว่าน่าประทับใจทีเดียว