FLUX.2 [klein]: สู่ปัญญาด้านภาพแบบโต้ตอบ

(bfl.ai)

5 คะแนน โดย GN⁺ 2026-01-19 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

FLUX.2 [klein] คือ ตระกูลโมเดลสร้างภาพความเร็วสูงพิเศษ ที่รวมการสร้างและการแก้ไขภาพไว้ด้วยกัน โดยให้ความเร็วในการอนุมานต่ำกว่า 1 วินาทีและรองรับ GPU ระดับผู้บริโภค
รองรับความสามารถด้าน text-to-image, การแก้ไขภาพ, และการสร้างแบบอ้างอิงหลายแหล่งภายใต้ สถาปัตยกรรมเดียว พร้อมคงคุณภาพในระดับใกล้เคียงโมเดลขนาดใหญ่
โมเดล 9B เปิดเผยภายใต้ ไลเซนส์ FLUX NCL และโมเดล 4B ภายใต้ ไลเซนส์ Apache 2.0 ทำให้นักพัฒนาเข้าถึงและปรับแต่งได้ง่าย
เวอร์ชัน quantized แบบ FP8·NVFP4 ถูกพัฒนาร่วมกับ NVIDIA เพื่อลดการใช้ VRAM ได้สูงสุด 55% และเพิ่มความเร็วได้สูงสุด 2.7 เท่า
เป็นอีกก้าวสู่วิสัยทัศน์ ‘Interactive Visual Intelligence’ ที่มุ่งสู่การสร้างแบบเรียลไทม์และการโต้ตอบ และสามารถนำไปใช้กับเครื่องมือออกแบบและสร้างคอนเทนต์แบบเรียลไทม์ได้

ภาพรวมของ FLUX.2 [klein]

FLUX.2 [klein] คือ ตระกูลโมเดลสร้างภาพที่เร็วที่สุด ที่ Black Forest Labs เปิดตัว โดยรวมการสร้างและการแก้ไขไว้ในโครงสร้างเดียว
- ความเร็วในการอนุมานแบบ end-to-end ต่ำกว่า 1 วินาที สร้างภาพคุณภาพสูงได้แบบเรียลไทม์
- ใช้งานได้ด้วย VRAM เพียง 13GB จึงรันได้บน GPU ระดับ RTX 3090/4070
ชื่อโมเดล ‘klein’ มาจากภาษาเยอรมันที่แปลว่า ‘เล็ก’ สื่อถึง โครงสร้างขนาดเล็กและค่าหน่วงต่ำ
- แต่ประสิทธิภาพยังเทียบชั้นโมเดลขนาดใหญ่ และรองรับทั้ง การสร้าง text-to-image, การแก้ไข, และการสร้างแบบอ้างอิงหลายแหล่ง

คุณสมบัติหลัก

สร้างหรือแก้ไขภาพได้ด้วย การอนุมานต่ำกว่า 0.5 วินาที
ให้ ความสมจริงระดับภาพถ่าย และความหลากหลายสูง
โครงสร้างโมเดลแบบรวมศูนย์ ทำงาน text-to-image, image-to-image, และงานแบบอ้างอิงหลายแหล่งได้ในโมเดลเดียว
รองรับ GPU ระดับผู้บริโภค: โมเดล 4B ทำงานได้บน VRAM ราว 13GB
เป็นมิตรต่อนักพัฒนา มากขึ้น: โมเดล 4B เปิดภายใต้ Apache 2.0 และโมเดล 9B ภายใต้ FLUX NCL
มีทั้ง API และ open weights จึงรองรับทั้ง การรันแบบโลคัลและการดีพลอยสู่โปรดักชัน

องค์ประกอบของโมเดล

FLUX.2 [klein] 9B

โมเดลหลัก ที่กำหนดสมดุลระหว่างคุณภาพและค่าหน่วง
- ในงาน text-to-image, การแก้ไขแบบ single-reference, และการสร้างแบบอ้างอิงหลายแหล่ง ให้ ประสิทธิภาพเทียบเท่าหรือดีกว่าโมเดลที่ใหญ่กว่า 5 เท่า
- ความเร็วในการอนุมาน ต่ำกว่า 0.5 วินาที
- พัฒนาบนพื้นฐานของ โมเดล flow 9B และ Qwen3 text embedder 8B
- ใช้โครงสร้างการอนุมาน 4 ขั้นตอน (step-distilled) เพื่อเพิ่มประสิทธิภาพสูงสุด
ไลเซนส์: FLUX NCL

FLUX.2 [klein] 4B

โมเดลที่เปิดเผยเต็มรูปแบบ ภายใต้ ไลเซนส์ Apache 2.0
- รันได้บน GPU ระดับผู้บริโภคอย่าง RTX 3090/4070
- รองรับ text-to-image (T2I), image-to-image (I2I), และ การสร้างแบบอ้างอิงหลายแหล่ง
- แม้มีขนาดเล็กแต่ให้ คุณภาพสูงเมื่อเทียบกับขนาด
- เหมาะสำหรับ การพัฒนาแบบโลคัลและการดีพลอยที่เอดจ์

FLUX.2 [klein] Base 9B / 4B

เวอร์ชัน ไม่ distilled (full-capacity) ที่คงสัญญาณการฝึกไว้ครบถ้วน
- เหมาะสำหรับ การ fine-tuning, การฝึก LoRA, และ pipeline สำหรับงานวิจัย
- มี ความหลากหลายของผลลัพธ์ สูงกว่าโมเดล distilled
ไลเซนส์: 4B Base ใช้ Apache 2.0 และ 9B Base ใช้ FLUX NCL

เวอร์ชัน quantized

เปิดตัวเวอร์ชัน FP8 และ NVFP4 ร่วมกับ NVIDIA
- FP8: เร็วขึ้นสูงสุด 1.6 เท่า และลด VRAM ได้ 40%
- NVFP4: เร็วขึ้นสูงสุด 2.7 เท่า และลด VRAM ได้ 55%
- ทดสอบ benchmark 1024×1024 T2I บน RTX 5080/5090
ยังคงใช้โครงสร้างไลเซนส์เดิม: 4B เป็น Apache 2.0 และ 9B เป็น FLUX NCL

การวิเคราะห์ประสิทธิภาพ

FLUX.2 [klein] ให้คุณภาพเทียบเท่าหรือดีกว่า Qwen โดยใช้ค่าหน่วงและ VRAM ต่ำกว่า
ให้ประสิทธิภาพเหนือกว่า Z-Image และรองรับทั้ง text-to-image กับการแก้ไขแบบอ้างอิงหลายแหล่งใน โมเดลเดียว
เวอร์ชัน Base แม้จะช้ากว่าเล็กน้อย แต่เหมาะกับ การปรับแต่งและงานวิจัย มากกว่า
การวัดความเร็วทำในสภาพแวดล้อม GB200 (bf16)

วิสัยทัศน์ Interactive Visual Intelligence

FLUX.2 [klein] ไม่ได้เป็นเพียงการเพิ่มความเร็ว แต่คือความก้าวหน้าสู่ ปัญญาด้านภาพแบบโต้ตอบเรียลไทม์
มุ่งสู่ ระบบที่ AI สามารถมองเห็น สร้างสรรค์ และทำซ้ำได้
สิ่งนี้เปิดทางสู่การใช้งานใหม่ เช่น เครื่องมือออกแบบแบบเรียลไทม์, การให้เหตุผลเชิงภาพ, และการสร้างคอนเทนต์แบบโต้ตอบ

แหล่งข้อมูลและช่องทางเข้าถึง

ทดลองใช้: Demo, Playground
Hugging Face Space: klein 9B, klein 4B
เอกสารสำหรับนักพัฒนา: เอกสาร, GitHub, น้ำหนักโมเดล
ข้อมูลเพิ่มเติม: หน้ารุ่นโมเดลอย่างเป็นทางการ

2 ความคิดเห็น

yangeok 2026-01-19

อ้า บน Mac คงใช้ไม่ได้แล้วล่ะครับ ขึ้นว่า No GPU or XPU found ฮ่าๆ ,,

GN⁺ 2026-01-19

ความเห็นจาก Hacker News

ยังไม่ได้เพิ่ม Klein เข้าไปในเว็บไซต์ GenAI Showdown ของฉัน
แต่ถ้ามันคล้ายกับ Z-Image Turbo ก็น่าจะมีประสิทธิภาพที่ดีมาก
สำหรับอ้างอิง Z-Image Turbo ได้ 4 คะแนนจาก 15 คะแนนเต็ม และเมื่อพิจารณาว่า Flux.2 (32b) ซึ่งเป็นโมเดลที่ใหญ่กว่ามาก ได้มากกว่าแค่ 1 คะแนน ก็ถือว่าน่าประทับใจทีเดียว
ดูผลเปรียบเทียบโมเดลแบบรันในเครื่องได้ที่นี่
- บนมือถือมีปัญหาที่พอกดฟองข้อมูลแล้วมันหายไปทันที ได้ขอให้แก้แล้ว
- คิดว่าวิธีทดสอบมีปัญหา โมเดลขนาดใหญ่มี ความสามารถในการเรียนรู้ที่ซับซ้อน และความเข้าใจการเรนเดอร์ CGI ที่ดีกว่ามาก
  การทดสอบที่อิงข้อมูลแบบมีโครงสร้างอาจสร้าง ความมั่นใจผิด ๆ ได้ ตอนนี้ text-to-image แบบง่าย ๆ ไม่ใช่ benchmark ที่ดีอีกต่อไปแล้ว
น่าทึ่งที่โมเดลยิ่งเล็กลง แต่คุณภาพและประสิทธิภาพกลับสูงขึ้นเรื่อย ๆ
Z-Image Turbo ยอดเยี่ยมมาก และฉันก็อยากลองโมเดลนี้เร็ว ๆ
เธรดเก่าที่เกี่ยวข้องดูได้ที่นี่
- ดูเหมือนว่าแม้แต่โมเดลเล็ก ๆ ก็มีช่วงเวลาที่ไปถึง จุดวิกฤต
  โมเดลขนาด 100GB นั้นดาวน์โหลดและรันได้ยาก แต่โมเดล 4GB นักพัฒนาส่วนใหญ่ลองได้ทันที
- แม้ว่าคุณภาพจะดีขึ้น แต่โมเดลเล็กก็ยังขาด ปริมาณความรู้ เมื่อเทียบกับโมเดลใหญ่ (Qwen Image, Flux 2 Full)
  โดยเฉพาะในเรื่องบุคคล ศิลปิน และการแสดงวัตถุเฉพาะทาง
- สงสัยว่ามี จำนวนพารามิเตอร์ขั้นต่ำ ที่จำเป็นต่อคุณภาพผลลัพธ์ระดับหนึ่งหรือไม่
  หลัง GPT 3.5 ทาง Deepseek ฝึกโมเดลด้วยต้นทุนที่ต่ำกว่ามาก และตอนนี้ก็มีโมเดลที่เหนือกว่า 3.5 รันบนโน้ตบุ๊กได้แล้ว เลยสงสัยว่าจะย่อให้เล็กลงได้อีกแค่ไหน
โมเดลนี้สร้างภาพ pogo stick ไม่ได้
ฉันลองให้สร้างภาพ "เสือกำลังกระโดดบน pogo stick" แต่แม้แต่ตัว pogo stick เองก็ยังสร้างไม่ได้
- แม้จะให้ภาพแก้วไวน์เปล่าแล้วบอกให้เติมไวน์ลงไปก็ยังทำไม่ได้
  การ จัดการเชิงกายภาพ แบบนี้โมเดลยังทำไม่ได้ ดังนั้นงานที่เกี่ยวข้องก็น่าจะยังปลอดภัยไปอีกพักใหญ่
- นี่เป็นการทดสอบที่ยากสำหรับโมเดลรันในเครื่อง gpt-image กับ NB ไม่มีปัญหา แต่มีแค่ Qwen-Image ที่ให้ผลลัพธ์ใกล้เคียง
  ดูตัวอย่างจากหลายโมเดลได้ที่นี่
  โมเดลเล็กต้องการ พรอมป์เพิ่มเติม เพื่ออธิบายวัตถุเฉพาะอย่าง "pogo stick"
- ต่อให้ให้ภาพอ้างอิงก็ยังล้มเหลวอยู่ดี
  ถ้าโมเดลมี ความสามารถในการให้เหตุผล มากพอ มันก็น่าจะใช้ภาพอ้างอิงภายนอกเพื่อเติมเต็มความรู้ได้ แต่นี่ก็ยังไม่ถึงขั้นนั้น
- เป็นพรอมป์ benchmark ที่ดี Z-Image Turbo ก็วาด pogo stick ได้ไม่ดีนัก
  ตัวอย่างเสือ, อันนี้ไม่ใช่ pogo stick, ตัวอย่าง Nano Banana Pro
มีการบอกว่า FLUX.2 [klein] 4B เป็นเวอร์ชันที่เร็วที่สุดในตระกูล Klein ออกแบบมาสำหรับ พรีวิวแบบเรียลไทม์ หรือ สภาพแวดล้อมโปรดักชันที่ความหน่วงมีความสำคัญ
เลยสงสัยว่าสภาพแวดล้อมแบบนั้นคือกรณีไหนบ้าง
- เวลารันโมเดลในเครื่อง ฉันไม่อยากรอ 10 นาทีเพื่อสร้างภาพหนึ่งภาพ
  โดยเฉพาะงาน แก้ไขภาพ ความเร็วสำคัญมาก
- น่าจะเหมาะกับงานแก้ไขภาพที่ต้องการความเร็ว
ตอนแรกนึกว่าพูดถึงแอป F.lux ที่เปลี่ยนหน้าจอให้เป็นโทนส้มตอนกลางคืน
ทุกวันนี้มีเป็นฟีเจอร์พื้นฐานในทุก OS แล้ว เลยไม่จำเป็นอีกต่อไป
ถ้ามองโมเดล GenAI เป็น ตัวแทนการบีบอัด ข้อความจะถูกบีบอัดได้ดี แต่ภาพและวิดีโอไม่ค่อยเป็นแบบนั้น
แต่ถึงอย่างนั้น โมเดล text-to-image และ text-to-video รุ่นล่าสุดก็ยังเล็กกว่า LLM อย่าง Llama-3 มาก
นี่อาจเป็นเพราะเราฝึกมันด้วยแค่ ขอบเขตแคบ ๆ ที่ยึดมนุษย์เป็นศูนย์กลาง ของโลกการมองเห็น ยังมีพื้นที่ของการผสมผสานเชิงภาพที่ยังไม่ถูกสำรวจอีกมาก
- ข้อความบีบอัดแบบไม่สูญเสียข้อมูลได้ แต่ภาพกับวิดีโอมี สัญญาณรบกวน มาก การเอามาเทียบกันตรง ๆ จึงไม่ยุติธรรม
  ถ้าเป็นการบีบอัดแบบสูญเสียข้อมูลที่มนุษย์แยกไม่ออก ภาพอาจมีประสิทธิภาพมากกว่าด้วยซ้ำ
- ในความเป็นจริง ภาพและวิดีโอบีบอัดได้ดีกว่าข้อความมาก
  ข้อความอยู่ราว 4:1~6:1 แต่ภาพยังแทบไม่สูญเสียในเชิงการมองเห็นแม้เกิน 10:1 และวิดีโอก็มีประสิทธิภาพยิ่งกว่าเพราะ ความต่อเนื่องตามเวลา
- ฉันคิดว่า LLM ยังมีพื้นที่ให้ เพิ่มประสิทธิภาพ ได้อีกมาก
  ขณะเดียวกันก็ไม่ควรประเมินต่ำไปว่ามันมี เมตาความรู้ แฝงอยู่อีกมากแค่ไหน
มีใครเคยลอง Flux 2 Klein บ้างไหม
ตอนนี้ฉันเลิกตามโมเดลใหม่ ๆ แล้ว และกำลังสร้างทั้งแอปด้วย Nano Banana Pro ตัวเดียว
ผลลัพธ์น่าพอใจเพียงพอมาก
picxstudio.com
ฉันสนุกกับ Flux 1 มากจริง ๆ และตอนนี้กำลังเล่นกับ Z-Image Turbo อยู่
ถ้า Flux2 Klein ถูกเพิ่มเข้า Invoke เมื่อไหร่ก็ตั้งใจจะลอง
- เห็นด้วย ประสบการณ์ใช้ ZIT บน Invoke ยอดเยี่ยมมาก
อยากรู้ว่าเมื่อเทียบกับเวอร์ชัน GPT แล้ว ความสามารถในการโต้ตอบ เป็นอย่างไร
ชอบที่เป็นเวอร์ชันเล็กแต่ก็ปล่อยเป็น โอเพนซอร์ส
ทำให้มีโอกาสมากขึ้นโดยไม่ต้องใช้งบมหาศาล
การเพิ่มความเร็วก็ถือว่าน่าประทับใจทีเดียว

FLUX.2 [klein]: สู่ปัญญาด้านภาพแบบโต้ตอบ

ภาพรวมของ FLUX.2 [klein]

คุณสมบัติหลัก

องค์ประกอบของโมเดล

FLUX.2 [klein] 9B

FLUX.2 [klein] 4B

FLUX.2 [klein] Base 9B / 4B

เวอร์ชัน quantized

การวิเคราะห์ประสิทธิภาพ

วิสัยทัศน์ Interactive Visual Intelligence

แหล่งข้อมูลและช่องทางเข้าถึง

บทความที่เกี่ยวข้อง

2 ความคิดเห็น

ความเห็นจาก Hacker News