5 คะแนน โดย GN⁺ 2026-01-19 | 2 ความคิดเห็น | แชร์ทาง WhatsApp
  • FLUX.2 [klein] คือ ตระกูลโมเดลสร้างภาพความเร็วสูงพิเศษ ที่รวมการสร้างและการแก้ไขภาพไว้ด้วยกัน โดยให้ความเร็วในการอนุมานต่ำกว่า 1 วินาทีและรองรับ GPU ระดับผู้บริโภค
  • รองรับความสามารถด้าน text-to-image, การแก้ไขภาพ, และการสร้างแบบอ้างอิงหลายแหล่งภายใต้ สถาปัตยกรรมเดียว พร้อมคงคุณภาพในระดับใกล้เคียงโมเดลขนาดใหญ่
  • โมเดล 9B เปิดเผยภายใต้ ไลเซนส์ FLUX NCL และโมเดล 4B ภายใต้ ไลเซนส์ Apache 2.0 ทำให้นักพัฒนาเข้าถึงและปรับแต่งได้ง่าย
  • เวอร์ชัน quantized แบบ FP8·NVFP4 ถูกพัฒนาร่วมกับ NVIDIA เพื่อลดการใช้ VRAM ได้สูงสุด 55% และเพิ่มความเร็วได้สูงสุด 2.7 เท่า
  • เป็นอีกก้าวสู่วิสัยทัศน์ ‘Interactive Visual Intelligence’ ที่มุ่งสู่การสร้างแบบเรียลไทม์และการโต้ตอบ และสามารถนำไปใช้กับเครื่องมือออกแบบและสร้างคอนเทนต์แบบเรียลไทม์ได้

ภาพรวมของ FLUX.2 [klein]

  • FLUX.2 [klein] คือ ตระกูลโมเดลสร้างภาพที่เร็วที่สุด ที่ Black Forest Labs เปิดตัว โดยรวมการสร้างและการแก้ไขไว้ในโครงสร้างเดียว
    • ความเร็วในการอนุมานแบบ end-to-end ต่ำกว่า 1 วินาที สร้างภาพคุณภาพสูงได้แบบเรียลไทม์
    • ใช้งานได้ด้วย VRAM เพียง 13GB จึงรันได้บน GPU ระดับ RTX 3090/4070
  • ชื่อโมเดล ‘klein’ มาจากภาษาเยอรมันที่แปลว่า ‘เล็ก’ สื่อถึง โครงสร้างขนาดเล็กและค่าหน่วงต่ำ
    • แต่ประสิทธิภาพยังเทียบชั้นโมเดลขนาดใหญ่ และรองรับทั้ง การสร้าง text-to-image, การแก้ไข, และการสร้างแบบอ้างอิงหลายแหล่ง

คุณสมบัติหลัก

  • สร้างหรือแก้ไขภาพได้ด้วย การอนุมานต่ำกว่า 0.5 วินาที
  • ให้ ความสมจริงระดับภาพถ่าย และความหลากหลายสูง
  • โครงสร้างโมเดลแบบรวมศูนย์ ทำงาน text-to-image, image-to-image, และงานแบบอ้างอิงหลายแหล่งได้ในโมเดลเดียว
  • รองรับ GPU ระดับผู้บริโภค: โมเดล 4B ทำงานได้บน VRAM ราว 13GB
  • เป็นมิตรต่อนักพัฒนา มากขึ้น: โมเดล 4B เปิดภายใต้ Apache 2.0 และโมเดล 9B ภายใต้ FLUX NCL
  • มีทั้ง API และ open weights จึงรองรับทั้ง การรันแบบโลคัลและการดีพลอยสู่โปรดักชัน

องค์ประกอบของโมเดล

FLUX.2 [klein] 9B

  • โมเดลหลัก ที่กำหนดสมดุลระหว่างคุณภาพและค่าหน่วง
    • ในงาน text-to-image, การแก้ไขแบบ single-reference, และการสร้างแบบอ้างอิงหลายแหล่ง ให้ ประสิทธิภาพเทียบเท่าหรือดีกว่าโมเดลที่ใหญ่กว่า 5 เท่า
    • ความเร็วในการอนุมาน ต่ำกว่า 0.5 วินาที
    • พัฒนาบนพื้นฐานของ โมเดล flow 9B และ Qwen3 text embedder 8B
    • ใช้โครงสร้างการอนุมาน 4 ขั้นตอน (step-distilled) เพื่อเพิ่มประสิทธิภาพสูงสุด
  • ไลเซนส์: FLUX NCL

FLUX.2 [klein] 4B

  • โมเดลที่เปิดเผยเต็มรูปแบบ ภายใต้ ไลเซนส์ Apache 2.0
    • รันได้บน GPU ระดับผู้บริโภคอย่าง RTX 3090/4070
    • รองรับ text-to-image (T2I), image-to-image (I2I), และ การสร้างแบบอ้างอิงหลายแหล่ง
    • แม้มีขนาดเล็กแต่ให้ คุณภาพสูงเมื่อเทียบกับขนาด
    • เหมาะสำหรับ การพัฒนาแบบโลคัลและการดีพลอยที่เอดจ์

FLUX.2 [klein] Base 9B / 4B

  • เวอร์ชัน ไม่ distilled (full-capacity) ที่คงสัญญาณการฝึกไว้ครบถ้วน
    • เหมาะสำหรับ การ fine-tuning, การฝึก LoRA, และ pipeline สำหรับงานวิจัย
    • มี ความหลากหลายของผลลัพธ์ สูงกว่าโมเดล distilled
  • ไลเซนส์: 4B Base ใช้ Apache 2.0 และ 9B Base ใช้ FLUX NCL

เวอร์ชัน quantized

  • เปิดตัวเวอร์ชัน FP8 และ NVFP4 ร่วมกับ NVIDIA
    • FP8: เร็วขึ้นสูงสุด 1.6 เท่า และลด VRAM ได้ 40%
    • NVFP4: เร็วขึ้นสูงสุด 2.7 เท่า และลด VRAM ได้ 55%
    • ทดสอบ benchmark 1024×1024 T2I บน RTX 5080/5090
  • ยังคงใช้โครงสร้างไลเซนส์เดิม: 4B เป็น Apache 2.0 และ 9B เป็น FLUX NCL

การวิเคราะห์ประสิทธิภาพ

  • FLUX.2 [klein] ให้คุณภาพเทียบเท่าหรือดีกว่า Qwen โดยใช้ค่าหน่วงและ VRAM ต่ำกว่า
  • ให้ประสิทธิภาพเหนือกว่า Z-Image และรองรับทั้ง text-to-image กับการแก้ไขแบบอ้างอิงหลายแหล่งใน โมเดลเดียว
  • เวอร์ชัน Base แม้จะช้ากว่าเล็กน้อย แต่เหมาะกับ การปรับแต่งและงานวิจัย มากกว่า
  • การวัดความเร็วทำในสภาพแวดล้อม GB200 (bf16)

วิสัยทัศน์ Interactive Visual Intelligence

  • FLUX.2 [klein] ไม่ได้เป็นเพียงการเพิ่มความเร็ว แต่คือความก้าวหน้าสู่ ปัญญาด้านภาพแบบโต้ตอบเรียลไทม์
  • มุ่งสู่ ระบบที่ AI สามารถมองเห็น สร้างสรรค์ และทำซ้ำได้
  • สิ่งนี้เปิดทางสู่การใช้งานใหม่ เช่น เครื่องมือออกแบบแบบเรียลไทม์, การให้เหตุผลเชิงภาพ, และการสร้างคอนเทนต์แบบโต้ตอบ

แหล่งข้อมูลและช่องทางเข้าถึง


2 ความคิดเห็น

 
yangeok 2026-01-19

อ้า บน Mac คงใช้ไม่ได้แล้วล่ะครับ ขึ้นว่า No GPU or XPU found ฮ่าๆ ,,

 
GN⁺ 2026-01-19
ความเห็นจาก Hacker News
  • ยังไม่ได้เพิ่ม Klein เข้าไปในเว็บไซต์ GenAI Showdown ของฉัน
    แต่ถ้ามันคล้ายกับ Z-Image Turbo ก็น่าจะมีประสิทธิภาพที่ดีมาก
    สำหรับอ้างอิง Z-Image Turbo ได้ 4 คะแนนจาก 15 คะแนนเต็ม และเมื่อพิจารณาว่า Flux.2 (32b) ซึ่งเป็นโมเดลที่ใหญ่กว่ามาก ได้มากกว่าแค่ 1 คะแนน ก็ถือว่าน่าประทับใจทีเดียว
    ดูผลเปรียบเทียบโมเดลแบบรันในเครื่องได้ที่นี่

    • บนมือถือมีปัญหาที่พอกดฟองข้อมูลแล้วมันหายไปทันที ได้ขอให้แก้แล้ว
    • คิดว่าวิธีทดสอบมีปัญหา โมเดลขนาดใหญ่มี ความสามารถในการเรียนรู้ที่ซับซ้อน และความเข้าใจการเรนเดอร์ CGI ที่ดีกว่ามาก
      การทดสอบที่อิงข้อมูลแบบมีโครงสร้างอาจสร้าง ความมั่นใจผิด ๆ ได้ ตอนนี้ text-to-image แบบง่าย ๆ ไม่ใช่ benchmark ที่ดีอีกต่อไปแล้ว
  • น่าทึ่งที่โมเดลยิ่งเล็กลง แต่คุณภาพและประสิทธิภาพกลับสูงขึ้นเรื่อย ๆ
    Z-Image Turbo ยอดเยี่ยมมาก และฉันก็อยากลองโมเดลนี้เร็ว ๆ
    เธรดเก่าที่เกี่ยวข้องดูได้ที่นี่

    • ดูเหมือนว่าแม้แต่โมเดลเล็ก ๆ ก็มีช่วงเวลาที่ไปถึง จุดวิกฤต
      โมเดลขนาด 100GB นั้นดาวน์โหลดและรันได้ยาก แต่โมเดล 4GB นักพัฒนาส่วนใหญ่ลองได้ทันที
    • แม้ว่าคุณภาพจะดีขึ้น แต่โมเดลเล็กก็ยังขาด ปริมาณความรู้ เมื่อเทียบกับโมเดลใหญ่ (Qwen Image, Flux 2 Full)
      โดยเฉพาะในเรื่องบุคคล ศิลปิน และการแสดงวัตถุเฉพาะทาง
    • สงสัยว่ามี จำนวนพารามิเตอร์ขั้นต่ำ ที่จำเป็นต่อคุณภาพผลลัพธ์ระดับหนึ่งหรือไม่
      หลัง GPT 3.5 ทาง Deepseek ฝึกโมเดลด้วยต้นทุนที่ต่ำกว่ามาก และตอนนี้ก็มีโมเดลที่เหนือกว่า 3.5 รันบนโน้ตบุ๊กได้แล้ว เลยสงสัยว่าจะย่อให้เล็กลงได้อีกแค่ไหน
  • โมเดลนี้สร้างภาพ pogo stick ไม่ได้
    ฉันลองให้สร้างภาพ "เสือกำลังกระโดดบน pogo stick" แต่แม้แต่ตัว pogo stick เองก็ยังสร้างไม่ได้

    • แม้จะให้ภาพแก้วไวน์เปล่าแล้วบอกให้เติมไวน์ลงไปก็ยังทำไม่ได้
      การ จัดการเชิงกายภาพ แบบนี้โมเดลยังทำไม่ได้ ดังนั้นงานที่เกี่ยวข้องก็น่าจะยังปลอดภัยไปอีกพักใหญ่
    • นี่เป็นการทดสอบที่ยากสำหรับโมเดลรันในเครื่อง gpt-image กับ NB ไม่มีปัญหา แต่มีแค่ Qwen-Image ที่ให้ผลลัพธ์ใกล้เคียง
      ดูตัวอย่างจากหลายโมเดลได้ที่นี่
      โมเดลเล็กต้องการ พรอมป์เพิ่มเติม เพื่ออธิบายวัตถุเฉพาะอย่าง "pogo stick"
    • ต่อให้ให้ภาพอ้างอิงก็ยังล้มเหลวอยู่ดี
      ถ้าโมเดลมี ความสามารถในการให้เหตุผล มากพอ มันก็น่าจะใช้ภาพอ้างอิงภายนอกเพื่อเติมเต็มความรู้ได้ แต่นี่ก็ยังไม่ถึงขั้นนั้น
    • เป็นพรอมป์ benchmark ที่ดี Z-Image Turbo ก็วาด pogo stick ได้ไม่ดีนัก
      ตัวอย่างเสือ, อันนี้ไม่ใช่ pogo stick, ตัวอย่าง Nano Banana Pro
  • มีการบอกว่า FLUX.2 [klein] 4B เป็นเวอร์ชันที่เร็วที่สุดในตระกูล Klein ออกแบบมาสำหรับ พรีวิวแบบเรียลไทม์ หรือ สภาพแวดล้อมโปรดักชันที่ความหน่วงมีความสำคัญ
    เลยสงสัยว่าสภาพแวดล้อมแบบนั้นคือกรณีไหนบ้าง

    • เวลารันโมเดลในเครื่อง ฉันไม่อยากรอ 10 นาทีเพื่อสร้างภาพหนึ่งภาพ
      โดยเฉพาะงาน แก้ไขภาพ ความเร็วสำคัญมาก
    • น่าจะเหมาะกับงานแก้ไขภาพที่ต้องการความเร็ว
  • ตอนแรกนึกว่าพูดถึงแอป F.lux ที่เปลี่ยนหน้าจอให้เป็นโทนส้มตอนกลางคืน
    ทุกวันนี้มีเป็นฟีเจอร์พื้นฐานในทุก OS แล้ว เลยไม่จำเป็นอีกต่อไป

  • ถ้ามองโมเดล GenAI เป็น ตัวแทนการบีบอัด ข้อความจะถูกบีบอัดได้ดี แต่ภาพและวิดีโอไม่ค่อยเป็นแบบนั้น
    แต่ถึงอย่างนั้น โมเดล text-to-image และ text-to-video รุ่นล่าสุดก็ยังเล็กกว่า LLM อย่าง Llama-3 มาก
    นี่อาจเป็นเพราะเราฝึกมันด้วยแค่ ขอบเขตแคบ ๆ ที่ยึดมนุษย์เป็นศูนย์กลาง ของโลกการมองเห็น ยังมีพื้นที่ของการผสมผสานเชิงภาพที่ยังไม่ถูกสำรวจอีกมาก

    • ข้อความบีบอัดแบบไม่สูญเสียข้อมูลได้ แต่ภาพกับวิดีโอมี สัญญาณรบกวน มาก การเอามาเทียบกันตรง ๆ จึงไม่ยุติธรรม
      ถ้าเป็นการบีบอัดแบบสูญเสียข้อมูลที่มนุษย์แยกไม่ออก ภาพอาจมีประสิทธิภาพมากกว่าด้วยซ้ำ
    • ในความเป็นจริง ภาพและวิดีโอบีบอัดได้ดีกว่าข้อความมาก
      ข้อความอยู่ราว 4:1~6:1 แต่ภาพยังแทบไม่สูญเสียในเชิงการมองเห็นแม้เกิน 10:1 และวิดีโอก็มีประสิทธิภาพยิ่งกว่าเพราะ ความต่อเนื่องตามเวลา
    • ฉันคิดว่า LLM ยังมีพื้นที่ให้ เพิ่มประสิทธิภาพ ได้อีกมาก
      ขณะเดียวกันก็ไม่ควรประเมินต่ำไปว่ามันมี เมตาความรู้ แฝงอยู่อีกมากแค่ไหน
  • มีใครเคยลอง Flux 2 Klein บ้างไหม
    ตอนนี้ฉันเลิกตามโมเดลใหม่ ๆ แล้ว และกำลังสร้างทั้งแอปด้วย Nano Banana Pro ตัวเดียว
    ผลลัพธ์น่าพอใจเพียงพอมาก
    picxstudio.com

  • ฉันสนุกกับ Flux 1 มากจริง ๆ และตอนนี้กำลังเล่นกับ Z-Image Turbo อยู่
    ถ้า Flux2 Klein ถูกเพิ่มเข้า Invoke เมื่อไหร่ก็ตั้งใจจะลอง

    • เห็นด้วย ประสบการณ์ใช้ ZIT บน Invoke ยอดเยี่ยมมาก
  • อยากรู้ว่าเมื่อเทียบกับเวอร์ชัน GPT แล้ว ความสามารถในการโต้ตอบ เป็นอย่างไร

  • ชอบที่เป็นเวอร์ชันเล็กแต่ก็ปล่อยเป็น โอเพนซอร์ส
    ทำให้มีโอกาสมากขึ้นโดยไม่ต้องใช้งบมหาศาล
    การเพิ่มความเร็วก็ถือว่าน่าประทับใจทีเดียว