FLUX.1 Kontext [Dev] – เปิดโอเพนเวตสำหรับการแก้ไขภาพ

(bfl.ai)

8 คะแนน โดย GN⁺ 2025-06-29 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

FLUX.1 Kontext [dev] เป็นเวอร์ชันโอเพนเวตของ โมเดลแก้ไขภาพเชิงกำเนิด ที่ก่อนหน้านี้มีให้ใช้งานแบบปิดเท่านั้น และเปิดให้ใช้งานฟรี
มี พารามิเตอร์ 12B จึงสามารถทำงานได้บนฮาร์ดแวร์ระดับผู้บริโภค และเผยแพร่สำหรับการวิจัยฟรีและการใช้งานแบบไม่เชิงพาณิชย์
มอบ ประสิทธิภาพการแก้ไขภาพคุณภาพสูงระดับเชิงพาณิชย์ ทั้งการแก้ไขแบบเฉพาะจุด/ทั้งภาพอย่างละเอียด การคงความสม่ำเสมอของตัวละคร และการปรับแก้ซ้ำหลายรอบ พร้อมเชื่อมต่อกับเฟรมเวิร์กยอดนิยมอย่าง ComfyUI, Hugging Face Diffusers, TensorRT ได้ทันที
ในการประเมินประสิทธิภาพ แสดงผลลัพธ์ที่เหนือกว่าโมเดลแบบเปิดและแบบปิดที่มีอยู่เดิมหลายตัว (เช่น Google's Gemini-Flash Image)
มี TensorRT รุ่นปรับแต่งสำหรับสถาปัตยกรรม NVIDIA Blackwell (BF16, FP8, FP4) ให้ใช้งานด้วย ช่วยให้ได้ความเร็วและประสิทธิภาพที่ดีขึ้นอย่างมากบนฮาร์ดแวร์รุ่นใหม่
มี ไลเซนส์เชิงพาณิชย์ และพอร์ทัลแบบ self-serve ที่ช่วยให้ธุรกิจสามารถนำไปผสานใช้งานได้ง่าย

บทนำและความสำคัญ

FLUX.1 Kontext [dev] คือ โมเดลแก้ไขภาพเชิงกำเนิดรุ่นล่าสุด ที่เปิดตัวโดย Black Forest Labs
ที่ผ่านมานี้ โมเดลสร้าง/แก้ไขภาพที่มีคุณภาพสูงส่วนใหญ่ถูกให้บริการแบบปิด แต่ตอนนี้ได้เปลี่ยนมาเป็น โอเพนเวต ทำให้ทุกคนสามารถใช้งานเพื่อการวิจัยและไม่เชิงพาณิชย์ได้
โมเดลนี้ประกอบด้วย พารามิเตอร์ 12B ให้ประสิทธิภาพโดดเด่น ขณะเดียวกันก็มีความมีประสิทธิภาพเพียงพอที่จะทำงานบน ฮาร์ดแวร์ผู้บริโภคทั่วไป ได้

การเปิดเผยและการเข้าถึง

FLUX.1 Kontext [dev] เปิดให้ใช้งานภายใต้ FLUX.1 non-commercial license โดยให้ผู้ใช้เพื่อการวิจัยและวัตถุประสงค์ที่ไม่ใช่เชิงพาณิชย์เข้าถึงได้ฟรี
โมเดลเวตสามารถดาวน์โหลดได้ง่ายจาก HuggingFace และรองรับเฟรมเวิร์ก AI หลัก ๆ เช่น ComfyUI, HuggingFace Diffusers, TensorRT
พันธมิตรอย่าง FAL, Replicate, Runware, DataCrunch, TogetherAI เป็นต้น มีทั้ง API endpoint และโค้ดที่พร้อมใช้งานทันทีทั้งบนคลาวด์และสภาพแวดล้อมโลคัล

มาตรฐานใหม่ในงานแก้ไขภาพ

FLUX.1 Kontext [dev] ถูกออกแบบมาเฉพาะสำหรับ งานแก้ไขภาพ
- เด่นด้าน การคงลักษณะตัวละคร ตลอดการแก้ไขซ้ำและในฉากหรือสภาพแวดล้อมที่หลากหลาย
- รองรับ การแก้ไขเฉพาะจุดและทั้งภาพอย่างแม่นยำ
Black Forest Labs ตั้งเป้าที่จะมอบ เครื่องมือแบบเปิดที่ทัดเทียมโมเดล proprietary
ในเบนช์มาร์กขนาดใหญ่ (เช่น KontextBench) ได้พิสูจน์ ประสิทธิภาพที่เหนือกว่า ทั้งโมเดลเปิดเดิมอย่าง ByteDance Bagel, HiDream-E1-Full และโมเดลเชิงพาณิชย์อย่าง Google Gemini-Flash Image
การประเมินอิสระจากหน่วยงานภายนอกอย่าง Artificial Analysis ก็ยืนยันผลลัพธ์ในทิศทางเดียวกัน

การปรับแต่งฮาร์ดแวร์และตัวเลือกที่หลากหลาย

มีการ ร่วมมือกับ NVIDIA เพื่อให้ TensorRT เวตที่ปรับแต่งสำหรับ สถาปัตยกรรม Blackwell รุ่นล่าสุด (เวอร์ชัน BF16, FP8, FP4 ที่เน้นพลังงานและความเร็ว)
นักพัฒนาสามารถเลือกสมดุลระหว่าง ความเร็ว ประสิทธิภาพ และคุณภาพ ได้ตามความต้องการ

ไลเซนส์และพอร์ทัลสำหรับการใช้งานเชิงพาณิชย์

Black Forest Labs ได้เปิด พอร์ทัลไลเซนส์แบบ self-serve ที่มีเงื่อนไขโปร่งใส เพื่อทำให้การเข้าถึงทั้งเชิงพาณิชย์และไม่เชิงพาณิชย์สำหรับโมเดลโอเพนเวตทั้งหมดง่ายขึ้น
องค์กรสามารถซื้อไลเซนส์ผ่านพอร์ทัลได้อย่างสะดวก และผสานโมเดลตระกูล FLUX.1 เข้ากับบริการทางธุรกิจได้อย่างรวดเร็ว

การอัปเดตไลเซนส์

มีการทำให้คำนิยามของวัตถุประสงค์ที่ไม่ใช่เชิงพาณิชย์ชัดเจนขึ้น โดยระบุ ขอบเขตที่อนุญาตและข้อจำกัด อย่างเฉพาะเจาะจง
เพิ่ม ข้อกำหนดด้าน content filter เพื่อป้องกันการสร้างเนื้อหาที่ผิดกฎหมาย/ละเมิดสิทธิ์ และเสริมข้อกำหนดการยกเว้นความรับผิดที่เกี่ยวข้อง
มีการกำหนดให้ การจัดการแหล่งที่มาของคอนเทนต์และประวัติการสร้าง ต้องสอดคล้องกับกฎหมายที่เกี่ยวข้อง
เพิ่มตัวอย่างและข้อจำกัดที่ชัดเจนสำหรับกรณีการใช้งานที่ไม่อนุญาต

เอกสารอ้างอิงและการสนับสนุน

โมเดล/โค้ด/เอกสาร
สามารถอ่าน รายงานทางเทคนิค เกี่ยวกับการเปิดตัว FLUX.1 Kontext [dev] ได้ที่ arxiv
ทั้งผู้ใช้และองค์กรสามารถเข้าถึง API, เอกสารอธิบาย และข้อมูลเบนช์มาร์กได้หลากหลาย

1 ความคิดเห็น

GN⁺ 2025-06-29

ความคิดเห็นบน Hacker News

การที่ BFL เปิดเผยน้ำหนักโมเดลเป็นจุดที่ยอดเยี่ยมมาก และในโลกความจริงที่ความยั่งยืนทางการเงินของโอเพนซอร์สเป็นเรื่องยาก การให้ใช้งานฟรีสำหรับภาควิชาการและคิดค่าไลเซนส์ในระดับที่สมเหตุสมผลกับสตาร์ตอัปน่าจะเป็นแนวทางที่ทำให้ BFL และบริษัทอื่น ๆ ยังสามารถปล่อยโมเดล open-weight ออกมาต่อไปได้
- ถ้า BFL ต้องจ่ายค่าอนุญาตการใช้งานล่วงหน้าอย่างชัดเจนสำหรับคอนเทนต์ที่อิงภาพและวิดีโอทั้งหมดที่ใช้ วิธีแบบนั้นก็น่าจะไม่ยั่งยืนทางการเงิน
เมื่อเปิดเผย open weights แล้ว สิ่งที่น่าสนใจคือสามารถเพิ่มความสามารถใหม่ ๆ (งานใหม่) ให้กับโมเดลตัดต่อประเภทนี้ได้
- ดูเหมือนว่าจะทำ generalize ได้ดีแม้มีตัวอย่างเพียงเล็กน้อย (ราว 30 ตัวอย่าง) และได้แชร์ไว้ในบล็อก
  - Kontext เวอร์ชันนี้คือเวอร์ชันที่ทุกคนรอคอย และให้ความรู้สึกว่าใช้งานได้จริงมากกว่าเดิมมาก
  - เป็นกรณีแรกของภาพโมเดลสร้างภาพรุ่นใหม่ที่สามารถเทรนต่อได้ ซึ่งเป็นสิ่งที่โมเดลขนาดใหญ่เดิมอย่าง Gemini, GPT, MJ ทำไม่ได้
หวังว่าโมเดล Dev ที่ผ่านการ distill แล้วจะยังรักษาประสิทธิภาพไว้ได้ดีเมื่อเทียบกับโมเดล Pro/Max ที่ใหญ่กว่า
- หวังว่าโมเดลนี้จะสามารถแทนที่เทคนิค inpainting แบบเก่าอย่าง Stable Diffusion ได้อย่างสิ้นเชิงในหลายด้าน
- สามารถดูการทดลองก่อนและหลังของการแก้ไขภาพด้วย Kontext ได้ที่นี่
ได้ลองใช้ระบบนี้ด้วยตัวเองในแฮ็กกาธอนที่ซานฟรานซิสโกเมื่อสัปดาห์ก่อน และรู้สึกว่ามันน่าประทับใจทีเดียว
- อยากรู้ว่าผู้คนในแฮ็กกาธอนนั้นสร้างโปรเจ็กต์อะไรกันบ้าง
รู้สึกว่าเจตนาของไลเซนส์ทำหน้าที่คล้ายตัวกรองล่วงหน้าที่จำกัดตัวผู้เข้าถึงเอง
- แม้ในเชิงรูปแบบจะเปิดกว้าง แต่ในทางปฏิบัติขอบเขตการใช้งานกลับแคบลง และการตั้งค่าแบบนี้ก็มีผลทำให้เกิดกรอบว่าคนแบบไหนถึงจะมีสิทธิ์ลองทำได้
- แม้จะมีข้อดีเรื่องป้องกันการนำไปใช้ผิดทาง แต่ก็อาจตัดกรณีใช้งานที่เป็นประโยชน์ออกไปด้วย และท้ายที่สุดยังมีแนวโน้มจะค่อย ๆ เปลี่ยนเกณฑ์ของการทดลองใหม่ ๆ อย่างละเอียดอ่อน
ไลเซนส์สำหรับการใช้งานแบบไม่เชิงพาณิชย์ที่เพิ่งนำมาใช้นั้นมีข้อกำหนดค่อนข้างเข้มงวด และสามารถดูข้อความเต็มของไลเซนส์ได้
- หากตีความไลเซนส์นี้อย่างเคร่งครัด ต่อให้ไม่ได้ทำอนุพันธ์แต่มีเป้าหมายเพียงสร้างผลลัพธ์ ก็ยังไม่สามารถใช้ในสภาพแวดล้อมเชิงพาณิชย์ได้
- ยังสงสัยว่าไลเซนส์นี้ครอบคลุมสิ่งใดกันแน่ แต่คาดว่านอกจากโค้ด Python ที่น่าจะนำไปเขียนใหม่ได้ง่ายแล้ว ส่วนอื่นอาจไม่มีลิขสิทธิ์
- มองว่าน้ำหนักโมเดลไม่ได้เป็นงานสร้างสรรค์ที่ให้ลิขสิทธิ์ได้มากอย่างที่บริษัทต่าง ๆ อยากให้เป็น และก็ไม่เข้าเกณฑ์นิยามทางกฎหมายของลิขสิทธิ์ด้วย
- ย้ำว่าแตกต่างจากฐานข้อมูลหรือซอฟต์แวร์ น้ำหนักโมเดลไม่ผ่านข้อกำหนดของลิขสิทธิ์ และไม่ว่าจะใส่ความสร้างสรรค์เข้าไปมากแค่ไหนก็ไม่ได้ทำให้กลายเป็นสิ่งที่ได้รับความคุ้มครองลิขสิทธิ์
อยากใช้โมเดลอย่าง Kontext ในรูปแบบที่ทำงานร่วมกับ AI แบบเรียลไทม์บนแคนวาสเพื่อค่อย ๆ วาดภาพให้เสร็จ
- อยากเห็นประสบการณ์แบบ ‘คู่หูวาดภาพแบบเรียลไทม์’ ที่ผสานนวัตกรรมด้านการพยากรณ์แบบลำดับเวลาจากฝั่ง LLM เข้ากับสิ่งอย่างชุดข้อมูล Google Quick Draw เพื่อให้คุยกับพู่กันแล้ววาดภาพจนเสร็จไปด้วยกัน
  - เมื่อลองใช้โมเดล Kontext ของ Fal.ai จะรู้สึกว่าฟีเจอร์สไลเดอร์เปรียบเทียบก่อน-หลังและความสามารถในการแก้ไขต่อเนื่องด้วยภาพที่ตัดต่อแล้วนั้นน่าประทับใจ
  - ในเมื่อ BFL เปิดเผยไปถึง dev model แล้ว ก็หวังว่าจะมีปลั๊กอิน Kontext สำหรับ Krita ออกมาด้วย เพราะเดิมก็มีปลั๊กอินสำหรับ Stable Diffusion อยู่แล้ว
  - ลิงก์อ้างอิงปลั๊กอิน Krita
สงสัยว่าระบบนี้ทำงานได้ที่ระดับ VRAM เท่าไร
- ณ ตอนนี้ต้องใช้ VRAM ราว 18~20GB แต่พรุ่งนี้หรือในอนาคตอันใกล้ ถ้ามีเวลาว่างสักประมาณ 1 ชั่วโมง ก็อาจทำให้รันได้บน VRAM 4GB
น่าเสียดายที่ไลเซนส์มีข้อจำกัดค่อนข้างมาก

FLUX.1 Kontext [Dev] – เปิดโอเพนเวตสำหรับการแก้ไขภาพ

บทนำและความสำคัญ

การเปิดเผยและการเข้าถึง

มาตรฐานใหม่ในงานแก้ไขภาพ

การปรับแต่งฮาร์ดแวร์และตัวเลือกที่หลากหลาย

ไลเซนส์และพอร์ทัลสำหรับการใช้งานเชิงพาณิชย์

การอัปเดตไลเซนส์

เอกสารอ้างอิงและการสนับสนุน

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นบน Hacker News