- FLUX.1 Kontext [dev] เป็นเวอร์ชันโอเพนเวตของ โมเดลแก้ไขภาพเชิงกำเนิด ที่ก่อนหน้านี้มีให้ใช้งานแบบปิดเท่านั้น และเปิดให้ใช้งานฟรี
- มี พารามิเตอร์ 12B จึงสามารถทำงานได้บนฮาร์ดแวร์ระดับผู้บริโภค และเผยแพร่สำหรับการวิจัยฟรีและการใช้งานแบบไม่เชิงพาณิชย์
- มอบ ประสิทธิภาพการแก้ไขภาพคุณภาพสูงระดับเชิงพาณิชย์ ทั้งการแก้ไขแบบเฉพาะจุด/ทั้งภาพอย่างละเอียด การคงความสม่ำเสมอของตัวละคร และการปรับแก้ซ้ำหลายรอบ พร้อมเชื่อมต่อกับเฟรมเวิร์กยอดนิยมอย่าง ComfyUI, Hugging Face Diffusers, TensorRT ได้ทันที
- ในการประเมินประสิทธิภาพ แสดงผลลัพธ์ที่เหนือกว่าโมเดลแบบเปิดและแบบปิดที่มีอยู่เดิมหลายตัว (เช่น Google's Gemini-Flash Image)
- มี TensorRT รุ่นปรับแต่งสำหรับสถาปัตยกรรม NVIDIA Blackwell (BF16, FP8, FP4) ให้ใช้งานด้วย ช่วยให้ได้ความเร็วและประสิทธิภาพที่ดีขึ้นอย่างมากบนฮาร์ดแวร์รุ่นใหม่
- มี ไลเซนส์เชิงพาณิชย์ และพอร์ทัลแบบ self-serve ที่ช่วยให้ธุรกิจสามารถนำไปผสานใช้งานได้ง่าย
บทนำและความสำคัญ
- FLUX.1 Kontext [dev] คือ โมเดลแก้ไขภาพเชิงกำเนิดรุ่นล่าสุด ที่เปิดตัวโดย Black Forest Labs
- ที่ผ่านมานี้ โมเดลสร้าง/แก้ไขภาพที่มีคุณภาพสูงส่วนใหญ่ถูกให้บริการแบบปิด แต่ตอนนี้ได้เปลี่ยนมาเป็น โอเพนเวต ทำให้ทุกคนสามารถใช้งานเพื่อการวิจัยและไม่เชิงพาณิชย์ได้
- โมเดลนี้ประกอบด้วย พารามิเตอร์ 12B ให้ประสิทธิภาพโดดเด่น ขณะเดียวกันก็มีความมีประสิทธิภาพเพียงพอที่จะทำงานบน ฮาร์ดแวร์ผู้บริโภคทั่วไป ได้
การเปิดเผยและการเข้าถึง
- FLUX.1 Kontext [dev] เปิดให้ใช้งานภายใต้ FLUX.1 non-commercial license โดยให้ผู้ใช้เพื่อการวิจัยและวัตถุประสงค์ที่ไม่ใช่เชิงพาณิชย์เข้าถึงได้ฟรี
- โมเดลเวตสามารถดาวน์โหลดได้ง่ายจาก HuggingFace และรองรับเฟรมเวิร์ก AI หลัก ๆ เช่น ComfyUI, HuggingFace Diffusers, TensorRT
- พันธมิตรอย่าง FAL, Replicate, Runware, DataCrunch, TogetherAI เป็นต้น มีทั้ง API endpoint และโค้ดที่พร้อมใช้งานทันทีทั้งบนคลาวด์และสภาพแวดล้อมโลคัล
มาตรฐานใหม่ในงานแก้ไขภาพ
- FLUX.1 Kontext [dev] ถูกออกแบบมาเฉพาะสำหรับ งานแก้ไขภาพ
- เด่นด้าน การคงลักษณะตัวละคร ตลอดการแก้ไขซ้ำและในฉากหรือสภาพแวดล้อมที่หลากหลาย
- รองรับ การแก้ไขเฉพาะจุดและทั้งภาพอย่างแม่นยำ
- Black Forest Labs ตั้งเป้าที่จะมอบ เครื่องมือแบบเปิดที่ทัดเทียมโมเดล proprietary
- ในเบนช์มาร์กขนาดใหญ่ (เช่น KontextBench) ได้พิสูจน์ ประสิทธิภาพที่เหนือกว่า ทั้งโมเดลเปิดเดิมอย่าง ByteDance Bagel, HiDream-E1-Full และโมเดลเชิงพาณิชย์อย่าง Google Gemini-Flash Image
- การประเมินอิสระจากหน่วยงานภายนอกอย่าง Artificial Analysis ก็ยืนยันผลลัพธ์ในทิศทางเดียวกัน
การปรับแต่งฮาร์ดแวร์และตัวเลือกที่หลากหลาย
- มีการ ร่วมมือกับ NVIDIA เพื่อให้ TensorRT เวตที่ปรับแต่งสำหรับ สถาปัตยกรรม Blackwell รุ่นล่าสุด (เวอร์ชัน BF16, FP8, FP4 ที่เน้นพลังงานและความเร็ว)
- นักพัฒนาสามารถเลือกสมดุลระหว่าง ความเร็ว ประสิทธิภาพ และคุณภาพ ได้ตามความต้องการ
ไลเซนส์และพอร์ทัลสำหรับการใช้งานเชิงพาณิชย์
- Black Forest Labs ได้เปิด พอร์ทัลไลเซนส์แบบ self-serve ที่มีเงื่อนไขโปร่งใส เพื่อทำให้การเข้าถึงทั้งเชิงพาณิชย์และไม่เชิงพาณิชย์สำหรับโมเดลโอเพนเวตทั้งหมดง่ายขึ้น
- องค์กรสามารถซื้อไลเซนส์ผ่านพอร์ทัลได้อย่างสะดวก และผสานโมเดลตระกูล FLUX.1 เข้ากับบริการทางธุรกิจได้อย่างรวดเร็ว
การอัปเดตไลเซนส์
- มีการทำให้คำนิยามของวัตถุประสงค์ที่ไม่ใช่เชิงพาณิชย์ชัดเจนขึ้น โดยระบุ ขอบเขตที่อนุญาตและข้อจำกัด อย่างเฉพาะเจาะจง
- เพิ่ม ข้อกำหนดด้าน content filter เพื่อป้องกันการสร้างเนื้อหาที่ผิดกฎหมาย/ละเมิดสิทธิ์ และเสริมข้อกำหนดการยกเว้นความรับผิดที่เกี่ยวข้อง
- มีการกำหนดให้ การจัดการแหล่งที่มาของคอนเทนต์และประวัติการสร้าง ต้องสอดคล้องกับกฎหมายที่เกี่ยวข้อง
- เพิ่มตัวอย่างและข้อจำกัดที่ชัดเจนสำหรับกรณีการใช้งานที่ไม่อนุญาต
เอกสารอ้างอิงและการสนับสนุน
- โมเดล/โค้ด/เอกสาร
- สามารถอ่าน รายงานทางเทคนิค เกี่ยวกับการเปิดตัว FLUX.1 Kontext [dev] ได้ที่ arxiv
- ทั้งผู้ใช้และองค์กรสามารถเข้าถึง API, เอกสารอธิบาย และข้อมูลเบนช์มาร์กได้หลากหลาย
1 ความคิดเห็น
ความคิดเห็นบน Hacker News
การที่ BFL เปิดเผยน้ำหนักโมเดลเป็นจุดที่ยอดเยี่ยมมาก และในโลกความจริงที่ความยั่งยืนทางการเงินของโอเพนซอร์สเป็นเรื่องยาก การให้ใช้งานฟรีสำหรับภาควิชาการและคิดค่าไลเซนส์ในระดับที่สมเหตุสมผลกับสตาร์ตอัปน่าจะเป็นแนวทางที่ทำให้ BFL และบริษัทอื่น ๆ ยังสามารถปล่อยโมเดล open-weight ออกมาต่อไปได้
เมื่อเปิดเผย open weights แล้ว สิ่งที่น่าสนใจคือสามารถเพิ่มความสามารถใหม่ ๆ (งานใหม่) ให้กับโมเดลตัดต่อประเภทนี้ได้
หวังว่าโมเดล Dev ที่ผ่านการ distill แล้วจะยังรักษาประสิทธิภาพไว้ได้ดีเมื่อเทียบกับโมเดล Pro/Max ที่ใหญ่กว่า
ได้ลองใช้ระบบนี้ด้วยตัวเองในแฮ็กกาธอนที่ซานฟรานซิสโกเมื่อสัปดาห์ก่อน และรู้สึกว่ามันน่าประทับใจทีเดียว
รู้สึกว่าเจตนาของไลเซนส์ทำหน้าที่คล้ายตัวกรองล่วงหน้าที่จำกัดตัวผู้เข้าถึงเอง
ไลเซนส์สำหรับการใช้งานแบบไม่เชิงพาณิชย์ที่เพิ่งนำมาใช้นั้นมีข้อกำหนดค่อนข้างเข้มงวด และสามารถดูข้อความเต็มของไลเซนส์ได้
อยากใช้โมเดลอย่าง Kontext ในรูปแบบที่ทำงานร่วมกับ AI แบบเรียลไทม์บนแคนวาสเพื่อค่อย ๆ วาดภาพให้เสร็จ
สงสัยว่าระบบนี้ทำงานได้ที่ระดับ VRAM เท่าไร
น่าเสียดายที่ไลเซนส์มีข้อจำกัดค่อนข้างมาก