8 คะแนน โดย GN⁺ 2025-06-29 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • FLUX.1 Kontext [dev] เป็นเวอร์ชันโอเพนเวตของ โมเดลแก้ไขภาพเชิงกำเนิด ที่ก่อนหน้านี้มีให้ใช้งานแบบปิดเท่านั้น และเปิดให้ใช้งานฟรี
  • มี พารามิเตอร์ 12B จึงสามารถทำงานได้บนฮาร์ดแวร์ระดับผู้บริโภค และเผยแพร่สำหรับการวิจัยฟรีและการใช้งานแบบไม่เชิงพาณิชย์
  • มอบ ประสิทธิภาพการแก้ไขภาพคุณภาพสูงระดับเชิงพาณิชย์ ทั้งการแก้ไขแบบเฉพาะจุด/ทั้งภาพอย่างละเอียด การคงความสม่ำเสมอของตัวละคร และการปรับแก้ซ้ำหลายรอบ พร้อมเชื่อมต่อกับเฟรมเวิร์กยอดนิยมอย่าง ComfyUI, Hugging Face Diffusers, TensorRT ได้ทันที
  • ในการประเมินประสิทธิภาพ แสดงผลลัพธ์ที่เหนือกว่าโมเดลแบบเปิดและแบบปิดที่มีอยู่เดิมหลายตัว (เช่น Google's Gemini-Flash Image)
  • มี TensorRT รุ่นปรับแต่งสำหรับสถาปัตยกรรม NVIDIA Blackwell (BF16, FP8, FP4) ให้ใช้งานด้วย ช่วยให้ได้ความเร็วและประสิทธิภาพที่ดีขึ้นอย่างมากบนฮาร์ดแวร์รุ่นใหม่
  • มี ไลเซนส์เชิงพาณิชย์ และพอร์ทัลแบบ self-serve ที่ช่วยให้ธุรกิจสามารถนำไปผสานใช้งานได้ง่าย

บทนำและความสำคัญ

  • FLUX.1 Kontext [dev] คือ โมเดลแก้ไขภาพเชิงกำเนิดรุ่นล่าสุด ที่เปิดตัวโดย Black Forest Labs
  • ที่ผ่านมานี้ โมเดลสร้าง/แก้ไขภาพที่มีคุณภาพสูงส่วนใหญ่ถูกให้บริการแบบปิด แต่ตอนนี้ได้เปลี่ยนมาเป็น โอเพนเวต ทำให้ทุกคนสามารถใช้งานเพื่อการวิจัยและไม่เชิงพาณิชย์ได้
  • โมเดลนี้ประกอบด้วย พารามิเตอร์ 12B ให้ประสิทธิภาพโดดเด่น ขณะเดียวกันก็มีความมีประสิทธิภาพเพียงพอที่จะทำงานบน ฮาร์ดแวร์ผู้บริโภคทั่วไป ได้

การเปิดเผยและการเข้าถึง

  • FLUX.1 Kontext [dev] เปิดให้ใช้งานภายใต้ FLUX.1 non-commercial license โดยให้ผู้ใช้เพื่อการวิจัยและวัตถุประสงค์ที่ไม่ใช่เชิงพาณิชย์เข้าถึงได้ฟรี
  • โมเดลเวตสามารถดาวน์โหลดได้ง่ายจาก HuggingFace และรองรับเฟรมเวิร์ก AI หลัก ๆ เช่น ComfyUI, HuggingFace Diffusers, TensorRT
  • พันธมิตรอย่าง FAL, Replicate, Runware, DataCrunch, TogetherAI เป็นต้น มีทั้ง API endpoint และโค้ดที่พร้อมใช้งานทันทีทั้งบนคลาวด์และสภาพแวดล้อมโลคัล

มาตรฐานใหม่ในงานแก้ไขภาพ

  • FLUX.1 Kontext [dev] ถูกออกแบบมาเฉพาะสำหรับ งานแก้ไขภาพ
    • เด่นด้าน การคงลักษณะตัวละคร ตลอดการแก้ไขซ้ำและในฉากหรือสภาพแวดล้อมที่หลากหลาย
    • รองรับ การแก้ไขเฉพาะจุดและทั้งภาพอย่างแม่นยำ
  • Black Forest Labs ตั้งเป้าที่จะมอบ เครื่องมือแบบเปิดที่ทัดเทียมโมเดล proprietary
  • ในเบนช์มาร์กขนาดใหญ่ (เช่น KontextBench) ได้พิสูจน์ ประสิทธิภาพที่เหนือกว่า ทั้งโมเดลเปิดเดิมอย่าง ByteDance Bagel, HiDream-E1-Full และโมเดลเชิงพาณิชย์อย่าง Google Gemini-Flash Image
  • การประเมินอิสระจากหน่วยงานภายนอกอย่าง Artificial Analysis ก็ยืนยันผลลัพธ์ในทิศทางเดียวกัน

การปรับแต่งฮาร์ดแวร์และตัวเลือกที่หลากหลาย

  • มีการ ร่วมมือกับ NVIDIA เพื่อให้ TensorRT เวตที่ปรับแต่งสำหรับ สถาปัตยกรรม Blackwell รุ่นล่าสุด (เวอร์ชัน BF16, FP8, FP4 ที่เน้นพลังงานและความเร็ว)
  • นักพัฒนาสามารถเลือกสมดุลระหว่าง ความเร็ว ประสิทธิภาพ และคุณภาพ ได้ตามความต้องการ

ไลเซนส์และพอร์ทัลสำหรับการใช้งานเชิงพาณิชย์

  • Black Forest Labs ได้เปิด พอร์ทัลไลเซนส์แบบ self-serve ที่มีเงื่อนไขโปร่งใส เพื่อทำให้การเข้าถึงทั้งเชิงพาณิชย์และไม่เชิงพาณิชย์สำหรับโมเดลโอเพนเวตทั้งหมดง่ายขึ้น
  • องค์กรสามารถซื้อไลเซนส์ผ่านพอร์ทัลได้อย่างสะดวก และผสานโมเดลตระกูล FLUX.1 เข้ากับบริการทางธุรกิจได้อย่างรวดเร็ว

การอัปเดตไลเซนส์

  • มีการทำให้คำนิยามของวัตถุประสงค์ที่ไม่ใช่เชิงพาณิชย์ชัดเจนขึ้น โดยระบุ ขอบเขตที่อนุญาตและข้อจำกัด อย่างเฉพาะเจาะจง
  • เพิ่ม ข้อกำหนดด้าน content filter เพื่อป้องกันการสร้างเนื้อหาที่ผิดกฎหมาย/ละเมิดสิทธิ์ และเสริมข้อกำหนดการยกเว้นความรับผิดที่เกี่ยวข้อง
  • มีการกำหนดให้ การจัดการแหล่งที่มาของคอนเทนต์และประวัติการสร้าง ต้องสอดคล้องกับกฎหมายที่เกี่ยวข้อง
  • เพิ่มตัวอย่างและข้อจำกัดที่ชัดเจนสำหรับกรณีการใช้งานที่ไม่อนุญาต

เอกสารอ้างอิงและการสนับสนุน

1 ความคิดเห็น

 
GN⁺ 2025-06-29
ความคิดเห็นบน Hacker News
  • การที่ BFL เปิดเผยน้ำหนักโมเดลเป็นจุดที่ยอดเยี่ยมมาก และในโลกความจริงที่ความยั่งยืนทางการเงินของโอเพนซอร์สเป็นเรื่องยาก การให้ใช้งานฟรีสำหรับภาควิชาการและคิดค่าไลเซนส์ในระดับที่สมเหตุสมผลกับสตาร์ตอัปน่าจะเป็นแนวทางที่ทำให้ BFL และบริษัทอื่น ๆ ยังสามารถปล่อยโมเดล open-weight ออกมาต่อไปได้

    • ถ้า BFL ต้องจ่ายค่าอนุญาตการใช้งานล่วงหน้าอย่างชัดเจนสำหรับคอนเทนต์ที่อิงภาพและวิดีโอทั้งหมดที่ใช้ วิธีแบบนั้นก็น่าจะไม่ยั่งยืนทางการเงิน
  • เมื่อเปิดเผย open weights แล้ว สิ่งที่น่าสนใจคือสามารถเพิ่มความสามารถใหม่ ๆ (งานใหม่) ให้กับโมเดลตัดต่อประเภทนี้ได้

    • ดูเหมือนว่าจะทำ generalize ได้ดีแม้มีตัวอย่างเพียงเล็กน้อย (ราว 30 ตัวอย่าง) และได้แชร์ไว้ในบล็อก
      • Kontext เวอร์ชันนี้คือเวอร์ชันที่ทุกคนรอคอย และให้ความรู้สึกว่าใช้งานได้จริงมากกว่าเดิมมาก
      • เป็นกรณีแรกของภาพโมเดลสร้างภาพรุ่นใหม่ที่สามารถเทรนต่อได้ ซึ่งเป็นสิ่งที่โมเดลขนาดใหญ่เดิมอย่าง Gemini, GPT, MJ ทำไม่ได้
  • หวังว่าโมเดล Dev ที่ผ่านการ distill แล้วจะยังรักษาประสิทธิภาพไว้ได้ดีเมื่อเทียบกับโมเดล Pro/Max ที่ใหญ่กว่า

    • หวังว่าโมเดลนี้จะสามารถแทนที่เทคนิค inpainting แบบเก่าอย่าง Stable Diffusion ได้อย่างสิ้นเชิงในหลายด้าน
    • สามารถดูการทดลองก่อนและหลังของการแก้ไขภาพด้วย Kontext ได้ที่นี่
  • ได้ลองใช้ระบบนี้ด้วยตัวเองในแฮ็กกาธอนที่ซานฟรานซิสโกเมื่อสัปดาห์ก่อน และรู้สึกว่ามันน่าประทับใจทีเดียว

    • อยากรู้ว่าผู้คนในแฮ็กกาธอนนั้นสร้างโปรเจ็กต์อะไรกันบ้าง
  • รู้สึกว่าเจตนาของไลเซนส์ทำหน้าที่คล้ายตัวกรองล่วงหน้าที่จำกัดตัวผู้เข้าถึงเอง

    • แม้ในเชิงรูปแบบจะเปิดกว้าง แต่ในทางปฏิบัติขอบเขตการใช้งานกลับแคบลง และการตั้งค่าแบบนี้ก็มีผลทำให้เกิดกรอบว่าคนแบบไหนถึงจะมีสิทธิ์ลองทำได้
    • แม้จะมีข้อดีเรื่องป้องกันการนำไปใช้ผิดทาง แต่ก็อาจตัดกรณีใช้งานที่เป็นประโยชน์ออกไปด้วย และท้ายที่สุดยังมีแนวโน้มจะค่อย ๆ เปลี่ยนเกณฑ์ของการทดลองใหม่ ๆ อย่างละเอียดอ่อน
  • ไลเซนส์สำหรับการใช้งานแบบไม่เชิงพาณิชย์ที่เพิ่งนำมาใช้นั้นมีข้อกำหนดค่อนข้างเข้มงวด และสามารถดูข้อความเต็มของไลเซนส์ได้

    • หากตีความไลเซนส์นี้อย่างเคร่งครัด ต่อให้ไม่ได้ทำอนุพันธ์แต่มีเป้าหมายเพียงสร้างผลลัพธ์ ก็ยังไม่สามารถใช้ในสภาพแวดล้อมเชิงพาณิชย์ได้
    • ยังสงสัยว่าไลเซนส์นี้ครอบคลุมสิ่งใดกันแน่ แต่คาดว่านอกจากโค้ด Python ที่น่าจะนำไปเขียนใหม่ได้ง่ายแล้ว ส่วนอื่นอาจไม่มีลิขสิทธิ์
    • มองว่าน้ำหนักโมเดลไม่ได้เป็นงานสร้างสรรค์ที่ให้ลิขสิทธิ์ได้มากอย่างที่บริษัทต่าง ๆ อยากให้เป็น และก็ไม่เข้าเกณฑ์นิยามทางกฎหมายของลิขสิทธิ์ด้วย
    • ย้ำว่าแตกต่างจากฐานข้อมูลหรือซอฟต์แวร์ น้ำหนักโมเดลไม่ผ่านข้อกำหนดของลิขสิทธิ์ และไม่ว่าจะใส่ความสร้างสรรค์เข้าไปมากแค่ไหนก็ไม่ได้ทำให้กลายเป็นสิ่งที่ได้รับความคุ้มครองลิขสิทธิ์
  • อยากใช้โมเดลอย่าง Kontext ในรูปแบบที่ทำงานร่วมกับ AI แบบเรียลไทม์บนแคนวาสเพื่อค่อย ๆ วาดภาพให้เสร็จ

    • อยากเห็นประสบการณ์แบบ ‘คู่หูวาดภาพแบบเรียลไทม์’ ที่ผสานนวัตกรรมด้านการพยากรณ์แบบลำดับเวลาจากฝั่ง LLM เข้ากับสิ่งอย่างชุดข้อมูล Google Quick Draw เพื่อให้คุยกับพู่กันแล้ววาดภาพจนเสร็จไปด้วยกัน
      • เมื่อลองใช้โมเดล Kontext ของ Fal.ai จะรู้สึกว่าฟีเจอร์สไลเดอร์เปรียบเทียบก่อน-หลังและความสามารถในการแก้ไขต่อเนื่องด้วยภาพที่ตัดต่อแล้วนั้นน่าประทับใจ
      • ในเมื่อ BFL เปิดเผยไปถึง dev model แล้ว ก็หวังว่าจะมีปลั๊กอิน Kontext สำหรับ Krita ออกมาด้วย เพราะเดิมก็มีปลั๊กอินสำหรับ Stable Diffusion อยู่แล้ว
      • ลิงก์อ้างอิงปลั๊กอิน Krita
  • สงสัยว่าระบบนี้ทำงานได้ที่ระดับ VRAM เท่าไร

    • ณ ตอนนี้ต้องใช้ VRAM ราว 18~20GB แต่พรุ่งนี้หรือในอนาคตอันใกล้ ถ้ามีเวลาว่างสักประมาณ 1 ชั่วโมง ก็อาจทำให้รันได้บน VRAM 4GB
  • น่าเสียดายที่ไลเซนส์มีข้อจำกัดค่อนข้างมาก