3 คะแนน โดย GN⁺ 2025-05-30 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • FLUX.1 Kontext จาก Black Forest Labs เป็นโมเดล AI สร้างสรรค์รุ่นใหม่ที่ รับข้อความและภาพเป็นอินพุตพร้อมกัน เพื่อทำความเข้าใจบริบท และสามารถ แก้ไขหรือสร้างได้ทันที โดยยังคงลักษณะและสไตล์ของภาพเดิมไว้
  • เมื่อเทียบกับอัลกอริทึมสร้างภาพจากข้อความแบบเดิม โมเดลนี้แสดงประสิทธิภาพที่เหนือกว่าในด้าน ความสม่ำเสมอของตัวอักษรและวัตถุ, การแก้ไขเฉพาะจุด, การอ้างอิงสไตล์ และ การตอบสนองความเร็วสูง
  • ผู้ใช้สามารถป้อนเฉพาะข้อความ หรือผสานภาพกับข้อความเพื่อเปลี่ยนเฉพาะบางส่วน ใช้เฉพาะสไตล์ หรือทำการแก้ไขหลายขั้นตอนได้ ทำให้รองรับ งานภาพแบบโต้ตอบ ได้หลากหลาย
  • FLUX.1 Kontext [pro] รักษาความสม่ำเสมอของภาพได้แม้ผ่านการแก้ไขหลายครั้ง และทำงานด้วยความเร็วระดับแนวหน้าของอุตสาหกรรม
  • โมเดลโอเพนซอร์สเวอร์ชัน [dev] เป็น diffusion transformer แบบเบา 12B ที่เปิดให้ใช้งานใน private beta สำหรับงานวิจัยและการคัสตอม

แนะนำ FLUX.1 Kontext

  • FLUX.1 Kontext ก้าวข้ามข้อจำกัดของโมเดลเดิมที่สร้างภาพได้จากข้อความเท่านั้น โดย รับข้อความและภาพร่วมกัน เพื่อให้สามารถ สร้างและแก้ไขภาพตามบริบท ได้ ด้วยโมเดลสร้างสรรค์แบบ flow matching
  • สามารถใช้ text prompt และภาพพร้อมกันเพื่อ ลบ/เพิ่ม/เปลี่ยน องค์ประกอบบางอย่างในภาพ และสร้างฉากใหม่โดยยังคงสไตล์หรือลักษณะเดิมไว้

ฟีเจอร์หลัก

  • ความสม่ำเสมอของตัวละคร: บุคคล วัตถุ และสไตล์เดิมยังคงความสม่ำเสมอได้แม้อยู่ในฉากและสภาพแวดล้อมที่หลากหลาย
  • การแก้ไขเฉพาะจุด: แก้ไขเฉพาะบางส่วนของภาพด้วยคำสั่งข้อความได้ (เช่น ลบองค์ประกอบบางอย่างบนใบหน้า เปลี่ยนเฉพาะตัวอักษร เป็นต้น)
  • การอ้างอิงสไตล์: นำสไตล์อันโดดเด่นจากภาพอ้างอิงไปใช้กับฉากใหม่ได้
  • ความเร็วระดับอินเทอร์แอกทีฟ: รองรับการแก้ไขและสร้างแบบเรียลไทม์ ด้วยความเร็วในการอนุมานสูงสุดมากกว่าโมเดลเดิมถึง 8 เท่า

การรวมการแก้ไขแบบข้อความสู่ภาพและภาพสู่ภาพ

  • FLUX.1 Kontext ไม่ได้รองรับเพียงการแก้ไขครั้งเดียว แต่ยังรักษาคุณภาพและลักษณะของภาพไว้ได้แม้มี คำสั่งซ้ำหลายขั้นตอน
  • สามารถใช้ prompt และผลลัพธ์ภาพก่อนหน้าอย่างต่อเนื่อง เพื่อค่อยๆ ไปถึงผลลัพธ์ที่ต้องการทีละขั้น

ไลน์อัปโมเดล FLUX.1 Kontext

  • FLUX.1 Kontext [pro]
    • โมเดลเรือธงที่ออกแบบมาสำหรับการแก้ไขและสร้างแบบวนซ้ำอย่างรวดเร็ว
    • รับทั้งข้อความและภาพอ้างอิงพร้อมกัน เพื่อทำ การแก้ไขพื้นที่เป้าหมาย และ การแปลงฉากที่ซับซ้อน ได้อย่างรวดเร็วและสม่ำเสมอ
  • FLUX.1 Kontext [max]
    • โมเดลสเปกสูงสุดเชิงทดลอง ที่ยกระดับความเข้าใจ prompt ความสามารถด้านตัวอักษร และการแก้ไขแบบสม่ำเสมอความเร็วสูง
  • FLUX.1 Kontext [dev]
    • โมเดลแบบเบา (12B) สำหรับงานวิจัยและการคัสตอม เปิดให้ใช้งานใน private beta
    • เมื่อเปิดใช้งานจะให้บริการผ่านพาร์ตเนอร์โครงสร้างพื้นฐาน AI หลัก เช่น FAL, Replicate, Runware, DataCrunch, TogetherAI และ HuggingFace

การรองรับและการเข้าถึง

  • ซีรีส์ FLUX.1 Kontext สามารถใช้งานได้บนบริการต่างๆ เช่น KreaAI, Freepik, Lightricks, OpenArt, LeonardoAI และบนโครงสร้างพื้นฐานอย่าง FAL, Replicate, Runware, DataCrunch, TogetherAI, ComfyOrg
  • ผ่าน FLUX Playground (https://playground.bfl.ai/) สำหรับการทดลองใช้งานและเดโมแบบเรียลไทม์ ผู้ใช้สามารถตรวจสอบประสิทธิภาพของโมเดลและดูผลลัพธ์ได้ง่ายโดยไม่ต้องทำอินทิเกรชันเพิ่มเติม

การประเมินประสิทธิภาพ

  • มีการประเมินเปรียบเทียบกับโมเดลระดับ SOTA ใน 6 งานสร้างและแก้ไขภาพ บนเบนช์มาร์กภายในชื่อ KontextBench
  • ทำคะแนนได้ในระดับแนวหน้าของอุตสาหกรรมในด้าน การแก้ไขข้อความ และ การคงตัวละคร
  • ความเร็วในการอนุมาน ก็ทำได้โดดเด่นเช่นกัน โดยมี latency ต่ำกว่ารุ่นประสิทธิภาพสูงเดิมอย่างชัดเจน
  • ยังพิสูจน์ความสามารถในการแข่งขันได้ในหลายเกณฑ์ เช่น ความสวยงาม ความเข้าใจ prompt การจัดวางตัวอักษร และความสมจริง

ข้อจำกัดและโจทย์ในอนาคต

  • หากมีการแก้ไขซ้ำหลายขั้นตอน (มากกว่า 6 ครั้ง) อาจเกิด visual noise (artifact) ทำให้คุณภาพของภาพลดลง
  • บางครั้งอาจไม่สามารถทำตามคำสั่งรายละเอียดของ prompt บางประเภทได้อย่างแม่นยำ
  • ยังมีข้อจำกัดด้านความรู้เกี่ยวกับโลกและความเข้าใจบริบท ทำให้อาจสร้างภาพที่ไม่ถูกต้องตามบริบท
  • ในกระบวนการทำให้โมเดลมีขนาดเบาและ distillation คุณภาพของภาพอาจลดลงได้

1 ความคิดเห็น

 
GN⁺ 2025-05-30
ความเห็นบน Hacker News
  • ลองใช้เองแล้วเจออาการ "context slip" แบบน่าสนใจอยู่ ภาพที่เกี่ยวข้อง โดยสร้างภาพจากพรอมต์เป็นยานอวกาศลงจอดบนดาวเคราะห์อันห่างไกล แล้วขอแก้ไขว่า "ทำให้ยานอวกาศมีสีสันมากขึ้นและแสดงให้ใหญ่ขึ้นในภาพ" สุดท้ายยานอวกาศกลับกลายเป็นเรือคอนเทนเนอร์ ทั้งที่ประวัติแชตยังอยู่ จึงควรเข้าใจได้ว่าฉันต้องการยานอวกาศ แต่กลับพลาดบริบทสำคัญ ทำให้ผลลัพธ์ออกมาเพี้ยน

  • ตอนนี้กำลังทดสอบด้วย FLUX Kontext Pro endpoint ของ Replicate โดยตรง และยังมีแอป Replicate ที่โชว์วิธีใช้งานการแก้ไขภาพหลากหลายแบบของ FLUX Kontext ด้วย FLUX Kontext Apps คุณภาพภาพในกรณีสร้างแบบ image-to-image ธรรมดาอยู่ในระดับใกล้เคียงกับการสร้างภาพของ GPT-4o และความเร็วในการสร้างก็ถือว่าไวประมาณ 4 วินาที ส่วน prompt engineering รู้สึกว่ายังค่อนข้างจุกจิกนอกจากตัวอย่างที่ให้มา แต่คิดว่าน่าจะดีขึ้นเรื่อย ๆ การเปลี่ยนสไตล์หรือคำขอรายละเอียดก็ทำได้ แต่ยิ่งสั่งละเอียดมาก กลับยิ่งมีแนวโน้มจะเมินข้อกำหนดปลีกย่อย

    • ถ้าดูเรื่องการคงคุณสมบัติดั้งเดิมไว้ FLUX ดูแม่นยำกว่า 4o ถ้าขอแค่เปลี่ยนแสงของคาแรกเตอร์สัตว์ 3D เดิม 4o มักทำหน้าคาแรกเตอร์พังและไปยุ่งกับตัวหรือรายละเอียดอื่น แต่ FLUX แม้จะเปลี่ยนท่าหรือแสงมาก ก็ยังรักษารูปร่างที่มองเห็นได้ให้เหมือนเดิมแทบสมบูรณ์
    • ในการทดลอง image-to-image มันน่าประทับใจกว่า GPT-4o อีก 4o ชอบย้อมสีไปทางโทนเซเปียมากเกินไป และยิ่งแก้ซ้ำหลายรอบยิ่งดูออกว่าเป็นงานจาก 4o ขณะที่ FLUX.1 Kontext Max ให้สีสันกว้างและหลากหลายกว่ามาก และเก็บรายละเอียดเล็ก ๆ ที่ 4o มักพลาดได้ด้วย ยังไม่ได้ลองสร้างภาพใหม่จากพรอมต์ล้วน ๆ แต่ถ้าเป็นการใช้พรอมต์แก้ภาพเดิม FLUX เหนือกว่าชัดเจน
    • ชอบมากที่ Replicate มักปล่อยโมเดลล่าสุดให้ใช้งานได้ทันที ในยุค AI ที่พัฒนาเร็วมาก การที่โมเดลเวอร์ชันวิจัยใหม่ ๆ ถูกปล่อยเป็น API ได้ทันทีและนำไปใช้งานจริงได้ในสเกลใหญ่เป็นเรื่องยอดเยี่ยม ผู้ให้บริการอย่าง Replicate เหมือนช่วยขยายอิมแพกต์ของการเปิดตัวโมเดลเหล่านี้หลายเท่า
    • ที่ว่าประมาณ 4 วินาทีนี่อิงกับ GPU รุ่นไหนและ VRAM เท่าไร หรือกำลังพูดถึง UI ของ Hugging Face?
  • รู้สึกว่าบางตัวอย่างคัดมาแต่ผลลัพธ์ที่ดีเกินไป มีใครลองแอปโปรเฟสชันนัลเฮดช็อตใน Kontext Apps ไหม? ฉันลองใส่รูปตัวเองหลายรูปแล้ว แต่ทุกครั้งออกมากลายเป็นคนละคนไปเลย ส่วนเฮดช็อตสุดท้ายก็ดูโปรจริง

    • ลองใช้พรอมต์เฮดช็อตกับเซลฟี่ในยิมที่ดูเหนื่อยใน flux playground แล้ว มันยังคงสีหน้า เหงื่อ โทนผิว และลักษณะส่วนใหญ่ของฉันไว้ได้ เหมือนแค่เปลี่ยนฉากหลัง แล้วพอขอเพิ่มว่า "เปลี่ยนให้เป็นเฮดช็อตสวย ๆ สำหรับโซเชียลมีเดีย ยิ้ม ท่าทางดี เสื้อผ้าดี ผิวสะอาดไม่มีเหงื่อ" ก็แค่เปลี่ยนเสื้อกับเพิ่มรอยยิ้มแปลก ๆ ซึ่งก็คล้ายผลที่มักได้จากภาพแนวนี้
    • สัดส่วนภาพ input และ output เท่ากันไหม ถ้าสัดส่วนถูกบังคับเปลี่ยนน่าจะทำให้เกิดอาการแปลก ๆ
    • การคงอัตลักษณ์ เช่น ใบหน้า เป็นปัญหาที่ไม่มีใครแก้ได้สมบูรณ์เสียทีเดียว มือก็เหมือนกัน เป็นโจทย์ยากระดับวิทยาศาสตร์
  • กำลังคิดว่าจะเพิ่มโมเดล FLUX Kontext ลงในเว็บไซต์เปรียบเทียบภาพ GenAI ของตัวเองดีไหม รุ่น Max ได้คะแนนด้านความตรงตามพรอมต์สูงกว่าเกือบ 2 เท่า แต่ก็ยังตามหลัง OpenAI gpt-image-1 อยู่มาก (ไม่นับเรื่องคุณภาพภาพ) โดย gpt-image-1 อยู่อันดับ 1 ของลีดเดอร์บอร์ด ส่วน Flux 1.D ยังเก็บไว้เป็น baseline สำหรับความสามารถ GenAI แบบรันโลคัล เว็บไซต์เปรียบเทียบ เพิ่งเพิ่มโมเดล Hunyuan Image 2.0 ไปไม่นานนี้ แต่ตามสไตล์โมเดลเรียลไทม์ คะแนนจึงออกมาต่ำ อนึ่ง โมเดลของ Black Forest Labs ตัวนี้ดูจะเน้นการแก้ไขและปรับภาพเดิมแบบวนซ้ำ มากกว่าจะเน้น text-to-image

    • อยากให้เพิ่ม “Flux 1.1 Pro Ultra” ในเว็บด้วย ได้ยินว่าประสิทธิภาพดีที่สุดในซีรีส์นี้ และทำตามพรอมต์ได้ดีกว่า Flux Dev มาก น่าจะทำให้เปรียบเทียบกับโมเดลโอเพนซอร์สตัวท็อปได้ยุติธรรมขึ้น ตัวเว็บเองก็น่าสนุกและพรอมต์ก็น่าสนใจ
    • ขอเสนอพรอมต์นี้: ฉากแบบนี้เป็นสิ่งที่ไม่มีโมเดลไหนในอดีตทำได้ดีเลย ช่วงหลังน่าจะดีขึ้นเยอะแล้วหรือเปล่า…
      A knight with a sword in hand stands with his back to us, facing down an army. He holds his shield above his head to protect himself from the rain of arrows shot by archers visible in the rear.
      
      ทั้งที่ควรมีข้อมูลฝึกมากพอ แต่ผลลัพธ์กลับเละเทะจนน่าแปลกใจ เป็นฉากที่ค่อนข้างเป็นภาพจำด้วย
    • ขอเพิ่มเว็บนั้นด้วย ติดตามดูอยู่
  • สงสัยว่าภาพ input จำกัดแค่ภาพเดียวหรือไม่ อยากลองใส่หลายภาพแล้วใช้พรอมต์ผสม เช่น "เอาไอเท็มจากภาพ A ไปวางในภาพ B" หรือ "เอาคาแรกเตอร์ A ไปใส่ในฉาก B"

    • ในโหมดทดลอง “multi” สามารถใส่ภาพได้หลายภาพ
    • ลองใช้อินเทอร์เฟซหลายภาพของ Fal ได้ และใน Replicate ก็น่าจะมีด้วย (ยังไม่ได้เช็ก) โมเดลนี้เก่งมาก แม้จะยังสู้ gpt-image-1 ไม่ได้แต่ก็ใกล้มาก ผมคิดว่ากำแพงผูกขาดในภาพหรือวิดีโอต่อจากนี้คงหายไปแล้ว เคยกังวลว่า Google หรือ OpenAI จะผูกขาดตลาดความคิดสร้างสรรค์ แต่ตอนนี้ใคร ๆ ก็สร้างเองได้
  • สำหรับคนที่อยากอ่านรายละเอียดเชิงเทคนิค ขอแชร์ รายงานอย่างเป็นทางการ

    • การติดตั้งใช้งานดูเรียบง่ายและคล้ายโอเพนโมเดลอื่น ๆ (HiDream-E1, ICEdit, DreamO ฯลฯ) จุดต่างจริง ๆ คือการคัดชุดข้อมูล ซึ่งในเปเปอร์อธิบายไว้เพียงสั้น ๆ
    • คนส่วนใหญ่ไม่ได้สนใจตัวเปเปอร์หรอก สนใจแค่โหลดโมเดล open weights มารันเองมากกว่า ส่วนใหญ่ก็เอาไปใช้ ไม่ค่อยมีใครช่วยกลับมามีส่วนร่วม
  • ถ้าจะปรับแต่งหรือฝึกมันเองบนเครื่องโลคัล ต้องมีความเชี่ยวชาญระดับไหน? ฉันใช้ RTX 4090 บน Windows และลองไล่ทำ LoRA tuning กับ Flux 1 dev เองมา 2 วันแล้วแต่ยังไม่สำเร็จ เลยสงสัยว่าต้องลงลึกแค่ไหน อุปสรรคในการเริ่มต้นต่ำไหม มือใหม่ทำได้หรือเหมาะกับคนมีประสบการณ์เท่านั้น

    • โมเดลโอเพนซอร์สยังไม่ถูกปล่อยออกมา และก็คงไม่ง่ายไปกว่าการเทรน LoRA บน Flux 1 Dev
    • แนะนำให้ใช้สคริปต์ SimpleTuner ฉันปรับ LoRA เองได้โดยไม่จำเป็นต้องรู้ลึกเรื่องไลบรารี Python
    • ปกติจะหาเวอร์ชันที่จัดไว้สำหรับ comfyui ได้ไม่ยาก และบางยูทูบเบอร์ก็แจกผ่านรางวัลผู้สนับสนุนใน Patreon อะไรทำนองนั้น
    • ที่ RTX 4090 + Windows ทำไม่ได้ น่าจะเพราะตัว Windows เอง ประสิทธิภาพจริงจะเห็นชัดกว่าบน Linux
  • ไม่ค่อยเข้าใจตัวอย่าง remove from face ถ้าไม่มีรูปหน้าอื่นอยู่แล้ว สุดท้ายมันก็แค่ใช้ภาพหน้าทั่วไปไม่ใช่หรือ?

    • มันไม่ได้กู้คืนของจริง แต่เป็นภาพที่ถูกสร้างขึ้นใหม่ทั้งหมด ไม่มีใบหน้าจริงอยู่ตรงนั้น
    • ถ้าดูตัวอย่างดี ๆ ตอนที่มีวัตถุบางอย่างบังหน้าเพียงบางส่วน โมเดลอาจอนุมานแล้วเติมส่วนที่หายไปกลับมาได้
    • มันขึ้นกับว่าโมเดลฐานอยู่ในขั้นไหน; โมเดลด้านอัตลักษณ์บางตัวสามารถอินเตอร์โพเลตใบหน้าได้ละเอียดมากแม้มีเพียงเรขาคณิตบางส่วน
    • สไลด์โชว์ของตัวอย่างแรกดูเหมือนมีบั๊กเอง เกล็ดหิมะบังหน้าเกือบทั้งหมด
    • ถ้าใช้ภาพถ่ายจริง โมเดลมักเปลี่ยนหน้าไปเลย เลยเหมือนตั้งใจใช้ตัวอย่างที่มองไม่เห็นหน้าแทน
  • มีคนถามว่ามันสร้างภาพหมากรุกได้ไหม ลิงก์คำทำนาย AI เรื่องหมากรุก

  • มีคอมเมนต์คาดเดาว่าเวอร์ชันนักพัฒนาแบบเปิดจะออกเมื่อไร ภายในสัปดาห์นี้หรืออาจต้องรออีกหนึ่งถึงสองเดือน