4 คะแนน โดย GN⁺ 2025-08-02 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Krea 1 ได้รับการเปิดเผยเป็นเวอร์ชันน้ำหนักแบบโอเพ่นชื่อ FLUX.1 Krea
  • แตกต่างจากโมเดลสร้างภาพเดิม โดยออกแบบให้เน้น รสนิยมสุนทรียภาพที่ชัดเจน และ โฟโต้เรียลิสม์ เป้าหมายคือสร้างภาพที่ “ไม่ดูเป็น AI”
  • วิเคราะห์ว่าตัวชี้วัดและ benchmark เดิมคลาดเคลื่อนไปจากความรู้สึกด้านความงามที่ผู้ใช้จริงต้องการ และแก้ปัญหานี้ด้วยการใช้ข้อมูลที่คัดสรรเองพร้อมแนวทางสุนทรียภาพแบบมีทิศทาง (opinionated)
  • แยกกระบวนการ pre-training และ post-training ออกเป็นขั้นตอนอย่างเป็นระบบ โดยมีขั้นที่รับประกันความหลากหลาย และขั้นที่ทำให้สไตล์ชัดเจนพร้อมกัน
  • วางแผนในอนาคตที่จะศึกษาเรื่องการปรับให้เหมาะกับความชอบรายบุคคล และขยายขอบข่ายโดเมนภาพให้กว้างขึ้น พร้อมเพิ่มฟังก์ชันรองรับผู้สร้างสรรค์ให้มากขึ้น

การเปิดตัว FLUX.1 Krea แบบโอเพ่นซอร์ส

  • Krea 1 เป็นโมเดลสร้างภาพตัวแรกที่ฝึกร่วมกับ Black Forest Labs โดยมุ่งหวังความเป็นเลิศด้านการควบคุมรสนิยมและคุณภาพภาพ
  • FLUX.1 Krea [dev] ถูกปล่อยออกมาเป็น open-weight และเข้ากันได้กับระบบนิเวศ FLUX.1-dev เดิมอย่างสมบูรณ์
  • โมเดลนี้เพิ่มโฟโต้เรียลิสม์และองค์ประกอบทางความงามให้มากที่สุด โดยออกแบบให้สะท้อนแนวโน้ม opinionated aesthetics ตามรสนิยมเฉพาะ

ปรากฏการณ์ "AI Look" และข้อจำกัด

  • ภาพที่สร้างด้วย AI เดิมมักแสดงอาการที่เรียกว่า "AI look" เช่น ฉากหลังที่เบลอเกินไป, หนังหน้าคล้ายขี้ผึ้ง, การจัดองค์ประกอบที่เรียบเฉย
  • เมื่อเน้นการปรับแต่งตาม benchmark และตัวชี้วัดทางเทคนิคมากเกินไป จะพบว่าคุณภาพเชิงผิวสัมผัสที่สมจริง, ความหลากหลายของสไตล์, และผลลัพธ์เชิงสร้างสรรค์ถูกเสียหาย
  • ข้อจำกัดของโมเดลประเมินเดิมที่ไม่สามารถสะท้อนรสนิยมของผู้ใช้จริง
    • ในขั้น pre-training, Fréchet Inception Distance (FID) และ CLIP Score ใช้ประเมินประสิทธิภาพโดยรวมของโมเดลได้อย่างมีประโยชน์
    • ในแวดวงวิชาการและอุตสาหกรรมใช้ DPG, GenEval, T2I-Compbench, GenAI-Bench เป็น benchmark หลายชนิด แต่ส่วนใหญ่มุ่งประเมินแค่ความสอดคล้องกับพรอมต์ ความสัมพันธ์เชิงพื้นที่ และการรวมแอตทริบิวต์
    • สำหรับตัวชี้วัดสุนทรียภาพเช่น LAION-Aesthetics, Pickscore, ImageReward, HPSv2 ส่วนใหญ่ใช้พื้นฐาน CLIP และมีข้อจำกัดด้านความละเอียดและจำนวนพารามิเตอร์
    • ตัวอย่างเช่น LAION-Aesthetics มีแนวโน้มเอนเอียงไปทางภาพ ผู้หญิง, ฉากหลังที่พร่า, สีสันสว่าง ซึ่งการคัดกรองข้อมูลด้วยเกณฑ์เหล่านี้อาจฝังอคติแฝงลงในโมเดล
  • ตัวชี้วัดและฟิลเตอร์ด้านสุนทรียภาพช่วยคัดกรองภาพที่ไม่ดีได้ดี แต่หากพึ่งพาการคัดเลือกข้อมูลฝึกมากเกินไป โมเดลอาจถูกตรึงด้วยอคติของตัวเอง
  • แม้จะมีตัวชี้วัดล่าสุดที่อาศัย Vision-Language Model เข้ามา อย่างไรก็ตาม รสนิยมสุนทรียะ ยังเป็นเรื่องอัตนัยสูง จึงยากจะย่อให้เป็นตัวเลขเดียว

โครงสร้างการ pre-training และ post-training

  • การ pre-training

    • ใน pre-training โมเดลเรียนรู้ความรู้ที่ครอบคลุมเกี่ยวกับโลกทางสายตา เช่น สไตล์, วัตถุ, บุคคล, สถานที่ เพื่อเพิ่ม การครอบคลุมโหมด (mode coverage) ให้สูงสุด
    • รวมข้อมูลที่ "ไม่ดี" เข้าไปด้วย เพื่อให้โมเดลได้เรียนรู้ลักษณะที่ไม่พึงประสงค์ (เช่น นิ้วมือผิดปกติ, ความพร่ามัว ฯลฯ) ด้วย
    • pre-training เป็นตัวกำหนดขีดจำกัดคุณภาพสูงสุดและความหลากหลายทางสไตล์ของโมเดล
  • การ post-training

    • ใน post-training โมเดลถูกทำให้ โหมดการกระจายข้อมูลยุบเข้าหาสไตล์ที่ต้องการ (mode collapsing) และค่อยๆ สู่เส้นทางสุนทรียภาพที่ชัดเจนแทน "AI look"
    • ดำเนินการใน 2 ขั้นด้วย Supervised Finetuning (SFT) และ RLHF (Reinforcement Learning from Human Feedback)
      • SFT: ใช้ชุดข้อมูลคุณภาพสูงที่คัดสรรโดยตรงและภาพสังเคราะห์ของ Krea-1
      • RLHF: ใช้ข้อมูลความชอบภายในเป็นพื้นฐาน ปรับให้เหมาะสมซ้ำหลายรอบเพื่อขัดเกลาความงามและสไตล์อย่างละเอียด
    • พบว่าความสำคัญของข้อมูลอยู่ที่ คุณภาพข้อมูล เป็นหลัก (ข้อมูลคุณภาพสูงจำนวนน้อยกว่า 1M ก็พอ)
    • นำฉลากความชอบสุนทรียภาพแบบมีแนวทางเฉพาะ (opinionated approach) มาใช้ ช่วยป้องกันปัญหาถ้าพึ่งพาเฉพาะชุดข้อมูลความชอบสาธารณะซึ่งอาจทำให้ผลลัพธ์แบนและถอยกลับสู่ AI look

พาไพพ์ไลน์โมเดลและข้อมูลเชิงทดลอง

  • ใช้โมเดลฐาน flux-dev-raw แบบ guidance-distilled ขนาด 12B พารามิเตอร์ ซึ่งแตกต่างจากโมเดลโอเพ่นซอร์สที่ถูก fine-tune มากเกินไปในอดีต
  • ในขั้น RLHF ใช้เทคนิค TPO (preference optimization) เพื่อเสริมความรู้สึกด้านสุนทรียภาพและความเป็นสไตล์
  • ใช้ข้อมูลความชอบภายในคุณภาพสูง (ผ่านการกรองแบบเข้มงวด) หลายครั้งในการปรับผลลัพธ์ของโมเดลให้แม่นยำขึ้น
  • ข้อค้นพบหลัก

    • 1. คุณภาพข้อมูลสำคัญกว่าปริมาณ แม้ใช้ข้อมูลน้อยกว่า 1M ก็เพียงพอสำหรับ post-training ที่มีนัยสำคัญได้ การมีความหลากหลายเชิงปริมาณช่วยบรรเทาอคติและเพิ่มความเสถียรได้ แต่สิ่งสำคัญที่สุดคือ ข้อมูลที่คัดสรรคุณภาพสูง
    • 2. ต้องมีการเก็บข้อมูลที่มุ่งรสนิยมอย่างชัดเจน ชุดข้อมูลสาธารณะที่ผู้ใช้ทั่วไปเผยแพร่มักก่อให้เกิดอคติที่ไม่ตั้งใจ, ภาวะถอยกลับสู่ "AI look", และอคติเชิงองค์ประกอบ/สีแบบแปลกๆ
      • สำหรับเป้าหมายเชิงวัตถุประสงค์เชิงวิเคราะห์ เช่น การเรนเดอร์ข้อความ กายวิภาค และโครงสร้าง ข้อมูลที่หลากหลายให้ประโยชน์ แต่สำหรับเป้าหมายเชิงสุนทรียะที่เป็นอัตนัย ข้อมูลเฉพาะทางมีประสิทธิภาพกว่า
      • หากผสมการกระจายสุนทรียะหลายแบบเข้าด้วยกัน ผลลัพธ์มักไม่ทำให้ผู้ใช้รายใดรายหนึ่งพึงพอใจ และมีการกล่าวถึงพฤติกรรมที่ผู้ใช้จำนวนมากต้องพึ่งวิธี post-process เช่น LoRA

แนวทางการวิจัยในอนาคตและบทสรุป

  • Krea 1 เป็นก้าวแรกสำหรับผู้สร้างที่ให้ความสำคัญกับมาตรฐานด้านความงามและคุณภาพ โดยมุ่งหวังให้ชุมชนโอเพ่นซอร์สเติบโตขึ้น
  • ในอนาคต เป้าหมายคือเสริม ขีดความสามารถหลัก, การรองรับโดเมนภาพที่หลากหลายมากขึ้น, และการวิจัยด้านการปรับให้เป็นส่วนตัว/ควบคุมได้ เพื่อมอบโมเดลที่ตอบโจทย์รสนิยมสุนทรียภาพของผู้ใช้
  • GitHub( https://github.com/krea-ai/flux-krea )

1 ความคิดเห็น

 
GN⁺ 2025-08-02
ความคิดเห็นจาก Hacker News
  • สวัสดีทุกคน ยินดีที่ได้พบกัน ผมเป็นผู้ร่วมก่อตั้งและ CTO ของ Krea เราอยากเปิดเผยน้ำหนักของโมเดลและแบ่งปันกับชุมชน HN มานานแล้ว วันนี้จะพยายามออนไลน์ให้มากที่สุดตลอดทั้งวัน ถ้ามีคำถามอะไรก็จะมาตอบให้
    • อยากทราบว่ามีแผนรองรับ Flux เวอร์ชัน 'Kontext' หรือก็คือโมเดลสำหรับการแก้ไขภาพหรือไม่ ศักยภาพการใช้งานของการแก้ไขภาพด้วยพรอมป์ต์ดูมหาศาลมาก แม้ว่ายังไม่ได้เห็นคุณภาพของเวอร์ชัน open-weight แต่เดโมน่าประทับใจมาก และเท่าที่ทราบ โมเดลนี้ก็มีขนาด 12B เช่นกัน
    • อยากทราบว่าเป้าหมายของการเปิดเผยครั้งนี้คืออะไร ในเชิงธุรกิจมีเป้าหมายแบบไหน หรือเป็นการมีส่วนร่วมแบบบริสุทธิ์ใจจริง ๆ
    • ต้องการโมเดลที่รองรับภาษานอกเหนือจากภาษาอังกฤษด้วย
    • อยากรู้ว่าในตัวอย่าง P(.|photo) vs P(.|minimal) ตัดสินความขัดแย้งนี้ในทางปฏิบัติอย่างไร ผมคิดว่าโฟโตรีอะลิสม์ควรเป็นค่าเริ่มต้น เช่น ถ้าผู้ใช้พิมพ์ว่า "แมวอ่านหนังสือ" ก็ควรได้ภาพแมวจริงกำลังอ่านหนังสือ ไม่ใช่สไตล์ AI หรือภาพวาด ถ้าไม่มีบริบทเพิ่มเติม ก็ดูเป็นธรรมชาติที่จะตีความคำว่า 'แมว' เป็นแมวแบบสมจริง ถ้าผู้ใช้อยากได้ภาพประกอบหรือสไตล์อื่น ก็น่าจะต้องระบุให้ชัดในพรอมป์ต์ ไม่แน่ใจว่ามีอะไรที่ผมพลาดไปในเชิงนัยหรือเปล่า
  • เป็นการเปิดเผยที่ดีมาก ผมลองทดสอบด้วยโมเดล 12b Txt2Img Krea แบบง่าย ๆ แล้ว จุดเด่นที่สุดคือความเร็วที่มาก (และน่าจะรวมถึงความสมจริงด้วย) แต่ unsurprisingly ในแง่ของ <i>prompt adherence</i> ก็ยังไม่ได้คะแนนสูงกว่าโมเดล Flux.1D ทั่วไป ผลลัพธ์ดูได้ที่ https://genai-showdown.specr.net อีกด้านหนึ่ง Wan 2.2+ ดูมีโอกาสจะมีบทบาทใหญ่ในสาย T2I ต่อจากนี้ แต่ถ้าจะชดเชยเรื่องความหลากหลายของภาพ อาจต้องใช้ LoRA จำนวนมาก
    • ขอ URL ที่ดูผลการทดสอบได้ไหม และขอเสริมว่าโมเดลนี้โฟกัสที่ <i>aesthetics</i> มากกว่า ไม่ได้ยึดติดกับความแม่นยำของพรอมป์ต์เพียงอย่างเดียว นี่ไม่ใช่ข้ออ้างเรื่องตัวอย่างที่ออกมาไม่ดี แต่อยากเน้นว่านี่เป็นหนึ่งในเป้าหมายการวิจัย ถ้าอยากกำจัดสไตล์เฉพาะตัวที่เรียกกันว่า 'flux look' นี่เป็น trade-off ที่ต้องพิจารณา และผมก็เห็นบางคนสร้างภาพฐานด้วย Wan 2.2 แล้วให้ Krea มาช่วยรีไฟน์ต่อ เป็นวิธีที่น่าสนใจทีเดียว
  • สวัสดีครับ! ผมเป็นหัวหน้านักวิจัยของ Krea-1 FLUX.1 Krea เป็นโมเดล Rectified Flow ขนาด 12B ที่ distill มาจาก Krea-1 และออกแบบให้เข้ากันได้กับสถาปัตยกรรม FLUX ถ้ามีคำถามเชิงเทคนิคก็ถามมาได้
    • ผมมาจากสายโปรดักชันมีเดียแบบดั้งเดิม การแยกมีเดียออกเป็นหลายเลเยอร์แล้วนำมาผสมกันเป็นหัวใจของการควบคุมต้นทุนและคุณภาพ แต่ตอนนี้การสร้างภาพ วิดีโอ และเสียงด้วย AI ยังไม่รองรับแนวทางนี้ ForgeUI เคยรองรับชั่วคราวแต่ก็หยุดไป ผมคิดว่าเป็นเพราะไม่เข้าใจความต้องการของงานโปรดักชันมีเดียขนาดใหญ่จริง ๆ อยากทราบว่าทีมมีคนที่มีประสบการณ์จริงในงาน VFX ภาพยนตร์ โฆษณาแอนิเมชัน หรือโปรดักชันระดับหลายล้านดอลลาร์หรือไม่ ถ้าอยากประสบความสำเร็จ จำเป็นต้องรองรับวิธีทำงานของโปรดักชันมีเดียแบบดั้งเดิม เครื่องมือ AI ที่มีอยู่ตอนนี้แทบไม่เชื่อมกับเครื่องมือหรือความคาดหวังในสายโปรดักชันเลย เลยยังไม่ถูกนำไปใช้จริงในภาคสนาม
    • คุณภาพของโมเดลยอดเยี่ยมมาก โดยเฉพาะส่วนที่บอกว่า "flux-dev-raw เป็น guidance distilled model ดังนั้นเราจึงสร้าง loss function แบบปรับแต่งเองเพื่อ fine-tune ไปยัง classifier-free guided distribution โดยตรง" ตรงนี้น่าสนใจมาก ถ้ามีคำอธิบายละเอียดและคำแนะนำเรื่องการ fine-tune เพิ่มเติมก็อยากฟัง เพราะในชุมชน AI art แบบโอเพนซอร์ส การ fine-tune original distilled flux-dev นั้นยากมากจริง ๆ
    • ขอบคุณมากสำหรับความพยายามนี้ อยากทราบว่า "ออกแบบให้เข้ากันได้กับสถาปัตยกรรม FLUX" หมายความว่าอย่างไร และทำไมจึงสำคัญ
  • ไฟล์ safetensor ขนาด 23.8GB ทำให้ผมสับสนเล็กน้อยเมื่อเทียบกับโมเดล 12B พารามิเตอร์ ผมเคยเข้าใจว่า 1B พารามิเตอร์ต้องใช้ VRAM 1GB เลยอยากรู้ว่าโมเดลนี้ใช้ 24GB VRAM หรือ 12GB กันแน่ หรือว่าความเข้าใจของผมผิด
    • ถ้าคิดแบบ bfloat16 จะเป็น 1B x 16bit = 2GB ดังนั้น 12B ก็เกือบ 24GB ถูกแล้ว ที่อัปโหลดเป็น bfloat16 เพราะลดจาก float32 ลงมาเป็น bfloat16 แล้วแทบไม่เสียประสิทธิภาพ
    • ขนาด float ต่อพารามิเตอร์ไม่เท่ากันในแต่ละโมเดล หลายโมเดลปล่อยแบบ FP8 (8bit/พารามิเตอร์) แต่โมเดลนี้เป็น FP16 (16bit) บ่อยครั้งจะเทรนด้วย FP16 แล้วค่อย quantize เป็น FP8 หรือ FP4 ตอนปล่อยใช้งาน
    • ถ้า quantize เป็น 8bit จะมองได้ว่า 1B=1GB แต่ถ้าเป็น 16bit หรือ 32bit ก็ต้องใช้มากขึ้น 2–4 เท่า
  • ผมได้ผลลัพธ์ที่น่าทึ่งจากพรอมป์ต์ง่าย ๆ: "Octopus DJ spinning the turntables at a rave." มือมนุษย์ที่โผล่มาจาก DJ ดูโดดเด่นมาก ไม่ว่าจะใส่พรอมป์ต์ยังไงก็เอามือนี้ออกไม่ได้ อย่างที่บทความระบุไว้ โมเดลนี้มีความ opinionated ชัดเจน
    • พอใส่พรอมป์ต์ว่า "Octopus DJ with no fingers" มือก็หายไปจริง แต่พร้อมกันนั้นลักษณะความเป็นมนุษย์ของปลาหมึกก็หายไปหมด เหลือแค่ปลาหมึกล้วน ๆ กำลังเล่นเทิร์นเทเบิล
  • ภาพที่ผมอยากได้มาตลอดคือ Galton board ที่มีรูสองรูอยู่ด้านบนแยกจากกันเล็กน้อย ลูกบอลตกลงมาจากทั้งสองรู โดยรูหนึ่งเป็นลูกบอลสีน้ำเงิน อีกรูเป็นลูกบอลสีแดง ด้านล่างแสดงการกระจายรวมของสองสีเป็นคอลัมน์ที่มีการแจกแจงแบบปกติคู่ ภาพอ้างอิง: https://imgur.com/a/DiAOTzJ (มีสอง spout ด้านบน) ผลการลองจริง: https://imgur.com/undefined, https://imgur.com/a/uecXDzI
    • อยากทราบว่าเคยลองสร้างของจริงในโลกจริงไหม ผมหาวิดีโอของ double Galton board ไม่เจอเลย
  • hey hn! ผมเป็นผู้ร่วมก่อตั้งของ Krea มีบล็อกโพสต์สรุปว่าเราเทรน FLUX Krea อย่างไร ถ้าอยากรู้รายละเอียดเพิ่มเติมลองดูได้ที่: https://www.krea.ai/blog/flux-krea-open-source-release
    • เป็นคำถามนอกประเด็น แต่สงสัยจริง ๆ ว่าคุณซ่อน scroll bar บนเว็บไซต์ใช่ไหม ไม่เข้าใจว่าทำไปทำไม
      .scrollbar-hide {
        -ms-overflow-style: none;
        scrollbar-width: none;
      }
      
  • อยากทราบว่ามีเวอร์ชันที่ปรับแต่งสำหรับ NVIDIA หรือไม่ เช่น FLUX.1 Kontext แบบเร่งด้วย RTX: https://blogs.nvidia.com/blog/rtx-ai-garage-flux-kontext-nim-tensorrt/
    • FLUX.1 Krea ยังไม่ได้ทำเวอร์ชันเร่งด้วย RTX แยกต่างหาก แต่โมเดลเข้ากันได้เต็มที่กับ codebase ของ FLUX.1 dev เดิม ดูเหมือนจะยังไม่มี ONNX export แยกไว้ การทำ checkpoint แบบ quantize 4~8bit ด้วย SVDQuant ก็น่าจะเป็นงานต่อยอดที่ดีเพื่อให้ใช้งานกับฮาร์ดแวร์ทั่วไปได้มากขึ้น
  • ลิงก์อ้างอิงที่เกี่ยวข้อง:
  • ขอแนะนำให้มีเส้นทางที่มีเอกสารชัดเจน เพื่อให้บริษัทต่าง ๆ สามารถขอสิทธิ์การใช้งานเชิงพาณิชย์สำหรับผลงานที่พวกเขาได้ตามต้องการได้อย่างชัดเจน (เดี๋ยวคุณจะรู้เอง!)