• Krea 1 ได้รับการเปิดเผยเป็นเวอร์ชันน้ำหนักแบบโอเพ่นชื่อ FLUX.1 Krea
  • แตกต่างจากโมเดลสร้างภาพเดิม โดยออกแบบให้เน้น รสนิยมสุนทรียภาพที่ชัดเจน และ โฟโต้เรียลิสม์ เป้าหมายคือสร้างภาพที่ “ไม่ดูเป็น AI”
  • วิเคราะห์ว่าตัวชี้วัดและ benchmark เดิมคลาดเคลื่อนไปจากความรู้สึกด้านความงามที่ผู้ใช้จริงต้องการ และแก้ปัญหานี้ด้วยการใช้ข้อมูลที่คัดสรรเองพร้อมแนวทางสุนทรียภาพแบบมีทิศทาง (opinionated)
  • แยกกระบวนการ pre-training และ post-training ออกเป็นขั้นตอนอย่างเป็นระบบ โดยมีขั้นที่รับประกันความหลากหลาย และขั้นที่ทำให้สไตล์ชัดเจนพร้อมกัน
  • วางแผนในอนาคตที่จะศึกษาเรื่องการปรับให้เหมาะกับความชอบรายบุคคล และขยายขอบข่ายโดเมนภาพให้กว้างขึ้น พร้อมเพิ่มฟังก์ชันรองรับผู้สร้างสรรค์ให้มากขึ้น

การเปิดตัว FLUX.1 Krea แบบโอเพ่นซอร์ส

  • Krea 1 เป็นโมเดลสร้างภาพตัวแรกที่ฝึกร่วมกับ Black Forest Labs โดยมุ่งหวังความเป็นเลิศด้านการควบคุมรสนิยมและคุณภาพภาพ
  • FLUX.1 Krea [dev] ถูกปล่อยออกมาเป็น open-weight และเข้ากันได้กับระบบนิเวศ FLUX.1-dev เดิมอย่างสมบูรณ์
  • โมเดลนี้เพิ่มโฟโต้เรียลิสม์และองค์ประกอบทางความงามให้มากที่สุด โดยออกแบบให้สะท้อนแนวโน้ม opinionated aesthetics ตามรสนิยมเฉพาะ

ปรากฏการณ์ "AI Look" และข้อจำกัด

  • ภาพที่สร้างด้วย AI เดิมมักแสดงอาการที่เรียกว่า "AI look" เช่น ฉากหลังที่เบลอเกินไป, หนังหน้าคล้ายขี้ผึ้ง, การจัดองค์ประกอบที่เรียบเฉย
  • เมื่อเน้นการปรับแต่งตาม benchmark และตัวชี้วัดทางเทคนิคมากเกินไป จะพบว่าคุณภาพเชิงผิวสัมผัสที่สมจริง, ความหลากหลายของสไตล์, และผลลัพธ์เชิงสร้างสรรค์ถูกเสียหาย
  • ข้อจำกัดของโมเดลประเมินเดิมที่ไม่สามารถสะท้อนรสนิยมของผู้ใช้จริง
    • ในขั้น pre-training, Fréchet Inception Distance (FID) และ CLIP Score ใช้ประเมินประสิทธิภาพโดยรวมของโมเดลได้อย่างมีประโยชน์
    • ในแวดวงวิชาการและอุตสาหกรรมใช้ DPG, GenEval, T2I-Compbench, GenAI-Bench เป็น benchmark หลายชนิด แต่ส่วนใหญ่มุ่งประเมินแค่ความสอดคล้องกับพรอมต์ ความสัมพันธ์เชิงพื้นที่ และการรวมแอตทริบิวต์
    • สำหรับตัวชี้วัดสุนทรียภาพเช่น LAION-Aesthetics, Pickscore, ImageReward, HPSv2 ส่วนใหญ่ใช้พื้นฐาน CLIP และมีข้อจำกัดด้านความละเอียดและจำนวนพารามิเตอร์
    • ตัวอย่างเช่น LAION-Aesthetics มีแนวโน้มเอนเอียงไปทางภาพ ผู้หญิง, ฉากหลังที่พร่า, สีสันสว่าง ซึ่งการคัดกรองข้อมูลด้วยเกณฑ์เหล่านี้อาจฝังอคติแฝงลงในโมเดล
  • ตัวชี้วัดและฟิลเตอร์ด้านสุนทรียภาพช่วยคัดกรองภาพที่ไม่ดีได้ดี แต่หากพึ่งพาการคัดเลือกข้อมูลฝึกมากเกินไป โมเดลอาจถูกตรึงด้วยอคติของตัวเอง
  • แม้จะมีตัวชี้วัดล่าสุดที่อาศัย Vision-Language Model เข้ามา อย่างไรก็ตาม รสนิยมสุนทรียะ ยังเป็นเรื่องอัตนัยสูง จึงยากจะย่อให้เป็นตัวเลขเดียว

โครงสร้างการ pre-training และ post-training

  • การ pre-training

    • ใน pre-training โมเดลเรียนรู้ความรู้ที่ครอบคลุมเกี่ยวกับโลกทางสายตา เช่น สไตล์, วัตถุ, บุคคล, สถานที่ เพื่อเพิ่ม การครอบคลุมโหมด (mode coverage) ให้สูงสุด
    • รวมข้อมูลที่ "ไม่ดี" เข้าไปด้วย เพื่อให้โมเดลได้เรียนรู้ลักษณะที่ไม่พึงประสงค์ (เช่น นิ้วมือผิดปกติ, ความพร่ามัว ฯลฯ) ด้วย
    • pre-training เป็นตัวกำหนดขีดจำกัดคุณภาพสูงสุดและความหลากหลายทางสไตล์ของโมเดล
  • การ post-training

    • ใน post-training โมเดลถูกทำให้ โหมดการกระจายข้อมูลยุบเข้าหาสไตล์ที่ต้องการ (mode collapsing) และค่อยๆ สู่เส้นทางสุนทรียภาพที่ชัดเจนแทน "AI look"
    • ดำเนินการใน 2 ขั้นด้วย Supervised Finetuning (SFT) และ RLHF (Reinforcement Learning from Human Feedback)
      • SFT: ใช้ชุดข้อมูลคุณภาพสูงที่คัดสรรโดยตรงและภาพสังเคราะห์ของ Krea-1
      • RLHF: ใช้ข้อมูลความชอบภายในเป็นพื้นฐาน ปรับให้เหมาะสมซ้ำหลายรอบเพื่อขัดเกลาความงามและสไตล์อย่างละเอียด
    • พบว่าความสำคัญของข้อมูลอยู่ที่ คุณภาพข้อมูล เป็นหลัก (ข้อมูลคุณภาพสูงจำนวนน้อยกว่า 1M ก็พอ)
    • นำฉลากความชอบสุนทรียภาพแบบมีแนวทางเฉพาะ (opinionated approach) มาใช้ ช่วยป้องกันปัญหาถ้าพึ่งพาเฉพาะชุดข้อมูลความชอบสาธารณะซึ่งอาจทำให้ผลลัพธ์แบนและถอยกลับสู่ AI look

พาไพพ์ไลน์โมเดลและข้อมูลเชิงทดลอง

  • ใช้โมเดลฐาน flux-dev-raw แบบ guidance-distilled ขนาด 12B พารามิเตอร์ ซึ่งแตกต่างจากโมเดลโอเพ่นซอร์สที่ถูก fine-tune มากเกินไปในอดีต
  • ในขั้น RLHF ใช้เทคนิค TPO (preference optimization) เพื่อเสริมความรู้สึกด้านสุนทรียภาพและความเป็นสไตล์
  • ใช้ข้อมูลความชอบภายในคุณภาพสูง (ผ่านการกรองแบบเข้มงวด) หลายครั้งในการปรับผลลัพธ์ของโมเดลให้แม่นยำขึ้น
  • ข้อค้นพบหลัก

    • 1. คุณภาพข้อมูลสำคัญกว่าปริมาณ แม้ใช้ข้อมูลน้อยกว่า 1M ก็เพียงพอสำหรับ post-training ที่มีนัยสำคัญได้ การมีความหลากหลายเชิงปริมาณช่วยบรรเทาอคติและเพิ่มความเสถียรได้ แต่สิ่งสำคัญที่สุดคือ ข้อมูลที่คัดสรรคุณภาพสูง
    • 2. ต้องมีการเก็บข้อมูลที่มุ่งรสนิยมอย่างชัดเจน ชุดข้อมูลสาธารณะที่ผู้ใช้ทั่วไปเผยแพร่มักก่อให้เกิดอคติที่ไม่ตั้งใจ, ภาวะถอยกลับสู่ "AI look", และอคติเชิงองค์ประกอบ/สีแบบแปลกๆ
      • สำหรับเป้าหมายเชิงวัตถุประสงค์เชิงวิเคราะห์ เช่น การเรนเดอร์ข้อความ กายวิภาค และโครงสร้าง ข้อมูลที่หลากหลายให้ประโยชน์ แต่สำหรับเป้าหมายเชิงสุนทรียะที่เป็นอัตนัย ข้อมูลเฉพาะทางมีประสิทธิภาพกว่า
      • หากผสมการกระจายสุนทรียะหลายแบบเข้าด้วยกัน ผลลัพธ์มักไม่ทำให้ผู้ใช้รายใดรายหนึ่งพึงพอใจ และมีการกล่าวถึงพฤติกรรมที่ผู้ใช้จำนวนมากต้องพึ่งวิธี post-process เช่น LoRA

แนวทางการวิจัยในอนาคตและบทสรุป

  • Krea 1 เป็นก้าวแรกสำหรับผู้สร้างที่ให้ความสำคัญกับมาตรฐานด้านความงามและคุณภาพ โดยมุ่งหวังให้ชุมชนโอเพ่นซอร์สเติบโตขึ้น
  • ในอนาคต เป้าหมายคือเสริม ขีดความสามารถหลัก, การรองรับโดเมนภาพที่หลากหลายมากขึ้น, และการวิจัยด้านการปรับให้เป็นส่วนตัว/ควบคุมได้ เพื่อมอบโมเดลที่ตอบโจทย์รสนิยมสุนทรียภาพของผู้ใช้
  • GitHub( https://github.com/krea-ai/flux-krea )

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น