- Krea 1 ได้รับการเปิดเผยเป็นเวอร์ชันน้ำหนักแบบโอเพ่นชื่อ FLUX.1 Krea
- แตกต่างจากโมเดลสร้างภาพเดิม โดยออกแบบให้เน้น รสนิยมสุนทรียภาพที่ชัดเจน และ โฟโต้เรียลิสม์ เป้าหมายคือสร้างภาพที่ “ไม่ดูเป็น AI”
- วิเคราะห์ว่าตัวชี้วัดและ benchmark เดิมคลาดเคลื่อนไปจากความรู้สึกด้านความงามที่ผู้ใช้จริงต้องการ และแก้ปัญหานี้ด้วยการใช้ข้อมูลที่คัดสรรเองพร้อมแนวทางสุนทรียภาพแบบมีทิศทาง (opinionated)
- แยกกระบวนการ pre-training และ post-training ออกเป็นขั้นตอนอย่างเป็นระบบ โดยมีขั้นที่รับประกันความหลากหลาย และขั้นที่ทำให้สไตล์ชัดเจนพร้อมกัน
- วางแผนในอนาคตที่จะศึกษาเรื่องการปรับให้เหมาะกับความชอบรายบุคคล และขยายขอบข่ายโดเมนภาพให้กว้างขึ้น พร้อมเพิ่มฟังก์ชันรองรับผู้สร้างสรรค์ให้มากขึ้น
การเปิดตัว FLUX.1 Krea แบบโอเพ่นซอร์ส
- Krea 1 เป็นโมเดลสร้างภาพตัวแรกที่ฝึกร่วมกับ Black Forest Labs โดยมุ่งหวังความเป็นเลิศด้านการควบคุมรสนิยมและคุณภาพภาพ
- FLUX.1 Krea [dev] ถูกปล่อยออกมาเป็น open-weight และเข้ากันได้กับระบบนิเวศ FLUX.1-dev เดิมอย่างสมบูรณ์
- โมเดลนี้เพิ่มโฟโต้เรียลิสม์และองค์ประกอบทางความงามให้มากที่สุด โดยออกแบบให้สะท้อนแนวโน้ม opinionated aesthetics ตามรสนิยมเฉพาะ
ปรากฏการณ์ "AI Look" และข้อจำกัด
- ภาพที่สร้างด้วย AI เดิมมักแสดงอาการที่เรียกว่า "AI look" เช่น ฉากหลังที่เบลอเกินไป, หนังหน้าคล้ายขี้ผึ้ง, การจัดองค์ประกอบที่เรียบเฉย
- เมื่อเน้นการปรับแต่งตาม benchmark และตัวชี้วัดทางเทคนิคมากเกินไป จะพบว่าคุณภาพเชิงผิวสัมผัสที่สมจริง, ความหลากหลายของสไตล์, และผลลัพธ์เชิงสร้างสรรค์ถูกเสียหาย
- ข้อจำกัดของโมเดลประเมินเดิมที่ไม่สามารถสะท้อนรสนิยมของผู้ใช้จริง
- ในขั้น pre-training, Fréchet Inception Distance (FID) และ CLIP Score ใช้ประเมินประสิทธิภาพโดยรวมของโมเดลได้อย่างมีประโยชน์
- ในแวดวงวิชาการและอุตสาหกรรมใช้ DPG, GenEval, T2I-Compbench, GenAI-Bench เป็น benchmark หลายชนิด แต่ส่วนใหญ่มุ่งประเมินแค่ความสอดคล้องกับพรอมต์ ความสัมพันธ์เชิงพื้นที่ และการรวมแอตทริบิวต์
- สำหรับตัวชี้วัดสุนทรียภาพเช่น LAION-Aesthetics, Pickscore, ImageReward, HPSv2 ส่วนใหญ่ใช้พื้นฐาน CLIP และมีข้อจำกัดด้านความละเอียดและจำนวนพารามิเตอร์
- ตัวอย่างเช่น LAION-Aesthetics มีแนวโน้มเอนเอียงไปทางภาพ ผู้หญิง, ฉากหลังที่พร่า, สีสันสว่าง ซึ่งการคัดกรองข้อมูลด้วยเกณฑ์เหล่านี้อาจฝังอคติแฝงลงในโมเดล
- ตัวชี้วัดและฟิลเตอร์ด้านสุนทรียภาพช่วยคัดกรองภาพที่ไม่ดีได้ดี แต่หากพึ่งพาการคัดเลือกข้อมูลฝึกมากเกินไป โมเดลอาจถูกตรึงด้วยอคติของตัวเอง
- แม้จะมีตัวชี้วัดล่าสุดที่อาศัย Vision-Language Model เข้ามา อย่างไรก็ตาม รสนิยมสุนทรียะ ยังเป็นเรื่องอัตนัยสูง จึงยากจะย่อให้เป็นตัวเลขเดียว
โครงสร้างการ pre-training และ post-training
-
การ pre-training
- ใน pre-training โมเดลเรียนรู้ความรู้ที่ครอบคลุมเกี่ยวกับโลกทางสายตา เช่น สไตล์, วัตถุ, บุคคล, สถานที่ เพื่อเพิ่ม การครอบคลุมโหมด (mode coverage) ให้สูงสุด
- รวมข้อมูลที่ "ไม่ดี" เข้าไปด้วย เพื่อให้โมเดลได้เรียนรู้ลักษณะที่ไม่พึงประสงค์ (เช่น นิ้วมือผิดปกติ, ความพร่ามัว ฯลฯ) ด้วย
- pre-training เป็นตัวกำหนดขีดจำกัดคุณภาพสูงสุดและความหลากหลายทางสไตล์ของโมเดล
-
การ post-training
- ใน post-training โมเดลถูกทำให้ โหมดการกระจายข้อมูลยุบเข้าหาสไตล์ที่ต้องการ (mode collapsing) และค่อยๆ สู่เส้นทางสุนทรียภาพที่ชัดเจนแทน "AI look"
- ดำเนินการใน 2 ขั้นด้วย Supervised Finetuning (SFT) และ RLHF (Reinforcement Learning from Human Feedback)
- SFT: ใช้ชุดข้อมูลคุณภาพสูงที่คัดสรรโดยตรงและภาพสังเคราะห์ของ Krea-1
- RLHF: ใช้ข้อมูลความชอบภายในเป็นพื้นฐาน ปรับให้เหมาะสมซ้ำหลายรอบเพื่อขัดเกลาความงามและสไตล์อย่างละเอียด
- พบว่าความสำคัญของข้อมูลอยู่ที่ คุณภาพข้อมูล เป็นหลัก (ข้อมูลคุณภาพสูงจำนวนน้อยกว่า 1M ก็พอ)
- นำฉลากความชอบสุนทรียภาพแบบมีแนวทางเฉพาะ (opinionated approach) มาใช้ ช่วยป้องกันปัญหาถ้าพึ่งพาเฉพาะชุดข้อมูลความชอบสาธารณะซึ่งอาจทำให้ผลลัพธ์แบนและถอยกลับสู่ AI look
พาไพพ์ไลน์โมเดลและข้อมูลเชิงทดลอง
- ใช้โมเดลฐาน flux-dev-raw แบบ guidance-distilled ขนาด 12B พารามิเตอร์ ซึ่งแตกต่างจากโมเดลโอเพ่นซอร์สที่ถูก fine-tune มากเกินไปในอดีต
- ในขั้น RLHF ใช้เทคนิค TPO (preference optimization) เพื่อเสริมความรู้สึกด้านสุนทรียภาพและความเป็นสไตล์
- ใช้ข้อมูลความชอบภายในคุณภาพสูง (ผ่านการกรองแบบเข้มงวด) หลายครั้งในการปรับผลลัพธ์ของโมเดลให้แม่นยำขึ้น
-
ข้อค้นพบหลัก
- 1. คุณภาพข้อมูลสำคัญกว่าปริมาณ แม้ใช้ข้อมูลน้อยกว่า 1M ก็เพียงพอสำหรับ post-training ที่มีนัยสำคัญได้ การมีความหลากหลายเชิงปริมาณช่วยบรรเทาอคติและเพิ่มความเสถียรได้ แต่สิ่งสำคัญที่สุดคือ ข้อมูลที่คัดสรรคุณภาพสูง
- 2. ต้องมีการเก็บข้อมูลที่มุ่งรสนิยมอย่างชัดเจน ชุดข้อมูลสาธารณะที่ผู้ใช้ทั่วไปเผยแพร่มักก่อให้เกิดอคติที่ไม่ตั้งใจ, ภาวะถอยกลับสู่ "AI look", และอคติเชิงองค์ประกอบ/สีแบบแปลกๆ
- สำหรับเป้าหมายเชิงวัตถุประสงค์เชิงวิเคราะห์ เช่น การเรนเดอร์ข้อความ กายวิภาค และโครงสร้าง ข้อมูลที่หลากหลายให้ประโยชน์ แต่สำหรับเป้าหมายเชิงสุนทรียะที่เป็นอัตนัย ข้อมูลเฉพาะทางมีประสิทธิภาพกว่า
- หากผสมการกระจายสุนทรียะหลายแบบเข้าด้วยกัน ผลลัพธ์มักไม่ทำให้ผู้ใช้รายใดรายหนึ่งพึงพอใจ และมีการกล่าวถึงพฤติกรรมที่ผู้ใช้จำนวนมากต้องพึ่งวิธี post-process เช่น LoRA
แนวทางการวิจัยในอนาคตและบทสรุป
- Krea 1 เป็นก้าวแรกสำหรับผู้สร้างที่ให้ความสำคัญกับมาตรฐานด้านความงามและคุณภาพ โดยมุ่งหวังให้ชุมชนโอเพ่นซอร์สเติบโตขึ้น
- ในอนาคต เป้าหมายคือเสริม ขีดความสามารถหลัก, การรองรับโดเมนภาพที่หลากหลายมากขึ้น, และการวิจัยด้านการปรับให้เป็นส่วนตัว/ควบคุมได้ เพื่อมอบโมเดลที่ตอบโจทย์รสนิยมสุนทรียภาพของผู้ใช้
- GitHub( https://github.com/krea-ai/flux-krea )
ยังไม่มีความคิดเห็น