Apple เปิดตัว "MGIE" โมเดล AI สุดล้ำสำหรับการแก้ไขภาพตามคำสั่ง
(venturebeat.com)หลักการทำงานของ MGIE(MLLM-Guided Image Editing)
- การตีความคำสั่งด้วย MLLM: MGIE ใช้ MLLM เพื่อสกัดคำสั่งที่ชัดเจนและกระชับจากอินพุตของผู้ใช้ ตัวอย่างเช่น สำหรับอินพุต "ทำให้ท้องฟ้าเป็นสีน้ำเงินขึ้น" ระบบอาจสร้างคำสั่งว่า "เพิ่มความอิ่มสีของบริเวณท้องฟ้า 20%"
- การสร้างจินตภาพเชิงภาพ: MGIE สร้างจินตภาพเชิงภาพซึ่งเป็นตัวแทนเชิงแฝงที่จับแก่นของการแก้ไขที่ต้องการ และใช้เพื่อชี้นำการปรับแต่งในระดับพิกเซล
- แนวทางการฝึกแบบ end-to-end: MGIE ใช้แนวทางการฝึกแบบ end-to-end รูปแบบใหม่ที่ปรับแต่งการสกัดคำสั่ง การสร้างจินตภาพเชิงภาพ และโมดูลแก้ไขภาพร่วมกัน
MGIE ทำอะไรได้บ้าง?
- การแก้ไขตามคำสั่งที่ชัดเจน: MGIE สร้างคำสั่งที่ชัดเจนและกระชับเพื่อชี้นำกระบวนการแก้ไขได้อย่างมีประสิทธิภาพ
- การปรับแต่งสไตล์ Photoshop: MGIE สามารถทำงานแก้ไขสไตล์ Photoshop ทั่วไป เช่น ครอป ปรับขนาด หมุน พลิก และเพิ่มฟิลเตอร์ รวมถึงการแก้ไขที่ซับซ้อนยิ่งขึ้น เช่น เปลี่ยนพื้นหลัง เพิ่มหรือลบวัตถุ และผสมภาพ
- การเพิ่มประสิทธิภาพภาพทั้งภาพ: MGIE สามารถปรับคุณภาพของภาพทั้งภาพให้เหมาะสม เช่น ความสว่าง คอนทราสต์ ความคมชัด และสมดุลสี อีกทั้งยังสามารถใส่เอฟเฟกต์เชิงศิลป์ เช่น สเก็ตช์ ภาพวาด และเอฟเฟกต์การ์ตูน
- การแก้ไขเฉพาะส่วน: MGIE สามารถแก้ไขพื้นที่หรือวัตถุเฉพาะในภาพ เช่น ใบหน้า ดวงตา เส้นผม เสื้อผ้า และเครื่องประดับ รวมถึงปรับคุณลักษณะของพื้นที่หรือวัตถุเหล่านั้นได้ เช่น รูปร่าง ขนาด สี พื้นผิว และสไตล์
ใช้งาน MGIE อย่างไร?
- โครงการโอเพนซอร์ส: MGIE เปิดให้ใช้งานเป็นโครงการโอเพนซอร์สบน GitHub ซึ่งสามารถค้นหาโค้ด ข้อมูล และโมเดลที่ผ่านการฝึกไว้ล่วงหน้าได้
- เดโมโน้ตบุ๊กและเว็บเดโม: โครงการนี้มีเดโมโน้ตบุ๊กที่แสดงวิธีใช้ MGIE สำหรับงานแก้ไขหลากหลายรูปแบบ และยังสามารถทดลอง MGIE ออนไลน์ผ่านเว็บเดโมที่โฮสต์บน Hugging Face Spaces
- การออกแบบที่เป็นมิตรกับผู้ใช้: MGIE ถูกออกแบบให้ใช้งานง่ายและยืดหยุ่นต่อการปรับแต่ง ผู้ใช้สามารถแก้ไขภาพด้วยการให้คำสั่งภาษาธรรมชาติ และ MGIE จะสร้างทั้งภาพที่แก้ไขแล้วและคำสั่งที่สกัดได้
ความสำคัญของ MGIE คืออะไร?
- นวัตกรรมในงานแก้ไขภาพตามคำสั่ง: MGIE สร้างความก้าวหน้าครั้งสำคัญในสาขาการแก้ไขภาพตามคำสั่ง ซึ่งเป็นโจทย์ที่ท้าทายและสำคัญต่อทั้ง AI และความคิดสร้างสรรค์ของมนุษย์
- เครื่องมือที่ใช้งานได้จริง: MGIE สามารถช่วยในการสร้าง ปรับแก้ และเพิ่มประสิทธิภาพภาพเพื่อการใช้งานทั้งส่วนตัวและระดับมืออาชีพ ในด้านโซเชียลมีเดีย อีคอมเมิร์ซ การศึกษา ความบันเทิง และศิลปะ
- เสริมศักยภาพงานวิจัยและพัฒนา AI ของ Apple: MGIE ตอกย้ำศักยภาพที่เติบโตขึ้นของ Apple ในด้านการวิจัยและพัฒนา AI และแสดงให้เห็นว่า AI สามารถยกระดับงานสร้างสรรค์ในชีวิตประจำวันได้อย่างไร
ความเห็นของ GN⁺
- MGIE เป็นโมเดล AI เชิงนวัตกรรมสำหรับการแก้ไขภาพด้วยคำสั่งภาษาธรรมชาติ และน่าจะช่วยให้ผู้ใช้ถ่ายทอดไอเดียสร้างสรรค์ออกมาเป็นภาพได้อย่างมาก
- เครื่องมือนี้สามารถทำให้งานแก้ไขภาพที่ซับซ้อนทางเทคนิคง่ายขึ้น และช่วยยกระดับประสบการณ์ผู้ใช้
- เป็นอีกตัวอย่างที่สะท้อนการเติบโตของ Apple ในด้านการวิจัยและพัฒนา AI
ยังไม่มีความคิดเห็น