- OpenAI เชื่อมาอย่างยาวนานว่า การสร้างภาพ ควรเป็นหนึ่งในความสามารถหลักของโมเดลภาษา และจากวิสัยทัศน์นี้จึงได้ ผสานตัวสร้างภาพที่ละเอียดล้ำและทรงพลังที่สุดเข้ากับ GPT‑4o
- การสร้างภาพของ GPT‑4o ไม่ได้หยุดอยู่แค่ภาพที่สวยงาม แต่สร้าง ผลลัพธ์ที่ใช้งานได้จริงและมีคุณค่า
- มีความแม่นยำและเที่ยงตรง พร้อมสร้าง ภาพคุณภาพสูงระดับโฟโตรีอะลิสม์ ได้
- มีความสามารถแบบมัลติโหมดมาเป็นพื้นฐาน ทำให้สามารถสร้างคอนเทนต์ภาพโดยใช้ทั้งภาษา ภาพ และบริบทร่วมกันได้
ความสามารถด้านการสร้างภาพที่ใช้งานได้จริง
- มนุษย์ใช้ภาพในการสื่อสารข้อมูล โน้มน้าวใจ และวิเคราะห์มาตั้งแต่ภาพเขียนบนผนังโบราณไปจนถึงอินโฟกราฟิกสมัยใหม่
- โมเดลสร้างภาพก่อนหน้านี้อาจสร้างภาพแฟนตาซีหรือภาพที่น่าประทับใจได้ แต่ยังทำภาพเพื่อสื่อสารข้อมูลเชิงใช้งานจริงได้ไม่ดีนัก
- การสร้างภาพของ GPT‑4o มีจุดเด่นในการสร้างภาพที่ถ่ายทอดความหมายได้อย่างแม่นยำ เช่น โลโก้หรือไดอะแกรม
- มีความสามารถขั้นสูง เช่น การเรนเดอร์ข้อความได้อย่างแม่นยำ การใช้บริบทจากบทสนทนาของผู้ใช้ และการสร้างจากภาพที่อัปโหลด
- ความสามารถเหล่านี้ช่วยให้ผู้ใช้สร้างภาพที่ต้องการได้อย่างแม่นยำยิ่งขึ้น
ความสามารถด้านการสร้างภาพที่ดีขึ้น
- เรียนรู้การกระจายร่วมของภาพออนไลน์และข้อความ จึงเข้าใจความสัมพันธ์ระหว่างภาพกับภาษา รวมถึงระหว่างภาพด้วยกัน
- หลังการฝึกมีการปรับจูนเพิ่มเติม ทำให้มีความลื่นไหลด้านภาพสูงขึ้น และสามารถสร้างภาพที่มีประโยชน์และสอดคล้องกันได้
ความสามารถในการเรนเดอร์ข้อความ
- ภาพหนึ่งภาพอาจบรรจุคำได้นับพันคำ แต่ข้อความไม่กี่คำที่วางถูกตำแหน่งสามารถเสริมความหมายได้
- GPT‑4o สามารถผสานสัญลักษณ์หรือข้อความลงในภาพได้อย่างแม่นยำ เพื่อนำไปใช้เป็นเครื่องมือสื่อสารด้วยภาพ
การสร้างภาพแบบโต้ตอบ
- GPT‑4o ผสานการสร้างภาพเป็นความสามารถโดยตรง ทำให้สามารถสร้างและแก้ไขภาพไปตามลำดับของบทสนทนาได้
- ตัวอย่าง: ระหว่างออกแบบตัวละครเกม สามารถปรับแก้ซ้ำได้โดยยังคงรูปลักษณ์เดิมไว้อย่างต่อเนื่อง
การทำตามคำสั่งได้อย่างแม่นยำ
- GPT‑4o สะท้อนพรอมป์ต์ที่มีรายละเอียดได้อย่างแม่นยำ
- ระบบอื่นอาจรองรับได้ราว 5-8 วัตถุ แต่ GPT‑4o สามารถสร้างได้อย่างสม่ำเสมอสูงสุด 10-20 วัตถุ
- รักษาการแสดงคุณลักษณะและความสัมพันธ์ของวัตถุได้แม่นยำยิ่งขึ้น
การเรียนรู้จากบริบท
- วิเคราะห์ภาพที่ผู้ใช้อัปโหลด แล้วสะท้อนรายละเอียดของภาพนั้นในการสร้างภาพ
การเชื่อมโยงกับความรู้ของโลก
- GPT‑4o เชื่อมโยงความรู้ระหว่างข้อความและภาพ ทำให้สร้างภาพได้อย่างชาญฉลาดและมีประสิทธิภาพยิ่งขึ้น
โฟโตรีอะลิสม์และสไตล์ที่หลากหลาย
- ผ่านการฝึกด้วยสไตล์ภาพที่หลากหลาย จึงสามารถสร้างภาพที่สมจริงและแปลงสไตล์ได้
ข้อจำกัดของโมเดล
- ยังไม่ใช่โมเดลที่สมบูรณ์แบบ
- หลังเปิดตัวช่วงแรกมีแผนปรับปรุงอย่างต่อเนื่องจากฟีดแบ็กผู้ใช้และข้อมูล
ความพยายามในการยกระดับความปลอดภัย
- สนับสนุนงานสร้างสรรค์ที่เป็นประโยชน์ เช่น การพัฒนาเกม การสำรวจประวัติศาสตร์ และการศึกษา ควบคู่กับการรักษามาตรฐานความปลอดภัยที่เข้มงวด
- มีการใช้นโยบายอย่างเข้มงวดเพื่อป้องกันการสร้างภาพที่ไม่เหมาะสม
-
ความโปร่งใสผ่าน C2PA และเครื่องมือค้นหาภายใน
- ทุกภาพที่ GPT‑4o สร้างจะมีเมทาดาทา C2PA เพื่อระบุแหล่งที่มาให้ชัดเจน
- สามารถใช้เครื่องมือค้นหาภายในเพื่อตรวจสอบแหล่งที่มาของภาพจากคุณลักษณะทางเทคนิคได้
-
การบล็อกภาพที่ไม่เหมาะสม
- บล็อกคำขอสร้างภาพที่ละเมิดนโยบาย เช่น ภาพล่วงละเมิดทางเพศเด็กหรือดีปเฟก
- ใช้ข้อจำกัดที่เข้มงวดยิ่งขึ้นกับภาพที่มีบุคคลจริงอยู่ในภาพ
- มีระบบป้องกันล่วงหน้าอย่างเข้มงวดสำหรับภาพเปลือยและภาพความรุนแรง
-
การเสริมความปลอดภัยด้วยการให้เหตุผล
- ฝึก LLM ที่อิงการให้เหตุผลโดยทำงานจากเอกสารข้อกำหนดนโยบายที่มนุษย์เขียนขึ้น
- ใช้เพื่อระบุและแก้ไขความกำกวมของนโยบาย และเมื่อผสานกับเทคโนโลยีมัลติโหมด จะช่วยปรับทั้งข้อความนำเข้าและภาพผลลัพธ์ให้เป็นไปตามเกณฑ์นโยบาย
การใช้งาน
- ตั้งแต่วันนี้ ผู้ใช้ Plus, Pro, Team และ Free จะได้รับเป็นตัวสร้างภาพพื้นฐาน
- Enterprise และ Edu จะรองรับในเร็ว ๆ นี้
- ใช้งานได้ใน Sora ด้วย และโมเดล DALL·E เดิมยังเข้าถึงได้ผ่าน GPT แยกต่างหาก
- ความสามารถสร้างภาพผ่าน API จะเปิดให้นักพัฒนาใช้งานภายในไม่กี่สัปดาห์
- ผู้ใช้สามารถสร้างภาพได้เพียงอธิบายภาพที่ต้องการ และยังระบุอัตราส่วน สี (hex code) และการมีพื้นหลังโปร่งใสได้ด้วย
- เนื่องจากเป็นการสร้างภาพความละเอียดสูง เวลาเรนเดอร์อาจใช้ได้นานสูงสุด 1 นาที
3 ความคิดเห็น
ดูเหมือนว่าตอนนี้ในแพ็กเกจ free ยังไม่เห็นฟีเจอร์นี้ น่าจะเปิดให้เฉพาะ Plus, Pro และ Team ใช่ไหม?
ใน Pro ถ้าลองกด ... ใต้ช่องแชต จะเห็นว่าเขียนว่า "สร้างรูปภาพ (อัปเดตแล้ว)" น่าจะเป็นอันนี้นะครับ
แต่ Best of # ไม่ขึ้น เลยงงว่าเป็นเพราะยังไม่ถูกนำมาใช้ หรือว่าใช้แล้วกันแน่
ความคิดเห็นบน Hacker News
วิธีสร้างภาพแบบใหม่ใช้โทเคนเพื่อทำการอนุมานใน pixel space แทน diffusion
แนะนำ 4o Image Generation: เครื่องสร้างภาพที่ล้ำหน้าที่สุด
สงสัยว่าทำไมถึงไม่เพิ่ม benchmark เทียบกับ o1
ไลฟ์สตรีม OpenAI GPT-4o Image Generation ค่อนข้างช้า ใช้เวลาราว 30 วินาทีต่อภาพ
หลังจากลองใช้แล้ว พบว่าสามารถสร้างการ์ดเชิญวันเกิดให้ลูกสาวได้จบในครั้งเดียว
น่าพอใจที่ไม่ใช่สไตล์ CG/การ์ตูนที่อิ่มสีเกินไป
สงสัยว่ามีวิธีตรวจสอบไหมว่า prompt ที่ให้ไปถูกประมวลผลโดย 4o หรือ DALL-E
ยังสอบตกในการทดสอบแก้วไวน์
สงสัยว่าภาพจำนวนมากที่ติดแท็ก "Best of 8" ถูกคัดเลือกมามากแค่ไหน
มีตัวอย่างการแก้ไขซ้ำหลายรอบด้วยโมเดลใหม่