OpenAI เปิดตัวฟีเจอร์สร้างภาพของ 4o

(openai.com)

12 คะแนน โดย GN⁺ 2025-03-26 | 3 ความคิดเห็น | แชร์ทาง WhatsApp

OpenAI เชื่อมาอย่างยาวนานว่า การสร้างภาพ ควรเป็นหนึ่งในความสามารถหลักของโมเดลภาษา และจากวิสัยทัศน์นี้จึงได้ ผสานตัวสร้างภาพที่ละเอียดล้ำและทรงพลังที่สุดเข้ากับ GPT‑4o
การสร้างภาพของ GPT‑4o ไม่ได้หยุดอยู่แค่ภาพที่สวยงาม แต่สร้าง ผลลัพธ์ที่ใช้งานได้จริงและมีคุณค่า
มีความแม่นยำและเที่ยงตรง พร้อมสร้าง ภาพคุณภาพสูงระดับโฟโตรีอะลิสม์ ได้
มีความสามารถแบบมัลติโหมดมาเป็นพื้นฐาน ทำให้สามารถสร้างคอนเทนต์ภาพโดยใช้ทั้งภาษา ภาพ และบริบทร่วมกันได้

ความสามารถด้านการสร้างภาพที่ใช้งานได้จริง

มนุษย์ใช้ภาพในการสื่อสารข้อมูล โน้มน้าวใจ และวิเคราะห์มาตั้งแต่ภาพเขียนบนผนังโบราณไปจนถึงอินโฟกราฟิกสมัยใหม่
โมเดลสร้างภาพก่อนหน้านี้อาจสร้างภาพแฟนตาซีหรือภาพที่น่าประทับใจได้ แต่ยังทำภาพเพื่อสื่อสารข้อมูลเชิงใช้งานจริงได้ไม่ดีนัก
การสร้างภาพของ GPT‑4o มีจุดเด่นในการสร้างภาพที่ถ่ายทอดความหมายได้อย่างแม่นยำ เช่น โลโก้หรือไดอะแกรม
มีความสามารถขั้นสูง เช่น การเรนเดอร์ข้อความได้อย่างแม่นยำ การใช้บริบทจากบทสนทนาของผู้ใช้ และการสร้างจากภาพที่อัปโหลด
ความสามารถเหล่านี้ช่วยให้ผู้ใช้สร้างภาพที่ต้องการได้อย่างแม่นยำยิ่งขึ้น

ความสามารถด้านการสร้างภาพที่ดีขึ้น

เรียนรู้การกระจายร่วมของภาพออนไลน์และข้อความ จึงเข้าใจความสัมพันธ์ระหว่างภาพกับภาษา รวมถึงระหว่างภาพด้วยกัน
หลังการฝึกมีการปรับจูนเพิ่มเติม ทำให้มีความลื่นไหลด้านภาพสูงขึ้น และสามารถสร้างภาพที่มีประโยชน์และสอดคล้องกันได้

ความสามารถในการเรนเดอร์ข้อความ

ภาพหนึ่งภาพอาจบรรจุคำได้นับพันคำ แต่ข้อความไม่กี่คำที่วางถูกตำแหน่งสามารถเสริมความหมายได้
GPT‑4o สามารถผสานสัญลักษณ์หรือข้อความลงในภาพได้อย่างแม่นยำ เพื่อนำไปใช้เป็นเครื่องมือสื่อสารด้วยภาพ

การสร้างภาพแบบโต้ตอบ

GPT‑4o ผสานการสร้างภาพเป็นความสามารถโดยตรง ทำให้สามารถสร้างและแก้ไขภาพไปตามลำดับของบทสนทนาได้
ตัวอย่าง: ระหว่างออกแบบตัวละครเกม สามารถปรับแก้ซ้ำได้โดยยังคงรูปลักษณ์เดิมไว้อย่างต่อเนื่อง

การทำตามคำสั่งได้อย่างแม่นยำ

GPT‑4o สะท้อนพรอมป์ต์ที่มีรายละเอียดได้อย่างแม่นยำ
ระบบอื่นอาจรองรับได้ราว 5-8 วัตถุ แต่ GPT‑4o สามารถสร้างได้อย่างสม่ำเสมอสูงสุด 10-20 วัตถุ
รักษาการแสดงคุณลักษณะและความสัมพันธ์ของวัตถุได้แม่นยำยิ่งขึ้น

การเรียนรู้จากบริบท

วิเคราะห์ภาพที่ผู้ใช้อัปโหลด แล้วสะท้อนรายละเอียดของภาพนั้นในการสร้างภาพ

การเชื่อมโยงกับความรู้ของโลก

GPT‑4o เชื่อมโยงความรู้ระหว่างข้อความและภาพ ทำให้สร้างภาพได้อย่างชาญฉลาดและมีประสิทธิภาพยิ่งขึ้น

โฟโตรีอะลิสม์และสไตล์ที่หลากหลาย

ผ่านการฝึกด้วยสไตล์ภาพที่หลากหลาย จึงสามารถสร้างภาพที่สมจริงและแปลงสไตล์ได้

ข้อจำกัดของโมเดล

ยังไม่ใช่โมเดลที่สมบูรณ์แบบ
หลังเปิดตัวช่วงแรกมีแผนปรับปรุงอย่างต่อเนื่องจากฟีดแบ็กผู้ใช้และข้อมูล

ความพยายามในการยกระดับความปลอดภัย

สนับสนุนงานสร้างสรรค์ที่เป็นประโยชน์ เช่น การพัฒนาเกม การสำรวจประวัติศาสตร์ และการศึกษา ควบคู่กับการรักษามาตรฐานความปลอดภัยที่เข้มงวด
มีการใช้นโยบายอย่างเข้มงวดเพื่อป้องกันการสร้างภาพที่ไม่เหมาะสม
ความโปร่งใสผ่าน C2PA และเครื่องมือค้นหาภายใน
- ทุกภาพที่ GPT‑4o สร้างจะมีเมทาดาทา C2PA เพื่อระบุแหล่งที่มาให้ชัดเจน
- สามารถใช้เครื่องมือค้นหาภายในเพื่อตรวจสอบแหล่งที่มาของภาพจากคุณลักษณะทางเทคนิคได้
การบล็อกภาพที่ไม่เหมาะสม
- บล็อกคำขอสร้างภาพที่ละเมิดนโยบาย เช่น ภาพล่วงละเมิดทางเพศเด็กหรือดีปเฟก
- ใช้ข้อจำกัดที่เข้มงวดยิ่งขึ้นกับภาพที่มีบุคคลจริงอยู่ในภาพ
- มีระบบป้องกันล่วงหน้าอย่างเข้มงวดสำหรับภาพเปลือยและภาพความรุนแรง
การเสริมความปลอดภัยด้วยการให้เหตุผล
- ฝึก LLM ที่อิงการให้เหตุผลโดยทำงานจากเอกสารข้อกำหนดนโยบายที่มนุษย์เขียนขึ้น
- ใช้เพื่อระบุและแก้ไขความกำกวมของนโยบาย และเมื่อผสานกับเทคโนโลยีมัลติโหมด จะช่วยปรับทั้งข้อความนำเข้าและภาพผลลัพธ์ให้เป็นไปตามเกณฑ์นโยบาย

การใช้งาน

ตั้งแต่วันนี้ ผู้ใช้ Plus, Pro, Team และ Free จะได้รับเป็นตัวสร้างภาพพื้นฐาน
Enterprise และ Edu จะรองรับในเร็ว ๆ นี้
ใช้งานได้ใน Sora ด้วย และโมเดล DALL·E เดิมยังเข้าถึงได้ผ่าน GPT แยกต่างหาก
ความสามารถสร้างภาพผ่าน API จะเปิดให้นักพัฒนาใช้งานภายในไม่กี่สัปดาห์
ผู้ใช้สามารถสร้างภาพได้เพียงอธิบายภาพที่ต้องการ และยังระบุอัตราส่วน สี (hex code) และการมีพื้นหลังโปร่งใสได้ด้วย
เนื่องจากเป็นการสร้างภาพความละเอียดสูง เวลาเรนเดอร์อาจใช้ได้นานสูงสุด 1 นาที

3 ความคิดเห็น

j2sus91 2025-03-26

ดูเหมือนว่าตอนนี้ในแพ็กเกจ free ยังไม่เห็นฟีเจอร์นี้ น่าจะเปิดให้เฉพาะ Plus, Pro และ Team ใช่ไหม?

laeyoung 2025-03-26

ใน Pro ถ้าลองกด ... ใต้ช่องแชต จะเห็นว่าเขียนว่า "สร้างรูปภาพ (อัปเดตแล้ว)" น่าจะเป็นอันนี้นะครับ
แต่ Best of # ไม่ขึ้น เลยงงว่าเป็นเพราะยังไม่ถูกนำมาใช้ หรือว่าใช้แล้วกันแน่

GN⁺ 2025-03-26

ความคิดเห็นบน Hacker News

วิธีสร้างภาพแบบใหม่ใช้โทเคนเพื่อทำการอนุมานใน pixel space แทน diffusion
- ตัวอย่างเช่น สามารถสั่งให้วาดสมุดโน้ตที่มีตาราง tic-tac-toe ว่างอยู่ แล้วลงตาแรก จากนั้นให้ผู้ใช้ลงตาโต้ตอบต่อได้
- ยังสามารถเปลี่ยนสไตล์ภาพ หรือทำการแปลงแบบคงข้อมูลไว้ เช่น "เปลี่ยนกลางวันเป็นกลางคืน", "ใส่หมวก" ได้
- แม้ความละเอียดของโมเดลจะยังจำกัด แต่หากด้านนี้พัฒนาไป ก็มีความเป็นไปได้ที่จะออกแบบแอปเป็นภาพทีละขั้นแล้วเขียนโค้ดตามได้
- โมเดลสามารถ "อนุมาน" ต่อจากภาพภายนอกได้ ทำให้ปรับปรุงได้แม้งานต้นฉบับที่สร้างออกมาจะไม่ดีนัก
- หากโมเดลเร็วขึ้น ก็อาจจินตนาการถึง generative UI ที่แท้จริง ซึ่งสร้างเฟรมถัดไปของแอปตาม event ของ LLM ได้
- โมเดล diffusion ก็อาจทำงานลักษณะคล้ายกันนี้ได้ และทำได้เร็วกว่า
แนะนำ 4o Image Generation: เครื่องสร้างภาพที่ล้ำหน้าที่สุด
- Google Gemini 2.5: โมเดล AI ที่ฉลาดที่สุด
- แนะนำ Gemini 2.0: โมเดล AI ที่มีความสามารถที่สุด
- หวังว่าเทรนด์นี้จะหายไป และ Apple จะใช้คำที่ได้ผลจริงจนบริษัทอื่นพากันคัดลอกคำใหม่อีก
สงสัยว่าทำไมถึงไม่เพิ่ม benchmark เทียบกับ o1
ไลฟ์สตรีม OpenAI GPT-4o Image Generation ค่อนข้างช้า ใช้เวลาราว 30 วินาทีต่อภาพ
- Sam Altman อธิบายว่า "ช้า แต่ภาพที่สร้างออกมาคุ้มค่า"
- แทนที่จะใช้แนวทาง diffusion ระบบจะสร้างและถอดรหัส image token คล้าย DALL-E รุ่นดั้งเดิม
- Gemini ของ Google สามารถสร้างและแก้ไขภาพได้ภายในไม่กี่วินาที
- ยังไม่มี API และเพราะความช้า จึงคาดว่าต้นทุนจะสูงกว่าคู่แข่งที่คิดราคาราว $0.03+/ภาพ
หลังจากลองใช้แล้ว พบว่าสามารถสร้างการ์ดเชิญวันเกิดให้ลูกสาวได้จบในครั้งเดียว
- ปรับองค์ประกอบและสไตล์ที่ต้องการได้ตรงมาก
- ตอนขอให้เพิ่มรายละเอียดอย่างวันที่ สถานที่ ฯลฯ ก็ทำได้ดี
- โมเดลก่อนหน้านี้เทียบไม่ติดแม้แต่ครึ่งเดียว
น่าพอใจที่ไม่ใช่สไตล์ CG/การ์ตูนที่อิ่มสีเกินไป
สงสัยว่ามีวิธีตรวจสอบไหมว่า prompt ที่ให้ไปถูกประมวลผลโดย 4o หรือ DALL-E
- ตอนนี้ดูเหมือนว่า prompt ยังถูกประมวลผลโดยตัวหลังอยู่
- แผนระยะยาวคือย้ายทั้งหมดไปที่ 4o และย้าย DALL-E ไปอยู่ในแท็บแยก
ยังสอบตกในการทดสอบแก้วไวน์
สงสัยว่าภาพจำนวนมากที่ติดแท็ก "Best of 8" ถูกคัดเลือกมามากแค่ไหน
- จากภาพฟรีสามภาพ มีสองภาพที่น่าประทับใจ และอีกภาพหนึ่งล้มเหลว
มีตัวอย่างการแก้ไขซ้ำหลายรอบด้วยโมเดลใหม่
- ดีกว่าโมเดลก่อนมาก แต่ก็ยังสร้างร่างกายที่มีนิ้วมากเกินไปหรือแขนมากเกินไปอยู่