12 คะแนน โดย GN⁺ 2025-03-26 | 3 ความคิดเห็น | แชร์ทาง WhatsApp
  • OpenAI เชื่อมาอย่างยาวนานว่า การสร้างภาพ ควรเป็นหนึ่งในความสามารถหลักของโมเดลภาษา และจากวิสัยทัศน์นี้จึงได้ ผสานตัวสร้างภาพที่ละเอียดล้ำและทรงพลังที่สุดเข้ากับ GPT‑4o
  • การสร้างภาพของ GPT‑4o ไม่ได้หยุดอยู่แค่ภาพที่สวยงาม แต่สร้าง ผลลัพธ์ที่ใช้งานได้จริงและมีคุณค่า
  • มีความแม่นยำและเที่ยงตรง พร้อมสร้าง ภาพคุณภาพสูงระดับโฟโตรีอะลิสม์ ได้
  • มีความสามารถแบบมัลติโหมดมาเป็นพื้นฐาน ทำให้สามารถสร้างคอนเทนต์ภาพโดยใช้ทั้งภาษา ภาพ และบริบทร่วมกันได้

ความสามารถด้านการสร้างภาพที่ใช้งานได้จริง

  • มนุษย์ใช้ภาพในการสื่อสารข้อมูล โน้มน้าวใจ และวิเคราะห์มาตั้งแต่ภาพเขียนบนผนังโบราณไปจนถึงอินโฟกราฟิกสมัยใหม่
  • โมเดลสร้างภาพก่อนหน้านี้อาจสร้างภาพแฟนตาซีหรือภาพที่น่าประทับใจได้ แต่ยังทำภาพเพื่อสื่อสารข้อมูลเชิงใช้งานจริงได้ไม่ดีนัก
  • การสร้างภาพของ GPT‑4o มีจุดเด่นในการสร้างภาพที่ถ่ายทอดความหมายได้อย่างแม่นยำ เช่น โลโก้หรือไดอะแกรม
  • มีความสามารถขั้นสูง เช่น การเรนเดอร์ข้อความได้อย่างแม่นยำ การใช้บริบทจากบทสนทนาของผู้ใช้ และการสร้างจากภาพที่อัปโหลด
  • ความสามารถเหล่านี้ช่วยให้ผู้ใช้สร้างภาพที่ต้องการได้อย่างแม่นยำยิ่งขึ้น

ความสามารถด้านการสร้างภาพที่ดีขึ้น

  • เรียนรู้การกระจายร่วมของภาพออนไลน์และข้อความ จึงเข้าใจความสัมพันธ์ระหว่างภาพกับภาษา รวมถึงระหว่างภาพด้วยกัน
  • หลังการฝึกมีการปรับจูนเพิ่มเติม ทำให้มีความลื่นไหลด้านภาพสูงขึ้น และสามารถสร้างภาพที่มีประโยชน์และสอดคล้องกันได้

ความสามารถในการเรนเดอร์ข้อความ

  • ภาพหนึ่งภาพอาจบรรจุคำได้นับพันคำ แต่ข้อความไม่กี่คำที่วางถูกตำแหน่งสามารถเสริมความหมายได้
  • GPT‑4o สามารถผสานสัญลักษณ์หรือข้อความลงในภาพได้อย่างแม่นยำ เพื่อนำไปใช้เป็นเครื่องมือสื่อสารด้วยภาพ

การสร้างภาพแบบโต้ตอบ

  • GPT‑4o ผสานการสร้างภาพเป็นความสามารถโดยตรง ทำให้สามารถสร้างและแก้ไขภาพไปตามลำดับของบทสนทนาได้
  • ตัวอย่าง: ระหว่างออกแบบตัวละครเกม สามารถปรับแก้ซ้ำได้โดยยังคงรูปลักษณ์เดิมไว้อย่างต่อเนื่อง

การทำตามคำสั่งได้อย่างแม่นยำ

  • GPT‑4o สะท้อนพรอมป์ต์ที่มีรายละเอียดได้อย่างแม่นยำ
  • ระบบอื่นอาจรองรับได้ราว 5-8 วัตถุ แต่ GPT‑4o สามารถสร้างได้อย่างสม่ำเสมอสูงสุด 10-20 วัตถุ
  • รักษาการแสดงคุณลักษณะและความสัมพันธ์ของวัตถุได้แม่นยำยิ่งขึ้น

การเรียนรู้จากบริบท

  • วิเคราะห์ภาพที่ผู้ใช้อัปโหลด แล้วสะท้อนรายละเอียดของภาพนั้นในการสร้างภาพ

การเชื่อมโยงกับความรู้ของโลก

  • GPT‑4o เชื่อมโยงความรู้ระหว่างข้อความและภาพ ทำให้สร้างภาพได้อย่างชาญฉลาดและมีประสิทธิภาพยิ่งขึ้น

โฟโตรีอะลิสม์และสไตล์ที่หลากหลาย

  • ผ่านการฝึกด้วยสไตล์ภาพที่หลากหลาย จึงสามารถสร้างภาพที่สมจริงและแปลงสไตล์ได้

ข้อจำกัดของโมเดล

  • ยังไม่ใช่โมเดลที่สมบูรณ์แบบ
  • หลังเปิดตัวช่วงแรกมีแผนปรับปรุงอย่างต่อเนื่องจากฟีดแบ็กผู้ใช้และข้อมูล

ความพยายามในการยกระดับความปลอดภัย

  • สนับสนุนงานสร้างสรรค์ที่เป็นประโยชน์ เช่น การพัฒนาเกม การสำรวจประวัติศาสตร์ และการศึกษา ควบคู่กับการรักษามาตรฐานความปลอดภัยที่เข้มงวด
  • มีการใช้นโยบายอย่างเข้มงวดเพื่อป้องกันการสร้างภาพที่ไม่เหมาะสม
  • ความโปร่งใสผ่าน C2PA และเครื่องมือค้นหาภายใน

    • ทุกภาพที่ GPT‑4o สร้างจะมีเมทาดาทา C2PA เพื่อระบุแหล่งที่มาให้ชัดเจน
    • สามารถใช้เครื่องมือค้นหาภายในเพื่อตรวจสอบแหล่งที่มาของภาพจากคุณลักษณะทางเทคนิคได้
  • การบล็อกภาพที่ไม่เหมาะสม

    • บล็อกคำขอสร้างภาพที่ละเมิดนโยบาย เช่น ภาพล่วงละเมิดทางเพศเด็กหรือดีปเฟก
    • ใช้ข้อจำกัดที่เข้มงวดยิ่งขึ้นกับภาพที่มีบุคคลจริงอยู่ในภาพ
    • มีระบบป้องกันล่วงหน้าอย่างเข้มงวดสำหรับภาพเปลือยและภาพความรุนแรง
  • การเสริมความปลอดภัยด้วยการให้เหตุผล

    • ฝึก LLM ที่อิงการให้เหตุผลโดยทำงานจากเอกสารข้อกำหนดนโยบายที่มนุษย์เขียนขึ้น
    • ใช้เพื่อระบุและแก้ไขความกำกวมของนโยบาย และเมื่อผสานกับเทคโนโลยีมัลติโหมด จะช่วยปรับทั้งข้อความนำเข้าและภาพผลลัพธ์ให้เป็นไปตามเกณฑ์นโยบาย

การใช้งาน

  • ตั้งแต่วันนี้ ผู้ใช้ Plus, Pro, Team และ Free จะได้รับเป็นตัวสร้างภาพพื้นฐาน
  • Enterprise และ Edu จะรองรับในเร็ว ๆ นี้
  • ใช้งานได้ใน Sora ด้วย และโมเดล DALL·E เดิมยังเข้าถึงได้ผ่าน GPT แยกต่างหาก
  • ความสามารถสร้างภาพผ่าน API จะเปิดให้นักพัฒนาใช้งานภายในไม่กี่สัปดาห์
  • ผู้ใช้สามารถสร้างภาพได้เพียงอธิบายภาพที่ต้องการ และยังระบุอัตราส่วน สี (hex code) และการมีพื้นหลังโปร่งใสได้ด้วย
  • เนื่องจากเป็นการสร้างภาพความละเอียดสูง เวลาเรนเดอร์อาจใช้ได้นานสูงสุด 1 นาที

3 ความคิดเห็น

 
j2sus91 2025-03-26

ดูเหมือนว่าตอนนี้ในแพ็กเกจ free ยังไม่เห็นฟีเจอร์นี้ น่าจะเปิดให้เฉพาะ Plus, Pro และ Team ใช่ไหม?

 
laeyoung 2025-03-26

ใน Pro ถ้าลองกด ... ใต้ช่องแชต จะเห็นว่าเขียนว่า "สร้างรูปภาพ (อัปเดตแล้ว)" น่าจะเป็นอันนี้นะครับ
แต่ Best of # ไม่ขึ้น เลยงงว่าเป็นเพราะยังไม่ถูกนำมาใช้ หรือว่าใช้แล้วกันแน่

 
GN⁺ 2025-03-26
ความคิดเห็นบน Hacker News
  • วิธีสร้างภาพแบบใหม่ใช้โทเคนเพื่อทำการอนุมานใน pixel space แทน diffusion

    • ตัวอย่างเช่น สามารถสั่งให้วาดสมุดโน้ตที่มีตาราง tic-tac-toe ว่างอยู่ แล้วลงตาแรก จากนั้นให้ผู้ใช้ลงตาโต้ตอบต่อได้
    • ยังสามารถเปลี่ยนสไตล์ภาพ หรือทำการแปลงแบบคงข้อมูลไว้ เช่น "เปลี่ยนกลางวันเป็นกลางคืน", "ใส่หมวก" ได้
    • แม้ความละเอียดของโมเดลจะยังจำกัด แต่หากด้านนี้พัฒนาไป ก็มีความเป็นไปได้ที่จะออกแบบแอปเป็นภาพทีละขั้นแล้วเขียนโค้ดตามได้
    • โมเดลสามารถ "อนุมาน" ต่อจากภาพภายนอกได้ ทำให้ปรับปรุงได้แม้งานต้นฉบับที่สร้างออกมาจะไม่ดีนัก
    • หากโมเดลเร็วขึ้น ก็อาจจินตนาการถึง generative UI ที่แท้จริง ซึ่งสร้างเฟรมถัดไปของแอปตาม event ของ LLM ได้
    • โมเดล diffusion ก็อาจทำงานลักษณะคล้ายกันนี้ได้ และทำได้เร็วกว่า
  • แนะนำ 4o Image Generation: เครื่องสร้างภาพที่ล้ำหน้าที่สุด

    • Google Gemini 2.5: โมเดล AI ที่ฉลาดที่สุด
    • แนะนำ Gemini 2.0: โมเดล AI ที่มีความสามารถที่สุด
    • หวังว่าเทรนด์นี้จะหายไป และ Apple จะใช้คำที่ได้ผลจริงจนบริษัทอื่นพากันคัดลอกคำใหม่อีก
  • สงสัยว่าทำไมถึงไม่เพิ่ม benchmark เทียบกับ o1

  • ไลฟ์สตรีม OpenAI GPT-4o Image Generation ค่อนข้างช้า ใช้เวลาราว 30 วินาทีต่อภาพ

    • Sam Altman อธิบายว่า "ช้า แต่ภาพที่สร้างออกมาคุ้มค่า"
    • แทนที่จะใช้แนวทาง diffusion ระบบจะสร้างและถอดรหัส image token คล้าย DALL-E รุ่นดั้งเดิม
    • Gemini ของ Google สามารถสร้างและแก้ไขภาพได้ภายในไม่กี่วินาที
    • ยังไม่มี API และเพราะความช้า จึงคาดว่าต้นทุนจะสูงกว่าคู่แข่งที่คิดราคาราว $0.03+/ภาพ
  • หลังจากลองใช้แล้ว พบว่าสามารถสร้างการ์ดเชิญวันเกิดให้ลูกสาวได้จบในครั้งเดียว

    • ปรับองค์ประกอบและสไตล์ที่ต้องการได้ตรงมาก
    • ตอนขอให้เพิ่มรายละเอียดอย่างวันที่ สถานที่ ฯลฯ ก็ทำได้ดี
    • โมเดลก่อนหน้านี้เทียบไม่ติดแม้แต่ครึ่งเดียว
  • น่าพอใจที่ไม่ใช่สไตล์ CG/การ์ตูนที่อิ่มสีเกินไป

  • สงสัยว่ามีวิธีตรวจสอบไหมว่า prompt ที่ให้ไปถูกประมวลผลโดย 4o หรือ DALL-E

    • ตอนนี้ดูเหมือนว่า prompt ยังถูกประมวลผลโดยตัวหลังอยู่
    • แผนระยะยาวคือย้ายทั้งหมดไปที่ 4o และย้าย DALL-E ไปอยู่ในแท็บแยก
  • ยังสอบตกในการทดสอบแก้วไวน์

  • สงสัยว่าภาพจำนวนมากที่ติดแท็ก "Best of 8" ถูกคัดเลือกมามากแค่ไหน

    • จากภาพฟรีสามภาพ มีสองภาพที่น่าประทับใจ และอีกภาพหนึ่งล้มเหลว
  • มีตัวอย่างการแก้ไขซ้ำหลายรอบด้วยโมเดลใหม่

    • ดีกว่าโมเดลก่อนมาก แต่ก็ยังสร้างร่างกายที่มีนิ้วมากเกินไปหรือแขนมากเกินไปอยู่