3 คะแนน โดย GN⁺ 2025-12-17 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • ฟีเจอร์สร้างภาพของ ChatGPT ได้รับการอัปเกรดใหม่ มอบการแก้ไขที่แม่นยำยิ่งขึ้นและความเร็วในการสร้างที่เร็วขึ้น
  • โมเดล GPT‑Image‑1.5 ทำตามคำสั่งข้อความได้แม่นยำกว่าเดิม และสามารถแก้ไขภาพโดยยังคง ความคล้ายของบุคคล รวมถึงแสงและองค์ประกอบภาพ เอาไว้ได้
  • รองรับสไตล์พรีเซ็ต พรอมป์ตกำลังมาแรง และฟีเจอร์ใช้รูปลักษณ์เดิมซ้ำ ผ่าน อินเทอร์เฟซแถบด้านข้าง Images แบบใหม่
  • ใน API ก็มีการปรับปรุงประสิทธิภาพแบบเดียวกัน พร้อม ลดต้นทุนลง 20% เหมาะสำหรับการสร้างโลโก้แบรนด์และภาพสินค้า
  • อัปเดตครั้งนี้ เริ่มปล่อยให้ผู้ใช้ ChatGPT และ API ทุกคนใช้งานได้ทันที และยกระดับทั้งความเป็นประโยชน์และคุณภาพของการสร้างภาพอย่างมาก

แนะนำ GPT‑Image‑1.5

  • เปิดตัว ChatGPT Images เวอร์ชันใหม่ที่ขับเคลื่อนด้วย โมเดลสร้างภาพที่ทรงพลังที่สุด
    • ทำตามคำสั่งข้อความได้แม่นยำกว่าเดิม และแก้ไขได้โดยคงรายละเอียดอย่างความคล้ายของใบหน้าเอาไว้
    • ความเร็วในการสร้างภาพ เร็วขึ้นสูงสุด 4 เท่า ช่วยเพิ่มประสิทธิภาพในการทดลองซ้ำและสำรวจไอเดีย
  • โมเดลนี้ให้ การแปลงภาพที่มีพลังในการสื่อสาร การเรนเดอร์ข้อความหนาแน่น และผลลัพธ์ที่เป็นธรรมชาติ
    • รองรับตั้งแต่การแก้ไขเล็กน้อยไปจนถึงการสร้างใหม่ทั้งหมด และสามารถเลือกสไตล์พรีเซ็ตเพื่อสร้างได้อย่างง่ายดาย
  • กำลังทยอยปล่อยให้ผู้ใช้ ChatGPT ทุกคน และใน API จะให้ใช้งานในชื่อ GPT‑Image‑1.5

ผลลัพธ์ที่ตรงกับความตั้งใจของผู้ใช้

  • โมเดลจะแก้ไขเฉพาะส่วนที่ร้องขอ พร้อมคง แสง องค์ประกอบภาพ และความคล้ายของบุคคล ไว้อย่างสม่ำเสมอ
  • ทำให้ได้ความตรงกันสูงในงานอย่าง การแต่งภาพ การจำลองชุดหรือทรงผม ฟิลเตอร์สไตล์ และการแปลงคอนเซปต์
  • ChatGPT ทำงานได้ทั้งการแก้ไขเชิงใช้งานจริงและการจัดองค์ประกอบใหม่เชิงศิลป์ ราวกับเป็น สตูดิโอครีเอทีฟแบบพกพา
    • รองรับการแก้ไขหลายประเภท เช่น เพิ่ม ลบ รวม และผสม
    • เสริมความสามารถด้าน การแปลงเชิงสร้างสรรค์ ที่เพิ่มองค์ประกอบอย่างข้อความและเลย์เอาต์
    • เมื่อเทียบกับ GPT Image 1.0 มี ความเข้าใจพรอมป์ตดีขึ้น ทำให้แก้ไขได้ละเอียดขึ้น
    • ปรับปรุงคุณภาพของ การเรนเดอร์ข้อความขนาดเล็กและหนาแน่น

พื้นที่สร้างภาพแบบใหม่

  • เพิ่ม แถบด้านข้างเฉพาะสำหรับ Images ใน ChatGPT เพื่อย่นขั้นตอนการค้นหาและสร้างภาพ
    • มีทั้งฟิลเตอร์พรีเซ็ต พรอมป์ตกำลังมาแรง และฟีเจอร์ใช้รูปลักษณ์เดิมซ้ำ
    • ใช้งานซ้ำได้หลายครั้งจากการอัปโหลดเพียงครั้งเดียว โดยไม่ต้องนำรูปจาก camera roll มาใช้อีกครั้ง
  • ความเร็วในการสร้างภาพ เพิ่มขึ้นสูงสุด 4 เท่า และสามารถสร้างหลายภาพพร้อมกันได้
  • รองรับตั้งแต่การแก้ไขเล็กน้อยไปจนถึงการสร้างใหม่ทั้งหมด พร้อมมอบ ผลลัพธ์ที่ตรงกับวิสัยทัศน์ของผู้ใช้

การปรับปรุงคุณภาพเพิ่มเติม

  • เพิ่มคุณภาพแบบพร้อมใช้งานทันที เช่น การแสดงใบหน้าขนาดเล็กจำนวนมาก และการเรนเดอร์ผลลัพธ์ที่เป็นธรรมชาติ
  • ตัวอย่าง: สร้างฉากถนนในลอนดอนยุค 1970 ได้อย่างสมจริง โดยปรับปรุงทั้งการโฟกัสรายละเอียดและการแสดงตัวบุคคล

สิ่งที่ดีขึ้นและข้อจำกัด

  • ยืนยันได้ว่ามี การยกระดับประสิทธิภาพอย่างชัดเจน ในหลายกรณีเมื่อเทียบกับเวอร์ชันเริ่มต้น
  • อย่างไรก็ตาม ผลลัพธ์บางส่วนยังไม่สมบูรณ์ และ การจัดการหลายใบหน้าและหลายภาษา ยังมีพื้นที่ให้พัฒนา

การให้บริการ GPT Image 1.5 ผ่าน API

  • เวอร์ชัน API มีการปรับปรุงแบบเดียวกับ ChatGPT Images
    • คงความสม่ำเสมอของโลโก้แบรนด์และภาพหลัก
    • เหมาะกับการสร้างภาพสำหรับการตลาดและอีคอมเมิร์ซ
  • ต้นทุนอินพุตและเอาต์พุตลดลง 20% ทำให้สร้างภาพได้มากขึ้นภายใต้งบประมาณเท่าเดิม
  • สามารถทดลองได้ใน OpenAI Playground, แกลเลอรี และคู่มือพรอมป์ต
  • บริษัทอย่าง Wix, Canva, Figma, Envato ใช้งานอยู่แล้ว
    • Wix ประเมินว่า “การสร้างภาพคุณภาพสูงและมีความสม่ำเสมอสูง ช่วยสนับสนุนเวิร์กโฟลว์การผลิตที่รวดเร็ว”

การเปิดตัวและการปล่อยใช้งาน

  • โมเดล ChatGPT Images ใหม่ เริ่มปล่อยให้ผู้ใช้ ChatGPT และ API ทุกคนทั่วโลกใช้งานได้ทันที
  • ใช้งานได้โดยไม่ต้องเลือกโมเดลแยก และเวอร์ชันก่อนหน้ายังคงอยู่ในรูปแบบ Custom GPT
  • OpenAI ประเมินว่าอัปเดตครั้งนี้เป็น ก้าวสำคัญของความก้าวหน้าในเทคโนโลยีการสร้างภาพ
    • ในอนาคตมีแผนปรับปรุงเพิ่มเติม เช่น การแก้ไขที่ละเอียดขึ้นและการรองรับหลายภาษา

1 ความคิดเห็น

 
GN⁺ 2025-12-17
ความคิดเห็นจาก Hacker News
  • มีการแชร์ผลลัพธ์ของ gpt-image 1.5 บนเว็บไซต์ GenAI Showdown
    OpenAI ยังคงเด่นเรื่อง ความเข้าใจพรอมป์ต์ แต่ก่อนหน้านี้ค่อนข้างอ่อนเรื่อง ความเที่ยงตรงของภาพ (fidelity) และอัปเดตครั้งนี้ช่วยแก้จุดอ่อนนั้นได้มาก
    โดยเฉพาะการทำ การแก้ไขเฉพาะจุด (localized edit) ได้ดีโดยไม่ทำลายสุนทรียภาพโดยรวม คะแนนเพิ่มจาก 4/12 เป็น 8/12 หรือดีขึ้นเท่าตัว และเป็นโมเดลเดียวที่ผ่าน ‘Giraffe prompt’
    ด้าน ความสามารถในการควบคุม (steerability) ของโมเดลก็สูงถึงระดับ 90%
    ฟีเจอร์ใหม่ที่เพิ่มเข้ามามีส่วนแสดงกรณีล้มเหลวของแต่ละโมเดล (outtakes), การเพิ่มโมเดล REVE และ Flux.2 Dev และระบบให้คะแนนแบบถ่วงน้ำหนัก
    หากต้องการเทียบทั้งสามโมเดล (gpt-image-1, gpt-image-1.5, NB Pro) ดูได้ที่ลิงก์นี้

  • กำลังเตรียมบล็อกโพสต์สรุปการทดลองเกี่ยวกับ Nano Banana
    เมื่อทดสอบโมเดลภาพใหม่ของ ChatGPT พบว่ามันด้อยกว่า Nano Banana Pro มาก แต่ยังดีกว่า Nano Banana รุ่นพื้นฐาน
    ราคายังไม่ชัดเจน แต่ดูเหมือน gpt-image-1.5 จะถูกกว่ารุ่นเดิมราว 20%
    อีกจุดที่น่าสนใจคือกรณี การสร้างกริด (grid generation) โดย NBP จะเริ่มรักษาความสอดคล้องของพรอมป์ต์ไม่ได้เมื่อเกิน 4x4 แต่ OpenAI กล้าลองเคส 6x6 ซึ่งน่าประทับใจ

    • วันนี้มีแผนจะนำ gpt-image-1.5 ไปทดสอบใน GenAI Showdown ของตัวเอง
      ระหว่างนี้ดูผลงานน่าประทับใจของ NB Pro ได้ในบล็อกนี้
      NB Pro ให้ผลลัพธ์น่าทึ่ง เช่น ประกอบ จิ๊กซอว์ ที่ไม่เคยเห็นมาก่อน, ประเมินภูมิประเทศ 3D และเปลี่ยนหน้าต่างให้เป็นกระจกเงา
    • หลังจากลองทดสอบ GPT1.5 ด้วยตัวเอง พบว่าคุณภาพภาพใกล้เคียง NBP แต่ ความสอดคล้องของพรอมป์ต์ และ ความเข้าใจ world model ยังด้อยกว่า
      เช่น เมื่อขอภาพคนสองคนกำลังพายเรือ กลับได้เรือที่เล็กเกินจนแทบจะนั่งไม่พอ
      อีกทั้งยังมีบั๊กที่ทำให้ทุกครั้งที่ส่งพรอมป์ต์แก้ไข บทสนทนาก่อนหน้าจะหายไป ซึ่งน่ารำคาญมาก
      เพื่อให้ผลลัพธ์ดูเป็นธรรมชาติ จึงเติมวลีอย่าง “shaky amateur smartphone photo” ไว้ต้นพรอมป์ต์
      ปฏิกิริยาที่เกี่ยวข้องดูได้ในทวีตนี้
    • ในฐานะคนทำหนังมากว่า 10 ปี รู้สึกว่าต้องการ เครื่องมือจัดองค์ประกอบฉากอย่างสม่ำเสมอ อย่างมาก
      gpt-image-1 ทำงานด้าน previz-to-render ได้ดีกว่า Nano Banana(Pro) มาก
      Nano Banana มักคงองค์ประกอบพรีวิซความละเอียดต่ำไว้ตามเดิม แต่ gpt-image-1 เข้าใจท่าทางตัวละครและการบล็อกกิ้งของฉาก พร้อมอัปสเกลให้ด้วย
      วิดีโอตัวอย่าง: 3D + Posing + Blocking, เวอร์ชันรีไซเคิลเซ็ต, Gaussian splats, ตัวอย่างเพิ่มเติม
      ต่อจากนี้จำเป็นต้องมีโมเดลที่รองรับ การควบคุมสไตล์, ความเร็ว และ การทำสไตลิงจากภาพอ้างอิง
      Adobe ก็กำลังทดลองความสามารถคล้ายกัน และสาธิต Relighting, การแก้ไข Image→3D, การแก้ไข Gaussian, การแปลง 3D→Image เป็นต้น
      ตอนนี้กำลังลงมือทำฟีเจอร์เหล่านี้เองในรูปแบบ เครื่องมือเดสก์ท็อปโอเพนซอร์ส และพัฒนาด้วย Rust
    • มีคนให้ฟีดแบ็กว่าการทดลองนี้น่าสนใจมาก ทำให้เขาเขียนพรอมป์ต์ได้ดีขึ้นและปรับความคาดหวังให้สมจริงขึ้น
  • ถ้าย้อนกลับไปปี 2010 แล้วมีบริการที่ใช้คนใน Photoshop มาประกอบภาพให้ คงเกิดข้อถกเถียงใหญ่
    แต่ตอนนี้เราอยู่ในยุคที่ AI ทำลายแนวคิดเรื่องลิขสิทธิ์และความเป็นผู้สร้าง ไปแล้ว เลยสงสัยว่าจะปกป้องคอนเทนต์ใหม่ได้อย่างไร
    ครั้งหนึ่ง gpt เคยสร้างภาพถ่ายสไตล์หายากที่ฉันเคยถ่ายไว้ได้แทบเหมือนเดิม

    • การใช้ภาพอ้างอิงเป็น แนวปฏิบัติมาตรฐานของวงการศิลปะดิจิทัล อยู่แล้ว แต่ AI มีความเสี่ยงที่จะลอกได้เหมือนเกินไป
    • หากจะปกป้องคอนเทนต์ วิธีเดียวคือ air gap หรือก็คือไม่เอาขึ้นอินเทอร์เน็ต
      ทันทีที่เผยแพร่ก็ต้องยอมรับความเสี่ยงของการถูกนำไปใช้ผิดระดับหนึ่ง ส่วนกรณีที่โมเดล overfit กับต้นฉบับนั้นยังไม่มีบรรทัดฐานทางกฎหมาย
    • เราอาจกำลังก้าวเข้าสู่ ยุคหลังลิขสิทธิ์ และกฎหมายจะค่อย ๆ ตามมาเอง
    • มีการตั้งคำถามว่า ถ้ามีคนลอกงานของฉัน แต่ทำให้ผู้คนจำนวนมากได้เห็น แบบนั้นจะเลวร้ายเสมอไปจริงหรือไม่
  • มีคนลองใช้ gpt-image-1.5 สร้าง สไปรต์แมปและ UV texture map แล้วพบว่าให้อารมณ์แบบ Megaman Legends ได้ดีมาก
    ตัวอย่าง1, ตัวอย่าง2
    แต่เพราะไม่มีโมเดล 3D จริง จึงยังไม่แน่ใจว่านี่คือ UV map ที่ถูกต้องหรือไม่ และ Nano Banana รุ่นแรก ๆ ก็ทำงานแบบนี้ไม่ได้

    • พูดให้ชัด นี่ไม่ใช่ UV map จริง เช่น บริเวณด้านหลังของโมเดล Crash ไม่มีอยู่เลย
      เท็กซ์เจอร์แบบนี้อาจนำไปใช้ได้ แต่จะบิดเบี้ยวมาก
      วิธีที่ถูกต้องคือต้อง unwrap โมเดลแล้วใช้ wireframe UV map เป็นอินพุต
      ดูโมเดล Crash จริงได้ที่นี่
  • มีการทดลอง ทำ dark theme ให้กับผลิตภัณฑ์ซอฟต์แวร์
    Gemini/Nano เปลี่ยนเป็นสีเทาแค่บางพาเนล แต่ GPT ทำธีมให้ทั้งแอปได้สวยงาม
    ถึงอย่างนั้น งานออกแบบรายละเอียดก็ยังต้องอาศัยนักออกแบบอยู่ดี

  • มีคนสงสัยว่าทำไมภาพจาก ChatGPT ถึงมี โทนเหลือง อยู่เสมอ

    • นี่เป็นอาการที่เกิดขึ้นในช่วงเวลาหนึ่ง ดูเหมือนจะเป็นผลจากการเรียนรู้แบบเสริมแรงที่เกี่ยวข้องกับ กระแสสไตล์ Ghibli
    • อีกข้อสันนิษฐานคือ OpenAI อาจ คำนวณ image normalization ผิด ซึ่งในโมเดลใหม่นี้ปัญหาดังกล่าวหายไปแล้ว
    • ฝั่ง Meta เองใน Codec Avatars ก็เคยเจอปัญหาคล้ายกัน แม้จะเก็บข้อมูลด้วยอุปกรณ์มูลค่าหลายล้านดอลลาร์ แต่ก็ออกมาอมเขียวเพราะ calibrate กล้องพลาด
    • อีกสมมติฐานหนึ่งคืออิทธิพลของ ‘Mexico filter’ ที่ใช้กันบ่อยในหนังได้ซึมเข้าไปในข้อมูลฝึก
    • หรือไม่ก็เป็นผลจาก การจูนสไตล์ตามความชอบของมนุษย์ จนเกิดอคติสีเหลืองอ่อน ๆ และเมื่อแก้ไขภาพซ้ำหลายรอบ อคตินั้นก็ยิ่งสะสม
  • มีคนรู้สึกว่าแนวคิดขายสินค้าที่ว่า “สร้างภาพจากความทรงจำที่ไม่มีอยู่จริง” ฟังดูแปลก

    • ฉันก็รู้สึกแบบนั้นเหมือนกัน แต่ถ้าดูจากการสำรวจตลาด การสร้างภาพนั้นได้รับความนิยมมาก
      ฉันใช้มันกับงาน ที่เน้นข้อความ เป็นหลัก เช่น การเขียนโปรแกรม วิกิ และคณิตศาสตร์
      ปรากฏการณ์นี้คล้ายกับตอนที่ ฟิลเตอร์ Snapchat ฮิตมาก ๆ ซึ่งฉันมักปล่อยไว้เป็นโหมดปกติ
    • ถ้าใช้พรอมป์ต์นั้นเพื่อสร้าง สัตว์พับกระดาษ ขึ้นมา มันอาจจะชวนขนลุกยิ่งกว่าอีก
    • วันหนึ่งอาจมียุคที่นักแสดงขายภาพลักษณ์ของตัวเองเพื่อนำไปสร้าง ภาพปลอม
      สุดท้ายทุกคนอาจลงเอยด้วยการสมัครใช้ชีวิตเสมือน และถ้าตัดบัตรไม่ผ่านก็ต้องกลับสู่โลกความจริง
  • มีคนอัปเดต Golang SDK grail เพราะเห็นว่าโมเดลใหม่ใช้งานผ่าน API ได้
    แต่พอเรียกใช้กลับเจอข้อผิดพลาดเซิร์ฟเวอร์ 500 และในรายการโมเดลก็ไม่มี gpt-image-1.5
    ดูตัวอย่างโค้ดได้

    • ตอนนี้ยังใช้ผ่าน API ไม่ได้จริง และแม้แต่ใน Image Playground ที่ OpenAI ลิงก์ไว้ก็ยังไม่เห็น
      ใน local playground ของฉัน (gpt-image-1-playground) จึงแก้ให้รองรับ 404 แล้ว
      • ฉันก็ลองเหมือนกัน และเจอ 500 แบบเดียวกัน
        ถ้าใส่ชื่อโมเดลผิด จะขึ้นข้อความว่า ‘ค่าที่รองรับมีแค่ gpt-image-1 กับ gpt-image-1-mini’
      • ดูเหมือนกำลัง ทยอยปล่อยแบบค่อยเป็นค่อยไป และฝั่งแบ็กเอนด์เองก็ยังไม่เห็นเช่นกัน
  • หลายคนยังคงใช้ Midjourney อยู่ เพราะโมเดลใหญ่รายอื่นยังขาด ความคิดสร้างสรรค์ด้านสไตล์ และโฟกัสแต่ photorealism

    • แม้จะไม่ค่อยตามอัปเดตล่าสุดของ Midjourney แต่ฟีเจอร์อย่าง ความสม่ำเสมอของสไตล์ และ การคงตัวละครเดิม สำคัญมาก
      ถ้าจะสร้างไม่ใช่แค่ภาพเดี่ยว แต่เป็น ลำดับภาพที่มีบริบทต่อเนื่อง ฟีเจอร์พวกนี้ถือว่าจำเป็น
    • ปรากฏการณ์นี้อาจมองได้ว่าเป็นความต่างระหว่าง ‘โมเดลที่มีความเห็นของตัวเอง’ กับ ‘โมเดลที่ให้ผู้ใช้เลือกเอง’ ซึ่งแบบแรกมีข้อได้เปรียบเมื่อมันทำงานได้ดี
    • บางคนก็บอกว่าน่าทึ่ง และมีคนสงสัยว่ามี แกลเลอรี รวมภาพที่เกี่ยวข้องหรือไม่
    • แนวโน้มนี้เป็น ปัญหาทางวัฒนธรรม ที่มีอยู่ก่อนยุคสร้างภาพเสียอีก
      มีแนวโน้มจะตัดสินคุณค่าของศิลปะจากแค่ ‘ทักษะการเรนเดอร์’ โดยมองข้ามความหมายของการสร้างสรรค์ทางวัฒนธรรมในบริบททางสังคม