เปิดตัว GPT Images 1.5

(openai.com)

3 คะแนน โดย GN⁺ 2025-12-17 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ฟีเจอร์สร้างภาพของ ChatGPT ได้รับการอัปเกรดใหม่ มอบการแก้ไขที่แม่นยำยิ่งขึ้นและความเร็วในการสร้างที่เร็วขึ้น
โมเดล GPT‑Image‑1.5 ทำตามคำสั่งข้อความได้แม่นยำกว่าเดิม และสามารถแก้ไขภาพโดยยังคง ความคล้ายของบุคคล รวมถึงแสงและองค์ประกอบภาพ เอาไว้ได้
รองรับสไตล์พรีเซ็ต พรอมป์ตกำลังมาแรง และฟีเจอร์ใช้รูปลักษณ์เดิมซ้ำ ผ่าน อินเทอร์เฟซแถบด้านข้าง Images แบบใหม่
ใน API ก็มีการปรับปรุงประสิทธิภาพแบบเดียวกัน พร้อม ลดต้นทุนลง 20% เหมาะสำหรับการสร้างโลโก้แบรนด์และภาพสินค้า
อัปเดตครั้งนี้ เริ่มปล่อยให้ผู้ใช้ ChatGPT และ API ทุกคนใช้งานได้ทันที และยกระดับทั้งความเป็นประโยชน์และคุณภาพของการสร้างภาพอย่างมาก

แนะนำ GPT‑Image‑1.5

เปิดตัว ChatGPT Images เวอร์ชันใหม่ที่ขับเคลื่อนด้วย โมเดลสร้างภาพที่ทรงพลังที่สุด
- ทำตามคำสั่งข้อความได้แม่นยำกว่าเดิม และแก้ไขได้โดยคงรายละเอียดอย่างความคล้ายของใบหน้าเอาไว้
- ความเร็วในการสร้างภาพ เร็วขึ้นสูงสุด 4 เท่า ช่วยเพิ่มประสิทธิภาพในการทดลองซ้ำและสำรวจไอเดีย
โมเดลนี้ให้ การแปลงภาพที่มีพลังในการสื่อสาร การเรนเดอร์ข้อความหนาแน่น และผลลัพธ์ที่เป็นธรรมชาติ
- รองรับตั้งแต่การแก้ไขเล็กน้อยไปจนถึงการสร้างใหม่ทั้งหมด และสามารถเลือกสไตล์พรีเซ็ตเพื่อสร้างได้อย่างง่ายดาย
กำลังทยอยปล่อยให้ผู้ใช้ ChatGPT ทุกคน และใน API จะให้ใช้งานในชื่อ GPT‑Image‑1.5

ผลลัพธ์ที่ตรงกับความตั้งใจของผู้ใช้

โมเดลจะแก้ไขเฉพาะส่วนที่ร้องขอ พร้อมคง แสง องค์ประกอบภาพ และความคล้ายของบุคคล ไว้อย่างสม่ำเสมอ
ทำให้ได้ความตรงกันสูงในงานอย่าง การแต่งภาพ การจำลองชุดหรือทรงผม ฟิลเตอร์สไตล์ และการแปลงคอนเซปต์
ChatGPT ทำงานได้ทั้งการแก้ไขเชิงใช้งานจริงและการจัดองค์ประกอบใหม่เชิงศิลป์ ราวกับเป็น สตูดิโอครีเอทีฟแบบพกพา
- รองรับการแก้ไขหลายประเภท เช่น เพิ่ม ลบ รวม และผสม
- เสริมความสามารถด้าน การแปลงเชิงสร้างสรรค์ ที่เพิ่มองค์ประกอบอย่างข้อความและเลย์เอาต์
- เมื่อเทียบกับ GPT Image 1.0 มี ความเข้าใจพรอมป์ตดีขึ้น ทำให้แก้ไขได้ละเอียดขึ้น
- ปรับปรุงคุณภาพของ การเรนเดอร์ข้อความขนาดเล็กและหนาแน่น

พื้นที่สร้างภาพแบบใหม่

เพิ่ม แถบด้านข้างเฉพาะสำหรับ Images ใน ChatGPT เพื่อย่นขั้นตอนการค้นหาและสร้างภาพ
- มีทั้งฟิลเตอร์พรีเซ็ต พรอมป์ตกำลังมาแรง และฟีเจอร์ใช้รูปลักษณ์เดิมซ้ำ
- ใช้งานซ้ำได้หลายครั้งจากการอัปโหลดเพียงครั้งเดียว โดยไม่ต้องนำรูปจาก camera roll มาใช้อีกครั้ง
ความเร็วในการสร้างภาพ เพิ่มขึ้นสูงสุด 4 เท่า และสามารถสร้างหลายภาพพร้อมกันได้
รองรับตั้งแต่การแก้ไขเล็กน้อยไปจนถึงการสร้างใหม่ทั้งหมด พร้อมมอบ ผลลัพธ์ที่ตรงกับวิสัยทัศน์ของผู้ใช้

การปรับปรุงคุณภาพเพิ่มเติม

เพิ่มคุณภาพแบบพร้อมใช้งานทันที เช่น การแสดงใบหน้าขนาดเล็กจำนวนมาก และการเรนเดอร์ผลลัพธ์ที่เป็นธรรมชาติ
ตัวอย่าง: สร้างฉากถนนในลอนดอนยุค 1970 ได้อย่างสมจริง โดยปรับปรุงทั้งการโฟกัสรายละเอียดและการแสดงตัวบุคคล

สิ่งที่ดีขึ้นและข้อจำกัด

ยืนยันได้ว่ามี การยกระดับประสิทธิภาพอย่างชัดเจน ในหลายกรณีเมื่อเทียบกับเวอร์ชันเริ่มต้น
อย่างไรก็ตาม ผลลัพธ์บางส่วนยังไม่สมบูรณ์ และ การจัดการหลายใบหน้าและหลายภาษา ยังมีพื้นที่ให้พัฒนา

การให้บริการ GPT Image 1.5 ผ่าน API

เวอร์ชัน API มีการปรับปรุงแบบเดียวกับ ChatGPT Images
- คงความสม่ำเสมอของโลโก้แบรนด์และภาพหลัก
- เหมาะกับการสร้างภาพสำหรับการตลาดและอีคอมเมิร์ซ
ต้นทุนอินพุตและเอาต์พุตลดลง 20% ทำให้สร้างภาพได้มากขึ้นภายใต้งบประมาณเท่าเดิม
สามารถทดลองได้ใน OpenAI Playground, แกลเลอรี และคู่มือพรอมป์ต
บริษัทอย่าง Wix, Canva, Figma, Envato ใช้งานอยู่แล้ว
- Wix ประเมินว่า “การสร้างภาพคุณภาพสูงและมีความสม่ำเสมอสูง ช่วยสนับสนุนเวิร์กโฟลว์การผลิตที่รวดเร็ว”

การเปิดตัวและการปล่อยใช้งาน

โมเดล ChatGPT Images ใหม่ เริ่มปล่อยให้ผู้ใช้ ChatGPT และ API ทุกคนทั่วโลกใช้งานได้ทันที
ใช้งานได้โดยไม่ต้องเลือกโมเดลแยก และเวอร์ชันก่อนหน้ายังคงอยู่ในรูปแบบ Custom GPT
OpenAI ประเมินว่าอัปเดตครั้งนี้เป็น ก้าวสำคัญของความก้าวหน้าในเทคโนโลยีการสร้างภาพ
- ในอนาคตมีแผนปรับปรุงเพิ่มเติม เช่น การแก้ไขที่ละเอียดขึ้นและการรองรับหลายภาษา

1 ความคิดเห็น

GN⁺ 2025-12-17

ความคิดเห็นจาก Hacker News

มีการแชร์ผลลัพธ์ของ gpt-image 1.5 บนเว็บไซต์ GenAI Showdown
OpenAI ยังคงเด่นเรื่อง ความเข้าใจพรอมป์ต์ แต่ก่อนหน้านี้ค่อนข้างอ่อนเรื่อง ความเที่ยงตรงของภาพ (fidelity) และอัปเดตครั้งนี้ช่วยแก้จุดอ่อนนั้นได้มาก
โดยเฉพาะการทำ การแก้ไขเฉพาะจุด (localized edit) ได้ดีโดยไม่ทำลายสุนทรียภาพโดยรวม คะแนนเพิ่มจาก 4/12 เป็น 8/12 หรือดีขึ้นเท่าตัว และเป็นโมเดลเดียวที่ผ่าน ‘Giraffe prompt’
ด้าน ความสามารถในการควบคุม (steerability) ของโมเดลก็สูงถึงระดับ 90%
ฟีเจอร์ใหม่ที่เพิ่มเข้ามามีส่วนแสดงกรณีล้มเหลวของแต่ละโมเดล (outtakes), การเพิ่มโมเดล REVE และ Flux.2 Dev และระบบให้คะแนนแบบถ่วงน้ำหนัก
หากต้องการเทียบทั้งสามโมเดล (gpt-image-1, gpt-image-1.5, NB Pro) ดูได้ที่ลิงก์นี้
กำลังเตรียมบล็อกโพสต์สรุปการทดลองเกี่ยวกับ Nano Banana
เมื่อทดสอบโมเดลภาพใหม่ของ ChatGPT พบว่ามันด้อยกว่า Nano Banana Pro มาก แต่ยังดีกว่า Nano Banana รุ่นพื้นฐาน
ราคายังไม่ชัดเจน แต่ดูเหมือน gpt-image-1.5 จะถูกกว่ารุ่นเดิมราว 20%
อีกจุดที่น่าสนใจคือกรณี การสร้างกริด (grid generation) โดย NBP จะเริ่มรักษาความสอดคล้องของพรอมป์ต์ไม่ได้เมื่อเกิน 4x4 แต่ OpenAI กล้าลองเคส 6x6 ซึ่งน่าประทับใจ
- วันนี้มีแผนจะนำ gpt-image-1.5 ไปทดสอบใน GenAI Showdown ของตัวเอง
  ระหว่างนี้ดูผลงานน่าประทับใจของ NB Pro ได้ในบล็อกนี้
  NB Pro ให้ผลลัพธ์น่าทึ่ง เช่น ประกอบ จิ๊กซอว์ ที่ไม่เคยเห็นมาก่อน, ประเมินภูมิประเทศ 3D และเปลี่ยนหน้าต่างให้เป็นกระจกเงา
- หลังจากลองทดสอบ GPT1.5 ด้วยตัวเอง พบว่าคุณภาพภาพใกล้เคียง NBP แต่ ความสอดคล้องของพรอมป์ต์ และ ความเข้าใจ world model ยังด้อยกว่า
  เช่น เมื่อขอภาพคนสองคนกำลังพายเรือ กลับได้เรือที่เล็กเกินจนแทบจะนั่งไม่พอ
  อีกทั้งยังมีบั๊กที่ทำให้ทุกครั้งที่ส่งพรอมป์ต์แก้ไข บทสนทนาก่อนหน้าจะหายไป ซึ่งน่ารำคาญมาก
  เพื่อให้ผลลัพธ์ดูเป็นธรรมชาติ จึงเติมวลีอย่าง “shaky amateur smartphone photo” ไว้ต้นพรอมป์ต์
  ปฏิกิริยาที่เกี่ยวข้องดูได้ในทวีตนี้
- ในฐานะคนทำหนังมากว่า 10 ปี รู้สึกว่าต้องการ เครื่องมือจัดองค์ประกอบฉากอย่างสม่ำเสมอ อย่างมาก
  gpt-image-1 ทำงานด้าน previz-to-render ได้ดีกว่า Nano Banana(Pro) มาก
  Nano Banana มักคงองค์ประกอบพรีวิซความละเอียดต่ำไว้ตามเดิม แต่ gpt-image-1 เข้าใจท่าทางตัวละครและการบล็อกกิ้งของฉาก พร้อมอัปสเกลให้ด้วย
  วิดีโอตัวอย่าง: 3D + Posing + Blocking, เวอร์ชันรีไซเคิลเซ็ต, Gaussian splats, ตัวอย่างเพิ่มเติม
  ต่อจากนี้จำเป็นต้องมีโมเดลที่รองรับ การควบคุมสไตล์, ความเร็ว และ การทำสไตลิงจากภาพอ้างอิง
  Adobe ก็กำลังทดลองความสามารถคล้ายกัน และสาธิต Relighting, การแก้ไข Image→3D, การแก้ไข Gaussian, การแปลง 3D→Image เป็นต้น
  ตอนนี้กำลังลงมือทำฟีเจอร์เหล่านี้เองในรูปแบบ เครื่องมือเดสก์ท็อปโอเพนซอร์ส และพัฒนาด้วย Rust
- มีคนให้ฟีดแบ็กว่าการทดลองนี้น่าสนใจมาก ทำให้เขาเขียนพรอมป์ต์ได้ดีขึ้นและปรับความคาดหวังให้สมจริงขึ้น
ถ้าย้อนกลับไปปี 2010 แล้วมีบริการที่ใช้คนใน Photoshop มาประกอบภาพให้ คงเกิดข้อถกเถียงใหญ่
แต่ตอนนี้เราอยู่ในยุคที่ AI ทำลายแนวคิดเรื่องลิขสิทธิ์และความเป็นผู้สร้าง ไปแล้ว เลยสงสัยว่าจะปกป้องคอนเทนต์ใหม่ได้อย่างไร
ครั้งหนึ่ง gpt เคยสร้างภาพถ่ายสไตล์หายากที่ฉันเคยถ่ายไว้ได้แทบเหมือนเดิม
- การใช้ภาพอ้างอิงเป็น แนวปฏิบัติมาตรฐานของวงการศิลปะดิจิทัล อยู่แล้ว แต่ AI มีความเสี่ยงที่จะลอกได้เหมือนเกินไป
- หากจะปกป้องคอนเทนต์ วิธีเดียวคือ air gap หรือก็คือไม่เอาขึ้นอินเทอร์เน็ต
  ทันทีที่เผยแพร่ก็ต้องยอมรับความเสี่ยงของการถูกนำไปใช้ผิดระดับหนึ่ง ส่วนกรณีที่โมเดล overfit กับต้นฉบับนั้นยังไม่มีบรรทัดฐานทางกฎหมาย
- เราอาจกำลังก้าวเข้าสู่ ยุคหลังลิขสิทธิ์ และกฎหมายจะค่อย ๆ ตามมาเอง
- มีการตั้งคำถามว่า ถ้ามีคนลอกงานของฉัน แต่ทำให้ผู้คนจำนวนมากได้เห็น แบบนั้นจะเลวร้ายเสมอไปจริงหรือไม่
มีคนลองใช้ gpt-image-1.5 สร้าง สไปรต์แมปและ UV texture map แล้วพบว่าให้อารมณ์แบบ Megaman Legends ได้ดีมาก
ตัวอย่าง1, ตัวอย่าง2
แต่เพราะไม่มีโมเดล 3D จริง จึงยังไม่แน่ใจว่านี่คือ UV map ที่ถูกต้องหรือไม่ และ Nano Banana รุ่นแรก ๆ ก็ทำงานแบบนี้ไม่ได้
- พูดให้ชัด นี่ไม่ใช่ UV map จริง เช่น บริเวณด้านหลังของโมเดล Crash ไม่มีอยู่เลย
  เท็กซ์เจอร์แบบนี้อาจนำไปใช้ได้ แต่จะบิดเบี้ยวมาก
  วิธีที่ถูกต้องคือต้อง unwrap โมเดลแล้วใช้ wireframe UV map เป็นอินพุต
  ดูโมเดล Crash จริงได้ที่นี่
มีการทดลอง ทำ dark theme ให้กับผลิตภัณฑ์ซอฟต์แวร์
Gemini/Nano เปลี่ยนเป็นสีเทาแค่บางพาเนล แต่ GPT ทำธีมให้ทั้งแอปได้สวยงาม
ถึงอย่างนั้น งานออกแบบรายละเอียดก็ยังต้องอาศัยนักออกแบบอยู่ดี
มีคนสงสัยว่าทำไมภาพจาก ChatGPT ถึงมี โทนเหลือง อยู่เสมอ
- นี่เป็นอาการที่เกิดขึ้นในช่วงเวลาหนึ่ง ดูเหมือนจะเป็นผลจากการเรียนรู้แบบเสริมแรงที่เกี่ยวข้องกับ กระแสสไตล์ Ghibli
- อีกข้อสันนิษฐานคือ OpenAI อาจ คำนวณ image normalization ผิด ซึ่งในโมเดลใหม่นี้ปัญหาดังกล่าวหายไปแล้ว
- ฝั่ง Meta เองใน Codec Avatars ก็เคยเจอปัญหาคล้ายกัน แม้จะเก็บข้อมูลด้วยอุปกรณ์มูลค่าหลายล้านดอลลาร์ แต่ก็ออกมาอมเขียวเพราะ calibrate กล้องพลาด
- อีกสมมติฐานหนึ่งคืออิทธิพลของ ‘Mexico filter’ ที่ใช้กันบ่อยในหนังได้ซึมเข้าไปในข้อมูลฝึก
- หรือไม่ก็เป็นผลจาก การจูนสไตล์ตามความชอบของมนุษย์ จนเกิดอคติสีเหลืองอ่อน ๆ และเมื่อแก้ไขภาพซ้ำหลายรอบ อคตินั้นก็ยิ่งสะสม
มีคนรู้สึกว่าแนวคิดขายสินค้าที่ว่า “สร้างภาพจากความทรงจำที่ไม่มีอยู่จริง” ฟังดูแปลก
- ฉันก็รู้สึกแบบนั้นเหมือนกัน แต่ถ้าดูจากการสำรวจตลาด การสร้างภาพนั้นได้รับความนิยมมาก
  ฉันใช้มันกับงาน ที่เน้นข้อความ เป็นหลัก เช่น การเขียนโปรแกรม วิกิ และคณิตศาสตร์
  ปรากฏการณ์นี้คล้ายกับตอนที่ ฟิลเตอร์ Snapchat ฮิตมาก ๆ ซึ่งฉันมักปล่อยไว้เป็นโหมดปกติ
- ถ้าใช้พรอมป์ต์นั้นเพื่อสร้าง สัตว์พับกระดาษ ขึ้นมา มันอาจจะชวนขนลุกยิ่งกว่าอีก
- วันหนึ่งอาจมียุคที่นักแสดงขายภาพลักษณ์ของตัวเองเพื่อนำไปสร้าง ภาพปลอม
  สุดท้ายทุกคนอาจลงเอยด้วยการสมัครใช้ชีวิตเสมือน และถ้าตัดบัตรไม่ผ่านก็ต้องกลับสู่โลกความจริง
มีคนอัปเดต Golang SDK grail เพราะเห็นว่าโมเดลใหม่ใช้งานผ่าน API ได้
แต่พอเรียกใช้กลับเจอข้อผิดพลาดเซิร์ฟเวอร์ 500 และในรายการโมเดลก็ไม่มี gpt-image-1.5
ดูตัวอย่างโค้ดได้
- ตอนนี้ยังใช้ผ่าน API ไม่ได้จริง และแม้แต่ใน Image Playground ที่ OpenAI ลิงก์ไว้ก็ยังไม่เห็น
  ใน local playground ของฉัน (gpt-image-1-playground) จึงแก้ให้รองรับ 404 แล้ว
  - ฉันก็ลองเหมือนกัน และเจอ 500 แบบเดียวกัน
    ถ้าใส่ชื่อโมเดลผิด จะขึ้นข้อความว่า ‘ค่าที่รองรับมีแค่ gpt-image-1 กับ gpt-image-1-mini’
  - ดูเหมือนกำลัง ทยอยปล่อยแบบค่อยเป็นค่อยไป และฝั่งแบ็กเอนด์เองก็ยังไม่เห็นเช่นกัน
หลายคนยังคงใช้ Midjourney อยู่ เพราะโมเดลใหญ่รายอื่นยังขาด ความคิดสร้างสรรค์ด้านสไตล์ และโฟกัสแต่ photorealism
- แม้จะไม่ค่อยตามอัปเดตล่าสุดของ Midjourney แต่ฟีเจอร์อย่าง ความสม่ำเสมอของสไตล์ และ การคงตัวละครเดิม สำคัญมาก
  ถ้าจะสร้างไม่ใช่แค่ภาพเดี่ยว แต่เป็น ลำดับภาพที่มีบริบทต่อเนื่อง ฟีเจอร์พวกนี้ถือว่าจำเป็น
- ปรากฏการณ์นี้อาจมองได้ว่าเป็นความต่างระหว่าง ‘โมเดลที่มีความเห็นของตัวเอง’ กับ ‘โมเดลที่ให้ผู้ใช้เลือกเอง’ ซึ่งแบบแรกมีข้อได้เปรียบเมื่อมันทำงานได้ดี
- บางคนก็บอกว่าน่าทึ่ง และมีคนสงสัยว่ามี แกลเลอรี รวมภาพที่เกี่ยวข้องหรือไม่
- แนวโน้มนี้เป็น ปัญหาทางวัฒนธรรม ที่มีอยู่ก่อนยุคสร้างภาพเสียอีก
  มีแนวโน้มจะตัดสินคุณค่าของศิลปะจากแค่ ‘ทักษะการเรนเดอร์’ โดยมองข้ามความหมายของการสร้างสรรค์ทางวัฒนธรรมในบริบททางสังคม

เปิดตัว GPT Images 1.5

แนะนำ GPT‑Image‑1.5

ผลลัพธ์ที่ตรงกับความตั้งใจของผู้ใช้

พื้นที่สร้างภาพแบบใหม่

การปรับปรุงคุณภาพเพิ่มเติม

สิ่งที่ดีขึ้นและข้อจำกัด

การให้บริการ GPT Image 1.5 ผ่าน API

การเปิดตัวและการปล่อยใช้งาน

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News