- ฟีเจอร์สร้างภาพของ ChatGPT ได้รับการอัปเกรดใหม่ มอบการแก้ไขที่แม่นยำยิ่งขึ้นและความเร็วในการสร้างที่เร็วขึ้น
- โมเดล GPT‑Image‑1.5 ทำตามคำสั่งข้อความได้แม่นยำกว่าเดิม และสามารถแก้ไขภาพโดยยังคง ความคล้ายของบุคคล รวมถึงแสงและองค์ประกอบภาพ เอาไว้ได้
- รองรับสไตล์พรีเซ็ต พรอมป์ตกำลังมาแรง และฟีเจอร์ใช้รูปลักษณ์เดิมซ้ำ ผ่าน อินเทอร์เฟซแถบด้านข้าง Images แบบใหม่
- ใน API ก็มีการปรับปรุงประสิทธิภาพแบบเดียวกัน พร้อม ลดต้นทุนลง 20% เหมาะสำหรับการสร้างโลโก้แบรนด์และภาพสินค้า
- อัปเดตครั้งนี้ เริ่มปล่อยให้ผู้ใช้ ChatGPT และ API ทุกคนใช้งานได้ทันที และยกระดับทั้งความเป็นประโยชน์และคุณภาพของการสร้างภาพอย่างมาก
แนะนำ GPT‑Image‑1.5
- เปิดตัว ChatGPT Images เวอร์ชันใหม่ที่ขับเคลื่อนด้วย โมเดลสร้างภาพที่ทรงพลังที่สุด
- ทำตามคำสั่งข้อความได้แม่นยำกว่าเดิม และแก้ไขได้โดยคงรายละเอียดอย่างความคล้ายของใบหน้าเอาไว้
- ความเร็วในการสร้างภาพ เร็วขึ้นสูงสุด 4 เท่า ช่วยเพิ่มประสิทธิภาพในการทดลองซ้ำและสำรวจไอเดีย
- โมเดลนี้ให้ การแปลงภาพที่มีพลังในการสื่อสาร การเรนเดอร์ข้อความหนาแน่น และผลลัพธ์ที่เป็นธรรมชาติ
- รองรับตั้งแต่การแก้ไขเล็กน้อยไปจนถึงการสร้างใหม่ทั้งหมด และสามารถเลือกสไตล์พรีเซ็ตเพื่อสร้างได้อย่างง่ายดาย
- กำลังทยอยปล่อยให้ผู้ใช้ ChatGPT ทุกคน และใน API จะให้ใช้งานในชื่อ GPT‑Image‑1.5
ผลลัพธ์ที่ตรงกับความตั้งใจของผู้ใช้
- โมเดลจะแก้ไขเฉพาะส่วนที่ร้องขอ พร้อมคง แสง องค์ประกอบภาพ และความคล้ายของบุคคล ไว้อย่างสม่ำเสมอ
- ทำให้ได้ความตรงกันสูงในงานอย่าง การแต่งภาพ การจำลองชุดหรือทรงผม ฟิลเตอร์สไตล์ และการแปลงคอนเซปต์
- ChatGPT ทำงานได้ทั้งการแก้ไขเชิงใช้งานจริงและการจัดองค์ประกอบใหม่เชิงศิลป์ ราวกับเป็น สตูดิโอครีเอทีฟแบบพกพา
- รองรับการแก้ไขหลายประเภท เช่น เพิ่ม ลบ รวม และผสม
- เสริมความสามารถด้าน การแปลงเชิงสร้างสรรค์ ที่เพิ่มองค์ประกอบอย่างข้อความและเลย์เอาต์
- เมื่อเทียบกับ GPT Image 1.0 มี ความเข้าใจพรอมป์ตดีขึ้น ทำให้แก้ไขได้ละเอียดขึ้น
- ปรับปรุงคุณภาพของ การเรนเดอร์ข้อความขนาดเล็กและหนาแน่น
พื้นที่สร้างภาพแบบใหม่
- เพิ่ม แถบด้านข้างเฉพาะสำหรับ Images ใน ChatGPT เพื่อย่นขั้นตอนการค้นหาและสร้างภาพ
- มีทั้งฟิลเตอร์พรีเซ็ต พรอมป์ตกำลังมาแรง และฟีเจอร์ใช้รูปลักษณ์เดิมซ้ำ
- ใช้งานซ้ำได้หลายครั้งจากการอัปโหลดเพียงครั้งเดียว โดยไม่ต้องนำรูปจาก camera roll มาใช้อีกครั้ง
- ความเร็วในการสร้างภาพ เพิ่มขึ้นสูงสุด 4 เท่า และสามารถสร้างหลายภาพพร้อมกันได้
- รองรับตั้งแต่การแก้ไขเล็กน้อยไปจนถึงการสร้างใหม่ทั้งหมด พร้อมมอบ ผลลัพธ์ที่ตรงกับวิสัยทัศน์ของผู้ใช้
การปรับปรุงคุณภาพเพิ่มเติม
- เพิ่มคุณภาพแบบพร้อมใช้งานทันที เช่น การแสดงใบหน้าขนาดเล็กจำนวนมาก และการเรนเดอร์ผลลัพธ์ที่เป็นธรรมชาติ
- ตัวอย่าง: สร้างฉากถนนในลอนดอนยุค 1970 ได้อย่างสมจริง โดยปรับปรุงทั้งการโฟกัสรายละเอียดและการแสดงตัวบุคคล
สิ่งที่ดีขึ้นและข้อจำกัด
- ยืนยันได้ว่ามี การยกระดับประสิทธิภาพอย่างชัดเจน ในหลายกรณีเมื่อเทียบกับเวอร์ชันเริ่มต้น
- อย่างไรก็ตาม ผลลัพธ์บางส่วนยังไม่สมบูรณ์ และ การจัดการหลายใบหน้าและหลายภาษา ยังมีพื้นที่ให้พัฒนา
การให้บริการ GPT Image 1.5 ผ่าน API
- เวอร์ชัน API มีการปรับปรุงแบบเดียวกับ ChatGPT Images
- คงความสม่ำเสมอของโลโก้แบรนด์และภาพหลัก
- เหมาะกับการสร้างภาพสำหรับการตลาดและอีคอมเมิร์ซ
- ต้นทุนอินพุตและเอาต์พุตลดลง 20% ทำให้สร้างภาพได้มากขึ้นภายใต้งบประมาณเท่าเดิม
- สามารถทดลองได้ใน OpenAI Playground, แกลเลอรี และคู่มือพรอมป์ต
- บริษัทอย่าง Wix, Canva, Figma, Envato ใช้งานอยู่แล้ว
- Wix ประเมินว่า “การสร้างภาพคุณภาพสูงและมีความสม่ำเสมอสูง ช่วยสนับสนุนเวิร์กโฟลว์การผลิตที่รวดเร็ว”
การเปิดตัวและการปล่อยใช้งาน
- โมเดล ChatGPT Images ใหม่ เริ่มปล่อยให้ผู้ใช้ ChatGPT และ API ทุกคนทั่วโลกใช้งานได้ทันที
- ใช้งานได้โดยไม่ต้องเลือกโมเดลแยก และเวอร์ชันก่อนหน้ายังคงอยู่ในรูปแบบ Custom GPT
- OpenAI ประเมินว่าอัปเดตครั้งนี้เป็น ก้าวสำคัญของความก้าวหน้าในเทคโนโลยีการสร้างภาพ
- ในอนาคตมีแผนปรับปรุงเพิ่มเติม เช่น การแก้ไขที่ละเอียดขึ้นและการรองรับหลายภาษา
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
มีการแชร์ผลลัพธ์ของ gpt-image 1.5 บนเว็บไซต์ GenAI Showdown
OpenAI ยังคงเด่นเรื่อง ความเข้าใจพรอมป์ต์ แต่ก่อนหน้านี้ค่อนข้างอ่อนเรื่อง ความเที่ยงตรงของภาพ (fidelity) และอัปเดตครั้งนี้ช่วยแก้จุดอ่อนนั้นได้มาก
โดยเฉพาะการทำ การแก้ไขเฉพาะจุด (localized edit) ได้ดีโดยไม่ทำลายสุนทรียภาพโดยรวม คะแนนเพิ่มจาก 4/12 เป็น 8/12 หรือดีขึ้นเท่าตัว และเป็นโมเดลเดียวที่ผ่าน ‘Giraffe prompt’
ด้าน ความสามารถในการควบคุม (steerability) ของโมเดลก็สูงถึงระดับ 90%
ฟีเจอร์ใหม่ที่เพิ่มเข้ามามีส่วนแสดงกรณีล้มเหลวของแต่ละโมเดล (outtakes), การเพิ่มโมเดล REVE และ Flux.2 Dev และระบบให้คะแนนแบบถ่วงน้ำหนัก
หากต้องการเทียบทั้งสามโมเดล (gpt-image-1, gpt-image-1.5, NB Pro) ดูได้ที่ลิงก์นี้
กำลังเตรียมบล็อกโพสต์สรุปการทดลองเกี่ยวกับ Nano Banana
เมื่อทดสอบโมเดลภาพใหม่ของ ChatGPT พบว่ามันด้อยกว่า Nano Banana Pro มาก แต่ยังดีกว่า Nano Banana รุ่นพื้นฐาน
ราคายังไม่ชัดเจน แต่ดูเหมือน gpt-image-1.5 จะถูกกว่ารุ่นเดิมราว 20%
อีกจุดที่น่าสนใจคือกรณี การสร้างกริด (grid generation) โดย NBP จะเริ่มรักษาความสอดคล้องของพรอมป์ต์ไม่ได้เมื่อเกิน 4x4 แต่ OpenAI กล้าลองเคส 6x6 ซึ่งน่าประทับใจ
ระหว่างนี้ดูผลงานน่าประทับใจของ NB Pro ได้ในบล็อกนี้
NB Pro ให้ผลลัพธ์น่าทึ่ง เช่น ประกอบ จิ๊กซอว์ ที่ไม่เคยเห็นมาก่อน, ประเมินภูมิประเทศ 3D และเปลี่ยนหน้าต่างให้เป็นกระจกเงา
เช่น เมื่อขอภาพคนสองคนกำลังพายเรือ กลับได้เรือที่เล็กเกินจนแทบจะนั่งไม่พอ
อีกทั้งยังมีบั๊กที่ทำให้ทุกครั้งที่ส่งพรอมป์ต์แก้ไข บทสนทนาก่อนหน้าจะหายไป ซึ่งน่ารำคาญมาก
เพื่อให้ผลลัพธ์ดูเป็นธรรมชาติ จึงเติมวลีอย่าง “shaky amateur smartphone photo” ไว้ต้นพรอมป์ต์
ปฏิกิริยาที่เกี่ยวข้องดูได้ในทวีตนี้
gpt-image-1 ทำงานด้าน previz-to-render ได้ดีกว่า Nano Banana(Pro) มาก
Nano Banana มักคงองค์ประกอบพรีวิซความละเอียดต่ำไว้ตามเดิม แต่ gpt-image-1 เข้าใจท่าทางตัวละครและการบล็อกกิ้งของฉาก พร้อมอัปสเกลให้ด้วย
วิดีโอตัวอย่าง: 3D + Posing + Blocking, เวอร์ชันรีไซเคิลเซ็ต, Gaussian splats, ตัวอย่างเพิ่มเติม
ต่อจากนี้จำเป็นต้องมีโมเดลที่รองรับ การควบคุมสไตล์, ความเร็ว และ การทำสไตลิงจากภาพอ้างอิง
Adobe ก็กำลังทดลองความสามารถคล้ายกัน และสาธิต Relighting, การแก้ไข Image→3D, การแก้ไข Gaussian, การแปลง 3D→Image เป็นต้น
ตอนนี้กำลังลงมือทำฟีเจอร์เหล่านี้เองในรูปแบบ เครื่องมือเดสก์ท็อปโอเพนซอร์ส และพัฒนาด้วย Rust
ถ้าย้อนกลับไปปี 2010 แล้วมีบริการที่ใช้คนใน Photoshop มาประกอบภาพให้ คงเกิดข้อถกเถียงใหญ่
แต่ตอนนี้เราอยู่ในยุคที่ AI ทำลายแนวคิดเรื่องลิขสิทธิ์และความเป็นผู้สร้าง ไปแล้ว เลยสงสัยว่าจะปกป้องคอนเทนต์ใหม่ได้อย่างไร
ครั้งหนึ่ง gpt เคยสร้างภาพถ่ายสไตล์หายากที่ฉันเคยถ่ายไว้ได้แทบเหมือนเดิม
ทันทีที่เผยแพร่ก็ต้องยอมรับความเสี่ยงของการถูกนำไปใช้ผิดระดับหนึ่ง ส่วนกรณีที่โมเดล overfit กับต้นฉบับนั้นยังไม่มีบรรทัดฐานทางกฎหมาย
มีคนลองใช้ gpt-image-1.5 สร้าง สไปรต์แมปและ UV texture map แล้วพบว่าให้อารมณ์แบบ Megaman Legends ได้ดีมาก
ตัวอย่าง1, ตัวอย่าง2
แต่เพราะไม่มีโมเดล 3D จริง จึงยังไม่แน่ใจว่านี่คือ UV map ที่ถูกต้องหรือไม่ และ Nano Banana รุ่นแรก ๆ ก็ทำงานแบบนี้ไม่ได้
เท็กซ์เจอร์แบบนี้อาจนำไปใช้ได้ แต่จะบิดเบี้ยวมาก
วิธีที่ถูกต้องคือต้อง unwrap โมเดลแล้วใช้ wireframe UV map เป็นอินพุต
ดูโมเดล Crash จริงได้ที่นี่
มีการทดลอง ทำ dark theme ให้กับผลิตภัณฑ์ซอฟต์แวร์
Gemini/Nano เปลี่ยนเป็นสีเทาแค่บางพาเนล แต่ GPT ทำธีมให้ทั้งแอปได้สวยงาม
ถึงอย่างนั้น งานออกแบบรายละเอียดก็ยังต้องอาศัยนักออกแบบอยู่ดี
มีคนสงสัยว่าทำไมภาพจาก ChatGPT ถึงมี โทนเหลือง อยู่เสมอ
มีคนรู้สึกว่าแนวคิดขายสินค้าที่ว่า “สร้างภาพจากความทรงจำที่ไม่มีอยู่จริง” ฟังดูแปลก
ฉันใช้มันกับงาน ที่เน้นข้อความ เป็นหลัก เช่น การเขียนโปรแกรม วิกิ และคณิตศาสตร์
ปรากฏการณ์นี้คล้ายกับตอนที่ ฟิลเตอร์ Snapchat ฮิตมาก ๆ ซึ่งฉันมักปล่อยไว้เป็นโหมดปกติ
สุดท้ายทุกคนอาจลงเอยด้วยการสมัครใช้ชีวิตเสมือน และถ้าตัดบัตรไม่ผ่านก็ต้องกลับสู่โลกความจริง
มีคนอัปเดต Golang SDK grail เพราะเห็นว่าโมเดลใหม่ใช้งานผ่าน API ได้
แต่พอเรียกใช้กลับเจอข้อผิดพลาดเซิร์ฟเวอร์ 500 และในรายการโมเดลก็ไม่มี gpt-image-1.5
ดูตัวอย่างโค้ดได้
ใน local playground ของฉัน (gpt-image-1-playground) จึงแก้ให้รองรับ 404 แล้ว
ถ้าใส่ชื่อโมเดลผิด จะขึ้นข้อความว่า ‘ค่าที่รองรับมีแค่ gpt-image-1 กับ gpt-image-1-mini’
หลายคนยังคงใช้ Midjourney อยู่ เพราะโมเดลใหญ่รายอื่นยังขาด ความคิดสร้างสรรค์ด้านสไตล์ และโฟกัสแต่ photorealism
ถ้าจะสร้างไม่ใช่แค่ภาพเดี่ยว แต่เป็น ลำดับภาพที่มีบริบทต่อเนื่อง ฟีเจอร์พวกนี้ถือว่าจำเป็น
มีแนวโน้มจะตัดสินคุณค่าของศิลปะจากแค่ ‘ทักษะการเรนเดอร์’ โดยมองข้ามความหมายของการสร้างสรรค์ทางวัฒนธรรมในบริบททางสังคม