เปิดตัว ChatGPT Images 2.0
(openai.com)- OpenAI เปิดตัว โมเดลสร้างภาพรุ่นถัดไป โดยแม้แต่บทความแนะนำก็ไม่ได้เขียนข้อความอธิบายไว้ตรง ๆ แต่ใส่ไว้เป็นข้อความในภาพที่สร้างด้วย Images 2.0 เท่านั้น
- มุ่งเน้นการสร้างผลลัพธ์ที่พร้อมใช้งานทันที สำหรับงานภาพที่ซับซ้อนและการเรนเดอร์ข้อความอย่างแม่นยำ
- เป็น โมเดลภาพตัวแรกที่มีความสามารถด้านการคิด (thinking) สามารถค้นหาเว็บ สร้างภาพหลายภาพพร้อมกัน และตรวจสอบผลลัพธ์ที่สร้างได้ด้วยตัวเอง
- ประสิทธิภาพการเรนเดอร์อักษรที่ไม่ใช่ละตินดีขึ้นอย่างมาก เช่น ภาษาญี่ปุ่น จีน ฮินดี เบงกาลี จึงใช้งานได้จริงกับงานออกแบบหลายภาษา
- รองรับ อัตราส่วนภาพที่ยืดหยุ่น ตั้งแต่ 3:1 ถึง 1:3 จึงปรับใช้ได้ทันทีทั้งแบนเนอร์ โปสเตอร์ และหน้าจอมือถือในหลายฟอร์แมต
- ชูแนวทางการเปลี่ยนจากเครื่องมือเรนเดอร์ไปสู่ ระบบการออกแบบเชิงกลยุทธ์ และใช้งานได้ทั่วทั้ง ChatGPT, Codex และ API
ยุคใหม่ของการสร้างภาพ
- นิยามภาพไม่ใช่เพียงของตกแต่ง แต่เป็น รูปแบบหนึ่งของภาษา ที่ใช้ได้ทั้งอธิบายกลไก สร้างบรรยากาศ ตรวจสอบไอเดีย และถ่ายทอดข้อโต้แย้ง
- หลังจาก ChatGPT Images ที่เปิดตัวเมื่อ 1 ปีก่อนพิสูจน์ว่า AI image สามารถทั้งสวยงามและมีประโยชน์ได้ Images 2.0 คือ โมเดลรุ่นถัดไปที่จัดการงานภาพซับซ้อนได้อย่างแม่นยำ
- ถ่ายทอดรายละเอียดตามคำสั่งได้ครบถ้วน, จัดวางวัตถุและความสัมพันธ์ได้ถูกต้อง และพัฒนาขึ้นอย่างก้าวกระโดดในการเรนเดอร์ข้อความหนาแน่น
- เด่นทั้งด้านองค์ประกอบภาพและเซนส์ด้านภาพ จนผลลัพธ์ ให้ความรู้สึกเหมือนงานออกแบบที่ตั้งใจสร้าง ไม่ใช่ภาพที่ AI สร้างขึ้น
- ทำงานได้แม่นยำในหลายภาษา และใช้ความรู้ด้านภาพและความรู้เกี่ยวกับโลกที่ขยายขึ้น ทำให้ สร้างภาพได้ฉลาดขึ้นด้วยพรอมป์ตที่น้อยลง
- โมเดลนี้ผสาน ความฉลาดของโมเดลการให้เหตุผลของ OpenAI เข้ากับความเข้าใจโลกเชิงภาพ เปลี่ยนการสร้างภาพจากการเรนเดอร์ธรรมดาไปสู่การออกแบบเชิงกลยุทธ์ และจากเครื่องมือไปสู่ ระบบภาพ
- พร้อมใช้งานตั้งแต่วันนี้สำหรับผู้ใช้ทั้งหมดของ ChatGPT, Codex และ API
ความแม่นยำและการควบคุมที่สูงขึ้น
- Images 2.0 มอบ ความเฉพาะเจาะจงและความเที่ยงตรงที่ไม่เคยมีมาก่อน ในการสร้างภาพ
- ไม่เพียงออกแบบภาพที่ซับซ้อนได้ละเอียดยิ่งขึ้น แต่ยังทำออกมาได้อย่างมีประสิทธิภาพ โดยเด่นในด้านการทำตามคำสั่ง การคงรายละเอียดตามที่ร้องขอ และการเรนเดอร์องค์ประกอบย่อยละเอียด
- จัดการ ข้อความขนาดเล็ก, ไอคอน, องค์ประกอบ UI, องค์ประกอบที่หนาแน่น, ข้อกำหนดด้านสไตล์ที่ละเอียดอ่อน ซึ่งโมเดลภาพก่อนหน้านี้ทำได้ไม่ดีนัก ได้ที่ความละเอียดสูงสุด 2K
- สร้าง ผลลัพธ์ที่พร้อมใช้งานได้จริงทันที ไม่ใช่แค่ “ภาพที่คล้าย ๆ กันโดยประมาณ”
รองรับข้อความหลายภาษาได้ดียิ่งขึ้น
- โมเดลเดิมมีประสิทธิภาพสม่ำเสมอในภาษาอังกฤษและภาษาที่ใช้อักษรละติน แต่ยังขาดประสิทธิภาพในการจัดการอักษรที่ไม่ใช่ละตินเมื่อข้อความซับซ้อนหรือหนาแน่น
- Images 2.0 ปรับปรุง ความเข้าใจหลายภาษา และพัฒนาอย่างมากโดยเฉพาะในการเรนเดอร์ข้อความที่ไม่ใช่อักษรละตินของ ภาษาญี่ปุ่น จีน ฮินดี เบงกาลี
- ไม่เพียงเรนเดอร์ข้อความที่ไม่ใช่ภาษาอังกฤษได้อย่างถูกต้อง แต่ยังสร้าง ผลลัพธ์ที่ลื่นไหลเป็นธรรมชาติทางภาษา ได้ด้วย
- ก้าวข้ามการแปลป้ายกำกับธรรมดา ไปสู่การรักษาความสอดคล้องทางภาพใน โปสเตอร์, เอกสารอธิบาย, ไดอะแกรม, การ์ตูน ที่ภาษาเป็นส่วนหนึ่งของงานออกแบบ
- ทำให้ผู้ใช้สามารถสร้างงานภาพใน ภาษาที่ใช้งานจริงของตนเอง ได้ จึงเพิ่มศักยภาพในการใช้งานระดับโลก
ความประณีตของสไตล์และความสมจริง
- Images 2.0 ยกระดับ ความเที่ยงตรงในสไตล์ภาพที่หลากหลาย อย่างมาก
- ปรับปรุงความสม่ำเสมอของพื้นผิว แสง องค์ประกอบ และรายละเอียด ทั้งในลักษณะเฉพาะของภาพถ่าย (รวมถึง ตำหนิเล็ก ๆ ที่เพิ่มความสมจริง), ภาพนิ่งจากภาพยนตร์, พิกเซลอาร์ต, การ์ตูน และภาษาภาพเฉพาะตัวอื่น ๆ
- สร้าง ผลลัพธ์ที่สะท้อนสไตล์ที่ขอได้อย่างซื่อตรง ไม่ใช่เพียงเลียนแบบอย่างคร่าว ๆ
- มีประโยชน์อย่างยิ่งกับ การทำต้นแบบเกม, สตอรีบอร์ด, ครีเอทีฟด้านการตลาด และการสร้างแอสเซ็ตสำหรับสื่อหรือแนวงานเฉพาะ
รองรับอัตราส่วนภาพที่ยืดหยุ่น
- รองรับอัตราส่วนภาพได้กว้างตั้งแต่ 3:1 (แนวนอน) ถึง 1:3 (แนวตั้ง)
- สร้าง ผลลัพธ์ที่ตรงกับฟอร์แมตที่ต้องการ ได้ทันที ทั้งแบนเนอร์แนวกว้าง สไลด์พรีเซนเทชัน โปสเตอร์ หน้าจอมือถือ ที่คั่นหน้า และโซเชียลกราฟิก
- สามารถระบุอัตราส่วนภาพที่ต้องการในพรอมป์ต หรือเลือกจาก ตัวเลือกพรีเซ็ต เพื่อสร้างใหม่ในขนาดใหม่ได้
ความฉลาดที่เข้าใจโลกจริง
- Images 2.0 สะท้อน ความเข้าใจโลกที่อัปเดตยิ่งขึ้น ในการสร้างภาพ โดยอัปเดต knowledge cutoff เป็น ธันวาคม 2025
- ได้เปรียบในงานอย่างเอกสารอธิบาย แผนที่ กราฟิกการศึกษา และสรุปภาพ ที่ ความถูกต้องและความชัดเจนสำคัญพอ ๆ กับความสวยงาม
- ด้วยความฉลาดที่เพิ่มขึ้น จึงทำ งานแบบ end-to-end ตั้งแต่สังเคราะห์ข้อมูล เขียนคัดลอกข้อความ ไปจนถึงการทำภาพ ได้
- มีเซนส์การออกแบบที่สะอาดและเป็นระบบ โดยคำนึงถึงการจัดวางพื้นที่ว่าง ความอ่านง่าย และลำดับการไหลของข้อมูล
คู่คิดด้านการมองเห็น
- เมื่อเลือก โมเดล thinking หรือ pro โมเดลจะใช้เวลามากขึ้นเพื่อ เข้าใจงานและลงมือทำแบบเอเจนติก
- สามารถค้นหาข้อมูลที่เกี่ยวข้องบนเว็บ แปลงเนื้อหาที่อัปโหลดให้เป็นเอกสารภาพอธิบายที่ชัดเจน และให้เหตุผลเกี่ยวกับโครงสร้างของภาพก่อนสร้าง
- ในโหมดนี้ Images 2.0 ทำหน้าที่เป็น คู่คิดด้านการมองเห็น ช่วยลดภาระงานของผู้ใช้ได้อย่างมาก ตั้งแต่แนวคิดร่างแรกไปจนถึงแอสเซ็ตที่เสร็จสมบูรณ์
- ในโหมด thinking สามารถ สร้างภาพหลายภาพที่แตกต่างกันพร้อมกันได้ในครั้งเดียว — เป็นความสามารถครั้งแรกของการสร้างภาพใน ChatGPT
- รองรับเวิร์กโฟลว์อย่างหน้าการ์ตูนต่อเนื่อง ทิศทางรีดีไซน์ทั้งบ้าน ชุดคอนเซปต์โปสเตอร์ และชุดโซเชียลกราฟิกหลายอัตราส่วนและหลายภาษา
- แทนที่จะต้องพรอมป์ตภาพทีละภาพแล้วนำมาประกอบเอง ผู้ใช้สามารถขอ ผลลัพธ์ที่สอดคล้องกันได้สูงสุด 10 ภาพ โดยคงความต่อเนื่องของตัวละครและวัตถุ ได้ในครั้งเดียว
- โดยแต่ละผลลัพธ์จะค่อย ๆ ต่อเนื่องจากผลลัพธ์ก่อนหน้า
4 ความคิดเห็น
มีการใส่การให้เหตุผลเข้าไปในภาพด้วย เลยทำให้ผลลัพธ์สุดยอดมาก
แค่โยนคีย์เวิร์ดที่เกี่ยวกับธุรกิจใหม่แบบง่าย ๆ เข้าไป
มันก็อนุมานไปถึงข้อความหลัก/จุดเจ็บปวด แล้วหลอมรวมลงไปในหน้าแลนดิ้งเพจได้เลย
การดึงสีแบรนด์ โทนข้อความแบรนด์ ไปจนถึงโมเดลจากเว็บไซต์ที่บอกให้ใช้อ้างอิงมาแบบเดิม ๆ นี่ถือเป็นพื้นฐานไปแล้ว
แม้แต่ภาษาเกาหลีก็ไม่เพี้ยนเลย ดูแล้วต่อจากนี้น่าจะเอาไปใช้ประโยชน์ได้มหาศาล..
ตอนนี้เริ่มรู้สึกว่าพัฒนาการของ AI น่ากลัวขึ้นเรื่อย ๆ แล้วครับ
สุดยอดมากครับ ตอนที่ Nano Banana ออกมาก็ว่าทึ่งแล้ว แต่นี่ดีขึ้นไปอีก ดูเหมือนว่าพอมีการแข่งขัน การพัฒนาก็ยิ่งเร็วขึ้นครับ
โอ้.. เรื่องการจัดการตัวอักษรก่อนหน้านี้เหมือนจะเป็นระดับ Nano Banana แต่ครั้งนี้ดูเหมือนจะลับคมมาเต็มที่นะ
ผมทำข้อความทั้งหมดในบทความแนะนำให้กลายเป็นภาพแล้ว
สามารถเลื่อนดูทั้งบทความได้โดยที่ทั้งหมดเป็นภาพเลย
ลายมือเขียนตรงกลางน่าประทับใจดี
ความคิดเห็นจาก Hacker News
gpt-image-2สร้างภาพสไตล์ Where's Waldo ที่ให้ "หารัคคูนที่ถือวิทยุแฮม" และโค้ดอยู่ที่นี่ ผลลัพธ์คือภาพนี้ แต่เอาเข้าจริงฉันก็ยังไม่แน่ใจว่า รัคคูน ตัวนั้นถือวิทยุแฮมอยู่หรือเปล่า ปกติการทดสอบแนว Where's Waldo แบบนี้ฉันไม่ค่อยมีความอดทนพอจะหาจนจบgemini-3.1-flash-image-previewจะใช้ 2,520 โทเค็น คิดเป็นประมาณ $0.151 ต่อภาพ ส่วนถ้าใช้gpt-image-2สร้างภาพ 3840x2160 จะใช้ 13,342 โทเค็น คิดเป็นประมาณ $0.4 ดังนั้นโมเดลนี้แพงกว่า Gemini มากกว่า 2 เท่าgpt-image-1.5ของ OpenAI กับ NB2 ของ Google สูสีกันมากบนเว็บเปรียบเทียบของฉัน ในการประเมินที่เน้นการทำตามพรอมป์ต์ ทั้งคู่ทำสำเร็จราว 70% สำหรับเกณฑ์การสร้างและแก้ไข ส่วนคุณภาพงานภาพ Gemini จะเหนือกว่าอยู่เสมอ ถึงอย่างนั้นgpt-image-1.5ก็ถือเป็นก้าวกระโดดใหญ่ของฝั่ง OpenAI และแก้ปัญหาเรื้อรังเก่าๆ อย่างสิ่งที่เคยถูกเรียกว่า "piss filter" ไปได้มาก กราฟเปรียบเทียบดูได้ที่งานแก้ไขที่นี่ และงานสร้างที่นี่ ตามอัปเดตล่าสุดgpt-image-2ผ่านโจทย์ดาว 9 แฉกที่เคยเป็น model killer ของชุดทดสอบ และในเบนช์มาร์ก text-to-image มันทำถูก 12 ข้อ จาก 15 ข้อ แซงโมเดลที่ดีที่สุดเดิมไป 1 คะแนน อย่างไรก็ตาม มันยังพลาดพรอมป์ต์งู coral snake ที่ลำดับสีต้องเป๊ะ, D20 ที่ให้เขียนจำนวนเฉพาะ 20 ตัวแรกลงบนแต่ละหน้า, และดาวเคราะห์โลกแบนที่มีคนล้นออกมาตามขอบ การเปรียบเทียบทั้งหมดอยู่ที่ All Models และถ้าดูเฉพาะโมเดลหลักอยู่ที่นี่GPT-Image-2ได้ค่อนข้างดี งานวิจัยอยู่ที่นี่ และฉันก็เอาสองอย่างนี้มารวมกันทำเป็น ตัวตรวจจับภาพ AI แบบ on-device ด้วยตัวเอง