เปิดตัว ChatGPT Images 2.0
(openai.com)- OpenAI เปิดตัว โมเดลสร้างภาพรุ่นถัดไป โดยไม่เขียนคำอธิบายเป็นข้อความในบทความแนะนำ แต่ใส่ไว้เป็นข้อความภายในภาพที่สร้างด้วย Images 2.0 เท่านั้น
- มุ่งเน้นการสร้างผลงานที่พร้อมใช้งานทันที รวมถึงงานภาพที่ซับซ้อนและการเรนเดอร์ข้อความอย่างแม่นยำ
- เป็น โมเดลภาพตัวแรกที่มีความสามารถด้านการคิด (thinking) สามารถค้นหาเว็บ สร้างหลายภาพพร้อมกัน และตรวจสอบผลลัพธ์ของตัวเองได้
- ประสิทธิภาพการเรนเดอร์ อักขระที่ไม่ใช่ละตินดีขึ้นมาก เช่น ภาษาญี่ปุ่น เกาหลี จีน ฮินดี และเบงกาลี ทำให้นำไปใช้สร้างงานออกแบบหลายภาษาได้จริง
- รองรับ อัตราส่วนภาพอย่างยืดหยุ่น ตั้งแต่ 3:1 ถึง 1:3 พร้อมใช้งานได้ทันทีในหลายรูปแบบ เช่น แบนเนอร์ โปสเตอร์ และหน้าจอมือถือ
- ชูแนวคิดการเปลี่ยนผ่านจากเครื่องมือเรนเดอร์ไปสู่ ระบบออกแบบเชิงกลยุทธ์ และใช้งานได้ทั่วทั้ง ChatGPT, Codex และ API
ยุคใหม่ของการสร้างภาพ
- นิยามภาพไม่ใช่แค่ของตกแต่ง แต่เป็น ภาษารูปแบบหนึ่ง ที่ใช้สำหรับอธิบายกลไก สร้างบรรยากาศ ทดสอบไอเดีย และสื่อสารข้อโต้แย้ง
- หลังจาก ChatGPT Images ที่เปิดตัวเมื่อ 1 ปีก่อนพิสูจน์ว่า AI image สามารถทั้งสวยงามและมีประโยชน์ได้ Images 2.0 คือ โมเดลรุ่นถัดไปที่จัดการงานภาพซับซ้อนได้อย่างแม่นยำ
- ทำตามคำสั่งรายละเอียดได้อย่างครบถ้วน ดีขึ้นมากทั้งด้านการวางตำแหน่งวัตถุอย่างแม่นยำ การแสดงความสัมพันธ์ระหว่างองค์ประกอบ และการเรนเดอร์ข้อความหนาแน่น
- โดดเด่นทั้งด้านองค์ประกอบและสัมผัสเชิงภาพ จนผลลัพธ์ ให้ความรู้สึกเหมือนงานออกแบบที่ตั้งใจทำ ไม่ใช่ภาพที่ AI สร้าง
- ทำงานได้อย่างแม่นยำในหลายภาษา และใช้ความรู้ด้านภาพและความรู้เกี่ยวกับโลกที่ขยายขึ้นเพื่อ สร้างภาพได้ฉลาดขึ้นแม้ใช้พรอมป์ต์น้อยลง
- โมเดลนี้ผสาน ความฉลาดของโมเดลให้เหตุผลของ OpenAI เข้ากับความเข้าใจโลกเชิงภาพ เปลี่ยนการสร้างภาพจากการเรนเดอร์ธรรมดาไปเป็นการออกแบบเชิงกลยุทธ์ และจากเครื่องมือไปสู่ ระบบภาพ
- เปิดให้ใช้งานตั้งแต่วันนี้แก่ผู้ใช้ทั้งหมดของ ChatGPT, Codex และ API
ความแม่นยำและการควบคุมที่สูงขึ้น
- Images 2.0 มอบ ความเฉพาะเจาะจงและความเที่ยงตรงที่ไม่เคยมีมาก่อน ในการสร้างภาพ
- ไม่เพียงจินตนาการภาพที่ซับซ้อนได้ดีขึ้น แต่ยังนำไปสร้างจริงได้อย่างมีประสิทธิภาพ โดยเด่นในด้านการทำตามคำสั่ง การรักษารายละเอียดตามที่ร้องขอ และการเรนเดอร์องค์ประกอบเล็ก ๆ
- รองรับ ข้อความขนาดเล็ก ไอคอน องค์ประกอบ UI องค์ประกอบที่หนาแน่น และข้อกำหนดด้านสไตล์ที่ละเอียดอ่อน ซึ่งโมเดลภาพเดิมมักจัดการได้ไม่ดี โดยทำได้ที่ความละเอียดสูงสุด 2K
- ไม่ใช่แค่ ภาพที่คล้าย ๆ กันโดยประมาณ แต่เป็นผลลัพธ์ที่ นำไปใช้งานได้จริงทันที
รองรับข้อความหลายภาษาได้ดียิ่งขึ้น
- โมเดลเดิมให้ประสิทธิภาพค่อนข้างสม่ำเสมอในภาษาอังกฤษและภาษาที่ใช้อักษรละติน แต่ยังอ่อนในด้านการจัดการอักขระที่ไม่ใช่ละตินเมื่อข้อความซับซ้อนหรือหนาแน่น
- Images 2.0 ปรับปรุง ความเข้าใจหลายภาษา และดีขึ้นอย่างมากโดยเฉพาะการเรนเดอร์ข้อความที่ไม่ใช่อักษรละตินใน ภาษาญี่ปุ่น เกาหลี จีน ฮินดี และเบงกาลี
- ไม่เพียงเรนเดอร์ข้อความที่ไม่ใช่ภาษาอังกฤษได้ถูกต้อง แต่ยังสร้างผลลัพธ์ที่ ลื่นไหลเป็นธรรมชาติตามภาษา ได้ด้วย
- ไม่ได้หยุดแค่การแปลป้ายกำกับ แต่ยังรักษาความสอดคล้องทางภาพใน โปสเตอร์ เอกสารอธิบาย ไดอะแกรม และการ์ตูน ที่ภาษาเป็นส่วนหนึ่งของงานออกแบบ
- ผู้ใช้จึงสามารถสร้างภาพใน ภาษาที่ใช้งานจริงของตน ได้ ช่วยเพิ่มการใช้งานในระดับโลก
ความประณีตของสไตล์และความสมจริง
- Images 2.0 ปรับปรุง ความเที่ยงตรงในสไตล์ภาพที่หลากหลาย อย่างมาก
- ดีขึ้นอย่างสม่ำเสมอทั้งพื้นผิว แสง องค์ประกอบ และรายละเอียดของภาษาภาพเฉพาะทาง เช่น ลักษณะเฉพาะของภาพถ่าย รวมถึง ความไม่สมบูรณ์เล็กน้อย ที่ช่วยเพิ่มความสมจริง, ภาพนิ่งแบบภาพยนตร์, pixel art และ การ์ตูน
- ไม่ใช่แค่ผลลัพธ์ที่ใกล้เคียงสไตล์ที่ขอ แต่เป็นผลลัพธ์ที่ ถ่ายทอดสไตล์นั้นได้อย่างซื่อตรง
- มีประโยชน์อย่างยิ่งกับ การทำต้นแบบเกม, สตอรี่บอร์ด, มาร์เก็ตติ้งครีเอทีฟ และการสร้างแอสเซ็ตสำหรับสื่อหรือแนวเฉพาะ
รองรับอัตราส่วนภาพอย่างยืดหยุ่น
- รองรับอัตราส่วนภาพอย่างกว้างตั้งแต่ 3:1 (แนวนอน) ถึง 1:3 (แนวตั้ง)
- สร้างผลลัพธ์ให้ตรงกับรูปแบบที่ต้องการได้ทันที เช่น แบนเนอร์กว้าง สไลด์พรีเซนเทชัน โปสเตอร์ หน้าจอมือถือ บุ๊กมาร์ก และกราฟิกโซเชียล
- สามารถระบุอัตราส่วนภาพที่ต้องการในพรอมป์ต์ หรือเลือกจาก ตัวเลือกพรีเซ็ต เพื่อสร้างใหม่ในขนาดใหม่ได้
ความฉลาดที่เข้าใจโลกจริง
- Images 2.0 สะท้อน ความเข้าใจโลกที่อัปเดตมากขึ้น ในการสร้างภาพ โดยอัปเดต knowledge cutoff เป็น ธันวาคม 2025
- เหมาะกับงานอย่างเอกสารอธิบาย แผนที่ กราฟิกการศึกษา และสรุปเชิงภาพ ซึ่ง ความถูกต้องและความชัดเจนสำคัญพอ ๆ กับความสวยงาม
- ด้วยความฉลาดที่เพิ่มขึ้น จึงสามารถทำงานแบบ end-to-end ตั้งแต่สังเคราะห์ข้อมูล เขียนคัดลอกข้อความ ไปจนถึงการทำภาพข้อมูล
- มีเซนส์ด้านการออกแบบที่สะอาดและเป็นระบบ โดยคำนึงถึงการจัดวางพื้นที่ว่าง ความอ่านง่าย และลำดับการไหล
พาร์ตเนอร์ด้านการคิดเชิงภาพ
- เมื่อเลือก thinking หรือโมเดล pro โมเดลจะใช้เวลามากขึ้นเพื่อ ทำความเข้าใจงานและลงมือทำแบบ agentic
- สามารถค้นหาข้อมูลที่เกี่ยวข้องบนเว็บ แปลงเอกสารที่อัปโหลดเป็นสื่ออธิบายเชิงภาพที่ชัดเจน และให้เหตุผลเกี่ยวกับโครงสร้างภาพก่อนสร้าง
- ในโหมดนี้ Images 2.0 จะทำหน้าที่เป็น พาร์ตเนอร์ด้านการคิดเชิงภาพ ช่วยลดภาระงานของผู้ใช้ได้มากตั้งแต่แนวคิดร่างแรกจนถึงแอสเซ็ตที่เสร็จสมบูรณ์
- ในโหมด thinking สามารถ สร้างหลายภาพที่แตกต่างกันพร้อมกันได้ในครั้งเดียว — เป็นความสามารถครั้งแรกของการสร้างภาพใน ChatGPT
- รองรับเวิร์กโฟลว์ เช่น ชุดหน้าการ์ตูนต่อเนื่อง ทิศทางการรีดีไซน์ทั้งบ้าน กลุ่มคอนเซปต์โปสเตอร์ และชุดกราฟิกโซเชียลหลายอัตราส่วนภาพและหลายภาษา
- แทนที่จะต้องพรอมป์ต์ภาพทีละภาพแล้วนำมาประกอบเอง ผู้ใช้สามารถขอ ผลลัพธ์ที่สอดคล้องกันได้สูงสุด 10 ภาพ โดยคงความต่อเนื่องของตัวละครและวัตถุ ในครั้งเดียว
- โดยแต่ละผลลัพธ์จะต่อยอดจากผลลัพธ์ก่อนหน้าแบบลำดับต่อเนื่อง
4 ความคิดเห็น
มีการใส่การให้เหตุผลเข้าไปในภาพด้วย เลยทำให้ผลลัพธ์สุดยอดมาก
แค่โยนคีย์เวิร์ดที่เกี่ยวกับธุรกิจใหม่แบบง่าย ๆ เข้าไป
มันก็อนุมานไปถึงข้อความหลัก/จุดเจ็บปวด แล้วหลอมรวมลงไปในหน้าแลนดิ้งเพจได้เลย
การดึงสีแบรนด์ โทนข้อความแบรนด์ ไปจนถึงโมเดลจากเว็บไซต์ที่บอกให้ใช้อ้างอิงมาแบบเดิม ๆ นี่ถือเป็นพื้นฐานไปแล้ว
แม้แต่ภาษาเกาหลีก็ไม่เพี้ยนเลย ดูแล้วต่อจากนี้น่าจะเอาไปใช้ประโยชน์ได้มหาศาล..
ตอนนี้เริ่มรู้สึกว่าพัฒนาการของ AI น่ากลัวขึ้นเรื่อย ๆ แล้วครับ
สุดยอดมากครับ ตอนที่ Nano Banana ออกมาก็ว่าทึ่งแล้ว แต่นี่ดีขึ้นไปอีก ดูเหมือนว่าพอมีการแข่งขัน การพัฒนาก็ยิ่งเร็วขึ้นครับ
โอ้.. เรื่องการจัดการตัวอักษรก่อนหน้านี้เหมือนจะเป็นระดับ Nano Banana แต่ครั้งนี้ดูเหมือนจะลับคมมาเต็มที่นะ
ผมทำข้อความทั้งหมดในบทความแนะนำให้กลายเป็นภาพแล้ว
สามารถเลื่อนดูทั้งบทความได้โดยที่ทั้งหมดเป็นภาพเลย
ลายมือเขียนตรงกลางน่าประทับใจดี
ความคิดเห็นจาก Hacker News
gpt-image-2สร้างภาพสไตล์ Where's Waldo ที่ให้ "หารัคคูนที่ถือวิทยุแฮม" และโค้ดอยู่ที่นี่ ผลลัพธ์คือภาพนี้ แต่เอาเข้าจริงฉันก็ยังไม่แน่ใจว่า รัคคูน ตัวนั้นถือวิทยุแฮมอยู่หรือเปล่า ปกติการทดสอบแนว Where's Waldo แบบนี้ฉันไม่ค่อยมีความอดทนพอจะหาจนจบgemini-3.1-flash-image-previewจะใช้ 2,520 โทเค็น คิดเป็นประมาณ $0.151 ต่อภาพ ส่วนถ้าใช้gpt-image-2สร้างภาพ 3840x2160 จะใช้ 13,342 โทเค็น คิดเป็นประมาณ $0.4 ดังนั้นโมเดลนี้แพงกว่า Gemini มากกว่า 2 เท่าgpt-image-1.5ของ OpenAI กับ NB2 ของ Google สูสีกันมากบนเว็บเปรียบเทียบของฉัน ในการประเมินที่เน้นการทำตามพรอมป์ต์ ทั้งคู่ทำสำเร็จราว 70% สำหรับเกณฑ์การสร้างและแก้ไข ส่วนคุณภาพงานภาพ Gemini จะเหนือกว่าอยู่เสมอ ถึงอย่างนั้นgpt-image-1.5ก็ถือเป็นก้าวกระโดดใหญ่ของฝั่ง OpenAI และแก้ปัญหาเรื้อรังเก่าๆ อย่างสิ่งที่เคยถูกเรียกว่า "piss filter" ไปได้มาก กราฟเปรียบเทียบดูได้ที่งานแก้ไขที่นี่ และงานสร้างที่นี่ ตามอัปเดตล่าสุดgpt-image-2ผ่านโจทย์ดาว 9 แฉกที่เคยเป็น model killer ของชุดทดสอบ และในเบนช์มาร์ก text-to-image มันทำถูก 12 ข้อ จาก 15 ข้อ แซงโมเดลที่ดีที่สุดเดิมไป 1 คะแนน อย่างไรก็ตาม มันยังพลาดพรอมป์ต์งู coral snake ที่ลำดับสีต้องเป๊ะ, D20 ที่ให้เขียนจำนวนเฉพาะ 20 ตัวแรกลงบนแต่ละหน้า, และดาวเคราะห์โลกแบนที่มีคนล้นออกมาตามขอบ การเปรียบเทียบทั้งหมดอยู่ที่ All Models และถ้าดูเฉพาะโมเดลหลักอยู่ที่นี่GPT-Image-2ได้ค่อนข้างดี งานวิจัยอยู่ที่นี่ และฉันก็เอาสองอย่างนี้มารวมกันทำเป็น ตัวตรวจจับภาพ AI แบบ on-device ด้วยตัวเอง