เปิดตัว ChatGPT Images 2.0

(openai.com)

6 คะแนน โดย GN⁺ 2026-04-22 | 4 ความคิดเห็น | แชร์ทาง WhatsApp

OpenAI เปิดตัว โมเดลสร้างภาพรุ่นถัดไป โดยไม่เขียนคำอธิบายเป็นข้อความในบทความแนะนำ แต่ใส่ไว้เป็นข้อความภายในภาพที่สร้างด้วย Images 2.0 เท่านั้น
มุ่งเน้นการสร้างผลงานที่พร้อมใช้งานทันที รวมถึงงานภาพที่ซับซ้อนและการเรนเดอร์ข้อความอย่างแม่นยำ
เป็น โมเดลภาพตัวแรกที่มีความสามารถด้านการคิด (thinking) สามารถค้นหาเว็บ สร้างหลายภาพพร้อมกัน และตรวจสอบผลลัพธ์ของตัวเองได้
ประสิทธิภาพการเรนเดอร์ อักขระที่ไม่ใช่ละตินดีขึ้นมาก เช่น ภาษาญี่ปุ่น เกาหลี จีน ฮินดี และเบงกาลี ทำให้นำไปใช้สร้างงานออกแบบหลายภาษาได้จริง
รองรับ อัตราส่วนภาพอย่างยืดหยุ่น ตั้งแต่ 3:1 ถึง 1:3 พร้อมใช้งานได้ทันทีในหลายรูปแบบ เช่น แบนเนอร์ โปสเตอร์ และหน้าจอมือถือ
ชูแนวคิดการเปลี่ยนผ่านจากเครื่องมือเรนเดอร์ไปสู่ ระบบออกแบบเชิงกลยุทธ์ และใช้งานได้ทั่วทั้ง ChatGPT, Codex และ API

ยุคใหม่ของการสร้างภาพ

นิยามภาพไม่ใช่แค่ของตกแต่ง แต่เป็น ภาษารูปแบบหนึ่ง ที่ใช้สำหรับอธิบายกลไก สร้างบรรยากาศ ทดสอบไอเดีย และสื่อสารข้อโต้แย้ง
หลังจาก ChatGPT Images ที่เปิดตัวเมื่อ 1 ปีก่อนพิสูจน์ว่า AI image สามารถทั้งสวยงามและมีประโยชน์ได้ Images 2.0 คือ โมเดลรุ่นถัดไปที่จัดการงานภาพซับซ้อนได้อย่างแม่นยำ
ทำตามคำสั่งรายละเอียดได้อย่างครบถ้วน ดีขึ้นมากทั้งด้านการวางตำแหน่งวัตถุอย่างแม่นยำ การแสดงความสัมพันธ์ระหว่างองค์ประกอบ และการเรนเดอร์ข้อความหนาแน่น
โดดเด่นทั้งด้านองค์ประกอบและสัมผัสเชิงภาพ จนผลลัพธ์ ให้ความรู้สึกเหมือนงานออกแบบที่ตั้งใจทำ ไม่ใช่ภาพที่ AI สร้าง
ทำงานได้อย่างแม่นยำในหลายภาษา และใช้ความรู้ด้านภาพและความรู้เกี่ยวกับโลกที่ขยายขึ้นเพื่อ สร้างภาพได้ฉลาดขึ้นแม้ใช้พรอมป์ต์น้อยลง
โมเดลนี้ผสาน ความฉลาดของโมเดลให้เหตุผลของ OpenAI เข้ากับความเข้าใจโลกเชิงภาพ เปลี่ยนการสร้างภาพจากการเรนเดอร์ธรรมดาไปเป็นการออกแบบเชิงกลยุทธ์ และจากเครื่องมือไปสู่ ระบบภาพ
เปิดให้ใช้งานตั้งแต่วันนี้แก่ผู้ใช้ทั้งหมดของ ChatGPT, Codex และ API

ความแม่นยำและการควบคุมที่สูงขึ้น

Images 2.0 มอบ ความเฉพาะเจาะจงและความเที่ยงตรงที่ไม่เคยมีมาก่อน ในการสร้างภาพ
ไม่เพียงจินตนาการภาพที่ซับซ้อนได้ดีขึ้น แต่ยังนำไปสร้างจริงได้อย่างมีประสิทธิภาพ โดยเด่นในด้านการทำตามคำสั่ง การรักษารายละเอียดตามที่ร้องขอ และการเรนเดอร์องค์ประกอบเล็ก ๆ
รองรับ ข้อความขนาดเล็ก ไอคอน องค์ประกอบ UI องค์ประกอบที่หนาแน่น และข้อกำหนดด้านสไตล์ที่ละเอียดอ่อน ซึ่งโมเดลภาพเดิมมักจัดการได้ไม่ดี โดยทำได้ที่ความละเอียดสูงสุด 2K
ไม่ใช่แค่ ภาพที่คล้าย ๆ กันโดยประมาณ แต่เป็นผลลัพธ์ที่ นำไปใช้งานได้จริงทันที

รองรับข้อความหลายภาษาได้ดียิ่งขึ้น

โมเดลเดิมให้ประสิทธิภาพค่อนข้างสม่ำเสมอในภาษาอังกฤษและภาษาที่ใช้อักษรละติน แต่ยังอ่อนในด้านการจัดการอักขระที่ไม่ใช่ละตินเมื่อข้อความซับซ้อนหรือหนาแน่น
Images 2.0 ปรับปรุง ความเข้าใจหลายภาษา และดีขึ้นอย่างมากโดยเฉพาะการเรนเดอร์ข้อความที่ไม่ใช่อักษรละตินใน ภาษาญี่ปุ่น เกาหลี จีน ฮินดี และเบงกาลี
ไม่เพียงเรนเดอร์ข้อความที่ไม่ใช่ภาษาอังกฤษได้ถูกต้อง แต่ยังสร้างผลลัพธ์ที่ ลื่นไหลเป็นธรรมชาติตามภาษา ได้ด้วย
ไม่ได้หยุดแค่การแปลป้ายกำกับ แต่ยังรักษาความสอดคล้องทางภาพใน โปสเตอร์ เอกสารอธิบาย ไดอะแกรม และการ์ตูน ที่ภาษาเป็นส่วนหนึ่งของงานออกแบบ
ผู้ใช้จึงสามารถสร้างภาพใน ภาษาที่ใช้งานจริงของตน ได้ ช่วยเพิ่มการใช้งานในระดับโลก

ความประณีตของสไตล์และความสมจริง

Images 2.0 ปรับปรุง ความเที่ยงตรงในสไตล์ภาพที่หลากหลาย อย่างมาก
ดีขึ้นอย่างสม่ำเสมอทั้งพื้นผิว แสง องค์ประกอบ และรายละเอียดของภาษาภาพเฉพาะทาง เช่น ลักษณะเฉพาะของภาพถ่าย รวมถึง ความไม่สมบูรณ์เล็กน้อย ที่ช่วยเพิ่มความสมจริง, ภาพนิ่งแบบภาพยนตร์, pixel art และ การ์ตูน
ไม่ใช่แค่ผลลัพธ์ที่ใกล้เคียงสไตล์ที่ขอ แต่เป็นผลลัพธ์ที่ ถ่ายทอดสไตล์นั้นได้อย่างซื่อตรง
มีประโยชน์อย่างยิ่งกับ การทำต้นแบบเกม, สตอรี่บอร์ด, มาร์เก็ตติ้งครีเอทีฟ และการสร้างแอสเซ็ตสำหรับสื่อหรือแนวเฉพาะ

รองรับอัตราส่วนภาพอย่างยืดหยุ่น

รองรับอัตราส่วนภาพอย่างกว้างตั้งแต่ 3:1 (แนวนอน) ถึง 1:3 (แนวตั้ง)
สร้างผลลัพธ์ให้ตรงกับรูปแบบที่ต้องการได้ทันที เช่น แบนเนอร์กว้าง สไลด์พรีเซนเทชัน โปสเตอร์ หน้าจอมือถือ บุ๊กมาร์ก และกราฟิกโซเชียล
สามารถระบุอัตราส่วนภาพที่ต้องการในพรอมป์ต์ หรือเลือกจาก ตัวเลือกพรีเซ็ต เพื่อสร้างใหม่ในขนาดใหม่ได้

ความฉลาดที่เข้าใจโลกจริง

Images 2.0 สะท้อน ความเข้าใจโลกที่อัปเดตมากขึ้น ในการสร้างภาพ โดยอัปเดต knowledge cutoff เป็น ธันวาคม 2025
เหมาะกับงานอย่างเอกสารอธิบาย แผนที่ กราฟิกการศึกษา และสรุปเชิงภาพ ซึ่ง ความถูกต้องและความชัดเจนสำคัญพอ ๆ กับความสวยงาม
ด้วยความฉลาดที่เพิ่มขึ้น จึงสามารถทำงานแบบ end-to-end ตั้งแต่สังเคราะห์ข้อมูล เขียนคัดลอกข้อความ ไปจนถึงการทำภาพข้อมูล
- มีเซนส์ด้านการออกแบบที่สะอาดและเป็นระบบ โดยคำนึงถึงการจัดวางพื้นที่ว่าง ความอ่านง่าย และลำดับการไหล

พาร์ตเนอร์ด้านการคิดเชิงภาพ

เมื่อเลือก thinking หรือโมเดล pro โมเดลจะใช้เวลามากขึ้นเพื่อ ทำความเข้าใจงานและลงมือทำแบบ agentic
สามารถค้นหาข้อมูลที่เกี่ยวข้องบนเว็บ แปลงเอกสารที่อัปโหลดเป็นสื่ออธิบายเชิงภาพที่ชัดเจน และให้เหตุผลเกี่ยวกับโครงสร้างภาพก่อนสร้าง
ในโหมดนี้ Images 2.0 จะทำหน้าที่เป็น พาร์ตเนอร์ด้านการคิดเชิงภาพ ช่วยลดภาระงานของผู้ใช้ได้มากตั้งแต่แนวคิดร่างแรกจนถึงแอสเซ็ตที่เสร็จสมบูรณ์
ในโหมด thinking สามารถ สร้างหลายภาพที่แตกต่างกันพร้อมกันได้ในครั้งเดียว — เป็นความสามารถครั้งแรกของการสร้างภาพใน ChatGPT
- รองรับเวิร์กโฟลว์ เช่น ชุดหน้าการ์ตูนต่อเนื่อง ทิศทางการรีดีไซน์ทั้งบ้าน กลุ่มคอนเซปต์โปสเตอร์ และชุดกราฟิกโซเชียลหลายอัตราส่วนภาพและหลายภาษา
แทนที่จะต้องพรอมป์ต์ภาพทีละภาพแล้วนำมาประกอบเอง ผู้ใช้สามารถขอ ผลลัพธ์ที่สอดคล้องกันได้สูงสุด 10 ภาพ โดยคงความต่อเนื่องของตัวละครและวัตถุ ในครั้งเดียว
- โดยแต่ละผลลัพธ์จะต่อยอดจากผลลัพธ์ก่อนหน้าแบบลำดับต่อเนื่อง

4 ความคิดเห็น

j2sus91 2026-04-22

มีการใส่การให้เหตุผลเข้าไปในภาพด้วย เลยทำให้ผลลัพธ์สุดยอดมาก

แค่โยนคีย์เวิร์ดที่เกี่ยวกับธุรกิจใหม่แบบง่าย ๆ เข้าไป
มันก็อนุมานไปถึงข้อความหลัก/จุดเจ็บปวด แล้วหลอมรวมลงไปในหน้าแลนดิ้งเพจได้เลย

การดึงสีแบรนด์ โทนข้อความแบรนด์ ไปจนถึงโมเดลจากเว็บไซต์ที่บอกให้ใช้อ้างอิงมาแบบเดิม ๆ นี่ถือเป็นพื้นฐานไปแล้ว
แม้แต่ภาษาเกาหลีก็ไม่เพี้ยนเลย ดูแล้วต่อจากนี้น่าจะเอาไปใช้ประโยชน์ได้มหาศาล..

ตอนนี้เริ่มรู้สึกว่าพัฒนาการของ AI น่ากลัวขึ้นเรื่อย ๆ แล้วครับ

kirinonakar 2026-04-22

สุดยอดมากครับ ตอนที่ Nano Banana ออกมาก็ว่าทึ่งแล้ว แต่นี่ดีขึ้นไปอีก ดูเหมือนว่าพอมีการแข่งขัน การพัฒนาก็ยิ่งเร็วขึ้นครับ

xguru 2026-04-22

โอ้.. เรื่องการจัดการตัวอักษรก่อนหน้านี้เหมือนจะเป็นระดับ Nano Banana แต่ครั้งนี้ดูเหมือนจะลับคมมาเต็มที่นะ
ผมทำข้อความทั้งหมดในบทความแนะนำให้กลายเป็นภาพแล้ว
สามารถเลื่อนดูทั้งบทความได้โดยที่ทั้งหมดเป็นภาพเลย
ลายมือเขียนตรงกลางน่าประทับใจดี

GN⁺ 2026-04-22

ความคิดเห็นจาก Hacker News

ฉันทดลองโมเดลใหม่นี้แบบนี้ ใช้ gpt-image-2 สร้างภาพสไตล์ Where's Waldo ที่ให้ "หารัคคูนที่ถือวิทยุแฮม" และโค้ดอยู่ที่นี่ ผลลัพธ์คือภาพนี้ แต่เอาเข้าจริงฉันก็ยังไม่แน่ใจว่า รัคคูน ตัวนั้นถือวิทยุแฮมอยู่หรือเปล่า ปกติการทดสอบแนว Where's Waldo แบบนี้ฉันไม่ค่อยมีความอดทนพอจะหาจนจบ
- ฉันลองรันใหม่ด้วยคำสั่งที่ใช้ความละเอียดสูงสุดแล้วได้ผลลัพธ์ที่ดีกว่ามาก อ้างอิงขนาดที่ OpenAI cookbook แนะนำ(ลิงก์) และผลลัพธ์อยู่ที่นี่ รอบนี้ฉันหารัคคูนเจอแล้วด้วย และภาพหนึ่งน่าจะมีค่าใช้จ่ายประมาณ 40 เซนต์
- ฉันขอบคุณสำหรับภาพนั้นนะ แต่หน้าคนมันประหลาดเกินไปจนรู้สึกเหมือนจะไปโผล่ใน ฝันร้าย
- ฉันมองว่าพรอมป์ต์นี้เป็นโจทย์ที่โหดร้ายมากสำหรับโมเดลสาย diffusion ในตอนนี้ เพราะงั้นแค่ที่มันพยายามทำก็รู้สึกว่าน่าทึ่งแล้ว
- พอเห็นคำว่า "ไม่มีความอดทนพอจะหาจนจบ" ฉันก็รู้สึกว่านี่น่าจะเอาไปทำเป็น AI benchmark แบบใหม่ ได้เลย
- ฉันรู้สึกว่างานประเภทนี้ดูเหมือนเป็นพื้นที่ที่ AI จะยังอ่อนเรื่อง รายละเอียดเชิงโครงสร้าง ต่อไป มองไกลๆ ดูน่าเชื่อ แต่พอดูใกล้ๆ จะเจอหน้าคนเหมือนกำลังกรีดร้อง ป้ายที่ชี้สองทางพร้อมกัน เต็นท์ฉุกเฉินที่ไม่มีอยู่จริง สุนัขที่ดูเหมือนสัตว์ประหลาด และข้อผิดพลาดอีกเยอะมาก แม้แต่ตัวอย่างโปรโมตก็คล้ายกัน และพวกตัวอย่างกายวิภาคหรือ ตารางธาตุก็พังถ้าดูละเอียด สุดท้ายเลยอดตั้งคำถามไม่ได้ว่าเรากำลังใช้ RAM & GPUs ปริมาณมหาศาล พร้อมน้ำและไฟฟ้า เพื่อสร้าง Where's Waldo ที่แย่กว่าเดิมหรือเปล่า
ตอนทดลอง Nano Banana Pro ฉันทำพรอมป์ต์ที่สนุกมากเพื่อทดสอบความสามารถในการ ทำตามกฎ ของโมเดลภาพ ประมาณว่า "วาง Pokémon ที่มีหมายเลข National Pokédex ตรงกับจำนวนเฉพาะ 64 ตัวแรกลงในกริด 8x8 และวาดด้วยสไตล์ 8-bit, charcoal, Ukiyo-e ตามจำนวนหลักของหมายเลข" ผลของ NBP อยู่ที่นี่ ซึ่งหมายเลข, Pokémon และสไตล์โดยรวมถือว่าถูก แต่ก็มีประเด็นว่าสไตล์ที่ใช้ดูขี้เกียจและภาพอาจดูเหมือนลอกมา ส่วนผลจากการใช้พรอมป์ต์เดียวกันกับ gpt-2-image high อยู่ที่นี่ ซึ่งมันสร้างสไตล์ที่ดูสร้างสรรค์และเป็นต้นฉบับกว่า แต่ตรรกะการใช้สไตล์กลับอิงตาม แถว แทนที่จะอิงตัวเลข, Pokémon บางตัวก็ผิด, ฟอนต์ก็ผิด, ด้านล่างก็ไม่เป็นสี่เหลี่ยมจัตุรัส เป็นผลลัพธ์ที่แปลกดี
- ฉันว่าการทดสอบนี้ยอดเยี่ยมมาก และในขณะเดียวกันก็ขำหน่อยๆ ที่ gpt-2-image ออกมาแย่ได้ขนาดนี้ ถึงขั้นทำให้รู้สึกว่าภาพแบบ plagiarized ที่เหมือนไปค้นแล้วก๊อปมาน่าจะยังดีกว่า อย่างน้อยก็เหมือนไม่มีแม้แต่ sanity check หรือขั้นตอนหลังประมวลผลเพื่อตรวจว่า "ทำตามคำสั่งถูกไหม" ทั้งที่ข้อผิดพลาดเรื่องข้อจำกัดสไตล์ตามจำนวนหลักน่าจะจับได้ง่าย แถมยังราคาแพงอีก เลยยิ่งน่าเสียดายถ้าผลงานออกมาแทบใช้งานไม่ได้
- ฉันกลับสงสัยมากกว่าว่าทำไมพรอมป์ต์นี้ถึงถูกมองว่าเป็น พรอมป์ต์ที่ดี
ฉันสรุปว่า ถ้าสร้างภาพ 4096x4096 ด้วย gemini-3.1-flash-image-preview จะใช้ 2,520 โทเค็น คิดเป็นประมาณ $0.151 ต่อภาพ ส่วนถ้าใช้ gpt-image-2 สร้างภาพ 3840x2160 จะใช้ 13,342 โทเค็น คิดเป็นประมาณ $0.4 ดังนั้นโมเดลนี้แพงกว่า Gemini มากกว่า 2 เท่า
- ฉันว่าการเปรียบเทียบนี้เป็นแบบ apples to oranges เพราะมันเหมือนเอาเวอร์ชัน flash ไปเทียบกับเวอร์ชันเต็ม และในรายละเอียดเล็กๆ น้อยๆ ตัวนี้ให้ความรู้สึกว่าดีกว่า flash ราว 5 เท่า
ฉันมี hard prompt ที่ใช้ประจำเวลาทดสอบโมเดลสร้างภาพ เป็นการยัดเงื่อนไขหลายอย่างพร้อมกัน เช่น มือของช่างซ่อมนาฬิกาเก่า, นาฬิกาพกวินเทจ, น้ำตื้น, การหักเหและ caustics, หยดน้ำที่กำลังตก, ใบหน้าที่บิดเบี้ยวสะท้อนบนผิวแก้ว, เลนส์ macro 100mm ผลลัพธ์อยู่ใน Google Drive และฉันลองหลายรอบทั้งบนเว็บและ API แต่โดยรวมยังไม่ดีเท่า Nano Banana
- ฉันสงสัยว่าทำไมถึงคิดว่านี่เป็น พรอมป์ต์ที่ดี
- ฉันพยายามเปิดภาพที่แชร์ไว้ แต่ดูเหมือนฝั่งโฮสต์จะติด rate limit เลยอยากแจ้งไว้
- ฉันยืนยันได้ว่าลิงก์ดูเหมือน เสีย
ฉันมองว่า gpt-image-1.5 ของ OpenAI กับ NB2 ของ Google สูสีกันมากบนเว็บเปรียบเทียบของฉัน ในการประเมินที่เน้นการทำตามพรอมป์ต์ ทั้งคู่ทำสำเร็จราว 70% สำหรับเกณฑ์การสร้างและแก้ไข ส่วนคุณภาพงานภาพ Gemini จะเหนือกว่าอยู่เสมอ ถึงอย่างนั้น gpt-image-1.5 ก็ถือเป็นก้าวกระโดดใหญ่ของฝั่ง OpenAI และแก้ปัญหาเรื้อรังเก่าๆ อย่างสิ่งที่เคยถูกเรียกว่า "piss filter" ไปได้มาก กราฟเปรียบเทียบดูได้ที่งานแก้ไขที่นี่ และงานสร้างที่นี่ ตามอัปเดตล่าสุด gpt-image-2 ผ่านโจทย์ดาว 9 แฉกที่เคยเป็น model killer ของชุดทดสอบ และในเบนช์มาร์ก text-to-image มันทำถูก 12 ข้อ จาก 15 ข้อ แซงโมเดลที่ดีที่สุดเดิมไป 1 คะแนน อย่างไรก็ตาม มันยังพลาดพรอมป์ต์งู coral snake ที่ลำดับสีต้องเป๊ะ, D20 ที่ให้เขียนจำนวนเฉพาะ 20 ตัวแรกลงบนแต่ละหน้า, และดาวเคราะห์โลกแบนที่มีคนล้นออกมาตามขอบ การเปรียบเทียบทั้งหมดอยู่ที่ All Models และถ้าดูเฉพาะโมเดลหลักอยู่ที่นี่
ฉันสรุปราคาเปรียบเทียบไว้แล้ว GPT Image 2 แบบ Low สำหรับ 1024x1024 ราคา $0.006, 1024x1536 และ 1536x1024 ราคา $0.005 ส่วน Medium คือ $0.053, $0.041, $0.041 และ High คือ $0.211, $0.165, $0.165 ขณะที่ GPT Image 1 แบบ Low คือ $0.011, $0.016, $0.016, Medium คือ $0.042, $0.063, $0.063 และ High คือ $0.167, $0.25, $0.25
- ฉันว่าข้อจำกัดด้านความละเอียดที่มากขนาดนี้ดูแปลกนิดหน่อย สงสัยว่าถ้าทำให้ใหญ่กว่านี้ รายละเอียด จะพังตอนซูมหรือเปล่า หรือว่าแค่ต้นทุนจะพุ่งสูงมากเฉยๆ
- ฉันว่ามันน่าสนใจที่ใน v2 ภาพขนาดใหญ่แพงกว่าสี่เหลี่ยมจัตุรัสเล็ก แต่ใน v1 กลับตรงกันข้าม เลยสงสัยว่าทำไมถึงได้มี โครงสร้างราคา แบบนี้
ฉันยืนยันว่าคราวนี้มันผ่าน การทดสอบคีย์เปียโน แล้ว ตัวอย่างที่สำเร็จอยู่ที่นี่ แต่การติดป้าย middle C ยังผิดในความพยายามนี้ ถึงอย่างนั้นพอขอใหม่มันก็แก้ได้
- ตอน NB 2 ออกมา ฉันเพิ่มความยากของการทดสอบนี้อีก โดยสลับสีของ accidentals กับ naturals ทั้งหมด แต่มันก็ยังทำได้ถูกหมด ตัวอย่างอยู่ที่นี่
ฉันรู้สึกว่าการเรนเดอร์ ข้อความภาษาจีน ดีขึ้นอย่างเห็นได้ชัดและน่าประทับใจมาก ถึงอย่างนั้นภาพตัวอย่าง Wuxi ก็ยังมีคำผิดอยู่ เช่นใช้ตัว 笼 ใน 小笼包 ผิด และในส่วน "极小中文也清晰可读" ก็ยังมีคำผิดเพิ่มอีก แต่ไม่ได้ถึงกับอ่านไม่ได้ อย่างไรก็ดี รู้สึกได้ชัดว่ามันดีกว่าโมเดลสร้างภาพรุ่นก่อนๆ แบบทิ้งห่างมาก
- ฉันสงสัยว่ามันดีกว่า โมเดลจีน ที่พัฒนาในจีนเองด้วยหรือเปล่า เพราะฝั่งนั้นน่าจะมีตัวอย่างภาษาจีนในข้อมูลฝึกมากกว่าเยอะ และปกติก็น่าจะโฟกัสเรื่องนี้มากกว่า
ฉันคิดว่าตอนนี้เป็นจังหวะที่ดีในการพูดถึง C2PA มันเป็นมาตรฐานสำหรับยืนยันที่มาของภาพอย่างจริงจัง และ OpenAI ก็มีส่วนร่วมด้วย ถ้าฉันเอาภาพที่สร้างด้วย AI ไปใส่ใน C2PA Viewer มันจะแสดงแหล่งที่มาว่าเป็น ChatGPT แน่นอนว่าผู้ไม่หวังดีสามารถลบเมทาดาทาออกให้ภาพดูเหมือนภาพทั่วไปได้ แต่ในระยะยาวฉันคิดว่าภาพที่ไม่มีการระบุแหล่งที่มาควรถูกมองเป็น สัญญาณอันตราย แบบเดียวกับ non-https รายละเอียดเพิ่มเติมดูได้ที่ c2pa.org
- ฉันรู้สึกว่าปัญหานี้อาจไม่ได้เป็นแค่เรื่องของ bad actors อย่างเดียว เพราะแพลตฟอร์มส่วนใหญ่ เช่น Instagram, Facebook มักลบเมทาดาทาออกเป็นค่าเริ่มต้นด้วยเหตุผลด้านความเป็นส่วนตัว และ EXIF ก็อาจมีข้อมูลอย่างพิกัด, ชื่อไฟล์, เวลาสร้าง, ข้อมูลอุปกรณ์ ดังนั้นในตอนนี้ ปัญหาเชิงปฏิบัติที่ใหญ่กว่าการดัดแปลงโดยเจตนาร้าย อาจเป็นโครงสร้างที่เว็บไซต์ส่วนใหญ่ ลบเมทาดาทา ออกทันทีเมื่ออัปโหลดภาพมากกว่า
- ฉันอยากเสริมว่า OpenAI ใส่ C2PA manifests มากับภาพที่สร้างมาตั้งแต่แรกอยู่แล้ว และจากเกณฑ์ประเมินเล็กๆ ที่ฉันทดลองเอง ตัวตรวจจับภาพ AI สมัยใหม่แบบ ML อย่าง OmniAID จับภาพที่สร้างด้วย GPT-Image-2 ได้ค่อนข้างดี งานวิจัยอยู่ที่นี่ และฉันก็เอาสองอย่างนี้มารวมกันทำเป็น ตัวตรวจจับภาพ AI แบบ on-device ด้วยตัวเอง
ฉันใช้โมเดลนี้อยู่หลายชั่วโมงแล้ว และพูดตรงๆ ว่ามันค่อนข้าง น่าประทับใจ นี่เป็นครั้งแรกที่ฉันรู้สึกว่าโมเดลภาพช่วยงานจริงของฉันได้ โดยเฉพาะการทำสไลด์ PowerPoint และงานทำ mockup ที่รู้สึกว่ามันทรงพลังมาก