เปิดตัว ChatGPT Images 2.0

(openai.com)

5 คะแนน โดย GN⁺ 8 일 전 | 4 ความคิดเห็น | แชร์ทาง WhatsApp

OpenAI เปิดตัว โมเดลสร้างภาพรุ่นถัดไป โดยแม้แต่บทความแนะนำก็ไม่ได้เขียนข้อความอธิบายไว้ตรง ๆ แต่ใส่ไว้เป็นข้อความในภาพที่สร้างด้วย Images 2.0 เท่านั้น
มุ่งเน้นการสร้างผลลัพธ์ที่พร้อมใช้งานทันที สำหรับงานภาพที่ซับซ้อนและการเรนเดอร์ข้อความอย่างแม่นยำ
เป็น โมเดลภาพตัวแรกที่มีความสามารถด้านการคิด (thinking) สามารถค้นหาเว็บ สร้างภาพหลายภาพพร้อมกัน และตรวจสอบผลลัพธ์ที่สร้างได้ด้วยตัวเอง
ประสิทธิภาพการเรนเดอร์อักษรที่ไม่ใช่ละตินดีขึ้นอย่างมาก เช่น ภาษาญี่ปุ่น จีน ฮินดี เบงกาลี จึงใช้งานได้จริงกับงานออกแบบหลายภาษา
รองรับ อัตราส่วนภาพที่ยืดหยุ่น ตั้งแต่ 3:1 ถึง 1:3 จึงปรับใช้ได้ทันทีทั้งแบนเนอร์ โปสเตอร์ และหน้าจอมือถือในหลายฟอร์แมต
ชูแนวทางการเปลี่ยนจากเครื่องมือเรนเดอร์ไปสู่ ระบบการออกแบบเชิงกลยุทธ์ และใช้งานได้ทั่วทั้ง ChatGPT, Codex และ API

ยุคใหม่ของการสร้างภาพ

นิยามภาพไม่ใช่เพียงของตกแต่ง แต่เป็น รูปแบบหนึ่งของภาษา ที่ใช้ได้ทั้งอธิบายกลไก สร้างบรรยากาศ ตรวจสอบไอเดีย และถ่ายทอดข้อโต้แย้ง
หลังจาก ChatGPT Images ที่เปิดตัวเมื่อ 1 ปีก่อนพิสูจน์ว่า AI image สามารถทั้งสวยงามและมีประโยชน์ได้ Images 2.0 คือ โมเดลรุ่นถัดไปที่จัดการงานภาพซับซ้อนได้อย่างแม่นยำ
ถ่ายทอดรายละเอียดตามคำสั่งได้ครบถ้วน, จัดวางวัตถุและความสัมพันธ์ได้ถูกต้อง และพัฒนาขึ้นอย่างก้าวกระโดดในการเรนเดอร์ข้อความหนาแน่น
เด่นทั้งด้านองค์ประกอบภาพและเซนส์ด้านภาพ จนผลลัพธ์ ให้ความรู้สึกเหมือนงานออกแบบที่ตั้งใจสร้าง ไม่ใช่ภาพที่ AI สร้างขึ้น
ทำงานได้แม่นยำในหลายภาษา และใช้ความรู้ด้านภาพและความรู้เกี่ยวกับโลกที่ขยายขึ้น ทำให้ สร้างภาพได้ฉลาดขึ้นด้วยพรอมป์ตที่น้อยลง
โมเดลนี้ผสาน ความฉลาดของโมเดลการให้เหตุผลของ OpenAI เข้ากับความเข้าใจโลกเชิงภาพ เปลี่ยนการสร้างภาพจากการเรนเดอร์ธรรมดาไปสู่การออกแบบเชิงกลยุทธ์ และจากเครื่องมือไปสู่ ระบบภาพ
พร้อมใช้งานตั้งแต่วันนี้สำหรับผู้ใช้ทั้งหมดของ ChatGPT, Codex และ API

ความแม่นยำและการควบคุมที่สูงขึ้น

Images 2.0 มอบ ความเฉพาะเจาะจงและความเที่ยงตรงที่ไม่เคยมีมาก่อน ในการสร้างภาพ
ไม่เพียงออกแบบภาพที่ซับซ้อนได้ละเอียดยิ่งขึ้น แต่ยังทำออกมาได้อย่างมีประสิทธิภาพ โดยเด่นในด้านการทำตามคำสั่ง การคงรายละเอียดตามที่ร้องขอ และการเรนเดอร์องค์ประกอบย่อยละเอียด
จัดการ ข้อความขนาดเล็ก, ไอคอน, องค์ประกอบ UI, องค์ประกอบที่หนาแน่น, ข้อกำหนดด้านสไตล์ที่ละเอียดอ่อน ซึ่งโมเดลภาพก่อนหน้านี้ทำได้ไม่ดีนัก ได้ที่ความละเอียดสูงสุด 2K
สร้าง ผลลัพธ์ที่พร้อมใช้งานได้จริงทันที ไม่ใช่แค่ “ภาพที่คล้าย ๆ กันโดยประมาณ”

รองรับข้อความหลายภาษาได้ดียิ่งขึ้น

โมเดลเดิมมีประสิทธิภาพสม่ำเสมอในภาษาอังกฤษและภาษาที่ใช้อักษรละติน แต่ยังขาดประสิทธิภาพในการจัดการอักษรที่ไม่ใช่ละตินเมื่อข้อความซับซ้อนหรือหนาแน่น
Images 2.0 ปรับปรุง ความเข้าใจหลายภาษา และพัฒนาอย่างมากโดยเฉพาะในการเรนเดอร์ข้อความที่ไม่ใช่อักษรละตินของ ภาษาญี่ปุ่น จีน ฮินดี เบงกาลี
ไม่เพียงเรนเดอร์ข้อความที่ไม่ใช่ภาษาอังกฤษได้อย่างถูกต้อง แต่ยังสร้าง ผลลัพธ์ที่ลื่นไหลเป็นธรรมชาติทางภาษา ได้ด้วย
ก้าวข้ามการแปลป้ายกำกับธรรมดา ไปสู่การรักษาความสอดคล้องทางภาพใน โปสเตอร์, เอกสารอธิบาย, ไดอะแกรม, การ์ตูน ที่ภาษาเป็นส่วนหนึ่งของงานออกแบบ
ทำให้ผู้ใช้สามารถสร้างงานภาพใน ภาษาที่ใช้งานจริงของตนเอง ได้ จึงเพิ่มศักยภาพในการใช้งานระดับโลก

ความประณีตของสไตล์และความสมจริง

Images 2.0 ยกระดับ ความเที่ยงตรงในสไตล์ภาพที่หลากหลาย อย่างมาก
ปรับปรุงความสม่ำเสมอของพื้นผิว แสง องค์ประกอบ และรายละเอียด ทั้งในลักษณะเฉพาะของภาพถ่าย (รวมถึง ตำหนิเล็ก ๆ ที่เพิ่มความสมจริง), ภาพนิ่งจากภาพยนตร์, พิกเซลอาร์ต, การ์ตูน และภาษาภาพเฉพาะตัวอื่น ๆ
สร้าง ผลลัพธ์ที่สะท้อนสไตล์ที่ขอได้อย่างซื่อตรง ไม่ใช่เพียงเลียนแบบอย่างคร่าว ๆ
มีประโยชน์อย่างยิ่งกับ การทำต้นแบบเกม, สตอรีบอร์ด, ครีเอทีฟด้านการตลาด และการสร้างแอสเซ็ตสำหรับสื่อหรือแนวงานเฉพาะ

รองรับอัตราส่วนภาพที่ยืดหยุ่น

รองรับอัตราส่วนภาพได้กว้างตั้งแต่ 3:1 (แนวนอน) ถึง 1:3 (แนวตั้ง)
สร้าง ผลลัพธ์ที่ตรงกับฟอร์แมตที่ต้องการ ได้ทันที ทั้งแบนเนอร์แนวกว้าง สไลด์พรีเซนเทชัน โปสเตอร์ หน้าจอมือถือ ที่คั่นหน้า และโซเชียลกราฟิก
สามารถระบุอัตราส่วนภาพที่ต้องการในพรอมป์ต หรือเลือกจาก ตัวเลือกพรีเซ็ต เพื่อสร้างใหม่ในขนาดใหม่ได้

ความฉลาดที่เข้าใจโลกจริง

Images 2.0 สะท้อน ความเข้าใจโลกที่อัปเดตยิ่งขึ้น ในการสร้างภาพ โดยอัปเดต knowledge cutoff เป็น ธันวาคม 2025
ได้เปรียบในงานอย่างเอกสารอธิบาย แผนที่ กราฟิกการศึกษา และสรุปภาพ ที่ ความถูกต้องและความชัดเจนสำคัญพอ ๆ กับความสวยงาม
ด้วยความฉลาดที่เพิ่มขึ้น จึงทำ งานแบบ end-to-end ตั้งแต่สังเคราะห์ข้อมูล เขียนคัดลอกข้อความ ไปจนถึงการทำภาพ ได้
- มีเซนส์การออกแบบที่สะอาดและเป็นระบบ โดยคำนึงถึงการจัดวางพื้นที่ว่าง ความอ่านง่าย และลำดับการไหลของข้อมูล

คู่คิดด้านการมองเห็น

เมื่อเลือก โมเดล thinking หรือ pro โมเดลจะใช้เวลามากขึ้นเพื่อ เข้าใจงานและลงมือทำแบบเอเจนติก
สามารถค้นหาข้อมูลที่เกี่ยวข้องบนเว็บ แปลงเนื้อหาที่อัปโหลดให้เป็นเอกสารภาพอธิบายที่ชัดเจน และให้เหตุผลเกี่ยวกับโครงสร้างของภาพก่อนสร้าง
ในโหมดนี้ Images 2.0 ทำหน้าที่เป็น คู่คิดด้านการมองเห็น ช่วยลดภาระงานของผู้ใช้ได้อย่างมาก ตั้งแต่แนวคิดร่างแรกไปจนถึงแอสเซ็ตที่เสร็จสมบูรณ์
ในโหมด thinking สามารถ สร้างภาพหลายภาพที่แตกต่างกันพร้อมกันได้ในครั้งเดียว — เป็นความสามารถครั้งแรกของการสร้างภาพใน ChatGPT
- รองรับเวิร์กโฟลว์อย่างหน้าการ์ตูนต่อเนื่อง ทิศทางรีดีไซน์ทั้งบ้าน ชุดคอนเซปต์โปสเตอร์ และชุดโซเชียลกราฟิกหลายอัตราส่วนและหลายภาษา
แทนที่จะต้องพรอมป์ตภาพทีละภาพแล้วนำมาประกอบเอง ผู้ใช้สามารถขอ ผลลัพธ์ที่สอดคล้องกันได้สูงสุด 10 ภาพ โดยคงความต่อเนื่องของตัวละครและวัตถุ ได้ในครั้งเดียว
- โดยแต่ละผลลัพธ์จะค่อย ๆ ต่อเนื่องจากผลลัพธ์ก่อนหน้า

4 ความคิดเห็น

j2sus91 8 일 전

มีการใส่การให้เหตุผลเข้าไปในภาพด้วย เลยทำให้ผลลัพธ์สุดยอดมาก

แค่โยนคีย์เวิร์ดที่เกี่ยวกับธุรกิจใหม่แบบง่าย ๆ เข้าไป
มันก็อนุมานไปถึงข้อความหลัก/จุดเจ็บปวด แล้วหลอมรวมลงไปในหน้าแลนดิ้งเพจได้เลย

การดึงสีแบรนด์ โทนข้อความแบรนด์ ไปจนถึงโมเดลจากเว็บไซต์ที่บอกให้ใช้อ้างอิงมาแบบเดิม ๆ นี่ถือเป็นพื้นฐานไปแล้ว
แม้แต่ภาษาเกาหลีก็ไม่เพี้ยนเลย ดูแล้วต่อจากนี้น่าจะเอาไปใช้ประโยชน์ได้มหาศาล..

ตอนนี้เริ่มรู้สึกว่าพัฒนาการของ AI น่ากลัวขึ้นเรื่อย ๆ แล้วครับ

kirinonakar 8 일 전

สุดยอดมากครับ ตอนที่ Nano Banana ออกมาก็ว่าทึ่งแล้ว แต่นี่ดีขึ้นไปอีก ดูเหมือนว่าพอมีการแข่งขัน การพัฒนาก็ยิ่งเร็วขึ้นครับ

xguru 8 일 전

โอ้.. เรื่องการจัดการตัวอักษรก่อนหน้านี้เหมือนจะเป็นระดับ Nano Banana แต่ครั้งนี้ดูเหมือนจะลับคมมาเต็มที่นะ
ผมทำข้อความทั้งหมดในบทความแนะนำให้กลายเป็นภาพแล้ว
สามารถเลื่อนดูทั้งบทความได้โดยที่ทั้งหมดเป็นภาพเลย
ลายมือเขียนตรงกลางน่าประทับใจดี

GN⁺ 8 일 전

ความคิดเห็นจาก Hacker News

ฉันทดลองโมเดลใหม่นี้แบบนี้ ใช้ gpt-image-2 สร้างภาพสไตล์ Where's Waldo ที่ให้ "หารัคคูนที่ถือวิทยุแฮม" และโค้ดอยู่ที่นี่ ผลลัพธ์คือภาพนี้ แต่เอาเข้าจริงฉันก็ยังไม่แน่ใจว่า รัคคูน ตัวนั้นถือวิทยุแฮมอยู่หรือเปล่า ปกติการทดสอบแนว Where's Waldo แบบนี้ฉันไม่ค่อยมีความอดทนพอจะหาจนจบ
- ฉันลองรันใหม่ด้วยคำสั่งที่ใช้ความละเอียดสูงสุดแล้วได้ผลลัพธ์ที่ดีกว่ามาก อ้างอิงขนาดที่ OpenAI cookbook แนะนำ(ลิงก์) และผลลัพธ์อยู่ที่นี่ รอบนี้ฉันหารัคคูนเจอแล้วด้วย และภาพหนึ่งน่าจะมีค่าใช้จ่ายประมาณ 40 เซนต์
- ฉันขอบคุณสำหรับภาพนั้นนะ แต่หน้าคนมันประหลาดเกินไปจนรู้สึกเหมือนจะไปโผล่ใน ฝันร้าย
- ฉันมองว่าพรอมป์ต์นี้เป็นโจทย์ที่โหดร้ายมากสำหรับโมเดลสาย diffusion ในตอนนี้ เพราะงั้นแค่ที่มันพยายามทำก็รู้สึกว่าน่าทึ่งแล้ว
- พอเห็นคำว่า "ไม่มีความอดทนพอจะหาจนจบ" ฉันก็รู้สึกว่านี่น่าจะเอาไปทำเป็น AI benchmark แบบใหม่ ได้เลย
- ฉันรู้สึกว่างานประเภทนี้ดูเหมือนเป็นพื้นที่ที่ AI จะยังอ่อนเรื่อง รายละเอียดเชิงโครงสร้าง ต่อไป มองไกลๆ ดูน่าเชื่อ แต่พอดูใกล้ๆ จะเจอหน้าคนเหมือนกำลังกรีดร้อง ป้ายที่ชี้สองทางพร้อมกัน เต็นท์ฉุกเฉินที่ไม่มีอยู่จริง สุนัขที่ดูเหมือนสัตว์ประหลาด และข้อผิดพลาดอีกเยอะมาก แม้แต่ตัวอย่างโปรโมตก็คล้ายกัน และพวกตัวอย่างกายวิภาคหรือ ตารางธาตุก็พังถ้าดูละเอียด สุดท้ายเลยอดตั้งคำถามไม่ได้ว่าเรากำลังใช้ RAM & GPUs ปริมาณมหาศาล พร้อมน้ำและไฟฟ้า เพื่อสร้าง Where's Waldo ที่แย่กว่าเดิมหรือเปล่า
ตอนทดลอง Nano Banana Pro ฉันทำพรอมป์ต์ที่สนุกมากเพื่อทดสอบความสามารถในการ ทำตามกฎ ของโมเดลภาพ ประมาณว่า "วาง Pokémon ที่มีหมายเลข National Pokédex ตรงกับจำนวนเฉพาะ 64 ตัวแรกลงในกริด 8x8 และวาดด้วยสไตล์ 8-bit, charcoal, Ukiyo-e ตามจำนวนหลักของหมายเลข" ผลของ NBP อยู่ที่นี่ ซึ่งหมายเลข, Pokémon และสไตล์โดยรวมถือว่าถูก แต่ก็มีประเด็นว่าสไตล์ที่ใช้ดูขี้เกียจและภาพอาจดูเหมือนลอกมา ส่วนผลจากการใช้พรอมป์ต์เดียวกันกับ gpt-2-image high อยู่ที่นี่ ซึ่งมันสร้างสไตล์ที่ดูสร้างสรรค์และเป็นต้นฉบับกว่า แต่ตรรกะการใช้สไตล์กลับอิงตาม แถว แทนที่จะอิงตัวเลข, Pokémon บางตัวก็ผิด, ฟอนต์ก็ผิด, ด้านล่างก็ไม่เป็นสี่เหลี่ยมจัตุรัส เป็นผลลัพธ์ที่แปลกดี
- ฉันว่าการทดสอบนี้ยอดเยี่ยมมาก และในขณะเดียวกันก็ขำหน่อยๆ ที่ gpt-2-image ออกมาแย่ได้ขนาดนี้ ถึงขั้นทำให้รู้สึกว่าภาพแบบ plagiarized ที่เหมือนไปค้นแล้วก๊อปมาน่าจะยังดีกว่า อย่างน้อยก็เหมือนไม่มีแม้แต่ sanity check หรือขั้นตอนหลังประมวลผลเพื่อตรวจว่า "ทำตามคำสั่งถูกไหม" ทั้งที่ข้อผิดพลาดเรื่องข้อจำกัดสไตล์ตามจำนวนหลักน่าจะจับได้ง่าย แถมยังราคาแพงอีก เลยยิ่งน่าเสียดายถ้าผลงานออกมาแทบใช้งานไม่ได้
- ฉันกลับสงสัยมากกว่าว่าทำไมพรอมป์ต์นี้ถึงถูกมองว่าเป็น พรอมป์ต์ที่ดี
ฉันสรุปว่า ถ้าสร้างภาพ 4096x4096 ด้วย gemini-3.1-flash-image-preview จะใช้ 2,520 โทเค็น คิดเป็นประมาณ $0.151 ต่อภาพ ส่วนถ้าใช้ gpt-image-2 สร้างภาพ 3840x2160 จะใช้ 13,342 โทเค็น คิดเป็นประมาณ $0.4 ดังนั้นโมเดลนี้แพงกว่า Gemini มากกว่า 2 เท่า
- ฉันว่าการเปรียบเทียบนี้เป็นแบบ apples to oranges เพราะมันเหมือนเอาเวอร์ชัน flash ไปเทียบกับเวอร์ชันเต็ม และในรายละเอียดเล็กๆ น้อยๆ ตัวนี้ให้ความรู้สึกว่าดีกว่า flash ราว 5 เท่า
ฉันมี hard prompt ที่ใช้ประจำเวลาทดสอบโมเดลสร้างภาพ เป็นการยัดเงื่อนไขหลายอย่างพร้อมกัน เช่น มือของช่างซ่อมนาฬิกาเก่า, นาฬิกาพกวินเทจ, น้ำตื้น, การหักเหและ caustics, หยดน้ำที่กำลังตก, ใบหน้าที่บิดเบี้ยวสะท้อนบนผิวแก้ว, เลนส์ macro 100mm ผลลัพธ์อยู่ใน Google Drive และฉันลองหลายรอบทั้งบนเว็บและ API แต่โดยรวมยังไม่ดีเท่า Nano Banana
- ฉันสงสัยว่าทำไมถึงคิดว่านี่เป็น พรอมป์ต์ที่ดี
- ฉันพยายามเปิดภาพที่แชร์ไว้ แต่ดูเหมือนฝั่งโฮสต์จะติด rate limit เลยอยากแจ้งไว้
- ฉันยืนยันได้ว่าลิงก์ดูเหมือน เสีย
ฉันมองว่า gpt-image-1.5 ของ OpenAI กับ NB2 ของ Google สูสีกันมากบนเว็บเปรียบเทียบของฉัน ในการประเมินที่เน้นการทำตามพรอมป์ต์ ทั้งคู่ทำสำเร็จราว 70% สำหรับเกณฑ์การสร้างและแก้ไข ส่วนคุณภาพงานภาพ Gemini จะเหนือกว่าอยู่เสมอ ถึงอย่างนั้น gpt-image-1.5 ก็ถือเป็นก้าวกระโดดใหญ่ของฝั่ง OpenAI และแก้ปัญหาเรื้อรังเก่าๆ อย่างสิ่งที่เคยถูกเรียกว่า "piss filter" ไปได้มาก กราฟเปรียบเทียบดูได้ที่งานแก้ไขที่นี่ และงานสร้างที่นี่ ตามอัปเดตล่าสุด gpt-image-2 ผ่านโจทย์ดาว 9 แฉกที่เคยเป็น model killer ของชุดทดสอบ และในเบนช์มาร์ก text-to-image มันทำถูก 12 ข้อ จาก 15 ข้อ แซงโมเดลที่ดีที่สุดเดิมไป 1 คะแนน อย่างไรก็ตาม มันยังพลาดพรอมป์ต์งู coral snake ที่ลำดับสีต้องเป๊ะ, D20 ที่ให้เขียนจำนวนเฉพาะ 20 ตัวแรกลงบนแต่ละหน้า, และดาวเคราะห์โลกแบนที่มีคนล้นออกมาตามขอบ การเปรียบเทียบทั้งหมดอยู่ที่ All Models และถ้าดูเฉพาะโมเดลหลักอยู่ที่นี่
ฉันสรุปราคาเปรียบเทียบไว้แล้ว GPT Image 2 แบบ Low สำหรับ 1024x1024 ราคา $0.006, 1024x1536 และ 1536x1024 ราคา $0.005 ส่วน Medium คือ $0.053, $0.041, $0.041 และ High คือ $0.211, $0.165, $0.165 ขณะที่ GPT Image 1 แบบ Low คือ $0.011, $0.016, $0.016, Medium คือ $0.042, $0.063, $0.063 และ High คือ $0.167, $0.25, $0.25
- ฉันว่าข้อจำกัดด้านความละเอียดที่มากขนาดนี้ดูแปลกนิดหน่อย สงสัยว่าถ้าทำให้ใหญ่กว่านี้ รายละเอียด จะพังตอนซูมหรือเปล่า หรือว่าแค่ต้นทุนจะพุ่งสูงมากเฉยๆ
- ฉันว่ามันน่าสนใจที่ใน v2 ภาพขนาดใหญ่แพงกว่าสี่เหลี่ยมจัตุรัสเล็ก แต่ใน v1 กลับตรงกันข้าม เลยสงสัยว่าทำไมถึงได้มี โครงสร้างราคา แบบนี้
ฉันยืนยันว่าคราวนี้มันผ่าน การทดสอบคีย์เปียโน แล้ว ตัวอย่างที่สำเร็จอยู่ที่นี่ แต่การติดป้าย middle C ยังผิดในความพยายามนี้ ถึงอย่างนั้นพอขอใหม่มันก็แก้ได้
- ตอน NB 2 ออกมา ฉันเพิ่มความยากของการทดสอบนี้อีก โดยสลับสีของ accidentals กับ naturals ทั้งหมด แต่มันก็ยังทำได้ถูกหมด ตัวอย่างอยู่ที่นี่
ฉันรู้สึกว่าการเรนเดอร์ ข้อความภาษาจีน ดีขึ้นอย่างเห็นได้ชัดและน่าประทับใจมาก ถึงอย่างนั้นภาพตัวอย่าง Wuxi ก็ยังมีคำผิดอยู่ เช่นใช้ตัว 笼 ใน 小笼包 ผิด และในส่วน "极小中文也清晰可读" ก็ยังมีคำผิดเพิ่มอีก แต่ไม่ได้ถึงกับอ่านไม่ได้ อย่างไรก็ดี รู้สึกได้ชัดว่ามันดีกว่าโมเดลสร้างภาพรุ่นก่อนๆ แบบทิ้งห่างมาก
- ฉันสงสัยว่ามันดีกว่า โมเดลจีน ที่พัฒนาในจีนเองด้วยหรือเปล่า เพราะฝั่งนั้นน่าจะมีตัวอย่างภาษาจีนในข้อมูลฝึกมากกว่าเยอะ และปกติก็น่าจะโฟกัสเรื่องนี้มากกว่า
ฉันคิดว่าตอนนี้เป็นจังหวะที่ดีในการพูดถึง C2PA มันเป็นมาตรฐานสำหรับยืนยันที่มาของภาพอย่างจริงจัง และ OpenAI ก็มีส่วนร่วมด้วย ถ้าฉันเอาภาพที่สร้างด้วย AI ไปใส่ใน C2PA Viewer มันจะแสดงแหล่งที่มาว่าเป็น ChatGPT แน่นอนว่าผู้ไม่หวังดีสามารถลบเมทาดาทาออกให้ภาพดูเหมือนภาพทั่วไปได้ แต่ในระยะยาวฉันคิดว่าภาพที่ไม่มีการระบุแหล่งที่มาควรถูกมองเป็น สัญญาณอันตราย แบบเดียวกับ non-https รายละเอียดเพิ่มเติมดูได้ที่ c2pa.org
- ฉันรู้สึกว่าปัญหานี้อาจไม่ได้เป็นแค่เรื่องของ bad actors อย่างเดียว เพราะแพลตฟอร์มส่วนใหญ่ เช่น Instagram, Facebook มักลบเมทาดาทาออกเป็นค่าเริ่มต้นด้วยเหตุผลด้านความเป็นส่วนตัว และ EXIF ก็อาจมีข้อมูลอย่างพิกัด, ชื่อไฟล์, เวลาสร้าง, ข้อมูลอุปกรณ์ ดังนั้นในตอนนี้ ปัญหาเชิงปฏิบัติที่ใหญ่กว่าการดัดแปลงโดยเจตนาร้าย อาจเป็นโครงสร้างที่เว็บไซต์ส่วนใหญ่ ลบเมทาดาทา ออกทันทีเมื่ออัปโหลดภาพมากกว่า
- ฉันอยากเสริมว่า OpenAI ใส่ C2PA manifests มากับภาพที่สร้างมาตั้งแต่แรกอยู่แล้ว และจากเกณฑ์ประเมินเล็กๆ ที่ฉันทดลองเอง ตัวตรวจจับภาพ AI สมัยใหม่แบบ ML อย่าง OmniAID จับภาพที่สร้างด้วย GPT-Image-2 ได้ค่อนข้างดี งานวิจัยอยู่ที่นี่ และฉันก็เอาสองอย่างนี้มารวมกันทำเป็น ตัวตรวจจับภาพ AI แบบ on-device ด้วยตัวเอง
ฉันใช้โมเดลนี้อยู่หลายชั่วโมงแล้ว และพูดตรงๆ ว่ามันค่อนข้าง น่าประทับใจ นี่เป็นครั้งแรกที่ฉันรู้สึกว่าโมเดลภาพช่วยงานจริงของฉันได้ โดยเฉพาะการทำสไลด์ PowerPoint และงานทำ mockup ที่รู้สึกว่ามันทรงพลังมาก