6 คะแนน โดย GN⁺ 2026-04-22 | 4 ความคิดเห็น | แชร์ทาง WhatsApp
  • OpenAI เปิดตัว โมเดลสร้างภาพรุ่นถัดไป โดยไม่เขียนคำอธิบายเป็นข้อความในบทความแนะนำ แต่ใส่ไว้เป็นข้อความภายในภาพที่สร้างด้วย Images 2.0 เท่านั้น
  • มุ่งเน้นการสร้างผลงานที่พร้อมใช้งานทันที รวมถึงงานภาพที่ซับซ้อนและการเรนเดอร์ข้อความอย่างแม่นยำ
  • เป็น โมเดลภาพตัวแรกที่มีความสามารถด้านการคิด (thinking) สามารถค้นหาเว็บ สร้างหลายภาพพร้อมกัน และตรวจสอบผลลัพธ์ของตัวเองได้
  • ประสิทธิภาพการเรนเดอร์ อักขระที่ไม่ใช่ละตินดีขึ้นมาก เช่น ภาษาญี่ปุ่น เกาหลี จีน ฮินดี และเบงกาลี ทำให้นำไปใช้สร้างงานออกแบบหลายภาษาได้จริง
  • รองรับ อัตราส่วนภาพอย่างยืดหยุ่น ตั้งแต่ 3:1 ถึง 1:3 พร้อมใช้งานได้ทันทีในหลายรูปแบบ เช่น แบนเนอร์ โปสเตอร์ และหน้าจอมือถือ
  • ชูแนวคิดการเปลี่ยนผ่านจากเครื่องมือเรนเดอร์ไปสู่ ระบบออกแบบเชิงกลยุทธ์ และใช้งานได้ทั่วทั้ง ChatGPT, Codex และ API

ยุคใหม่ของการสร้างภาพ

  • นิยามภาพไม่ใช่แค่ของตกแต่ง แต่เป็น ภาษารูปแบบหนึ่ง ที่ใช้สำหรับอธิบายกลไก สร้างบรรยากาศ ทดสอบไอเดีย และสื่อสารข้อโต้แย้ง
  • หลังจาก ChatGPT Images ที่เปิดตัวเมื่อ 1 ปีก่อนพิสูจน์ว่า AI image สามารถทั้งสวยงามและมีประโยชน์ได้ Images 2.0 คือ โมเดลรุ่นถัดไปที่จัดการงานภาพซับซ้อนได้อย่างแม่นยำ
  • ทำตามคำสั่งรายละเอียดได้อย่างครบถ้วน ดีขึ้นมากทั้งด้านการวางตำแหน่งวัตถุอย่างแม่นยำ การแสดงความสัมพันธ์ระหว่างองค์ประกอบ และการเรนเดอร์ข้อความหนาแน่น
  • โดดเด่นทั้งด้านองค์ประกอบและสัมผัสเชิงภาพ จนผลลัพธ์ ให้ความรู้สึกเหมือนงานออกแบบที่ตั้งใจทำ ไม่ใช่ภาพที่ AI สร้าง
  • ทำงานได้อย่างแม่นยำในหลายภาษา และใช้ความรู้ด้านภาพและความรู้เกี่ยวกับโลกที่ขยายขึ้นเพื่อ สร้างภาพได้ฉลาดขึ้นแม้ใช้พรอมป์ต์น้อยลง
  • โมเดลนี้ผสาน ความฉลาดของโมเดลให้เหตุผลของ OpenAI เข้ากับความเข้าใจโลกเชิงภาพ เปลี่ยนการสร้างภาพจากการเรนเดอร์ธรรมดาไปเป็นการออกแบบเชิงกลยุทธ์ และจากเครื่องมือไปสู่ ระบบภาพ
  • เปิดให้ใช้งานตั้งแต่วันนี้แก่ผู้ใช้ทั้งหมดของ ChatGPT, Codex และ API

ความแม่นยำและการควบคุมที่สูงขึ้น

  • Images 2.0 มอบ ความเฉพาะเจาะจงและความเที่ยงตรงที่ไม่เคยมีมาก่อน ในการสร้างภาพ
  • ไม่เพียงจินตนาการภาพที่ซับซ้อนได้ดีขึ้น แต่ยังนำไปสร้างจริงได้อย่างมีประสิทธิภาพ โดยเด่นในด้านการทำตามคำสั่ง การรักษารายละเอียดตามที่ร้องขอ และการเรนเดอร์องค์ประกอบเล็ก ๆ
  • รองรับ ข้อความขนาดเล็ก ไอคอน องค์ประกอบ UI องค์ประกอบที่หนาแน่น และข้อกำหนดด้านสไตล์ที่ละเอียดอ่อน ซึ่งโมเดลภาพเดิมมักจัดการได้ไม่ดี โดยทำได้ที่ความละเอียดสูงสุด 2K
  • ไม่ใช่แค่ ภาพที่คล้าย ๆ กันโดยประมาณ แต่เป็นผลลัพธ์ที่ นำไปใช้งานได้จริงทันที

รองรับข้อความหลายภาษาได้ดียิ่งขึ้น

  • โมเดลเดิมให้ประสิทธิภาพค่อนข้างสม่ำเสมอในภาษาอังกฤษและภาษาที่ใช้อักษรละติน แต่ยังอ่อนในด้านการจัดการอักขระที่ไม่ใช่ละตินเมื่อข้อความซับซ้อนหรือหนาแน่น
  • Images 2.0 ปรับปรุง ความเข้าใจหลายภาษา และดีขึ้นอย่างมากโดยเฉพาะการเรนเดอร์ข้อความที่ไม่ใช่อักษรละตินใน ภาษาญี่ปุ่น เกาหลี จีน ฮินดี และเบงกาลี
  • ไม่เพียงเรนเดอร์ข้อความที่ไม่ใช่ภาษาอังกฤษได้ถูกต้อง แต่ยังสร้างผลลัพธ์ที่ ลื่นไหลเป็นธรรมชาติตามภาษา ได้ด้วย
  • ไม่ได้หยุดแค่การแปลป้ายกำกับ แต่ยังรักษาความสอดคล้องทางภาพใน โปสเตอร์ เอกสารอธิบาย ไดอะแกรม และการ์ตูน ที่ภาษาเป็นส่วนหนึ่งของงานออกแบบ
  • ผู้ใช้จึงสามารถสร้างภาพใน ภาษาที่ใช้งานจริงของตน ได้ ช่วยเพิ่มการใช้งานในระดับโลก

ความประณีตของสไตล์และความสมจริง

  • Images 2.0 ปรับปรุง ความเที่ยงตรงในสไตล์ภาพที่หลากหลาย อย่างมาก
  • ดีขึ้นอย่างสม่ำเสมอทั้งพื้นผิว แสง องค์ประกอบ และรายละเอียดของภาษาภาพเฉพาะทาง เช่น ลักษณะเฉพาะของภาพถ่าย รวมถึง ความไม่สมบูรณ์เล็กน้อย ที่ช่วยเพิ่มความสมจริง, ภาพนิ่งแบบภาพยนตร์, pixel art และ การ์ตูน
  • ไม่ใช่แค่ผลลัพธ์ที่ใกล้เคียงสไตล์ที่ขอ แต่เป็นผลลัพธ์ที่ ถ่ายทอดสไตล์นั้นได้อย่างซื่อตรง
  • มีประโยชน์อย่างยิ่งกับ การทำต้นแบบเกม, สตอรี่บอร์ด, มาร์เก็ตติ้งครีเอทีฟ และการสร้างแอสเซ็ตสำหรับสื่อหรือแนวเฉพาะ

รองรับอัตราส่วนภาพอย่างยืดหยุ่น

  • รองรับอัตราส่วนภาพอย่างกว้างตั้งแต่ 3:1 (แนวนอน) ถึง 1:3 (แนวตั้ง)
  • สร้างผลลัพธ์ให้ตรงกับรูปแบบที่ต้องการได้ทันที เช่น แบนเนอร์กว้าง สไลด์พรีเซนเทชัน โปสเตอร์ หน้าจอมือถือ บุ๊กมาร์ก และกราฟิกโซเชียล
  • สามารถระบุอัตราส่วนภาพที่ต้องการในพรอมป์ต์ หรือเลือกจาก ตัวเลือกพรีเซ็ต เพื่อสร้างใหม่ในขนาดใหม่ได้

ความฉลาดที่เข้าใจโลกจริง

  • Images 2.0 สะท้อน ความเข้าใจโลกที่อัปเดตมากขึ้น ในการสร้างภาพ โดยอัปเดต knowledge cutoff เป็น ธันวาคม 2025
  • เหมาะกับงานอย่างเอกสารอธิบาย แผนที่ กราฟิกการศึกษา และสรุปเชิงภาพ ซึ่ง ความถูกต้องและความชัดเจนสำคัญพอ ๆ กับความสวยงาม
  • ด้วยความฉลาดที่เพิ่มขึ้น จึงสามารถทำงานแบบ end-to-end ตั้งแต่สังเคราะห์ข้อมูล เขียนคัดลอกข้อความ ไปจนถึงการทำภาพข้อมูล
    • มีเซนส์ด้านการออกแบบที่สะอาดและเป็นระบบ โดยคำนึงถึงการจัดวางพื้นที่ว่าง ความอ่านง่าย และลำดับการไหล

พาร์ตเนอร์ด้านการคิดเชิงภาพ

  • เมื่อเลือก thinking หรือโมเดล pro โมเดลจะใช้เวลามากขึ้นเพื่อ ทำความเข้าใจงานและลงมือทำแบบ agentic
  • สามารถค้นหาข้อมูลที่เกี่ยวข้องบนเว็บ แปลงเอกสารที่อัปโหลดเป็นสื่ออธิบายเชิงภาพที่ชัดเจน และให้เหตุผลเกี่ยวกับโครงสร้างภาพก่อนสร้าง
  • ในโหมดนี้ Images 2.0 จะทำหน้าที่เป็น พาร์ตเนอร์ด้านการคิดเชิงภาพ ช่วยลดภาระงานของผู้ใช้ได้มากตั้งแต่แนวคิดร่างแรกจนถึงแอสเซ็ตที่เสร็จสมบูรณ์
  • ในโหมด thinking สามารถ สร้างหลายภาพที่แตกต่างกันพร้อมกันได้ในครั้งเดียว — เป็นความสามารถครั้งแรกของการสร้างภาพใน ChatGPT
    • รองรับเวิร์กโฟลว์ เช่น ชุดหน้าการ์ตูนต่อเนื่อง ทิศทางการรีดีไซน์ทั้งบ้าน กลุ่มคอนเซปต์โปสเตอร์ และชุดกราฟิกโซเชียลหลายอัตราส่วนภาพและหลายภาษา
  • แทนที่จะต้องพรอมป์ต์ภาพทีละภาพแล้วนำมาประกอบเอง ผู้ใช้สามารถขอ ผลลัพธ์ที่สอดคล้องกันได้สูงสุด 10 ภาพ โดยคงความต่อเนื่องของตัวละครและวัตถุ ในครั้งเดียว
    • โดยแต่ละผลลัพธ์จะต่อยอดจากผลลัพธ์ก่อนหน้าแบบลำดับต่อเนื่อง

4 ความคิดเห็น

 
j2sus91 2026-04-22

มีการใส่การให้เหตุผลเข้าไปในภาพด้วย เลยทำให้ผลลัพธ์สุดยอดมาก

แค่โยนคีย์เวิร์ดที่เกี่ยวกับธุรกิจใหม่แบบง่าย ๆ เข้าไป
มันก็อนุมานไปถึงข้อความหลัก/จุดเจ็บปวด แล้วหลอมรวมลงไปในหน้าแลนดิ้งเพจได้เลย

การดึงสีแบรนด์ โทนข้อความแบรนด์ ไปจนถึงโมเดลจากเว็บไซต์ที่บอกให้ใช้อ้างอิงมาแบบเดิม ๆ นี่ถือเป็นพื้นฐานไปแล้ว
แม้แต่ภาษาเกาหลีก็ไม่เพี้ยนเลย ดูแล้วต่อจากนี้น่าจะเอาไปใช้ประโยชน์ได้มหาศาล..

ตอนนี้เริ่มรู้สึกว่าพัฒนาการของ AI น่ากลัวขึ้นเรื่อย ๆ แล้วครับ

 
kirinonakar 2026-04-22

สุดยอดมากครับ ตอนที่ Nano Banana ออกมาก็ว่าทึ่งแล้ว แต่นี่ดีขึ้นไปอีก ดูเหมือนว่าพอมีการแข่งขัน การพัฒนาก็ยิ่งเร็วขึ้นครับ

 
xguru 2026-04-22

โอ้.. เรื่องการจัดการตัวอักษรก่อนหน้านี้เหมือนจะเป็นระดับ Nano Banana แต่ครั้งนี้ดูเหมือนจะลับคมมาเต็มที่นะ
ผมทำข้อความทั้งหมดในบทความแนะนำให้กลายเป็นภาพแล้ว
สามารถเลื่อนดูทั้งบทความได้โดยที่ทั้งหมดเป็นภาพเลย
ลายมือเขียนตรงกลางน่าประทับใจดี

 
GN⁺ 2026-04-22
ความคิดเห็นจาก Hacker News
  • ฉันทดลองโมเดลใหม่นี้แบบนี้ ใช้ gpt-image-2 สร้างภาพสไตล์ Where's Waldo ที่ให้ "หารัคคูนที่ถือวิทยุแฮม" และโค้ดอยู่ที่นี่ ผลลัพธ์คือภาพนี้ แต่เอาเข้าจริงฉันก็ยังไม่แน่ใจว่า รัคคูน ตัวนั้นถือวิทยุแฮมอยู่หรือเปล่า ปกติการทดสอบแนว Where's Waldo แบบนี้ฉันไม่ค่อยมีความอดทนพอจะหาจนจบ
    • ฉันลองรันใหม่ด้วยคำสั่งที่ใช้ความละเอียดสูงสุดแล้วได้ผลลัพธ์ที่ดีกว่ามาก อ้างอิงขนาดที่ OpenAI cookbook แนะนำ(ลิงก์) และผลลัพธ์อยู่ที่นี่ รอบนี้ฉันหารัคคูนเจอแล้วด้วย และภาพหนึ่งน่าจะมีค่าใช้จ่ายประมาณ 40 เซนต์
    • ฉันขอบคุณสำหรับภาพนั้นนะ แต่หน้าคนมันประหลาดเกินไปจนรู้สึกเหมือนจะไปโผล่ใน ฝันร้าย
    • ฉันมองว่าพรอมป์ต์นี้เป็นโจทย์ที่โหดร้ายมากสำหรับโมเดลสาย diffusion ในตอนนี้ เพราะงั้นแค่ที่มันพยายามทำก็รู้สึกว่าน่าทึ่งแล้ว
    • พอเห็นคำว่า "ไม่มีความอดทนพอจะหาจนจบ" ฉันก็รู้สึกว่านี่น่าจะเอาไปทำเป็น AI benchmark แบบใหม่ ได้เลย
    • ฉันรู้สึกว่างานประเภทนี้ดูเหมือนเป็นพื้นที่ที่ AI จะยังอ่อนเรื่อง รายละเอียดเชิงโครงสร้าง ต่อไป มองไกลๆ ดูน่าเชื่อ แต่พอดูใกล้ๆ จะเจอหน้าคนเหมือนกำลังกรีดร้อง ป้ายที่ชี้สองทางพร้อมกัน เต็นท์ฉุกเฉินที่ไม่มีอยู่จริง สุนัขที่ดูเหมือนสัตว์ประหลาด และข้อผิดพลาดอีกเยอะมาก แม้แต่ตัวอย่างโปรโมตก็คล้ายกัน และพวกตัวอย่างกายวิภาคหรือ ตารางธาตุก็พังถ้าดูละเอียด สุดท้ายเลยอดตั้งคำถามไม่ได้ว่าเรากำลังใช้ RAM & GPUs ปริมาณมหาศาล พร้อมน้ำและไฟฟ้า เพื่อสร้าง Where's Waldo ที่แย่กว่าเดิมหรือเปล่า
  • ตอนทดลอง Nano Banana Pro ฉันทำพรอมป์ต์ที่สนุกมากเพื่อทดสอบความสามารถในการ ทำตามกฎ ของโมเดลภาพ ประมาณว่า "วาง Pokémon ที่มีหมายเลข National Pokédex ตรงกับจำนวนเฉพาะ 64 ตัวแรกลงในกริด 8x8 และวาดด้วยสไตล์ 8-bit, charcoal, Ukiyo-e ตามจำนวนหลักของหมายเลข" ผลของ NBP อยู่ที่นี่ ซึ่งหมายเลข, Pokémon และสไตล์โดยรวมถือว่าถูก แต่ก็มีประเด็นว่าสไตล์ที่ใช้ดูขี้เกียจและภาพอาจดูเหมือนลอกมา ส่วนผลจากการใช้พรอมป์ต์เดียวกันกับ gpt-2-image high อยู่ที่นี่ ซึ่งมันสร้างสไตล์ที่ดูสร้างสรรค์และเป็นต้นฉบับกว่า แต่ตรรกะการใช้สไตล์กลับอิงตาม แถว แทนที่จะอิงตัวเลข, Pokémon บางตัวก็ผิด, ฟอนต์ก็ผิด, ด้านล่างก็ไม่เป็นสี่เหลี่ยมจัตุรัส เป็นผลลัพธ์ที่แปลกดี
    • ฉันว่าการทดสอบนี้ยอดเยี่ยมมาก และในขณะเดียวกันก็ขำหน่อยๆ ที่ gpt-2-image ออกมาแย่ได้ขนาดนี้ ถึงขั้นทำให้รู้สึกว่าภาพแบบ plagiarized ที่เหมือนไปค้นแล้วก๊อปมาน่าจะยังดีกว่า อย่างน้อยก็เหมือนไม่มีแม้แต่ sanity check หรือขั้นตอนหลังประมวลผลเพื่อตรวจว่า "ทำตามคำสั่งถูกไหม" ทั้งที่ข้อผิดพลาดเรื่องข้อจำกัดสไตล์ตามจำนวนหลักน่าจะจับได้ง่าย แถมยังราคาแพงอีก เลยยิ่งน่าเสียดายถ้าผลงานออกมาแทบใช้งานไม่ได้
    • ฉันกลับสงสัยมากกว่าว่าทำไมพรอมป์ต์นี้ถึงถูกมองว่าเป็น พรอมป์ต์ที่ดี
  • ฉันสรุปว่า ถ้าสร้างภาพ 4096x4096 ด้วย gemini-3.1-flash-image-preview จะใช้ 2,520 โทเค็น คิดเป็นประมาณ $0.151 ต่อภาพ ส่วนถ้าใช้ gpt-image-2 สร้างภาพ 3840x2160 จะใช้ 13,342 โทเค็น คิดเป็นประมาณ $0.4 ดังนั้นโมเดลนี้แพงกว่า Gemini มากกว่า 2 เท่า
    • ฉันว่าการเปรียบเทียบนี้เป็นแบบ apples to oranges เพราะมันเหมือนเอาเวอร์ชัน flash ไปเทียบกับเวอร์ชันเต็ม และในรายละเอียดเล็กๆ น้อยๆ ตัวนี้ให้ความรู้สึกว่าดีกว่า flash ราว 5 เท่า
  • ฉันมี hard prompt ที่ใช้ประจำเวลาทดสอบโมเดลสร้างภาพ เป็นการยัดเงื่อนไขหลายอย่างพร้อมกัน เช่น มือของช่างซ่อมนาฬิกาเก่า, นาฬิกาพกวินเทจ, น้ำตื้น, การหักเหและ caustics, หยดน้ำที่กำลังตก, ใบหน้าที่บิดเบี้ยวสะท้อนบนผิวแก้ว, เลนส์ macro 100mm ผลลัพธ์อยู่ใน Google Drive และฉันลองหลายรอบทั้งบนเว็บและ API แต่โดยรวมยังไม่ดีเท่า Nano Banana
    • ฉันสงสัยว่าทำไมถึงคิดว่านี่เป็น พรอมป์ต์ที่ดี
    • ฉันพยายามเปิดภาพที่แชร์ไว้ แต่ดูเหมือนฝั่งโฮสต์จะติด rate limit เลยอยากแจ้งไว้
    • ฉันยืนยันได้ว่าลิงก์ดูเหมือน เสีย
  • ฉันมองว่า gpt-image-1.5 ของ OpenAI กับ NB2 ของ Google สูสีกันมากบนเว็บเปรียบเทียบของฉัน ในการประเมินที่เน้นการทำตามพรอมป์ต์ ทั้งคู่ทำสำเร็จราว 70% สำหรับเกณฑ์การสร้างและแก้ไข ส่วนคุณภาพงานภาพ Gemini จะเหนือกว่าอยู่เสมอ ถึงอย่างนั้น gpt-image-1.5 ก็ถือเป็นก้าวกระโดดใหญ่ของฝั่ง OpenAI และแก้ปัญหาเรื้อรังเก่าๆ อย่างสิ่งที่เคยถูกเรียกว่า "piss filter" ไปได้มาก กราฟเปรียบเทียบดูได้ที่งานแก้ไขที่นี่ และงานสร้างที่นี่ ตามอัปเดตล่าสุด gpt-image-2 ผ่านโจทย์ดาว 9 แฉกที่เคยเป็น model killer ของชุดทดสอบ และในเบนช์มาร์ก text-to-image มันทำถูก 12 ข้อ จาก 15 ข้อ แซงโมเดลที่ดีที่สุดเดิมไป 1 คะแนน อย่างไรก็ตาม มันยังพลาดพรอมป์ต์งู coral snake ที่ลำดับสีต้องเป๊ะ, D20 ที่ให้เขียนจำนวนเฉพาะ 20 ตัวแรกลงบนแต่ละหน้า, และดาวเคราะห์โลกแบนที่มีคนล้นออกมาตามขอบ การเปรียบเทียบทั้งหมดอยู่ที่ All Models และถ้าดูเฉพาะโมเดลหลักอยู่ที่นี่
  • ฉันสรุปราคาเปรียบเทียบไว้แล้ว GPT Image 2 แบบ Low สำหรับ 1024x1024 ราคา $0.006, 1024x1536 และ 1536x1024 ราคา $0.005 ส่วน Medium คือ $0.053, $0.041, $0.041 และ High คือ $0.211, $0.165, $0.165 ขณะที่ GPT Image 1 แบบ Low คือ $0.011, $0.016, $0.016, Medium คือ $0.042, $0.063, $0.063 และ High คือ $0.167, $0.25, $0.25
    • ฉันว่าข้อจำกัดด้านความละเอียดที่มากขนาดนี้ดูแปลกนิดหน่อย สงสัยว่าถ้าทำให้ใหญ่กว่านี้ รายละเอียด จะพังตอนซูมหรือเปล่า หรือว่าแค่ต้นทุนจะพุ่งสูงมากเฉยๆ
    • ฉันว่ามันน่าสนใจที่ใน v2 ภาพขนาดใหญ่แพงกว่าสี่เหลี่ยมจัตุรัสเล็ก แต่ใน v1 กลับตรงกันข้าม เลยสงสัยว่าทำไมถึงได้มี โครงสร้างราคา แบบนี้
  • ฉันยืนยันว่าคราวนี้มันผ่าน การทดสอบคีย์เปียโน แล้ว ตัวอย่างที่สำเร็จอยู่ที่นี่ แต่การติดป้าย middle C ยังผิดในความพยายามนี้ ถึงอย่างนั้นพอขอใหม่มันก็แก้ได้
    • ตอน NB 2 ออกมา ฉันเพิ่มความยากของการทดสอบนี้อีก โดยสลับสีของ accidentals กับ naturals ทั้งหมด แต่มันก็ยังทำได้ถูกหมด ตัวอย่างอยู่ที่นี่
  • ฉันรู้สึกว่าการเรนเดอร์ ข้อความภาษาจีน ดีขึ้นอย่างเห็นได้ชัดและน่าประทับใจมาก ถึงอย่างนั้นภาพตัวอย่าง Wuxi ก็ยังมีคำผิดอยู่ เช่นใช้ตัว 笼 ใน 小笼包 ผิด และในส่วน "极小中文也清晰可读" ก็ยังมีคำผิดเพิ่มอีก แต่ไม่ได้ถึงกับอ่านไม่ได้ อย่างไรก็ดี รู้สึกได้ชัดว่ามันดีกว่าโมเดลสร้างภาพรุ่นก่อนๆ แบบทิ้งห่างมาก
    • ฉันสงสัยว่ามันดีกว่า โมเดลจีน ที่พัฒนาในจีนเองด้วยหรือเปล่า เพราะฝั่งนั้นน่าจะมีตัวอย่างภาษาจีนในข้อมูลฝึกมากกว่าเยอะ และปกติก็น่าจะโฟกัสเรื่องนี้มากกว่า
  • ฉันคิดว่าตอนนี้เป็นจังหวะที่ดีในการพูดถึง C2PA มันเป็นมาตรฐานสำหรับยืนยันที่มาของภาพอย่างจริงจัง และ OpenAI ก็มีส่วนร่วมด้วย ถ้าฉันเอาภาพที่สร้างด้วย AI ไปใส่ใน C2PA Viewer มันจะแสดงแหล่งที่มาว่าเป็น ChatGPT แน่นอนว่าผู้ไม่หวังดีสามารถลบเมทาดาทาออกให้ภาพดูเหมือนภาพทั่วไปได้ แต่ในระยะยาวฉันคิดว่าภาพที่ไม่มีการระบุแหล่งที่มาควรถูกมองเป็น สัญญาณอันตราย แบบเดียวกับ non-https รายละเอียดเพิ่มเติมดูได้ที่ c2pa.org
    • ฉันรู้สึกว่าปัญหานี้อาจไม่ได้เป็นแค่เรื่องของ bad actors อย่างเดียว เพราะแพลตฟอร์มส่วนใหญ่ เช่น Instagram, Facebook มักลบเมทาดาทาออกเป็นค่าเริ่มต้นด้วยเหตุผลด้านความเป็นส่วนตัว และ EXIF ก็อาจมีข้อมูลอย่างพิกัด, ชื่อไฟล์, เวลาสร้าง, ข้อมูลอุปกรณ์ ดังนั้นในตอนนี้ ปัญหาเชิงปฏิบัติที่ใหญ่กว่าการดัดแปลงโดยเจตนาร้าย อาจเป็นโครงสร้างที่เว็บไซต์ส่วนใหญ่ ลบเมทาดาทา ออกทันทีเมื่ออัปโหลดภาพมากกว่า
    • ฉันอยากเสริมว่า OpenAI ใส่ C2PA manifests มากับภาพที่สร้างมาตั้งแต่แรกอยู่แล้ว และจากเกณฑ์ประเมินเล็กๆ ที่ฉันทดลองเอง ตัวตรวจจับภาพ AI สมัยใหม่แบบ ML อย่าง OmniAID จับภาพที่สร้างด้วย GPT-Image-2 ได้ค่อนข้างดี งานวิจัยอยู่ที่นี่ และฉันก็เอาสองอย่างนี้มารวมกันทำเป็น ตัวตรวจจับภาพ AI แบบ on-device ด้วยตัวเอง
  • ฉันใช้โมเดลนี้อยู่หลายชั่วโมงแล้ว และพูดตรงๆ ว่ามันค่อนข้าง น่าประทับใจ นี่เป็นครั้งแรกที่ฉันรู้สึกว่าโมเดลภาพช่วยงานจริงของฉันได้ โดยเฉพาะการทำสไลด์ PowerPoint และงานทำ mockup ที่รู้สึกว่ามันทรงพลังมาก