5 คะแนน โดย GN⁺ 8 일 전 | 4 ความคิดเห็น | แชร์ทาง WhatsApp
  • OpenAI เปิดตัว โมเดลสร้างภาพรุ่นถัดไป โดยแม้แต่บทความแนะนำก็ไม่ได้เขียนข้อความอธิบายไว้ตรง ๆ แต่ใส่ไว้เป็นข้อความในภาพที่สร้างด้วย Images 2.0 เท่านั้น
  • มุ่งเน้นการสร้างผลลัพธ์ที่พร้อมใช้งานทันที สำหรับงานภาพที่ซับซ้อนและการเรนเดอร์ข้อความอย่างแม่นยำ
  • เป็น โมเดลภาพตัวแรกที่มีความสามารถด้านการคิด (thinking) สามารถค้นหาเว็บ สร้างภาพหลายภาพพร้อมกัน และตรวจสอบผลลัพธ์ที่สร้างได้ด้วยตัวเอง
  • ประสิทธิภาพการเรนเดอร์อักษรที่ไม่ใช่ละตินดีขึ้นอย่างมาก เช่น ภาษาญี่ปุ่น จีน ฮินดี เบงกาลี จึงใช้งานได้จริงกับงานออกแบบหลายภาษา
  • รองรับ อัตราส่วนภาพที่ยืดหยุ่น ตั้งแต่ 3:1 ถึง 1:3 จึงปรับใช้ได้ทันทีทั้งแบนเนอร์ โปสเตอร์ และหน้าจอมือถือในหลายฟอร์แมต
  • ชูแนวทางการเปลี่ยนจากเครื่องมือเรนเดอร์ไปสู่ ระบบการออกแบบเชิงกลยุทธ์ และใช้งานได้ทั่วทั้ง ChatGPT, Codex และ API

ยุคใหม่ของการสร้างภาพ

  • นิยามภาพไม่ใช่เพียงของตกแต่ง แต่เป็น รูปแบบหนึ่งของภาษา ที่ใช้ได้ทั้งอธิบายกลไก สร้างบรรยากาศ ตรวจสอบไอเดีย และถ่ายทอดข้อโต้แย้ง
  • หลังจาก ChatGPT Images ที่เปิดตัวเมื่อ 1 ปีก่อนพิสูจน์ว่า AI image สามารถทั้งสวยงามและมีประโยชน์ได้ Images 2.0 คือ โมเดลรุ่นถัดไปที่จัดการงานภาพซับซ้อนได้อย่างแม่นยำ
  • ถ่ายทอดรายละเอียดตามคำสั่งได้ครบถ้วน, จัดวางวัตถุและความสัมพันธ์ได้ถูกต้อง และพัฒนาขึ้นอย่างก้าวกระโดดในการเรนเดอร์ข้อความหนาแน่น
  • เด่นทั้งด้านองค์ประกอบภาพและเซนส์ด้านภาพ จนผลลัพธ์ ให้ความรู้สึกเหมือนงานออกแบบที่ตั้งใจสร้าง ไม่ใช่ภาพที่ AI สร้างขึ้น
  • ทำงานได้แม่นยำในหลายภาษา และใช้ความรู้ด้านภาพและความรู้เกี่ยวกับโลกที่ขยายขึ้น ทำให้ สร้างภาพได้ฉลาดขึ้นด้วยพรอมป์ตที่น้อยลง
  • โมเดลนี้ผสาน ความฉลาดของโมเดลการให้เหตุผลของ OpenAI เข้ากับความเข้าใจโลกเชิงภาพ เปลี่ยนการสร้างภาพจากการเรนเดอร์ธรรมดาไปสู่การออกแบบเชิงกลยุทธ์ และจากเครื่องมือไปสู่ ระบบภาพ
  • พร้อมใช้งานตั้งแต่วันนี้สำหรับผู้ใช้ทั้งหมดของ ChatGPT, Codex และ API

ความแม่นยำและการควบคุมที่สูงขึ้น

  • Images 2.0 มอบ ความเฉพาะเจาะจงและความเที่ยงตรงที่ไม่เคยมีมาก่อน ในการสร้างภาพ
  • ไม่เพียงออกแบบภาพที่ซับซ้อนได้ละเอียดยิ่งขึ้น แต่ยังทำออกมาได้อย่างมีประสิทธิภาพ โดยเด่นในด้านการทำตามคำสั่ง การคงรายละเอียดตามที่ร้องขอ และการเรนเดอร์องค์ประกอบย่อยละเอียด
  • จัดการ ข้อความขนาดเล็ก, ไอคอน, องค์ประกอบ UI, องค์ประกอบที่หนาแน่น, ข้อกำหนดด้านสไตล์ที่ละเอียดอ่อน ซึ่งโมเดลภาพก่อนหน้านี้ทำได้ไม่ดีนัก ได้ที่ความละเอียดสูงสุด 2K
  • สร้าง ผลลัพธ์ที่พร้อมใช้งานได้จริงทันที ไม่ใช่แค่ “ภาพที่คล้าย ๆ กันโดยประมาณ”

รองรับข้อความหลายภาษาได้ดียิ่งขึ้น

  • โมเดลเดิมมีประสิทธิภาพสม่ำเสมอในภาษาอังกฤษและภาษาที่ใช้อักษรละติน แต่ยังขาดประสิทธิภาพในการจัดการอักษรที่ไม่ใช่ละตินเมื่อข้อความซับซ้อนหรือหนาแน่น
  • Images 2.0 ปรับปรุง ความเข้าใจหลายภาษา และพัฒนาอย่างมากโดยเฉพาะในการเรนเดอร์ข้อความที่ไม่ใช่อักษรละตินของ ภาษาญี่ปุ่น จีน ฮินดี เบงกาลี
  • ไม่เพียงเรนเดอร์ข้อความที่ไม่ใช่ภาษาอังกฤษได้อย่างถูกต้อง แต่ยังสร้าง ผลลัพธ์ที่ลื่นไหลเป็นธรรมชาติทางภาษา ได้ด้วย
  • ก้าวข้ามการแปลป้ายกำกับธรรมดา ไปสู่การรักษาความสอดคล้องทางภาพใน โปสเตอร์, เอกสารอธิบาย, ไดอะแกรม, การ์ตูน ที่ภาษาเป็นส่วนหนึ่งของงานออกแบบ
  • ทำให้ผู้ใช้สามารถสร้างงานภาพใน ภาษาที่ใช้งานจริงของตนเอง ได้ จึงเพิ่มศักยภาพในการใช้งานระดับโลก

ความประณีตของสไตล์และความสมจริง

  • Images 2.0 ยกระดับ ความเที่ยงตรงในสไตล์ภาพที่หลากหลาย อย่างมาก
  • ปรับปรุงความสม่ำเสมอของพื้นผิว แสง องค์ประกอบ และรายละเอียด ทั้งในลักษณะเฉพาะของภาพถ่าย (รวมถึง ตำหนิเล็ก ๆ ที่เพิ่มความสมจริง), ภาพนิ่งจากภาพยนตร์, พิกเซลอาร์ต, การ์ตูน และภาษาภาพเฉพาะตัวอื่น ๆ
  • สร้าง ผลลัพธ์ที่สะท้อนสไตล์ที่ขอได้อย่างซื่อตรง ไม่ใช่เพียงเลียนแบบอย่างคร่าว ๆ
  • มีประโยชน์อย่างยิ่งกับ การทำต้นแบบเกม, สตอรีบอร์ด, ครีเอทีฟด้านการตลาด และการสร้างแอสเซ็ตสำหรับสื่อหรือแนวงานเฉพาะ

รองรับอัตราส่วนภาพที่ยืดหยุ่น

  • รองรับอัตราส่วนภาพได้กว้างตั้งแต่ 3:1 (แนวนอน) ถึง 1:3 (แนวตั้ง)
  • สร้าง ผลลัพธ์ที่ตรงกับฟอร์แมตที่ต้องการ ได้ทันที ทั้งแบนเนอร์แนวกว้าง สไลด์พรีเซนเทชัน โปสเตอร์ หน้าจอมือถือ ที่คั่นหน้า และโซเชียลกราฟิก
  • สามารถระบุอัตราส่วนภาพที่ต้องการในพรอมป์ต หรือเลือกจาก ตัวเลือกพรีเซ็ต เพื่อสร้างใหม่ในขนาดใหม่ได้

ความฉลาดที่เข้าใจโลกจริง

  • Images 2.0 สะท้อน ความเข้าใจโลกที่อัปเดตยิ่งขึ้น ในการสร้างภาพ โดยอัปเดต knowledge cutoff เป็น ธันวาคม 2025
  • ได้เปรียบในงานอย่างเอกสารอธิบาย แผนที่ กราฟิกการศึกษา และสรุปภาพ ที่ ความถูกต้องและความชัดเจนสำคัญพอ ๆ กับความสวยงาม
  • ด้วยความฉลาดที่เพิ่มขึ้น จึงทำ งานแบบ end-to-end ตั้งแต่สังเคราะห์ข้อมูล เขียนคัดลอกข้อความ ไปจนถึงการทำภาพ ได้
    • มีเซนส์การออกแบบที่สะอาดและเป็นระบบ โดยคำนึงถึงการจัดวางพื้นที่ว่าง ความอ่านง่าย และลำดับการไหลของข้อมูล

คู่คิดด้านการมองเห็น

  • เมื่อเลือก โมเดล thinking หรือ pro โมเดลจะใช้เวลามากขึ้นเพื่อ เข้าใจงานและลงมือทำแบบเอเจนติก
  • สามารถค้นหาข้อมูลที่เกี่ยวข้องบนเว็บ แปลงเนื้อหาที่อัปโหลดให้เป็นเอกสารภาพอธิบายที่ชัดเจน และให้เหตุผลเกี่ยวกับโครงสร้างของภาพก่อนสร้าง
  • ในโหมดนี้ Images 2.0 ทำหน้าที่เป็น คู่คิดด้านการมองเห็น ช่วยลดภาระงานของผู้ใช้ได้อย่างมาก ตั้งแต่แนวคิดร่างแรกไปจนถึงแอสเซ็ตที่เสร็จสมบูรณ์
  • ในโหมด thinking สามารถ สร้างภาพหลายภาพที่แตกต่างกันพร้อมกันได้ในครั้งเดียว — เป็นความสามารถครั้งแรกของการสร้างภาพใน ChatGPT
    • รองรับเวิร์กโฟลว์อย่างหน้าการ์ตูนต่อเนื่อง ทิศทางรีดีไซน์ทั้งบ้าน ชุดคอนเซปต์โปสเตอร์ และชุดโซเชียลกราฟิกหลายอัตราส่วนและหลายภาษา
  • แทนที่จะต้องพรอมป์ตภาพทีละภาพแล้วนำมาประกอบเอง ผู้ใช้สามารถขอ ผลลัพธ์ที่สอดคล้องกันได้สูงสุด 10 ภาพ โดยคงความต่อเนื่องของตัวละครและวัตถุ ได้ในครั้งเดียว
    • โดยแต่ละผลลัพธ์จะค่อย ๆ ต่อเนื่องจากผลลัพธ์ก่อนหน้า

4 ความคิดเห็น

 
j2sus91 8 일 전

มีการใส่การให้เหตุผลเข้าไปในภาพด้วย เลยทำให้ผลลัพธ์สุดยอดมาก

แค่โยนคีย์เวิร์ดที่เกี่ยวกับธุรกิจใหม่แบบง่าย ๆ เข้าไป
มันก็อนุมานไปถึงข้อความหลัก/จุดเจ็บปวด แล้วหลอมรวมลงไปในหน้าแลนดิ้งเพจได้เลย

การดึงสีแบรนด์ โทนข้อความแบรนด์ ไปจนถึงโมเดลจากเว็บไซต์ที่บอกให้ใช้อ้างอิงมาแบบเดิม ๆ นี่ถือเป็นพื้นฐานไปแล้ว
แม้แต่ภาษาเกาหลีก็ไม่เพี้ยนเลย ดูแล้วต่อจากนี้น่าจะเอาไปใช้ประโยชน์ได้มหาศาล..

ตอนนี้เริ่มรู้สึกว่าพัฒนาการของ AI น่ากลัวขึ้นเรื่อย ๆ แล้วครับ

 
kirinonakar 8 일 전

สุดยอดมากครับ ตอนที่ Nano Banana ออกมาก็ว่าทึ่งแล้ว แต่นี่ดีขึ้นไปอีก ดูเหมือนว่าพอมีการแข่งขัน การพัฒนาก็ยิ่งเร็วขึ้นครับ

 
xguru 8 일 전

โอ้.. เรื่องการจัดการตัวอักษรก่อนหน้านี้เหมือนจะเป็นระดับ Nano Banana แต่ครั้งนี้ดูเหมือนจะลับคมมาเต็มที่นะ
ผมทำข้อความทั้งหมดในบทความแนะนำให้กลายเป็นภาพแล้ว
สามารถเลื่อนดูทั้งบทความได้โดยที่ทั้งหมดเป็นภาพเลย
ลายมือเขียนตรงกลางน่าประทับใจดี

 
GN⁺ 8 일 전
ความคิดเห็นจาก Hacker News
  • ฉันทดลองโมเดลใหม่นี้แบบนี้ ใช้ gpt-image-2 สร้างภาพสไตล์ Where's Waldo ที่ให้ "หารัคคูนที่ถือวิทยุแฮม" และโค้ดอยู่ที่นี่ ผลลัพธ์คือภาพนี้ แต่เอาเข้าจริงฉันก็ยังไม่แน่ใจว่า รัคคูน ตัวนั้นถือวิทยุแฮมอยู่หรือเปล่า ปกติการทดสอบแนว Where's Waldo แบบนี้ฉันไม่ค่อยมีความอดทนพอจะหาจนจบ
    • ฉันลองรันใหม่ด้วยคำสั่งที่ใช้ความละเอียดสูงสุดแล้วได้ผลลัพธ์ที่ดีกว่ามาก อ้างอิงขนาดที่ OpenAI cookbook แนะนำ(ลิงก์) และผลลัพธ์อยู่ที่นี่ รอบนี้ฉันหารัคคูนเจอแล้วด้วย และภาพหนึ่งน่าจะมีค่าใช้จ่ายประมาณ 40 เซนต์
    • ฉันขอบคุณสำหรับภาพนั้นนะ แต่หน้าคนมันประหลาดเกินไปจนรู้สึกเหมือนจะไปโผล่ใน ฝันร้าย
    • ฉันมองว่าพรอมป์ต์นี้เป็นโจทย์ที่โหดร้ายมากสำหรับโมเดลสาย diffusion ในตอนนี้ เพราะงั้นแค่ที่มันพยายามทำก็รู้สึกว่าน่าทึ่งแล้ว
    • พอเห็นคำว่า "ไม่มีความอดทนพอจะหาจนจบ" ฉันก็รู้สึกว่านี่น่าจะเอาไปทำเป็น AI benchmark แบบใหม่ ได้เลย
    • ฉันรู้สึกว่างานประเภทนี้ดูเหมือนเป็นพื้นที่ที่ AI จะยังอ่อนเรื่อง รายละเอียดเชิงโครงสร้าง ต่อไป มองไกลๆ ดูน่าเชื่อ แต่พอดูใกล้ๆ จะเจอหน้าคนเหมือนกำลังกรีดร้อง ป้ายที่ชี้สองทางพร้อมกัน เต็นท์ฉุกเฉินที่ไม่มีอยู่จริง สุนัขที่ดูเหมือนสัตว์ประหลาด และข้อผิดพลาดอีกเยอะมาก แม้แต่ตัวอย่างโปรโมตก็คล้ายกัน และพวกตัวอย่างกายวิภาคหรือ ตารางธาตุก็พังถ้าดูละเอียด สุดท้ายเลยอดตั้งคำถามไม่ได้ว่าเรากำลังใช้ RAM & GPUs ปริมาณมหาศาล พร้อมน้ำและไฟฟ้า เพื่อสร้าง Where's Waldo ที่แย่กว่าเดิมหรือเปล่า
  • ตอนทดลอง Nano Banana Pro ฉันทำพรอมป์ต์ที่สนุกมากเพื่อทดสอบความสามารถในการ ทำตามกฎ ของโมเดลภาพ ประมาณว่า "วาง Pokémon ที่มีหมายเลข National Pokédex ตรงกับจำนวนเฉพาะ 64 ตัวแรกลงในกริด 8x8 และวาดด้วยสไตล์ 8-bit, charcoal, Ukiyo-e ตามจำนวนหลักของหมายเลข" ผลของ NBP อยู่ที่นี่ ซึ่งหมายเลข, Pokémon และสไตล์โดยรวมถือว่าถูก แต่ก็มีประเด็นว่าสไตล์ที่ใช้ดูขี้เกียจและภาพอาจดูเหมือนลอกมา ส่วนผลจากการใช้พรอมป์ต์เดียวกันกับ gpt-2-image high อยู่ที่นี่ ซึ่งมันสร้างสไตล์ที่ดูสร้างสรรค์และเป็นต้นฉบับกว่า แต่ตรรกะการใช้สไตล์กลับอิงตาม แถว แทนที่จะอิงตัวเลข, Pokémon บางตัวก็ผิด, ฟอนต์ก็ผิด, ด้านล่างก็ไม่เป็นสี่เหลี่ยมจัตุรัส เป็นผลลัพธ์ที่แปลกดี
    • ฉันว่าการทดสอบนี้ยอดเยี่ยมมาก และในขณะเดียวกันก็ขำหน่อยๆ ที่ gpt-2-image ออกมาแย่ได้ขนาดนี้ ถึงขั้นทำให้รู้สึกว่าภาพแบบ plagiarized ที่เหมือนไปค้นแล้วก๊อปมาน่าจะยังดีกว่า อย่างน้อยก็เหมือนไม่มีแม้แต่ sanity check หรือขั้นตอนหลังประมวลผลเพื่อตรวจว่า "ทำตามคำสั่งถูกไหม" ทั้งที่ข้อผิดพลาดเรื่องข้อจำกัดสไตล์ตามจำนวนหลักน่าจะจับได้ง่าย แถมยังราคาแพงอีก เลยยิ่งน่าเสียดายถ้าผลงานออกมาแทบใช้งานไม่ได้
    • ฉันกลับสงสัยมากกว่าว่าทำไมพรอมป์ต์นี้ถึงถูกมองว่าเป็น พรอมป์ต์ที่ดี
  • ฉันสรุปว่า ถ้าสร้างภาพ 4096x4096 ด้วย gemini-3.1-flash-image-preview จะใช้ 2,520 โทเค็น คิดเป็นประมาณ $0.151 ต่อภาพ ส่วนถ้าใช้ gpt-image-2 สร้างภาพ 3840x2160 จะใช้ 13,342 โทเค็น คิดเป็นประมาณ $0.4 ดังนั้นโมเดลนี้แพงกว่า Gemini มากกว่า 2 เท่า
    • ฉันว่าการเปรียบเทียบนี้เป็นแบบ apples to oranges เพราะมันเหมือนเอาเวอร์ชัน flash ไปเทียบกับเวอร์ชันเต็ม และในรายละเอียดเล็กๆ น้อยๆ ตัวนี้ให้ความรู้สึกว่าดีกว่า flash ราว 5 เท่า
  • ฉันมี hard prompt ที่ใช้ประจำเวลาทดสอบโมเดลสร้างภาพ เป็นการยัดเงื่อนไขหลายอย่างพร้อมกัน เช่น มือของช่างซ่อมนาฬิกาเก่า, นาฬิกาพกวินเทจ, น้ำตื้น, การหักเหและ caustics, หยดน้ำที่กำลังตก, ใบหน้าที่บิดเบี้ยวสะท้อนบนผิวแก้ว, เลนส์ macro 100mm ผลลัพธ์อยู่ใน Google Drive และฉันลองหลายรอบทั้งบนเว็บและ API แต่โดยรวมยังไม่ดีเท่า Nano Banana
    • ฉันสงสัยว่าทำไมถึงคิดว่านี่เป็น พรอมป์ต์ที่ดี
    • ฉันพยายามเปิดภาพที่แชร์ไว้ แต่ดูเหมือนฝั่งโฮสต์จะติด rate limit เลยอยากแจ้งไว้
    • ฉันยืนยันได้ว่าลิงก์ดูเหมือน เสีย
  • ฉันมองว่า gpt-image-1.5 ของ OpenAI กับ NB2 ของ Google สูสีกันมากบนเว็บเปรียบเทียบของฉัน ในการประเมินที่เน้นการทำตามพรอมป์ต์ ทั้งคู่ทำสำเร็จราว 70% สำหรับเกณฑ์การสร้างและแก้ไข ส่วนคุณภาพงานภาพ Gemini จะเหนือกว่าอยู่เสมอ ถึงอย่างนั้น gpt-image-1.5 ก็ถือเป็นก้าวกระโดดใหญ่ของฝั่ง OpenAI และแก้ปัญหาเรื้อรังเก่าๆ อย่างสิ่งที่เคยถูกเรียกว่า "piss filter" ไปได้มาก กราฟเปรียบเทียบดูได้ที่งานแก้ไขที่นี่ และงานสร้างที่นี่ ตามอัปเดตล่าสุด gpt-image-2 ผ่านโจทย์ดาว 9 แฉกที่เคยเป็น model killer ของชุดทดสอบ และในเบนช์มาร์ก text-to-image มันทำถูก 12 ข้อ จาก 15 ข้อ แซงโมเดลที่ดีที่สุดเดิมไป 1 คะแนน อย่างไรก็ตาม มันยังพลาดพรอมป์ต์งู coral snake ที่ลำดับสีต้องเป๊ะ, D20 ที่ให้เขียนจำนวนเฉพาะ 20 ตัวแรกลงบนแต่ละหน้า, และดาวเคราะห์โลกแบนที่มีคนล้นออกมาตามขอบ การเปรียบเทียบทั้งหมดอยู่ที่ All Models และถ้าดูเฉพาะโมเดลหลักอยู่ที่นี่
  • ฉันสรุปราคาเปรียบเทียบไว้แล้ว GPT Image 2 แบบ Low สำหรับ 1024x1024 ราคา $0.006, 1024x1536 และ 1536x1024 ราคา $0.005 ส่วน Medium คือ $0.053, $0.041, $0.041 และ High คือ $0.211, $0.165, $0.165 ขณะที่ GPT Image 1 แบบ Low คือ $0.011, $0.016, $0.016, Medium คือ $0.042, $0.063, $0.063 และ High คือ $0.167, $0.25, $0.25
    • ฉันว่าข้อจำกัดด้านความละเอียดที่มากขนาดนี้ดูแปลกนิดหน่อย สงสัยว่าถ้าทำให้ใหญ่กว่านี้ รายละเอียด จะพังตอนซูมหรือเปล่า หรือว่าแค่ต้นทุนจะพุ่งสูงมากเฉยๆ
    • ฉันว่ามันน่าสนใจที่ใน v2 ภาพขนาดใหญ่แพงกว่าสี่เหลี่ยมจัตุรัสเล็ก แต่ใน v1 กลับตรงกันข้าม เลยสงสัยว่าทำไมถึงได้มี โครงสร้างราคา แบบนี้
  • ฉันยืนยันว่าคราวนี้มันผ่าน การทดสอบคีย์เปียโน แล้ว ตัวอย่างที่สำเร็จอยู่ที่นี่ แต่การติดป้าย middle C ยังผิดในความพยายามนี้ ถึงอย่างนั้นพอขอใหม่มันก็แก้ได้
    • ตอน NB 2 ออกมา ฉันเพิ่มความยากของการทดสอบนี้อีก โดยสลับสีของ accidentals กับ naturals ทั้งหมด แต่มันก็ยังทำได้ถูกหมด ตัวอย่างอยู่ที่นี่
  • ฉันรู้สึกว่าการเรนเดอร์ ข้อความภาษาจีน ดีขึ้นอย่างเห็นได้ชัดและน่าประทับใจมาก ถึงอย่างนั้นภาพตัวอย่าง Wuxi ก็ยังมีคำผิดอยู่ เช่นใช้ตัว 笼 ใน 小笼包 ผิด และในส่วน "极小中文也清晰可读" ก็ยังมีคำผิดเพิ่มอีก แต่ไม่ได้ถึงกับอ่านไม่ได้ อย่างไรก็ดี รู้สึกได้ชัดว่ามันดีกว่าโมเดลสร้างภาพรุ่นก่อนๆ แบบทิ้งห่างมาก
    • ฉันสงสัยว่ามันดีกว่า โมเดลจีน ที่พัฒนาในจีนเองด้วยหรือเปล่า เพราะฝั่งนั้นน่าจะมีตัวอย่างภาษาจีนในข้อมูลฝึกมากกว่าเยอะ และปกติก็น่าจะโฟกัสเรื่องนี้มากกว่า
  • ฉันคิดว่าตอนนี้เป็นจังหวะที่ดีในการพูดถึง C2PA มันเป็นมาตรฐานสำหรับยืนยันที่มาของภาพอย่างจริงจัง และ OpenAI ก็มีส่วนร่วมด้วย ถ้าฉันเอาภาพที่สร้างด้วย AI ไปใส่ใน C2PA Viewer มันจะแสดงแหล่งที่มาว่าเป็น ChatGPT แน่นอนว่าผู้ไม่หวังดีสามารถลบเมทาดาทาออกให้ภาพดูเหมือนภาพทั่วไปได้ แต่ในระยะยาวฉันคิดว่าภาพที่ไม่มีการระบุแหล่งที่มาควรถูกมองเป็น สัญญาณอันตราย แบบเดียวกับ non-https รายละเอียดเพิ่มเติมดูได้ที่ c2pa.org
    • ฉันรู้สึกว่าปัญหานี้อาจไม่ได้เป็นแค่เรื่องของ bad actors อย่างเดียว เพราะแพลตฟอร์มส่วนใหญ่ เช่น Instagram, Facebook มักลบเมทาดาทาออกเป็นค่าเริ่มต้นด้วยเหตุผลด้านความเป็นส่วนตัว และ EXIF ก็อาจมีข้อมูลอย่างพิกัด, ชื่อไฟล์, เวลาสร้าง, ข้อมูลอุปกรณ์ ดังนั้นในตอนนี้ ปัญหาเชิงปฏิบัติที่ใหญ่กว่าการดัดแปลงโดยเจตนาร้าย อาจเป็นโครงสร้างที่เว็บไซต์ส่วนใหญ่ ลบเมทาดาทา ออกทันทีเมื่ออัปโหลดภาพมากกว่า
    • ฉันอยากเสริมว่า OpenAI ใส่ C2PA manifests มากับภาพที่สร้างมาตั้งแต่แรกอยู่แล้ว และจากเกณฑ์ประเมินเล็กๆ ที่ฉันทดลองเอง ตัวตรวจจับภาพ AI สมัยใหม่แบบ ML อย่าง OmniAID จับภาพที่สร้างด้วย GPT-Image-2 ได้ค่อนข้างดี งานวิจัยอยู่ที่นี่ และฉันก็เอาสองอย่างนี้มารวมกันทำเป็น ตัวตรวจจับภาพ AI แบบ on-device ด้วยตัวเอง
  • ฉันใช้โมเดลนี้อยู่หลายชั่วโมงแล้ว และพูดตรงๆ ว่ามันค่อนข้าง น่าประทับใจ นี่เป็นครั้งแรกที่ฉันรู้สึกว่าโมเดลภาพช่วยงานจริงของฉันได้ โดยเฉพาะการทำสไลด์ PowerPoint และงานทำ mockup ที่รู้สึกว่ามันทรงพลังมาก