1 คะแนน โดย GN⁺ 2023-12-01 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

การสร้างภาพลวงตาเชิงสายตาหลายมุมมอง: งานวิจัยที่ใช้โมเดลการแพร่กระจาย

  • Daniel Geng, Inbum Park และ Andrew Owens จากมหาวิทยาลัยมิชิแกนได้นำเสนอวิธีใหม่ในการสร้างภาพลวงตาเชิงสายตาแบบหลายมุมมองโดยใช้โมเดลการแพร่กระจาย
  • วิธีนี้สร้างภาพที่เมื่อถูกแปลงแล้วจะมองเห็นเป็นรูปลักษณ์หรืออัตลักษณ์ที่แตกต่างกัน โดยรองรับการแปลงหลากหลายรูปแบบ เช่น การหมุน การพลิก การกลับค่าสี การเอียง การจัดเรียงจิ๊กซอว์ใหม่ และการสับเปลี่ยนแบบสุ่ม
  • งานวิจัยนี้พิสูจน์ประสิทธิภาพของวิธีดังกล่าวทั้งในเชิงทฤษฎีและผ่านตัวอย่างจริง

ระเบียบวิธี

  • วิธีที่ใช้มีแนวคิดเรียบง่าย โดยใช้โมเดลการแพร่กระจายที่มีอยู่ทั่วไปเพื่อประมาณค่า noise ของภาพในมุมมองหรือการแปลงแบบต่าง ๆ
  • noise ที่ประมาณได้จะถูกจัดแนวใหม่ด้วยการใช้มุมมองผกผันแล้วนำมาเฉลี่ย จากนั้นใช้ค่าประมาณ noise ที่ผ่านการเฉลี่ยนี้เพื่อดำเนินขั้นตอนการแพร่กระจาย

เงื่อนไขของมุมมอง

  • ไม่ใช่ทุกฟังก์ชันมุมมองจะเข้ากันได้กับวิธีข้างต้น โดยฟังก์ชันมุมมองจะต้องผันกลับได้
  • เพื่อให้ฟังก์ชันมุมมองคงน้ำหนักระหว่างสัญญาณกับ noise ไว้ได้ ฟังก์ชันนั้นต้องมีสมบัติเชิงเส้น ซึ่งสามารถทำได้ผ่านเมทริกซ์จัตุรัส A ที่แทนการแปลงเชิงเส้น
  • โมเดลการแพร่กระจายตั้งอยู่บนสมมติฐานว่า noise ถูกสุ่มตัวอย่างอย่างอิสระและมีการแจกแจงเหมือนกันจากการแจกแจงปกติมาตรฐาน ดังนั้น noise ที่ถูกแปลงแล้วก็ต้องเป็นไปตามสถิติเหล่านี้ด้วย
  • ในกรณีของการแปลงเชิงเส้น เงื่อนไขนี้เทียบเท่ากับข้อกำหนดที่ว่า A ต้องเป็นเมทริกซ์ตั้งฉาก

การแปลงแบบตั้งฉาก

  • การแปลงแบบตั้งฉากส่วนใหญ่ไม่มีความหมายในเชิงภาพ แต่เมทริกซ์สับเปลี่ยนเป็นส่วนย่อยของเมทริกซ์ตั้งฉาก และสามารถตีความได้ว่าเป็นการจัดเรียงพิกเซลใหม่ภายในภาพ
  • ภาพลวงตาส่วนใหญ่ที่นำเสนอในงานวิจัยนี้สามารถตีความได้ว่าเป็นการจัดเรียงพิกเซลแบบเฉพาะเจาะจง เช่น การหมุน การพลิก การเอียง "การหมุนภายใน" การจัดเรียงจิ๊กซอว์ใหม่ และการสับเปลี่ยนแพตช์
  • การกลับค่าสีไม่ใช่การสับเปลี่ยน แต่เป็นการทำให้ค่าพิกเซลเป็นค่าตรงข้าม ซึ่งก็เป็นการแปลงแบบตั้งฉากเช่นกัน

ความเห็นของ GN⁺

  • งานวิจัยนี้ช่วยขยายขอบเขตระหว่างเทคโนโลยีปัญญาประดิษฐ์กับศิลปะ ด้วยการนำเสนอวิธีใหม่ในการสร้างภาพลวงตาหลากหลายรูปแบบผ่านการแปลงภาพ
  • โดยเฉพาะอย่างยิ่ง วิธีการจัดเรียงพิกเซลของภาพใหม่เพื่อสร้างเอฟเฟกต์เชิงภาพที่หลากหลายนั้นมีความสร้างสรรค์ และคาดว่าจะเปิดทางให้เกิดการสร้างงานศิลปะแนวใหม่
  • สิ่งที่ทำให้บทความนี้น่าสนใจคือการสำรวจแนวทางอันเป็นต้นฉบับในการสร้างภาพลวงตาโดยใช้โมเดลการแพร่กระจายที่มีอยู่เดิม ซึ่งเป็นงานวิจัยที่อาจสร้างแรงบันดาลใจใหม่ให้กับวิศวกรซอฟต์แวร์ระดับเริ่มต้นได้ด้วย

1 ความคิดเห็น

 
GN⁺ 2023-12-01
ความคิดเห็นจาก Hacker News
  • ผู้ใช้คนหนึ่งบอกว่าเคยมีไอเดียคล้ายกันตั้งแต่ต้นปีที่แล้ว และได้ทดลองโดยใช้วิธีแบบกระดานหมากรุก โดยยกตัวอย่างภาพแมวภาพเดียวที่สร้างจากภาพแมวซึ่งวาดในสไตล์ของจิตรกรชื่อดัง 9 คน พร้อมระบุว่าเทคนิคนี้ไม่เกี่ยวข้องกับภาพ "spiral" ของ ControlNet ที่เป็นประเด็นถกเถียงเมื่อไม่กี่เดือนก่อน และบอกว่าสร้างขึ้นบนพื้นฐานของ DeepFloyd-IF
  • ผู้ใช้อีกคนประเมินว่าภาพสลับสีชาย/หญิงน่าประทับใจ และรู้สึกว่าตัวเองสามารถหมุนภาพในใจเพื่อมองเห็นอีกมุมมองหนึ่งได้ แต่การสลับสีนั้นยากกว่า
  • ผู้ใช้อีกคนชอบภาพสลับชาย/หญิงมาก และสงสัยว่าหากขยายเทคนิคเดียวกันนี้ จะสามารถสร้างการจัดเรียงได้มากแค่ไหนจากภาพเดียว โดยยอมรับว่าตนยังไม่เข้าใจคณิตศาสตร์มากพอว่าจะยังเป็นการแปลงแบบตั้งฉากหรือไม่ เมื่อใช้การแปลงแบบตั้งฉากสองแบบต่อเนื่องกัน
  • ผู้ใช้คนหนึ่งประเมินว่าตัวอย่างทั้งหมดที่นำเสนออยู่ในระดับ "พอใช้" พร้อมบอกว่าภาพเพนกวิน/ยีราฟน่าจะดีที่สุด ส่วนภาพคนแก่/ชุดเดรสรู้สึกว่าไม่ได้คล้ายทั้งสองอย่างมากนัก
  • ยังมีผู้ใช้ที่มองว่าการใช้โครงข่ายประสาทเทียมอาจจะเกินความจำเป็นสำหรับงานนี้ และอาจไม่ใช่สิ่งทดแทนที่ดีที่สุดสำหรับความเข้าใจเชิงทฤษฎีเกี่ยวกับภาพลวงตา แต่ก็คิดว่าผลลัพธ์นั้นเถียงได้ยาก
  • มีผู้ใช้ที่ชื่นชอบภาพเหล่านี้และมองว่าเป็นโพสต์ที่ยอดเยี่ยม
  • มีผู้ใช้เสนอไอเดียว่าการสร้างภาพที่ดูเป็นคนละอย่างกันภายใต้แสงสีแดง/สีน้ำเงินน่าจะเจ๋งดี
  • มีผู้ใช้แสดงความเห็นว่าภาพเป็ด/กระต่ายน่าจะเจ๋งมากหากนำไปใช้กับปริศนาเลื่อน เพื่อให้มีวิธีแก้ที่ถูกต้องได้สองแบบ
  • มีผู้ใช้สงสัยว่ามีจิ๊กซอว์ลักษณะนี้ที่สามารถซื้อได้จริงหรือไม่