5 คะแนน โดย GN⁺ 2025-12-17 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • SHARP ที่ Apple เปิดตัว เป็นเทคโนโลยีที่ประเมิน การแทนค่าแบบ 3D Gaussian จากภาพถ่ายเพียงภาพเดียว เพื่อสังเคราะห์มุมมองใหม่ที่สมจริงระดับภาพถ่าย
  • ประมวลผลด้วยการทำ feedforward pass ของโครงข่ายประสาทเทียมเพียงครั้งเดียวในเวลา น้อยกว่า 1 วินาที บน GPU มาตรฐาน และรองรับ การเรนเดอร์แบบเรียลไทม์
  • การแทนค่า 3D ที่สร้างขึ้นเป็น metric representation ที่มี absolute scale ซึ่งรองรับการเคลื่อนที่ของกล้องจริง
  • แสดงประสิทธิภาพ zero-shot generalization บนหลายชุดข้อมูล และเมื่อเทียบกับโมเดลเดิมสามารถ ลด LPIPS ได้ 25–34% และ DISTS ได้ 21–43%
  • เพิ่มความเร็วในการสังเคราะห์ขึ้น 1000 เท่า เมื่อเทียบกับเดิม พร้อมนำเสนอเกณฑ์มาตรฐานใหม่สำหรับการสังเคราะห์มุมมอง 3D จากภาพเดี่ยว

ภาพรวมของ SHARP

  • SHARP (Sharp Monocular View Synthesis) เป็นแนวทางสำหรับ การสังเคราะห์มุมมอง 3D แบบโฟโตเรียลลิสติก จากภาพเดี่ยว
    • ประเมิน พารามิเตอร์การแทนค่าแบบ 3D Gaussian ของฉากจากภาพอินพุตเพียงหนึ่งภาพด้วยวิธี regression
    • กระบวนการนี้เสร็จสิ้นได้ในเวลา น้อยกว่า 1 วินาทีบน GPU มาตรฐาน
  • การแทนค่าแบบ 3D Gaussian ที่สร้างขึ้นรองรับ การเรนเดอร์แบบเรียลไทม์ และสร้าง ภาพความละเอียดสูง จากมุมมองใกล้เคียง
    • ทำความเร็วการเรนเดอร์ได้มากกว่า 100 เฟรมต่อวินาที
    • คงไว้ซึ่งโครงสร้างละเอียดและรายละเอียดที่คมชัด

คุณลักษณะทางเทคนิค

  • การแทนค่า 3D ของ SHARP เป็น metric representation ที่รวม absolute scale ทำให้สะท้อนการเคลื่อนที่ของกล้องจริงได้
  • ประมวลผลด้วย feedforward pass ของโครงข่ายประสาทเทียมเพียงครั้งเดียว จึงให้ผลลัพธ์ได้รวดเร็วโดยไม่ต้องผ่านกระบวนการ optimization ที่ซับซ้อน
  • รักษาประสิทธิภาพได้อย่างเสถียรแม้บนชุดข้อมูลที่ไม่เคยใช้ฝึกมาก่อนด้วย zero-shot generalization

ผลลัพธ์ด้านประสิทธิภาพและการเปรียบเทียบ

  • ทำผลงานระดับ state of the art บนหลายชุดข้อมูล
    • ปรับปรุง ตัวชี้วัด LPIPS ได้ 25–34% และ ตัวชี้วัด DISTS ได้ 21–43%
    • ลดเวลาการสังเคราะห์ลง 1000 เท่า เมื่อเทียบกับโมเดลที่ดีที่สุดก่อนหน้า
  • การปรับปรุงด้านประสิทธิภาพเหล่านี้ช่วยยกระดับทั้ง ประสิทธิผลและคุณภาพ ของการสังเคราะห์มุมมอง 3D จากภาพเดี่ยวพร้อมกัน

ผลลัพธ์เชิงภาพ

  • SHARP ใช้ภาพจาก Unsplash เป็นตัวอย่างเพื่อแสดงการแทนค่า 3D ที่สร้างจากภาพอินพุตเดี่ยว
    • ผลการเรนเดอร์จากมุมมองใกล้เคียงยังคง รายละเอียดที่คมชัดและโครงสร้างขนาดเล็ก
    • ทำให้เกิดการเปลี่ยนมุมมองอย่างเป็นธรรมชาติด้วย การเรนเดอร์แบบเรียลไทม์

แหล่งที่มาของงานวิจัย

  • งานวิจัยตีพิมพ์บน arXiv:2512.10685
    • ชื่อเรื่อง: Sharp Monocular View Synthesis in Less Than a Second
    • คณะผู้วิจัย: Lars Mescheder และคณะอีก 12 คน
    • สังกัด: Apple

1 ความคิดเห็น

 
GN⁺ 2025-12-17
ความคิดเห็นจาก Hacker News
  • “Unsplash > Gen3C > The fly video” เป็นวิดีโอที่ เหมือนฝันร้ายจริง ๆ
    ถ้าอยากดูด้วยตัวเอง ลองดูได้ที่ลิงก์นี้

    • บริษัทต่าง ๆ คงจะเห็น ผลงานสุดสยองแบบนี้ แล้วพยายามเร่งพัฒนาให้เร็วขึ้น แต่ผมก็ยังหวังว่าวิดีโอที่เป็นโลกจริงจะยังคงเหลืออยู่
      สุดท้ายแล้วผู้คนคงจะสูญเสียความสัมพันธ์กับโลกจริง แล้วไปยึดติดกับ ชุดความบันเทิงเสมือนจริง กันมากขึ้น
      ถ้าโชคดีหน่อย อย่างน้อยก็คงยังมีความพยายามจะไปเจอคน ‘จริง ๆ’ ในโลก augmented reality อยู่บ้าง แต่ตอนนี้เราก็พึ่งพาเทคโนโลยีกันมากเกินไปแล้ว
      ต่อให้เทคโนโลยีพัฒนาไป ก็ยังน่าสงสัยว่าผลลัพธ์จะเป็นผลดีต่อมนุษย์จริงหรือไม่
    • มันให้ความรู้สึกเหมือนยุคก่อน ๆ ของ AI ที่ “ทุกอย่าง กลายเป็นหัวหมาไปหมด” เลย กลับรู้สึกว่าสวยในแบบของมัน
    • “san check, 1d10” — เป็นมุกว่าเป็นวิดีโอที่น่ากลัวจนต้องเช็กค่าสติแบบมีมเกมสยองขวัญ
    • “Seth Brundle has entered the chat.” — เป็นการอ้างถึงตัวเอกจากหนัง The Fly เพื่อเปรียบเทียบบรรยากาศวิดีโอที่ดูเหมือนการกลายพันธุ์
  • มีคนทำให้มันรันบน Apple Silicon ได้แล้ว
    มีเดโม GIF เล็ก ๆ อยู่ใน ml-sharp GitHub repository ด้วย
    กำลังพยายามทำแบบประมาณค่าโดยไม่ต้องเขียน Gaussian splat ขึ้นมาใหม่ทั้งหมด แต่พูดตรง ๆ ว่าค่อนข้างหนักเอาเรื่อง

    • น่าสนใจตรงที่ banding artifact ใน GIF ทำให้เปลวไฟดูเหมือนกะพริบจริง ๆ
      น่าประทับใจที่ AI รู้โครงสร้างภาพซ้อนในรูป และคงส่วนเปลวไฟไว้เป็น 2D เท่านั้น
    • ผลลัพธ์ตัวอย่างพูดตามตรงว่ายังไม่ค่อยน่าประทับใจ ถ้าดู 20% ล่างสุดจะเห็นว่าคุณภาพตกลงไป
  • “แล้วจริง ๆ มันทำอะไรเหรอ?”

    • มันคือเทคนิคที่ใช้กับรูปเก่าแบบสารคดีประวัติศาสตร์ เพื่อแยกคนหรือวัตถุออกจากฉากหลังแล้วใส่ การเคลื่อนไหวแบบมีมิติ เข้าไป
      ซอฟต์แวร์นี้ทำสิ่งนั้นเสร็จภายในไม่ถึง 1 วินาทีแล้วสร้างเป็นโมเดล 3D ให้
      Gaussian splashing ดูเท่มากเป็นพิเศษ
    • มันจำลอง parallax effect ให้เหมือนกับว่าเปลี่ยนมุมกล้องจากภาพ 2D เพียงภาพเดียว
      แยกตัวบุคคลได้ดี และจัดการฉากที่มีวัตถุหลายชิ้นได้ด้วย
      หลักการคล้ายเอฟเฟกต์ portrait mode
    • มันแปลงรูปภาพเดี่ยวให้เป็นฉาก 3D แบบหยาบ ๆ แล้วถ้าขยับกล้องนิดหน่อยก็จะเห็นมุมมองใหม่ได้
      คำว่า “Photorealistic” หมายถึงยังคงพื้นผิวและแสงแบบสมจริงไว้
      คล้ายกับฟีเจอร์ Spatial Scene ในแอป Apple Photos — วิดีโอเดโม
    • มันอนุมานตัวแทนเชิง 3D ที่ซ่อนอยู่จากภาพถ่ายเพียงภาพเดียว แล้วสร้าง ภาพที่สมจริง จากมุมมองที่ต่างออกไปเล็กน้อย
    • โดยพื้นฐานแล้วคือใช้ depth estimation เพื่อแบ่งฉากออกเป็นหลายระนาบ แล้วเติมส่วนที่ถูกบังด้วย inpainting
      จากนั้นก็ขยับแต่ละระนาบเพื่อสร้าง parallax — คล้ายเอฟเฟกต์ความลึกของฉากหลังในเกม 2D side-scrolling
  • สะดุดตาตรงที่ในตัวอย่างแทบไม่มีใบหน้าคนเลย
    จากประสบการณ์ที่ผ่านมา โมเดลแนวนี้พอมองแบบมีมิติแล้ว คนจะดูเหมือน ตุ๊กตากระดาษ 2D
    ไม่แน่ใจว่าโมเดลนี้จะถ่ายทอดความมีมิติได้จริงแค่ไหน แต่การไม่มีใบหน้าคนก็ชวนให้คิดอยู่เหมือนกัน

  • ของที่ Apple ทำ แต่ดันรองรับเฉพาะ CUDA GPU เอกสารที่เกี่ยวข้อง

    • น่าสนใจตรงที่โมเดลของ Apple เอง กลับไม่ทำงานบน MPS
      คงต้องรอกันอีกหลายปี
    • เอาต์พุต Gaussian splat สร้างบน CPU ได้เหมือนกัน
      เท่าที่เคยลองใช้ repository AI มา อันนี้เป็นหนึ่งในตัวที่รันง่ายที่สุดแล้ว
    • เวอร์ชันที่แก้ไขแล้วอยู่ที่นี่
    • ข้อจำกัดนี้ใช้กับ การเรนเดอร์วิดีโอ เท่านั้น
      ตัวโมเดลเองทำงานได้ทั้งบน GPU, CPU และ MPS
    • โมเดลทำงานได้โดยไม่ต้องมี CUDA
      คุณจะได้ไฟล์ .ply ออกมา แล้วเอาไปใส่ใน SparkJS viewer ได้
      CUDA จำเป็นแค่ตอนเรนเดอร์วิดีโอ side-scrolling เท่านั้น
  • ประเด็นสำคัญคือ “มันสร้าง ตัวแทน 3D ที่สมจริง จากภาพถ่ายเพียงภาพเดียวได้ภายในไม่ถึง 1 วินาที”

  • ฟีเจอร์ Spatial Scene ในแอป Apple Photos ก็ทำงานคล้ายกัน
    วิดีโอเดโม

    • แต่ผลลัพธ์มักสร้าง พื้นที่ที่เบลอและดูไม่เป็นธรรมชาติ ออกมาบ่อย ๆ
      บางครั้ง Photoshop แบบ content-aware fill ในอดีตก็ยังทำได้ดีกว่าเสียอีก
  • มีไฟล์ตัวอย่าง Gaussian splat ไหม?

    • ผมลองทดสอบเองแล้วอัปโหลดผลไว้ใน repository นี้
      แต่มีตัวอย่างแค่ชิ้นเดียว เลยสรุปทั่วไปไม่ได้มากนัก
  • ผลลัพธ์ดูน่าประทับใจก็จริง แต่ให้ความรู้สึก คมเกินไปและดูสังเคราะห์เกินจริง

    • ส่วนตัวผมชอบทั้งผลลัพธ์ของ TMPI และ SHARP
      เพียงแต่ TMPI มักออกมาสว่างกว่าเสมอ ซึ่งก็ไม่แน่ใจว่าแบบไหนถูกต้องกว่ากัน