SHARP - แนวทางสำหรับสังเคราะห์มุมมองแบบโฟโตเรียลลิสติกจากภาพเดี่ยว

(apple.github.io)

5 คะแนน โดย GN⁺ 2025-12-17 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

SHARP ที่ Apple เปิดตัว เป็นเทคโนโลยีที่ประเมิน การแทนค่าแบบ 3D Gaussian จากภาพถ่ายเพียงภาพเดียว เพื่อสังเคราะห์มุมมองใหม่ที่สมจริงระดับภาพถ่าย
ประมวลผลด้วยการทำ feedforward pass ของโครงข่ายประสาทเทียมเพียงครั้งเดียวในเวลา น้อยกว่า 1 วินาที บน GPU มาตรฐาน และรองรับ การเรนเดอร์แบบเรียลไทม์
การแทนค่า 3D ที่สร้างขึ้นเป็น metric representation ที่มี absolute scale ซึ่งรองรับการเคลื่อนที่ของกล้องจริง
แสดงประสิทธิภาพ zero-shot generalization บนหลายชุดข้อมูล และเมื่อเทียบกับโมเดลเดิมสามารถ ลด LPIPS ได้ 25–34% และ DISTS ได้ 21–43%
เพิ่มความเร็วในการสังเคราะห์ขึ้น 1000 เท่า เมื่อเทียบกับเดิม พร้อมนำเสนอเกณฑ์มาตรฐานใหม่สำหรับการสังเคราะห์มุมมอง 3D จากภาพเดี่ยว

ภาพรวมของ SHARP

SHARP (Sharp Monocular View Synthesis) เป็นแนวทางสำหรับ การสังเคราะห์มุมมอง 3D แบบโฟโตเรียลลิสติก จากภาพเดี่ยว
- ประเมิน พารามิเตอร์การแทนค่าแบบ 3D Gaussian ของฉากจากภาพอินพุตเพียงหนึ่งภาพด้วยวิธี regression
- กระบวนการนี้เสร็จสิ้นได้ในเวลา น้อยกว่า 1 วินาทีบน GPU มาตรฐาน
การแทนค่าแบบ 3D Gaussian ที่สร้างขึ้นรองรับ การเรนเดอร์แบบเรียลไทม์ และสร้าง ภาพความละเอียดสูง จากมุมมองใกล้เคียง
- ทำความเร็วการเรนเดอร์ได้มากกว่า 100 เฟรมต่อวินาที
- คงไว้ซึ่งโครงสร้างละเอียดและรายละเอียดที่คมชัด

คุณลักษณะทางเทคนิค

การแทนค่า 3D ของ SHARP เป็น metric representation ที่รวม absolute scale ทำให้สะท้อนการเคลื่อนที่ของกล้องจริงได้
ประมวลผลด้วย feedforward pass ของโครงข่ายประสาทเทียมเพียงครั้งเดียว จึงให้ผลลัพธ์ได้รวดเร็วโดยไม่ต้องผ่านกระบวนการ optimization ที่ซับซ้อน
รักษาประสิทธิภาพได้อย่างเสถียรแม้บนชุดข้อมูลที่ไม่เคยใช้ฝึกมาก่อนด้วย zero-shot generalization

ผลลัพธ์ด้านประสิทธิภาพและการเปรียบเทียบ

ทำผลงานระดับ state of the art บนหลายชุดข้อมูล
- ปรับปรุง ตัวชี้วัด LPIPS ได้ 25–34% และ ตัวชี้วัด DISTS ได้ 21–43%
- ลดเวลาการสังเคราะห์ลง 1000 เท่า เมื่อเทียบกับโมเดลที่ดีที่สุดก่อนหน้า
การปรับปรุงด้านประสิทธิภาพเหล่านี้ช่วยยกระดับทั้ง ประสิทธิผลและคุณภาพ ของการสังเคราะห์มุมมอง 3D จากภาพเดี่ยวพร้อมกัน

ผลลัพธ์เชิงภาพ

SHARP ใช้ภาพจาก Unsplash เป็นตัวอย่างเพื่อแสดงการแทนค่า 3D ที่สร้างจากภาพอินพุตเดี่ยว
- ผลการเรนเดอร์จากมุมมองใกล้เคียงยังคง รายละเอียดที่คมชัดและโครงสร้างขนาดเล็ก
- ทำให้เกิดการเปลี่ยนมุมมองอย่างเป็นธรรมชาติด้วย การเรนเดอร์แบบเรียลไทม์

แหล่งที่มาของงานวิจัย

งานวิจัยตีพิมพ์บน arXiv:2512.10685
- ชื่อเรื่อง: Sharp Monocular View Synthesis in Less Than a Second
- คณะผู้วิจัย: Lars Mescheder และคณะอีก 12 คน
- สังกัด: Apple

1 ความคิดเห็น

GN⁺ 2025-12-17

ความคิดเห็นจาก Hacker News

“Unsplash > Gen3C > The fly video” เป็นวิดีโอที่ เหมือนฝันร้ายจริง ๆ
ถ้าอยากดูด้วยตัวเอง ลองดูได้ที่ลิงก์นี้
- บริษัทต่าง ๆ คงจะเห็น ผลงานสุดสยองแบบนี้ แล้วพยายามเร่งพัฒนาให้เร็วขึ้น แต่ผมก็ยังหวังว่าวิดีโอที่เป็นโลกจริงจะยังคงเหลืออยู่
  สุดท้ายแล้วผู้คนคงจะสูญเสียความสัมพันธ์กับโลกจริง แล้วไปยึดติดกับ ชุดความบันเทิงเสมือนจริง กันมากขึ้น
  ถ้าโชคดีหน่อย อย่างน้อยก็คงยังมีความพยายามจะไปเจอคน ‘จริง ๆ’ ในโลก augmented reality อยู่บ้าง แต่ตอนนี้เราก็พึ่งพาเทคโนโลยีกันมากเกินไปแล้ว
  ต่อให้เทคโนโลยีพัฒนาไป ก็ยังน่าสงสัยว่าผลลัพธ์จะเป็นผลดีต่อมนุษย์จริงหรือไม่
- มันให้ความรู้สึกเหมือนยุคก่อน ๆ ของ AI ที่ “ทุกอย่าง กลายเป็นหัวหมาไปหมด” เลย กลับรู้สึกว่าสวยในแบบของมัน
- “san check, 1d10” — เป็นมุกว่าเป็นวิดีโอที่น่ากลัวจนต้องเช็กค่าสติแบบมีมเกมสยองขวัญ
- “Seth Brundle has entered the chat.” — เป็นการอ้างถึงตัวเอกจากหนัง The Fly เพื่อเปรียบเทียบบรรยากาศวิดีโอที่ดูเหมือนการกลายพันธุ์
มีคนทำให้มันรันบน Apple Silicon ได้แล้ว
มีเดโม GIF เล็ก ๆ อยู่ใน ml-sharp GitHub repository ด้วย
กำลังพยายามทำแบบประมาณค่าโดยไม่ต้องเขียน Gaussian splat ขึ้นมาใหม่ทั้งหมด แต่พูดตรง ๆ ว่าค่อนข้างหนักเอาเรื่อง
- น่าสนใจตรงที่ banding artifact ใน GIF ทำให้เปลวไฟดูเหมือนกะพริบจริง ๆ
  น่าประทับใจที่ AI รู้โครงสร้างภาพซ้อนในรูป และคงส่วนเปลวไฟไว้เป็น 2D เท่านั้น
- ผลลัพธ์ตัวอย่างพูดตามตรงว่ายังไม่ค่อยน่าประทับใจ ถ้าดู 20% ล่างสุดจะเห็นว่าคุณภาพตกลงไป
“แล้วจริง ๆ มันทำอะไรเหรอ?”
- มันคือเทคนิคที่ใช้กับรูปเก่าแบบสารคดีประวัติศาสตร์ เพื่อแยกคนหรือวัตถุออกจากฉากหลังแล้วใส่ การเคลื่อนไหวแบบมีมิติ เข้าไป
  ซอฟต์แวร์นี้ทำสิ่งนั้นเสร็จภายในไม่ถึง 1 วินาทีแล้วสร้างเป็นโมเดล 3D ให้
  Gaussian splashing ดูเท่มากเป็นพิเศษ
- มันจำลอง parallax effect ให้เหมือนกับว่าเปลี่ยนมุมกล้องจากภาพ 2D เพียงภาพเดียว
  แยกตัวบุคคลได้ดี และจัดการฉากที่มีวัตถุหลายชิ้นได้ด้วย
  หลักการคล้ายเอฟเฟกต์ portrait mode
- มันแปลงรูปภาพเดี่ยวให้เป็นฉาก 3D แบบหยาบ ๆ แล้วถ้าขยับกล้องนิดหน่อยก็จะเห็นมุมมองใหม่ได้
  คำว่า “Photorealistic” หมายถึงยังคงพื้นผิวและแสงแบบสมจริงไว้
  คล้ายกับฟีเจอร์ Spatial Scene ในแอป Apple Photos — วิดีโอเดโม
- มันอนุมานตัวแทนเชิง 3D ที่ซ่อนอยู่จากภาพถ่ายเพียงภาพเดียว แล้วสร้าง ภาพที่สมจริง จากมุมมองที่ต่างออกไปเล็กน้อย
- โดยพื้นฐานแล้วคือใช้ depth estimation เพื่อแบ่งฉากออกเป็นหลายระนาบ แล้วเติมส่วนที่ถูกบังด้วย inpainting
  จากนั้นก็ขยับแต่ละระนาบเพื่อสร้าง parallax — คล้ายเอฟเฟกต์ความลึกของฉากหลังในเกม 2D side-scrolling
สะดุดตาตรงที่ในตัวอย่างแทบไม่มีใบหน้าคนเลย
จากประสบการณ์ที่ผ่านมา โมเดลแนวนี้พอมองแบบมีมิติแล้ว คนจะดูเหมือน ตุ๊กตากระดาษ 2D
ไม่แน่ใจว่าโมเดลนี้จะถ่ายทอดความมีมิติได้จริงแค่ไหน แต่การไม่มีใบหน้าคนก็ชวนให้คิดอยู่เหมือนกัน
- Apple ใช้ Depth Pro model สำหรับการประเมินความลึก และบอกว่าการแสดงผลใบหน้าทำได้ค่อนข้างดี
  Depth Pro GitHub / คำอธิบายจาก LearnOpenCV
ของที่ Apple ทำ แต่ดันรองรับเฉพาะ CUDA GPU เอกสารที่เกี่ยวข้อง
- น่าสนใจตรงที่โมเดลของ Apple เอง กลับไม่ทำงานบน MPS
  คงต้องรอกันอีกหลายปี
- เอาต์พุต Gaussian splat สร้างบน CPU ได้เหมือนกัน
  เท่าที่เคยลองใช้ repository AI มา อันนี้เป็นหนึ่งในตัวที่รันง่ายที่สุดแล้ว
- เวอร์ชันที่แก้ไขแล้วอยู่ที่นี่
- ข้อจำกัดนี้ใช้กับ การเรนเดอร์วิดีโอ เท่านั้น
  ตัวโมเดลเองทำงานได้ทั้งบน GPU, CPU และ MPS
- โมเดลทำงานได้โดยไม่ต้องมี CUDA
  คุณจะได้ไฟล์ .ply ออกมา แล้วเอาไปใส่ใน SparkJS viewer ได้
  CUDA จำเป็นแค่ตอนเรนเดอร์วิดีโอ side-scrolling เท่านั้น
ประเด็นสำคัญคือ “มันสร้าง ตัวแทน 3D ที่สมจริง จากภาพถ่ายเพียงภาพเดียวได้ภายในไม่ถึง 1 วินาที”
ฟีเจอร์ Spatial Scene ในแอป Apple Photos ก็ทำงานคล้ายกัน
วิดีโอเดโม
- แต่ผลลัพธ์มักสร้าง พื้นที่ที่เบลอและดูไม่เป็นธรรมชาติ ออกมาบ่อย ๆ
  บางครั้ง Photoshop แบบ content-aware fill ในอดีตก็ยังทำได้ดีกว่าเสียอีก
มีไฟล์ตัวอย่าง Gaussian splat ไหม?
- ผมลองทดสอบเองแล้วอัปโหลดผลไว้ใน repository นี้
  แต่มีตัวอย่างแค่ชิ้นเดียว เลยสรุปทั่วไปไม่ได้มากนัก
ผลลัพธ์ดูน่าประทับใจก็จริง แต่ให้ความรู้สึก คมเกินไปและดูสังเคราะห์เกินจริง
- ส่วนตัวผมชอบทั้งผลลัพธ์ของ TMPI และ SHARP
  เพียงแต่ TMPI มักออกมาสว่างกว่าเสมอ ซึ่งก็ไม่แน่ใจว่าแบบไหนถูกต้องกว่ากัน

SHARP - แนวทางสำหรับสังเคราะห์มุมมองแบบโฟโตเรียลลิสติกจากภาพเดี่ยว

ภาพรวมของ SHARP

คุณลักษณะทางเทคนิค

ผลลัพธ์ด้านประสิทธิภาพและการเปรียบเทียบ

ผลลัพธ์เชิงภาพ

แหล่งที่มาของงานวิจัย

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News