- SHARP ที่ Apple เปิดตัว เป็นเทคโนโลยีที่ประเมิน การแทนค่าแบบ 3D Gaussian จากภาพถ่ายเพียงภาพเดียว เพื่อสังเคราะห์มุมมองใหม่ที่สมจริงระดับภาพถ่าย
- ประมวลผลด้วยการทำ feedforward pass ของโครงข่ายประสาทเทียมเพียงครั้งเดียวในเวลา น้อยกว่า 1 วินาที บน GPU มาตรฐาน และรองรับ การเรนเดอร์แบบเรียลไทม์
- การแทนค่า 3D ที่สร้างขึ้นเป็น metric representation ที่มี absolute scale ซึ่งรองรับการเคลื่อนที่ของกล้องจริง
- แสดงประสิทธิภาพ zero-shot generalization บนหลายชุดข้อมูล และเมื่อเทียบกับโมเดลเดิมสามารถ ลด LPIPS ได้ 25–34% และ DISTS ได้ 21–43%
- เพิ่มความเร็วในการสังเคราะห์ขึ้น 1000 เท่า เมื่อเทียบกับเดิม พร้อมนำเสนอเกณฑ์มาตรฐานใหม่สำหรับการสังเคราะห์มุมมอง 3D จากภาพเดี่ยว
ภาพรวมของ SHARP
- SHARP (Sharp Monocular View Synthesis) เป็นแนวทางสำหรับ การสังเคราะห์มุมมอง 3D แบบโฟโตเรียลลิสติก จากภาพเดี่ยว
- ประเมิน พารามิเตอร์การแทนค่าแบบ 3D Gaussian ของฉากจากภาพอินพุตเพียงหนึ่งภาพด้วยวิธี regression
- กระบวนการนี้เสร็จสิ้นได้ในเวลา น้อยกว่า 1 วินาทีบน GPU มาตรฐาน
- การแทนค่าแบบ 3D Gaussian ที่สร้างขึ้นรองรับ การเรนเดอร์แบบเรียลไทม์ และสร้าง ภาพความละเอียดสูง จากมุมมองใกล้เคียง
- ทำความเร็วการเรนเดอร์ได้มากกว่า 100 เฟรมต่อวินาที
- คงไว้ซึ่งโครงสร้างละเอียดและรายละเอียดที่คมชัด
คุณลักษณะทางเทคนิค
- การแทนค่า 3D ของ SHARP เป็น metric representation ที่รวม absolute scale ทำให้สะท้อนการเคลื่อนที่ของกล้องจริงได้
- ประมวลผลด้วย feedforward pass ของโครงข่ายประสาทเทียมเพียงครั้งเดียว จึงให้ผลลัพธ์ได้รวดเร็วโดยไม่ต้องผ่านกระบวนการ optimization ที่ซับซ้อน
- รักษาประสิทธิภาพได้อย่างเสถียรแม้บนชุดข้อมูลที่ไม่เคยใช้ฝึกมาก่อนด้วย zero-shot generalization
ผลลัพธ์ด้านประสิทธิภาพและการเปรียบเทียบ
- ทำผลงานระดับ state of the art บนหลายชุดข้อมูล
- ปรับปรุง ตัวชี้วัด LPIPS ได้ 25–34% และ ตัวชี้วัด DISTS ได้ 21–43%
- ลดเวลาการสังเคราะห์ลง 1000 เท่า เมื่อเทียบกับโมเดลที่ดีที่สุดก่อนหน้า
- การปรับปรุงด้านประสิทธิภาพเหล่านี้ช่วยยกระดับทั้ง ประสิทธิผลและคุณภาพ ของการสังเคราะห์มุมมอง 3D จากภาพเดี่ยวพร้อมกัน
ผลลัพธ์เชิงภาพ
- SHARP ใช้ภาพจาก Unsplash เป็นตัวอย่างเพื่อแสดงการแทนค่า 3D ที่สร้างจากภาพอินพุตเดี่ยว
- ผลการเรนเดอร์จากมุมมองใกล้เคียงยังคง รายละเอียดที่คมชัดและโครงสร้างขนาดเล็ก
- ทำให้เกิดการเปลี่ยนมุมมองอย่างเป็นธรรมชาติด้วย การเรนเดอร์แบบเรียลไทม์
แหล่งที่มาของงานวิจัย
- งานวิจัยตีพิมพ์บน arXiv:2512.10685
- ชื่อเรื่อง: Sharp Monocular View Synthesis in Less Than a Second
- คณะผู้วิจัย: Lars Mescheder และคณะอีก 12 คน
- สังกัด: Apple
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
“Unsplash > Gen3C > The fly video” เป็นวิดีโอที่ เหมือนฝันร้ายจริง ๆ
ถ้าอยากดูด้วยตัวเอง ลองดูได้ที่ลิงก์นี้
สุดท้ายแล้วผู้คนคงจะสูญเสียความสัมพันธ์กับโลกจริง แล้วไปยึดติดกับ ชุดความบันเทิงเสมือนจริง กันมากขึ้น
ถ้าโชคดีหน่อย อย่างน้อยก็คงยังมีความพยายามจะไปเจอคน ‘จริง ๆ’ ในโลก augmented reality อยู่บ้าง แต่ตอนนี้เราก็พึ่งพาเทคโนโลยีกันมากเกินไปแล้ว
ต่อให้เทคโนโลยีพัฒนาไป ก็ยังน่าสงสัยว่าผลลัพธ์จะเป็นผลดีต่อมนุษย์จริงหรือไม่
มีคนทำให้มันรันบน Apple Silicon ได้แล้ว
มีเดโม GIF เล็ก ๆ อยู่ใน ml-sharp GitHub repository ด้วย
กำลังพยายามทำแบบประมาณค่าโดยไม่ต้องเขียน Gaussian splat ขึ้นมาใหม่ทั้งหมด แต่พูดตรง ๆ ว่าค่อนข้างหนักเอาเรื่อง
น่าประทับใจที่ AI รู้โครงสร้างภาพซ้อนในรูป และคงส่วนเปลวไฟไว้เป็น 2D เท่านั้น
“แล้วจริง ๆ มันทำอะไรเหรอ?”
ซอฟต์แวร์นี้ทำสิ่งนั้นเสร็จภายในไม่ถึง 1 วินาทีแล้วสร้างเป็นโมเดล 3D ให้
Gaussian splashing ดูเท่มากเป็นพิเศษ
แยกตัวบุคคลได้ดี และจัดการฉากที่มีวัตถุหลายชิ้นได้ด้วย
หลักการคล้ายเอฟเฟกต์ portrait mode
คำว่า “Photorealistic” หมายถึงยังคงพื้นผิวและแสงแบบสมจริงไว้
คล้ายกับฟีเจอร์ Spatial Scene ในแอป Apple Photos — วิดีโอเดโม
จากนั้นก็ขยับแต่ละระนาบเพื่อสร้าง parallax — คล้ายเอฟเฟกต์ความลึกของฉากหลังในเกม 2D side-scrolling
สะดุดตาตรงที่ในตัวอย่างแทบไม่มีใบหน้าคนเลย
จากประสบการณ์ที่ผ่านมา โมเดลแนวนี้พอมองแบบมีมิติแล้ว คนจะดูเหมือน ตุ๊กตากระดาษ 2D
ไม่แน่ใจว่าโมเดลนี้จะถ่ายทอดความมีมิติได้จริงแค่ไหน แต่การไม่มีใบหน้าคนก็ชวนให้คิดอยู่เหมือนกัน
Depth Pro GitHub / คำอธิบายจาก LearnOpenCV
ของที่ Apple ทำ แต่ดันรองรับเฉพาะ CUDA GPU เอกสารที่เกี่ยวข้อง
คงต้องรอกันอีกหลายปี
เท่าที่เคยลองใช้ repository AI มา อันนี้เป็นหนึ่งในตัวที่รันง่ายที่สุดแล้ว
ตัวโมเดลเองทำงานได้ทั้งบน GPU, CPU และ MPS
คุณจะได้ไฟล์ .ply ออกมา แล้วเอาไปใส่ใน SparkJS viewer ได้
CUDA จำเป็นแค่ตอนเรนเดอร์วิดีโอ side-scrolling เท่านั้น
ประเด็นสำคัญคือ “มันสร้าง ตัวแทน 3D ที่สมจริง จากภาพถ่ายเพียงภาพเดียวได้ภายในไม่ถึง 1 วินาที”
ฟีเจอร์ Spatial Scene ในแอป Apple Photos ก็ทำงานคล้ายกัน
วิดีโอเดโม
บางครั้ง Photoshop แบบ content-aware fill ในอดีตก็ยังทำได้ดีกว่าเสียอีก
มีไฟล์ตัวอย่าง Gaussian splat ไหม?
แต่มีตัวอย่างแค่ชิ้นเดียว เลยสรุปทั่วไปไม่ได้มากนัก
ผลลัพธ์ดูน่าประทับใจก็จริง แต่ให้ความรู้สึก คมเกินไปและดูสังเคราะห์เกินจริง
เพียงแต่ TMPI มักออกมาสว่างกว่าเสมอ ซึ่งก็ไม่แน่ใจว่าแบบไหนถูกต้องกว่ากัน