- SHARP เป็นโมเดลที่รับภาพเดี่ยวเป็นอินพุตแล้วแปลงเป็น การแทนค่าแบบ 3D Gaussian เพื่อสร้างมุมมอง 3D ที่สมจริง
- คาดการณ์พารามิเตอร์ฉาก 3D ได้ด้วยการอนุมานของโครงข่ายประสาทเทียมเพียงครั้งเดียวในเวลา ไม่ถึง 1 วินาที บน GPU มาตรฐาน
- การแทนค่า 3D ที่สร้างขึ้นสามารถ เรนเดอร์แบบเรียลไทม์ ได้ และรองรับ การเคลื่อนที่ของกล้องเชิงเมตริก ที่มีสเกลสัมบูรณ์
- ในหลายชุดข้อมูล ทำได้ดีกว่าด้วยการปรับปรุง LPIPS 25–34% และ DISTS 21–43% พร้อมทั้งมี ความเร็วในการสังเคราะห์เร็วขึ้นระดับสามหลัก เมื่อเทียบกับโมเดลเดิม
- เปิดเป็นโอเพนซอร์ส ทำให้นักพัฒนาสามารถรัน การทำนายและการเรนเดอร์ผ่าน CLI ได้โดยตรง และเชื่อมต่อกับตัวเรนเดอร์ 3D ได้หลากหลาย
ภาพรวมของ SHARP
- SHARP (Sharp Monocular View Synthesis) เป็นแนวทางสำหรับสร้าง มุมมอง 3D แบบโฟโตเรียลลิสติก จากภาพถ่ายเพียงภาพเดียว
- ประเมิน พารามิเตอร์ของการแทนค่าแบบ 3D Gaussian จากภาพอินพุตด้วยวิธีรีเกรสชัน
- ทำความเร็วได้ไม่ถึง 1 วินาทีบน GPU มาตรฐานด้วย single feed-forward pass เพียงครั้งเดียว
- การแทนค่าแบบ 3D Gaussian ที่สร้างขึ้นสามารถ เรนเดอร์แบบเรียลไทม์ ได้ และให้ภาพความละเอียดสูงจากมุมมองใกล้เคียง
- การแทนค่านี้เป็น โครงสร้างเชิงเมตริกที่มีสเกลสัมบูรณ์ จึงรองรับการเคลื่อนที่ของกล้องจริง
ประสิทธิภาพและการทำให้ใช้ได้ทั่วไป
- ผลการทดลองแสดงว่า SHARP มีความสามารถด้าน zero-shot generalization ในหลายชุดข้อมูล
- ลดค่า LPIPS 25–34% และ DISTS 21–43% เมื่อเทียบกับโมเดลที่มีประสิทธิภาพสูงสุดเดิม
- เวลาสังเคราะห์ลดลงระดับสามหลัก หรือประมาณเร็วขึ้น 1000 เท่าเมื่อเทียบกับเดิม
การติดตั้งและการใช้งาน
- สามารถรันได้ในสภาพแวดล้อม Python 3.13 และติดตั้ง dependency ด้วย
pip install -r requirements.txt
- สามารถรันการทำนายผ่าน command-line interface (CLI) ได้ดังนี้
sharp predict -i 입력경로 -o 출력경로
- เมื่อรันครั้งแรก ระบบจะดาวน์โหลด model checkpoint โดยอัตโนมัติและเก็บไว้ใน local cache
- หากดาวน์โหลดด้วยตนเอง สามารถระบุได้ด้วยออปชัน
-c
- ผลลัพธ์จะถูกบันทึกเป็นไฟล์
.ply ในรูปแบบ 3D Gaussian Splat (3DGS) และเข้ากันได้กับ ตัวเรนเดอร์ 3DGS แบบเปิดเผยสาธารณะ
ความสามารถด้านการเรนเดอร์
- ในสภาพแวดล้อม CUDA GPU สามารถ เรนเดอร์วิดีโอ ตามเส้นทางการเคลื่อนที่ของกล้องได้
- ใช้ออปชัน
--render เพื่อทำการทำนายและเรนเดอร์พร้อมกัน
- หรือใช้ผลลัพธ์ระหว่างทาง (
.ply) เพื่อรันการเรนเดอร์แยกต่างหากได้
- ใช้ระบบพิกัดของ OpenCV (x ขวา, y ล่าง, z ด้านหน้า) และเมื่อใช้ตัวเรนเดอร์ภายนอกจำเป็นต้อง ปรับสเกลและการหมุนแก้ไข
การประเมินและเอกสารอ้างอิง
- ผลการประเมินเชิงปริมาณและเชิงคุณภาพถูกรวมไว้ในงานวิจัย
- สามารถดู ตัวอย่างวิดีโอเปรียบเทียบ ได้ที่ หน้าโปรเจกต์
ไลเซนส์และการอ้างอิง
- โค้ดและโมเดลสามารถใช้งานได้ตามเงื่อนไขในไฟล์ LICENSE และ LICENSE_MODEL ตามลำดับ
- เมื่อต้องการอ้างอิงงานวิจัย ให้ดูบทความ arXiv “Sharp Monocular View Synthesis in Less Than a Second (2025)”
- โค้ดเบสนี้สร้างขึ้นบนพื้นฐานของ ผลงานโอเพนซอร์สที่มีส่วนร่วมจากหลายแหล่ง
1 ความคิดเห็น
ความเห็นจาก Hacker News
โปรเจกต์ SHARP ของ Apple กลับมาเป็นประเด็นพูดถึงอีกครั้งบน HN
ก่อนหน้านี้ก็มีการพูดคุยกันในเธรดก่อนหน้าเช่นกัน
ดูข้อมูลทางการของ SHARP ได้ที่หน้าโปรเจกต์และงานวิจัย(arXiv)
ในไลเซนส์ของโมเดลระบุชัดว่า “ใช้เพื่อการวิจัยเท่านั้น” ดังนั้นจริง ๆ แล้ว ไม่ใช่โอเพนซอร์ส
ผู้ใช้คนหนึ่งบอกว่าตนได้ fork โปรเจกต์ให้เรนเดอร์บน MPS ได้แล้ว และแชร์คลัง GitHub ของตัวเอง
มีคนแซวว่า “วันนี้คือวันสำคัญของ VR porn”
โมเดลอนุมานได้แค่ตามแกนเดียว ความละเอียดก็จำกัดที่ 768px + 2 layer และยัง ประมวลผลแบบเรียลไทม์ ไม่ได้
พร้อมเสริมว่าปีนี้นวัตกรรมที่ใหญ่กว่ากลับอยู่ฝั่งโมเดลแก้ไขภาพและวิดีโอมากกว่า
มีความเห็นว่า “ทุกครั้งที่บริษัทยักษ์ใหญ่ปล่อยโมเดล ก็จะเกิดการถกเถียงเรื่องนิยามโอเพนซอร์สซ้ำ ๆ” พร้อมชี้ว่า แนวคิดเรื่อง ‘ซอร์ส’ ของโมเดล AI ต่างจากซอฟต์แวร์
และวิเคราะห์ว่า Apple น่าจะต้องการได้ความน่าเชื่อถือเชิงวิชาการไปพร้อมกับเก็บทางเลือกเชิงพาณิชย์ไว้
และประเมินว่าจุดแข็งที่แท้จริงของ Apple คือการทำให้สามารถ สัมผัสภาพเก่าในแบบ VR ได้
มีคนบอกว่า “ผู้คนมักถ่ายภาพวัตถุเดียวกันหลายรูปอยู่แล้ว จึงแทบจะเท่ากับให้ ข้อมูลภาพสเตอริโอ มาอยู่แล้ว”
ผู้ใช้บางคนบอกว่าตัวเองไม่ชอบ Conda เลยยังลังเลที่จะลองทดสอบ
uvเท่านั้น พร้อมแชร์คำสั่งติดตั้งผู้ใช้คนหนึ่งบอกว่าระหว่างพักร้อนกำลังทดลองโปรเจกต์ที่เกี่ยวข้องอย่าง StereoCrafter และ GeometryCrafter อยู่
โดยเมื่อนำไปใช้กับวิดีโอจะยากขึ้นมากและใช้พลังประมวลผลสูงกว่า เพราะมีปัญหา temporal consistency
แต่พอลอง spatialize วิดีโอโฮมวิดีโอเก่าสมัยสงครามเกาหลี กลับพบว่ามันทำงานได้ดีอย่างน่าทึ่ง
ลิงก์ StereoCrafter, ลิงก์ GeometryCrafter