6 คะแนน โดย GN⁺ 2025-12-28 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • SHARP เป็นโมเดลที่รับภาพเดี่ยวเป็นอินพุตแล้วแปลงเป็น การแทนค่าแบบ 3D Gaussian เพื่อสร้างมุมมอง 3D ที่สมจริง
  • คาดการณ์พารามิเตอร์ฉาก 3D ได้ด้วยการอนุมานของโครงข่ายประสาทเทียมเพียงครั้งเดียวในเวลา ไม่ถึง 1 วินาที บน GPU มาตรฐาน
  • การแทนค่า 3D ที่สร้างขึ้นสามารถ เรนเดอร์แบบเรียลไทม์ ได้ และรองรับ การเคลื่อนที่ของกล้องเชิงเมตริก ที่มีสเกลสัมบูรณ์
  • ในหลายชุดข้อมูล ทำได้ดีกว่าด้วยการปรับปรุง LPIPS 25–34% และ DISTS 21–43% พร้อมทั้งมี ความเร็วในการสังเคราะห์เร็วขึ้นระดับสามหลัก เมื่อเทียบกับโมเดลเดิม
  • เปิดเป็นโอเพนซอร์ส ทำให้นักพัฒนาสามารถรัน การทำนายและการเรนเดอร์ผ่าน CLI ได้โดยตรง และเชื่อมต่อกับตัวเรนเดอร์ 3D ได้หลากหลาย

ภาพรวมของ SHARP

  • SHARP (Sharp Monocular View Synthesis) เป็นแนวทางสำหรับสร้าง มุมมอง 3D แบบโฟโตเรียลลิสติก จากภาพถ่ายเพียงภาพเดียว
    • ประเมิน พารามิเตอร์ของการแทนค่าแบบ 3D Gaussian จากภาพอินพุตด้วยวิธีรีเกรสชัน
    • ทำความเร็วได้ไม่ถึง 1 วินาทีบน GPU มาตรฐานด้วย single feed-forward pass เพียงครั้งเดียว
  • การแทนค่าแบบ 3D Gaussian ที่สร้างขึ้นสามารถ เรนเดอร์แบบเรียลไทม์ ได้ และให้ภาพความละเอียดสูงจากมุมมองใกล้เคียง
  • การแทนค่านี้เป็น โครงสร้างเชิงเมตริกที่มีสเกลสัมบูรณ์ จึงรองรับการเคลื่อนที่ของกล้องจริง

ประสิทธิภาพและการทำให้ใช้ได้ทั่วไป

  • ผลการทดลองแสดงว่า SHARP มีความสามารถด้าน zero-shot generalization ในหลายชุดข้อมูล
  • ลดค่า LPIPS 25–34% และ DISTS 21–43% เมื่อเทียบกับโมเดลที่มีประสิทธิภาพสูงสุดเดิม
  • เวลาสังเคราะห์ลดลงระดับสามหลัก หรือประมาณเร็วขึ้น 1000 เท่าเมื่อเทียบกับเดิม

การติดตั้งและการใช้งาน

  • สามารถรันได้ในสภาพแวดล้อม Python 3.13 และติดตั้ง dependency ด้วย pip install -r requirements.txt
  • สามารถรันการทำนายผ่าน command-line interface (CLI) ได้ดังนี้
    • sharp predict -i 입력경로 -o 출력경로
    • เมื่อรันครั้งแรก ระบบจะดาวน์โหลด model checkpoint โดยอัตโนมัติและเก็บไว้ใน local cache
    • หากดาวน์โหลดด้วยตนเอง สามารถระบุได้ด้วยออปชัน -c
  • ผลลัพธ์จะถูกบันทึกเป็นไฟล์ .ply ในรูปแบบ 3D Gaussian Splat (3DGS) และเข้ากันได้กับ ตัวเรนเดอร์ 3DGS แบบเปิดเผยสาธารณะ

ความสามารถด้านการเรนเดอร์

  • ในสภาพแวดล้อม CUDA GPU สามารถ เรนเดอร์วิดีโอ ตามเส้นทางการเคลื่อนที่ของกล้องได้
    • ใช้ออปชัน --render เพื่อทำการทำนายและเรนเดอร์พร้อมกัน
    • หรือใช้ผลลัพธ์ระหว่างทาง (.ply) เพื่อรันการเรนเดอร์แยกต่างหากได้
  • ใช้ระบบพิกัดของ OpenCV (x ขวา, y ล่าง, z ด้านหน้า) และเมื่อใช้ตัวเรนเดอร์ภายนอกจำเป็นต้อง ปรับสเกลและการหมุนแก้ไข

การประเมินและเอกสารอ้างอิง

  • ผลการประเมินเชิงปริมาณและเชิงคุณภาพถูกรวมไว้ในงานวิจัย
  • สามารถดู ตัวอย่างวิดีโอเปรียบเทียบ ได้ที่ หน้าโปรเจกต์

ไลเซนส์และการอ้างอิง

  • โค้ดและโมเดลสามารถใช้งานได้ตามเงื่อนไขในไฟล์ LICENSE และ LICENSE_MODEL ตามลำดับ
  • เมื่อต้องการอ้างอิงงานวิจัย ให้ดูบทความ arXiv “Sharp Monocular View Synthesis in Less Than a Second (2025)”
  • โค้ดเบสนี้สร้างขึ้นบนพื้นฐานของ ผลงานโอเพนซอร์สที่มีส่วนร่วมจากหลายแหล่ง

1 ความคิดเห็น

 
GN⁺ 2025-12-28
ความเห็นจาก Hacker News
  • โปรเจกต์ SHARP ของ Apple กลับมาเป็นประเด็นพูดถึงอีกครั้งบน HN
    ก่อนหน้านี้ก็มีการพูดคุยกันในเธรดก่อนหน้าเช่นกัน

    • มีการแชร์โพสต์อีกครั้งที่แนะนำในชื่อ “SHARP, an approach to photorealistic view synthesis from a single image”
    • มีการชี้ว่า คู่มือติดตั้งบน GitHub ที่เกี่ยวกับ AI มักใช้งานไม่ได้ตามที่ควร เพราะส่วนใหญ่สมมติว่ามีการตั้งค่าสภาพแวดล้อมพัฒนาไว้แล้ว ทำให้มือใหม่เริ่มต้นได้ยาก
  • ดูข้อมูลทางการของ SHARP ได้ที่หน้าโปรเจกต์และงานวิจัย(arXiv)

    • ผู้ใช้คนหนึ่งบอกว่าวิดีโอเดโมของ Bradleyน่าประทับใจกว่าหน้าเว็บทางการมาก
    • ผู้ใช้อีกคนตั้งข้อสังเกตว่าผู้เขียนดูเหมือนจะมาจากต่างประเทศทั้งหมด และแสดงความสงสัยเกี่ยวกับ การเปลี่ยนแปลงองค์ประกอบของกำลังคนด้าน STEM
  • ในไลเซนส์ของโมเดลระบุชัดว่า “ใช้เพื่อการวิจัยเท่านั้น” ดังนั้นจริง ๆ แล้ว ไม่ใช่โอเพนซอร์ส

    • ใน README ก็ไม่ได้บอกว่าเป็นโอเพนซอร์ส เพียงแค่ระบุว่าสร้างอยู่บนพื้นฐานของโอเพนซอร์สเท่านั้น
    • มีการชี้ว่าอิทธิพลจากการที่ Meta ทำให้ความหมายของ “โอเพนซอร์ส” บิดเบือนไป ทำให้ตอนนี้คนเริ่มมองว่าแค่ เปิดเผย weight = โอเพนซอร์ส
    • ผู้ใช้บางคนบอกว่า “weights อาจไม่อยู่ภายใต้ลิขสิทธิ์” ดังนั้นประเด็นสำคัญจริง ๆ คือ ผลบังคับทางกฎหมาย ที่ Apple จะใช้ได้
    • ดูเหมือนความสับสนจะเกิดจากไลเซนส์หลักที่ไม่ได้ระบุข้อจำกัดไว้
    • มีผู้ใช้คนหนึ่งบอกว่า “จะลองศึกษาดูว่าสามารถเอาไปทำผลิตภัณฑ์ที่ทำกำไรได้ไหม”
  • ผู้ใช้คนหนึ่งบอกว่าตนได้ fork โปรเจกต์ให้เรนเดอร์บน MPS ได้แล้ว และแชร์คลัง GitHub ของตัวเอง

    • ผู้ใช้อีกคนตอบขอบคุณพร้อมบอกว่า “ดูดีมาก”
  • มีคนแซวว่า “วันนี้คือวันสำคัญของ VR porn”

    • อีกคนอธิบายว่าจริง ๆ แล้ว ข้อจำกัดด้านคุณภาพของคอนเทนต์ VR ยังชัดเจนอยู่
      โมเดลอนุมานได้แค่ตามแกนเดียว ความละเอียดก็จำกัดที่ 768px + 2 layer และยัง ประมวลผลแบบเรียลไทม์ ไม่ได้
      พร้อมเสริมว่าปีนี้นวัตกรรมที่ใหญ่กว่ากลับอยู่ฝั่งโมเดลแก้ไขภาพและวิดีโอมากกว่า
    • อีกคนเล่นมุกว่า คำว่า “Gaussian splat” ฟังดูมีความหมายอีกแบบหนึ่งไปเลย
  • มีความเห็นว่า “ทุกครั้งที่บริษัทยักษ์ใหญ่ปล่อยโมเดล ก็จะเกิดการถกเถียงเรื่องนิยามโอเพนซอร์สซ้ำ ๆ” พร้อมชี้ว่า แนวคิดเรื่อง ‘ซอร์ส’ ของโมเดล AI ต่างจากซอฟต์แวร์
    และวิเคราะห์ว่า Apple น่าจะต้องการได้ความน่าเชื่อถือเชิงวิชาการไปพร้อมกับเก็บทางเลือกเชิงพาณิชย์ไว้

    • ผู้ใช้อีกคนบอกว่า “เทคโนโลยีน่าทึ่งมาก แต่น่าเสียดายที่ประเด็นไลเซนส์กลับขึ้นมาอยู่ด้านบน”
      และประเมินว่าจุดแข็งที่แท้จริงของ Apple คือการทำให้สามารถ สัมผัสภาพเก่าในแบบ VR ได้
    • อีกคนแซวว่าสำนวน “which isn’t unsurprising” ซับซ้อนเกินไป
    • จากนั้นก็มีมุกต่อว่า “ความไม่น่าแปลกใจนี่แหละที่น่าแปลกใจ”
  • มีคนบอกว่า “ผู้คนมักถ่ายภาพวัตถุเดียวกันหลายรูปอยู่แล้ว จึงแทบจะเท่ากับให้ ข้อมูลภาพสเตอริโอ มาอยู่แล้ว”

    • อีกคนเสริมว่า “เฟรมจาก Live Photo ก็เอามาใช้ได้เหมือนกัน”
  • ผู้ใช้บางคนบอกว่าตัวเองไม่ชอบ Conda เลยยังลังเลที่จะลองทดสอบ

    • อีกคนแนะนำ pixi และอธิบายอย่างเป็นรูปธรรมว่า จริง ๆ แล้วไม่ต้องใช้ Conda ก็ได้ ขอแค่มี Python 3.13 กับ uv เท่านั้น พร้อมแชร์คำสั่งติดตั้ง
    • อีกคนตอบเห็นด้วยว่า “นั่นไม่ใช่ความไม่ชอบแบบไร้เหตุผลเลย”
  • ผู้ใช้คนหนึ่งบอกว่าระหว่างพักร้อนกำลังทดลองโปรเจกต์ที่เกี่ยวข้องอย่าง StereoCrafter และ GeometryCrafter อยู่
    โดยเมื่อนำไปใช้กับวิดีโอจะยากขึ้นมากและใช้พลังประมวลผลสูงกว่า เพราะมีปัญหา temporal consistency
    แต่พอลอง spatialize วิดีโอโฮมวิดีโอเก่าสมัยสงครามเกาหลี กลับพบว่ามันทำงานได้ดีอย่างน่าทึ่ง
    ลิงก์ StereoCrafter, ลิงก์ GeometryCrafter

    • ผู้ใช้อีกคนตอบว่า “อยากเห็นตัวอย่างนั้นจริง ๆ”