3 คะแนน โดย GN⁺ 2024-11-21 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Niantic กำลังพัฒนา Large Geospatial Model (LGM) ที่ใช้แมชชีนเลิร์นนิงขนาดใหญ่เพื่อทำความเข้าใจฉาก และเชื่อมโยงฉากต่างๆ หลายล้านฉากทั่วโลกเข้าด้วยกัน
  • มนุษย์สามารถจินตนาการโครงสร้างจากหลากหลายมุมได้ผ่านความเข้าใจเชิงพื้นที่ แต่สำหรับเครื่องจักรแล้วนี่เป็นโจทย์ที่ยาก
  • Visual Positioning System (VPS) ของ Niantic ทำงานได้ในมากกว่า 1 ล้านตำแหน่ง โดยฝึกจากโครงข่ายประสาทเทียมมากกว่า 5 พันล้านรายการ
  • Large Geospatial Model คืออะไร?
    • LGM ช่วยให้คอมพิวเตอร์รับรู้ เข้าใจ และนำทางในโลกกายภาพได้
    • เช่นเดียวกับ LLM, LGM ถูกสร้างขึ้นจากข้อมูลดิบจำนวนมหาศาล ทำให้เกิดความเข้าใจตามตำแหน่งเกี่ยวกับพื้นที่ โครงสร้าง และปฏิสัมพันธ์ทางกายภาพ
    • โมเดลเชิงภูมิสารสนเทศที่ก้าวข้ามโมเดลวิสัยทัศน์ 3D นั้นยึดโยงกับตำแหน่งทางภูมิศาสตร์ที่เฉพาะเจาะจง และสามารถวัดได้ด้วยหน่วยสเกลที่แม่นยำ
  • ความคืบหน้างานของ Niantic
    • ตลอด 5 ปีที่ผ่านมา Niantic ได้สร้าง VPS เพื่อให้ผู้ใช้วางคอนเทนต์ดิจิทัลในสภาพแวดล้อมจริงได้อย่างแม่นยำ
    • VPS ถูกสร้างจากการสแกนของผู้ใช้ ซึ่งเป็นข้อมูลที่เก็บจากมุมมองของคนเดินเท้า รวมถึงสถานที่ที่รถยนต์เข้าไม่ถึง
    • ปัจจุบันมีตำแหน่งที่ถูกสแกนแล้ว 10 ล้านแห่งทั่วโลก และมีการเก็บสแกนใหม่ 1 ล้านรายการทุกสัปดาห์
  • จากระบบเฉพาะพื้นที่สู่ความเข้าใจร่วมกัน
    • Neural map ในปัจจุบันเป็นโมเดลเชิงภูมิสารสนเทศที่ใช้งานได้จริง แต่ LGM มีวิสัยทัศน์ที่ไปไกลกว่าแผนที่เฉพาะพื้นที่ที่แยกขาดจากกัน
    • LGM ทำให้สามารถแบ่งปันข้อมูลระหว่างโมเดลท้องถิ่นได้ และสามารถอนุมานด้านหลังของอาคารจากตำแหน่งเฉพาะได้
    • สิ่งนี้ทำให้เกิดความเข้าใจโลกแบบรวมศูนย์บนพื้นฐานของข้อมูลภูมิสารสนเทศและข้อมูลภาพ
  • ความเข้าใจแบบมนุษย์
    • มนุษย์มีความสามารถในการรับรู้สิ่งที่เคยเห็นได้แม้มองจากมุมอื่น
    • ความเข้าใจเช่นนี้สามารถทำให้เกิดขึ้นจริงได้อย่างเป็นรูปธรรมผ่านแมชชีนเลิร์นนิงขนาดใหญ่เท่านั้น และ Niantic กำลังมุ่งไปในทิศทางนั้น
  • การพัฒนาไปสู่ foundation model ที่เสริมกัน
    • LGM สามารถนำไปใช้ได้มากกว่าการระบุตำแหน่งเพียงอย่างเดียว และเปิดทางสู่วิธีใหม่ๆ ในการแทนภาพฉาก การจัดการ และการสร้างฉาก
    • foundation model หลายประเภทสามารถเสริมซึ่งกันและกัน และระบบเหล่านี้จะทำให้สามารถรับรู้ เข้าใจ และทำงานในโลกกายภาพได้
    • Niantic ตั้งเป้านำการพัฒนา Large Geospatial Model เพื่อมอบประสบการณ์ใหม่ให้กับผู้ใช้

1 ความคิดเห็น

 
GN⁺ 2024-11-21
ความคิดเห็นจาก Hacker News
  • ในฐานะผู้เล่น Pokémon GO รู้สึกเหมือนว่าตัวเองกำลังมอบข้อมูลฝึกสอนผ่านเกม และพวกเขาก็กำลังทำกำไรจากแรงงานของฉัน ฉันหยุดสแกน PokéStop แล้ว เพราะงานนี้ใช้ความพยายามมากเมื่อเทียบกับรางวัลที่ได้ ถ้าพวกเขาเปิดเผยโมเดลและค่าน้ำหนัก ก็คงจะรู้สึกว่าได้มีส่วนต่อประโยชน์สาธารณะที่ใหญ่กว่า

  • ปกติไม่ค่อยได้ใช้เทคโนโลยี AR ของ Pokémon GO เพราะมันช้า จึงน่าแปลกใจที่ตอนนี้พัฒนาจนถึงขั้นถูกนำไปใช้ฝึก LGM ได้แล้ว ในเชิงเศรษฐศาสตร์ ผู้เล่นได้เกมฟรี Niantic ได้รายได้ และเทคโนโลยีใหม่ก็ถูกมอบให้โลก

  • ใน MyFitnessPal เวลาผู้ใช้สแกนบาร์โค้ด ระบบจะเก็บเสียงรบกวนพื้นหลังไปใช้เป็นข้อมูลฝึกสอนด้วย จากสิ่งนี้จึงสามารถได้ข้อมูลเกี่ยวกับห้องเก็บของ ตู้เย็น และทางเดินในซูเปอร์มาร์เก็ตโดยเฉลี่ย

  • โพสต์บล็อกนี้กับปฏิกิริยาใน HN ทำให้สับสน เพราะจริง ๆ แล้วไม่ได้ประกาศว่าได้ฝึกโมเดลแล้ว แต่ประกาศแผนเท่านั้น เขาบอกว่าฝึก neural network ไป 50 ล้านตัว แต่นั่นก็เป็นเพียงส่วนหนึ่งของสิ่งที่ทำอยู่เดิม ดูเหมือนเป็นเอกสารวิสัยทัศน์ที่พยายามวางตำแหน่งให้ Niantic เป็นบริษัท AI

  • มีความเห็นเชิงปรัชญาว่าข้อมูลภูมิสารสนเทศควรเป็นสาธารณสมบัติ เนื่องจากข้อมูลที่มาจากการระดมจากผู้คนก็มาจากคนทั่วไป จึงคิดว่าความรู้และข้อเท็จจริงควรเป็นทรัพย์สินของสาธารณะ

  • ไม่คิดว่าการสร้างฉาก 3D แบบเรียลไทม์จะเป็นอนาคตของแผนที่ อาคาร ถนน ป้ายต่าง ๆ ล้วนค่อนข้างคงที่มาก และแทบไม่มีการเปลี่ยนแปลงใหญ่สำหรับกรณีใช้งานส่วนใหญ่ การดึงโมเดลที่แม่นยำจากคลาวด์น่าจะมีประโยชน์มากกว่า

  • น่าจะมีไอเดียเกิดขึ้นในที่ประชุมของ Google/Niantic ว่าให้สร้างโมเดล 3D ยุคใหม่ผ่านการระดมข้อมูลจากผู้คน แล้วก็ซื้อลิขสิทธิ์ Pokémon เพื่อทำสิ่งนี้ให้เป็นจริง

  • Brian Maclendon (Niantic) ได้นำเสนอรายละเอียดที่น่าสนใจเกี่ยวกับเรื่องนี้ในงาน Bellingfest

  • เข้าใจได้ยากว่า LGM คืออะไรกันแน่ ดูเหมือนจะเกี่ยวกับการปรับปรุง vision model ที่ทำนายด้านหลังของอาคาร มากกว่าจะเป็นข้อมูลภูมิสารสนเทศ ข้อมูลฝึกสอนมาจากภาพที่สร้างขึ้นตอนจับ Pokémon

  • มีความเห็นว่า CIA น่าจะเข้าถึงสิ่งนี้ได้อยู่แล้ว มีการแสดงความกังวลเรื่องความเป็นส่วนตัวมาตั้งแต่หลายปีก่อน