- Niantic กำลังพัฒนา Large Geospatial Model (LGM) ที่ใช้แมชชีนเลิร์นนิงขนาดใหญ่เพื่อทำความเข้าใจฉาก และเชื่อมโยงฉากต่างๆ หลายล้านฉากทั่วโลกเข้าด้วยกัน
- มนุษย์สามารถจินตนาการโครงสร้างจากหลากหลายมุมได้ผ่านความเข้าใจเชิงพื้นที่ แต่สำหรับเครื่องจักรแล้วนี่เป็นโจทย์ที่ยาก
- Visual Positioning System (VPS) ของ Niantic ทำงานได้ในมากกว่า 1 ล้านตำแหน่ง โดยฝึกจากโครงข่ายประสาทเทียมมากกว่า 5 พันล้านรายการ
- Large Geospatial Model คืออะไร?
- LGM ช่วยให้คอมพิวเตอร์รับรู้ เข้าใจ และนำทางในโลกกายภาพได้
- เช่นเดียวกับ LLM, LGM ถูกสร้างขึ้นจากข้อมูลดิบจำนวนมหาศาล ทำให้เกิดความเข้าใจตามตำแหน่งเกี่ยวกับพื้นที่ โครงสร้าง และปฏิสัมพันธ์ทางกายภาพ
- โมเดลเชิงภูมิสารสนเทศที่ก้าวข้ามโมเดลวิสัยทัศน์ 3D นั้นยึดโยงกับตำแหน่งทางภูมิศาสตร์ที่เฉพาะเจาะจง และสามารถวัดได้ด้วยหน่วยสเกลที่แม่นยำ
- ความคืบหน้างานของ Niantic
- ตลอด 5 ปีที่ผ่านมา Niantic ได้สร้าง VPS เพื่อให้ผู้ใช้วางคอนเทนต์ดิจิทัลในสภาพแวดล้อมจริงได้อย่างแม่นยำ
- VPS ถูกสร้างจากการสแกนของผู้ใช้ ซึ่งเป็นข้อมูลที่เก็บจากมุมมองของคนเดินเท้า รวมถึงสถานที่ที่รถยนต์เข้าไม่ถึง
- ปัจจุบันมีตำแหน่งที่ถูกสแกนแล้ว 10 ล้านแห่งทั่วโลก และมีการเก็บสแกนใหม่ 1 ล้านรายการทุกสัปดาห์
- จากระบบเฉพาะพื้นที่สู่ความเข้าใจร่วมกัน
- Neural map ในปัจจุบันเป็นโมเดลเชิงภูมิสารสนเทศที่ใช้งานได้จริง แต่ LGM มีวิสัยทัศน์ที่ไปไกลกว่าแผนที่เฉพาะพื้นที่ที่แยกขาดจากกัน
- LGM ทำให้สามารถแบ่งปันข้อมูลระหว่างโมเดลท้องถิ่นได้ และสามารถอนุมานด้านหลังของอาคารจากตำแหน่งเฉพาะได้
- สิ่งนี้ทำให้เกิดความเข้าใจโลกแบบรวมศูนย์บนพื้นฐานของข้อมูลภูมิสารสนเทศและข้อมูลภาพ
- ความเข้าใจแบบมนุษย์
- มนุษย์มีความสามารถในการรับรู้สิ่งที่เคยเห็นได้แม้มองจากมุมอื่น
- ความเข้าใจเช่นนี้สามารถทำให้เกิดขึ้นจริงได้อย่างเป็นรูปธรรมผ่านแมชชีนเลิร์นนิงขนาดใหญ่เท่านั้น และ Niantic กำลังมุ่งไปในทิศทางนั้น
- การพัฒนาไปสู่ foundation model ที่เสริมกัน
- LGM สามารถนำไปใช้ได้มากกว่าการระบุตำแหน่งเพียงอย่างเดียว และเปิดทางสู่วิธีใหม่ๆ ในการแทนภาพฉาก การจัดการ และการสร้างฉาก
- foundation model หลายประเภทสามารถเสริมซึ่งกันและกัน และระบบเหล่านี้จะทำให้สามารถรับรู้ เข้าใจ และทำงานในโลกกายภาพได้
- Niantic ตั้งเป้านำการพัฒนา Large Geospatial Model เพื่อมอบประสบการณ์ใหม่ให้กับผู้ใช้
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
ในฐานะผู้เล่น Pokémon GO รู้สึกเหมือนว่าตัวเองกำลังมอบข้อมูลฝึกสอนผ่านเกม และพวกเขาก็กำลังทำกำไรจากแรงงานของฉัน ฉันหยุดสแกน PokéStop แล้ว เพราะงานนี้ใช้ความพยายามมากเมื่อเทียบกับรางวัลที่ได้ ถ้าพวกเขาเปิดเผยโมเดลและค่าน้ำหนัก ก็คงจะรู้สึกว่าได้มีส่วนต่อประโยชน์สาธารณะที่ใหญ่กว่า
ปกติไม่ค่อยได้ใช้เทคโนโลยี AR ของ Pokémon GO เพราะมันช้า จึงน่าแปลกใจที่ตอนนี้พัฒนาจนถึงขั้นถูกนำไปใช้ฝึก LGM ได้แล้ว ในเชิงเศรษฐศาสตร์ ผู้เล่นได้เกมฟรี Niantic ได้รายได้ และเทคโนโลยีใหม่ก็ถูกมอบให้โลก
ใน MyFitnessPal เวลาผู้ใช้สแกนบาร์โค้ด ระบบจะเก็บเสียงรบกวนพื้นหลังไปใช้เป็นข้อมูลฝึกสอนด้วย จากสิ่งนี้จึงสามารถได้ข้อมูลเกี่ยวกับห้องเก็บของ ตู้เย็น และทางเดินในซูเปอร์มาร์เก็ตโดยเฉลี่ย
โพสต์บล็อกนี้กับปฏิกิริยาใน HN ทำให้สับสน เพราะจริง ๆ แล้วไม่ได้ประกาศว่าได้ฝึกโมเดลแล้ว แต่ประกาศแผนเท่านั้น เขาบอกว่าฝึก neural network ไป 50 ล้านตัว แต่นั่นก็เป็นเพียงส่วนหนึ่งของสิ่งที่ทำอยู่เดิม ดูเหมือนเป็นเอกสารวิสัยทัศน์ที่พยายามวางตำแหน่งให้ Niantic เป็นบริษัท AI
มีความเห็นเชิงปรัชญาว่าข้อมูลภูมิสารสนเทศควรเป็นสาธารณสมบัติ เนื่องจากข้อมูลที่มาจากการระดมจากผู้คนก็มาจากคนทั่วไป จึงคิดว่าความรู้และข้อเท็จจริงควรเป็นทรัพย์สินของสาธารณะ
ไม่คิดว่าการสร้างฉาก 3D แบบเรียลไทม์จะเป็นอนาคตของแผนที่ อาคาร ถนน ป้ายต่าง ๆ ล้วนค่อนข้างคงที่มาก และแทบไม่มีการเปลี่ยนแปลงใหญ่สำหรับกรณีใช้งานส่วนใหญ่ การดึงโมเดลที่แม่นยำจากคลาวด์น่าจะมีประโยชน์มากกว่า
น่าจะมีไอเดียเกิดขึ้นในที่ประชุมของ Google/Niantic ว่าให้สร้างโมเดล 3D ยุคใหม่ผ่านการระดมข้อมูลจากผู้คน แล้วก็ซื้อลิขสิทธิ์ Pokémon เพื่อทำสิ่งนี้ให้เป็นจริง
Brian Maclendon (Niantic) ได้นำเสนอรายละเอียดที่น่าสนใจเกี่ยวกับเรื่องนี้ในงาน Bellingfest
เข้าใจได้ยากว่า LGM คืออะไรกันแน่ ดูเหมือนจะเกี่ยวกับการปรับปรุง vision model ที่ทำนายด้านหลังของอาคาร มากกว่าจะเป็นข้อมูลภูมิสารสนเทศ ข้อมูลฝึกสอนมาจากภาพที่สร้างขึ้นตอนจับ Pokémon
มีความเห็นว่า CIA น่าจะเข้าถึงสิ่งนี้ได้อยู่แล้ว มีการแสดงความกังวลเรื่องความเป็นส่วนตัวมาตั้งแต่หลายปีก่อน