- ปัญญาเชิงพื้นที่ (spatial intelligence) คือขอบเขตสำคัญที่จะเปลี่ยนวิธีที่ AI เข้าใจและโต้ตอบกับโลกจริงและโลกเสมือนอย่างพื้นฐาน
- ปัจจุบัน โมเดลภาษาขนาดใหญ่ (LLM) เก่งมากด้านการประมวลผลภาษา แต่ความสามารถในการให้เหตุผลเชิงพื้นที่ เช่น ระยะทาง ทิศทาง และความสอดคล้องทางกายภาพ ยังไม่ถึงระดับมนุษย์
- แนวทางใหม่ที่ถูกเสนอเพื่อแก้ปัญหานี้คือ
world model ซึ่งเป็นสถาปัตยกรรมโมเดลเชิงกำเนิดรุ่นถัดไปที่มีคุณสมบัติแบบเชิงกำเนิด หลายโมดัล และโต้ตอบได้
- World Labs กำลังพัฒนาโมเดลลักษณะนี้ และเวอร์ชันเริ่มต้นชื่อ
Marble ได้สาธิตความสามารถในการสร้างและคงไว้ซึ่งสภาพแวดล้อม 3D ที่สอดคล้องกันจากอินพุตหลายรูปแบบ
- ปัญญาเชิงพื้นที่คือขั้นถัดไปของพัฒนาการ AI ที่จะเสริมขีดความสามารถของมนุษย์ในหลากหลายสาขา เช่น ความคิดสร้างสรรค์ หุ่นยนต์ วิทยาศาสตร์ การแพทย์ และการศึกษา
แนวคิดและความสำคัญของปัญญาเชิงพื้นที่
- สติปัญญาของมนุษย์วิวัฒนาการมาบนพื้นฐานของ วงจรการรับรู้-การกระทำ (perception-action loop) และปัญญาเชิงพื้นที่คือองค์ประกอบหลักที่ทำให้สิ่งนี้เกิดขึ้น
- การจอดรถ การหยิบจับสิ่งของ หรือการเคลื่อนที่ในสภาพแวดล้อมที่ซับซ้อน ล้วนพึ่งพาการให้เหตุผลเชิงพื้นที่
- แม้แต่ในพัฒนาการของเด็กก่อนใช้ภาษา ก็ยังได้เรียนรู้ความรู้สึกเชิงพื้นที่ผ่านการโต้ตอบกับสภาพแวดล้อม
- ความคิดสร้างสรรค์และจินตนาการ ก็มีรากฐานอยู่บนปัญญาเชิงพื้นที่เช่นกัน
- ตั้งแต่ภาพเขียนในถ้ำไปจนถึงภาพยนตร์ เกม และความจริงเสมือน (VR) มนุษย์ใช้การคิดเชิงพื้นที่เพื่อถ่ายทอดโลก
- การออกแบบอุตสาหกรรม ดิจิทัลทวิน และการฝึกหุ่นยนต์ ต่างก็มีการจำลองเชิงพื้นที่เป็นแกนสำคัญ
- ในทางประวัติศาสตร์ ปัญญาเชิงพื้นที่ก็เป็นแรงขับเคลื่อนของความก้าวหน้าทางอารยธรรม
- การคำนวณเส้นรอบวงโลกของ Eratosthenes นวัตกรรมโครงสร้างของ Spinning Jenny และการค้นพบโครงสร้าง DNA ล้วนเป็นผลจากการคิดเชิงพื้นที่
- แม้ AI ปัจจุบันจะก้าวหน้าในด้านการรับรู้ภาพและการสร้างภาพ แต่ยังขาด ความสอดคล้องเชิงพื้นที่ ในเรื่องอย่าง การเข้าใจระยะทาง ทิศทาง และกฎฟิสิกส์
- แม้แต่โมเดลหลายโมดัลรุ่นล่าสุดก็ยังทำได้ไม่ดีในการหมุนวัตถุ การนำทางในเขาวงกต หรือการคาดการณ์ทางกายภาพ
- ข้อจำกัดนี้ทำให้การประยุกต์ใช้ในโลกจริง เช่น การควบคุมหุ่นยนต์ รถยนต์ไร้คนขับ และการเรียนรู้แบบดื่มด่ำ ยังถูกจำกัด
world model: สถาปัตยกรรม AI แบบใหม่สำหรับทำให้ปัญญาเชิงพื้นที่เป็นจริง
- หากต้องการทำให้ปัญญาเชิงพื้นที่เกิดขึ้นจริง จำเป็นต้องมี
world model ที่ซับซ้อนกว่า LLM
- โมเดลต้องเข้าใจ สร้าง และโต้ตอบกับ ความซับซ้อนเชิงความหมาย เชิงกายภาพ เชิงเรขาคณิต และเชิงพลวัต ของโลกจริงและโลกเสมือนอย่างบูรณาการ
- ความสามารถหลัก 3 ประการของ
world model
- เชิงกำเนิด (Generative) : สร้างโลกที่สอดคล้องกันทั้งในเชิงการรับรู้ เรขาคณิต และฟิสิกส์
- สามารถจำลองพื้นที่จริงหรือเสมือน พร้อมรักษาความต่อเนื่องระหว่างสถานะปัจจุบันกับสถานะก่อนหน้า
- หลายโมดัล (Multimodal) : ประมวลผลอินพุตหลากหลาย เช่น ภาพ วิดีโอ ข้อความ และท่าทาง แบบผสานรวม
- ต้องมีทั้งความสมจริงด้านภาพและความสามารถในการตีความความหมาย
- โต้ตอบได้ (Interactive) : คาดการณ์และสร้างสถานะถัดไปตามการกระทำที่ป้อนเข้าไป
- หากมีการกำหนดสถานะเป้าหมายไว้ ก็ควรสามารถคาดการณ์การเปลี่ยนแปลงของโลกและการกระทำที่สอดคล้องได้
- เพราะต้องสะท้อน กฎฟิสิกส์ โครงสร้างเรขาคณิต และพลวัต อย่างสอดคล้อง ซึ่งซับซ้อนกว่าการสร้างภาษามาก จึงเป็นโจทย์ทางเทคนิคที่ยากอย่างยิ่ง
งานวิจัยของ World Labs และโจทย์ทางเทคนิค
- World Labs ก่อตั้งขึ้นเมื่อต้นปี 2024 และกำลังทำวิจัย
world model ที่เน้นปัญญาเชิงพื้นที่
- หัวข้อวิจัยหลัก
- การนิยามฟังก์ชันการเรียนรู้แบบสากล: ตั้งเป้าหมายการเรียนรู้ที่เรียบง่ายเหมือน “การทำนายโทเคนถัดไป” ของ LLM แต่สะท้อนกฎฟิสิกส์และเรขาคณิตได้
- ข้อมูลฝึกขนาดใหญ่: ใช้หลายแหล่งข้อมูล เช่น ภาพและวิดีโอบนอินเทอร์เน็ต ข้อมูลสังเคราะห์ และข้อมูลความลึกกับการรับสัมผัส
- สถาปัตยกรรมโมเดลแบบใหม่: วิจัยการทำโทเคนไนซ์และโครงสร้างหน่วยความจำที่อิงการรับรู้แบบ 3D·4D
- ตัวอย่างเช่น RTFM (Real-Time Frame-based Model) ใช้เฟรมเชิงพื้นที่เป็นหน่วยความจำเพื่อรองรับการสร้างแบบเรียลไทม์และรักษาความสอดคล้อง
Marble ซึ่งเป็นผลลัพธ์ระยะแรก สามารถสร้างและคงไว้ซึ่งสภาพแวดล้อม 3D ที่สอดคล้องกันจากอินพุตหลายแบบ และได้มีการสาธิตให้ผู้ใช้บางส่วนชมแล้ว
- กำลังพัฒนาต่อโดยมีเป้าหมายจะเปิดเผยสู่สาธารณะในอนาคต
พื้นที่การประยุกต์ใช้ของปัญญาเชิงพื้นที่
ความคิดสร้างสรรค์และการผลิตคอนเทนต์
Marble มอบความสามารถในการ สร้างโลก 3D แบบสำรวจได้เต็มรูปแบบ ให้แก่ผู้สร้างภาพยนตร์ นักออกแบบเกม และสถาปนิก
- สามารถทดลองฉากและมุมมองที่หลากหลายได้โดยไม่ติดข้อจำกัดด้านงบประมาณหรือภูมิศาสตร์
- สร้างประสบการณ์แบบดื่มด่ำในงานเล่าเรื่อง ศิลปะ การศึกษา และการออกแบบ
- การออกแบบการเล่าเรื่องเชิงพื้นที่ ช่วยย่นกระบวนการสร้างภาพสำหรับงานออกแบบสถาปัตยกรรม อุตสาหกรรม และแฟชั่น
- การขยายตัวของ ประสบการณ์แบบดื่มด่ำบน VR·XR ทำให้ครีเอเตอร์รายบุคคลก็สามารถสร้างโลกของตนเองได้
หุ่นยนต์
- คอขวดของการฝึกหุ่นยนต์คือ การขาดแคลนข้อมูลฝึก และ
world model ช่วยอุดช่องว่างนี้ได้
- ช่วยลดช่องว่างระหว่างการจำลองกับโลกจริง ทำให้ฝึกได้ในสภาพแวดล้อมที่หลากหลาย
- ปัญญาเชิงพื้นที่เป็นสิ่งจำเป็นสำหรับการสร้าง หุ่นยนต์ที่ทำงานร่วมกับมนุษย์
- เพื่อพัฒนาหุ่นยนต์ที่สามารถเข้าใจเป้าหมายและการกระทำของมนุษย์ พร้อมทำงานร่วมกันได้ในห้องทดลอง บ้าน และสถานที่อื่น ๆ
- ยังสามารถใช้สร้างสภาพแวดล้อมการฝึกและ benchmark สำหรับ หุ่นยนต์หลากหลายรูปแบบ — นาโนบอต หุ่นยนต์นิ่ม และหุ่นยนต์สำหรับทะเลลึกหรืออวกาศ
วิทยาศาสตร์ การแพทย์ การศึกษา
- งานวิทยาศาสตร์: เร่งการทดลองด้วยการจำลองหลายมิติ และลดต้นทุนการคำนวณในงานอย่างการวิจัยภูมิอากาศและวัสดุ
- การแพทย์: ขยายการใช้ AI ที่อาศัยปัญญาเชิงพื้นที่ในด้านการค้นหายา การวินิจฉัยจากภาพ และการติดตามผู้ป่วย
- การศึกษา: ทำให้แนวคิดที่ซับซ้อนเห็นภาพได้ และมอบสภาพแวดล้อมการเรียนรู้แบบดื่มด่ำที่ปรับให้เหมาะกับผู้เรียน
- นักเรียนสามารถสำรวจโครงสร้างเซลล์หรือเหตุการณ์ทางประวัติศาสตร์ ขณะที่ผู้เชี่ยวชาญสามารถฝึกทักษะผ่านการจำลองที่สมจริง
วิสัยทัศน์การพัฒนา AI ที่ยึดมนุษย์เป็นศูนย์กลาง
- เป้าหมายของการพัฒนา AI คือ การเสริมขีดความสามารถของมนุษย์ ไม่ใช่การแทนที่
- ควรพัฒนาไปในทิศทางที่เพิ่มความคิดสร้างสรรค์ ผลิตภาพ การเชื่อมโยง และความพึงพอใจในชีวิต
- ปัญญาเชิงพื้นที่ถูกนำเสนอในฐานะเทคโนโลยีที่จะขยาย จินตนาการ การดูแลเอาใจใส่ และความสามารถในการสำรวจค้นคว้า ของมนุษย์
- เพื่อทำให้วิสัยทัศน์นี้เกิดขึ้นจริง จำเป็นต้องมี ความร่วมมือจากทั้งระบบนิเวศ AI ไม่ว่าจะเป็นนักวิจัย บริษัท และผู้กำหนดนโยบาย
บทสรุป
- AI ได้เปลี่ยนแปลงสังคมไปแล้วในหลายมิติ แต่ ปัญญาเชิงพื้นที่ ถูกเสนอให้เป็นนวัตกรรมในขั้นถัดไป
- ผ่าน
world model เราจะสามารถพัฒนา เครื่องจักรที่มีปัญญาเชิงพื้นที่ และโต้ตอบกับโลกจริงได้อย่างกลมกลืน
- สิ่งนี้ถูกมองว่าเป็นจุดเปลี่ยนทางเทคโนโลยีที่จะยกระดับกิจกรรมหลักของมนุษย์ เช่น การวิจัยโรค การเล่าเรื่อง และการดูแล
- เช่นเดียวกับที่วิวัฒนาการของสติปัญญามนุษย์เริ่มต้นจากปัญญาเชิงพื้นที่ ก็มีการเสนอวิสัยทัศน์ว่า ความสมบูรณ์ของ AI ก็จะไปสิ้นสุดที่ปัญญาเชิงพื้นที่เช่นกัน
1 ความคิดเห็น
ความเห็นจาก Hacker News
อ่านแล้วก็ยังไม่ค่อยเข้าใจว่าพวกเขา เข้าใจอะไรกันแน่
ในบันทึกแทบไม่มีข้อมูลที่เป็นสาระจริง ๆ มีแค่ประมาณว่า “รวบรวมข้อมูลเชิงพื้นที่แบบเดียวกับ Imagenet”
คนที่ทำวิจัยด้าน spatial intelligence ส่วนใหญ่อยู่ฝั่ง ประสาทวิทยา
ในบทความสรุปที่ผมเขียนไว้ อธิบายว่า entorhinal cortex, grid cell และการแปลงพิกัดอาจเป็นหัวใจสำคัญ
สัตว์ทุกชนิดสำรวจโลกโดยแปลงพิกัดแบบเรียลไทม์ และมนุษย์ก็มีการแทนพิกัดที่หลากหลายที่สุดในบรรดานั้น
ผมคิดว่าปัญญาระดับมนุษย์คือการรู้ว่าเมื่อไรและอย่างไรจึงควรแปลงระบบพิกัดเพื่อดึงข้อมูลที่มีประโยชน์ออกมา
แม้จะเป็นงานเขียนก่อนยุคบูมของ LLM แต่ผมก็ยังเชื่อว่าทิศทางนี้ถูกต้อง
มันต่อยอดไปสู่งานวิจัยเรื่องการตรวจจับการชน แอนิเมชันที่อิงฟิสิกส์ การแก้สมการไม่เชิงเส้น และการ เคลื่อนที่ด้วยขา บนภูมิประเทศขรุขระ แต่ยังไม่ใช่ AI
ทุกวันนี้แนวทางกลับเป็นการทุ่มพลังประมวลผลมหาศาล แล้วหวังให้ระบบเรียนรู้ค้นพบการแทนโลกเชิงพื้นที่ภายในได้เอง
การเดินของหุ่นยนต์ดีขึ้นมากแล้ว แต่ การหยิบจับในสภาพแวดล้อมที่ไม่เป็นระเบียบ (manipulation) ยังแย่มาก
ต่อให้เทียบกับวิดีโอจากแล็บ McCarthy ที่ Stanford ในยุค 1960s ก็ยังไม่ได้ต่างกันมาก
เมื่อก่อนผมคิดว่าเราควรไปให้ถึง สติปัญญาระดับหนูหรือกระรอก ก่อนระดับมนุษย์ แต่กลับกลายเป็นว่า AI เชิงนามธรรมมาก่อน ซึ่งน่าประหลาดใจ
ช่วงหลังผมสนใจงานวิจัยด้าน การสร้างวิดีโอ ที่ให้ดูวิดีโอสั้น ๆ แล้วทำนายฉากถัดไป
ผมคิดว่าแก่นของ common sense ก็คือความสามารถในการคาดเดาว่า “อะไรจะเกิดขึ้นต่อไป” ในช่วงเวลาสั้น ๆ
ข่าวประชาสัมพันธ์รางวัลโนเบลที่เกี่ยวข้องก็น่าอ่านเช่นกัน
มีแต่ คำฮิตแบบสาย VC อย่าง “transform”, “revolutionize”, “next frontier”, “North Star” มากเกินไป จนทำให้ความน่าเชื่อลดลง
Nature ปี 2018 เรื่อง "Vector-based navigation using grid-like representations in artificial agents",
Nature ปี 2024 เรื่อง "Modeling hippocampal spatial cells in rodents navigating in 3D environments",
และ grid-cell simulation ของ DeepMind ก็ควรดูไปพร้อมกัน
ในวงการประสาทวิทยามีการศึกษาการรับรู้เชิงพื้นที่กันมานานมากแล้ว
การคัดลอกระบบชีวภาพมาตรง ๆ แทบจะล้มเหลวเสมอ
CNN ได้แรงบันดาลใจจากสมอง แต่ในเชิงโครงสร้างก็แตกต่างกัน และ LLM ก็แทบไม่เหมือนสมองมนุษย์เลย
ความคล้ายกันในเชิงหน้าที่ของ LLM ไม่ได้มาจากการเลียนแบบโครงสร้างสมอง แต่มาจาก กระบวนการฝึก
นี่ก็เป็นแค่ ระบบจำลอง ที่ทำงานได้ในโลกเสมือนแคบ ๆ เท่านั้น
ระบบแบบนี้แทบไม่ช่วยให้เรียนรู้พลวัตที่ซับซ้อนของโลกจริง
โมเดลโลกเสมือนเป็นเพียง กรณีเฉพาะที่ถูกทำให้ง่ายลง ของโมเดลโลกกายภาพ และยังไม่เห็นหลักฐานว่าบริษัทนี้มีความก้าวหน้าที่เป็นรูปธรรมในด้าน spatial intelligence
ช่วงนี้ผมลองเอา agentic coding ไปใช้กับ CAD แล้วได้ประสบการณ์ที่น่าทึ่งมาก
ผมต้องเพิ่มเกลียวให้โมเดลสำหรับพิมพ์ 3D เลยใช้เรขาคณิตเชิงคำนวณเพื่อให้เอเจนต์สามารถ ‘สัมผัส’ โมเดลได้
โดยคอนโวลฟ์รัศมีของทรงกลมไปทั่วทั้งโมเดลเพื่อหาตำแหน่งพอร์ต แล้วค่อยเพิ่มเกลียวเข้าไป
หลังลองอยู่ไม่กี่ครั้งก็สำเร็จ และประสบการณ์นี้ทำให้ผมตระหนักว่าโมเดล ต้องมี ‘สัมผัสทางการแตะต้อง’
สุดท้ายแล้วโมเดล 3D ต้องถูกทำให้เป็นโค้ดเพื่อให้ตรวจสอบความถูกต้องได้
ผมเคยลองกับ OpenSCAD แต่โมเดลปัจจุบันยังขาด common sense เรื่องการเชื่อมต่อของรูปทรง
ถ้ามีชุดข้อมูล CAD แบบอิงโค้ดมากขึ้น มันจะใช้งานได้มีประโยชน์กว่านี้มาก
ไม่อย่างนั้นสุดท้ายก็ต้องพึ่ง การเรียนรู้ที่อิงการจำลองฟิสิกส์
มันจะกำกวมประมาณว่า “อย่าวางตรงนั้น ไปวางตรงโน้น”
Genie 3 ไปถึงเป้าหมายที่เธอพูดถึงได้ระดับหนึ่งแล้ว นั่นคือ โมเดลโลกที่ควบคุมได้ และมีกฎฟิสิกส์ที่สอดคล้องกัน
โมเดลพี่น้องอย่าง Veo 3 ก็แสดงความสามารถในการแก้ปัญหาเชิงพื้นที่ด้วย
Genie และ Veo ใกล้เคียงกับวิสัยทัศน์ของเธอมากกว่า World Labs เสียอีก
แต่ในบทความกลับไม่พูดถึงโมเดลของ Google เลย ทำให้รู้สึกเหมือนเป็น บทความประชาสัมพันธ์บริษัทตัวเอง มากกว่า
ดู DeepMind Gemini Robotics ER
ตอนนี้ AI ยังเรียนรู้จากบนเว็บเป็นหลัก และ ยังเรียนรู้จากปฏิสัมพันธ์กับมนุษย์ไม่ได้
มนุษย์เรียนรู้ผ่านบริบทและความทรงจำที่สะสมมาตลอดชีวิต แต่ AI พอจบบทสนทนาแล้วบริบทนั้นก็หายไป
ถ้ามี หน่วยความจำบริบทขนาดใหญ่แบบเฉพาะบุคคล ก็จะมีคุณค่ามากขึ้นมาก
วิธีเดิมจะเกิด catastrophic forgetting เมื่อฝึกเพิ่ม แต่ Nested Learning แบ่งเป็นโมเดลเล็กหลายตัว จึงฝึกซ้ำได้โดยไม่ทำให้ส่วนอื่นพัง
ความเข้าใจเชิงพื้นที่ที่เรามีนั้นมหาศาลราวกับการจำลองควอนตัมระดับจักรวาล
ในทางกลับกัน สิ่งที่เราจำลองได้สมบูรณ์จริง ๆ ในวันนี้ยังมีเพียงระดับ อะตอมหรือเซลล์ เท่านั้น
ระหว่างอ่านบทความนี้ ผมนึกขึ้นได้ว่ากรณีแรกที่มนุษย์ ‘คิดนำหน้าธรรมชาติ’ อาจเป็น ล้อ
ธรรมชาตินั้นขรุขระ แต่มนุษย์สร้างถนนเรียบขึ้นมาเพื่อให้การกลิ้งเป็นไปได้
ความก้าวหน้าของวิทยาศาสตร์และเทคโนโลยีก็เป็นอีกตัวอย่างของการถ่ายทอด สัญชาตญาณด้านแพตเทิร์น ข้ามรุ่น
ผมไม่แน่ใจว่า ‘superintelligence’ จะเป็นไปได้ในรูปแบบอื่นนอกจากเรื่องความเร็วหรือไม่ แต่ ความสามารถในการคิดแบบสามมิติ น่าจะจำเป็นหาก AI จะก้าวข้ามมนุษย์และธรรมชาติ
เช่นเดียวกับที่หลอดเลือดลำเลียงสารอาหารและสัญญาณ ถนนก็ลำเลียงทรัพยากร
บางทีธรรมชาติอาจเพียงแค่ขยายความสามารถในการจัดระเบียบนั้นไปสู่ ระดับสปีชีส์ และก็มีเหตุผลไม่มากนักที่จะบอกว่ามนุษย์อยู่เหนือธรรมชาติ
การรับรู้ของมนุษย์คือโครงสร้างที่สร้างขึ้นบน ปัญญาเชิงพื้นที่
มันไม่ได้ประกอบขึ้นจากความคิดเชิงนามธรรมล้วน ๆ แต่เป็น ประสบการณ์บูรณาการที่มีรากฐานจากประสาทสัมผัส
วิวัฒนาการไม่ได้ทำให้เกิดการทำให้เป็นนามธรรมผ่านสมองเชิงสัญลักษณ์ แต่ผ่าน การหลอมรวมของประสาทสัมผัส
ปัญญาไม่ได้เกิดจากอัลกอริทึม แต่เกิดจาก ความสอดประสานอย่างคงเส้นคงวาระหว่างประสาทสัมผัสต่าง ๆ
ความสมบูรณ์ของประสาทสัมผัสต่างหากคือทิศทางที่ควรไปต่อ
ผมกำลังตามอ่านบล็อกโพสต์ที่สรุปสถานะของ การให้เหตุผลเชิงพื้นที่ ของ LLM
ข้อสรุปคือ... ยังต้องไปอีกไกล
Spatial token อาจช่วยได้ แต่ไม่จำเป็นเสมอไป
ปัญหาฟิสิกส์จำนวนมากยังคงแก้ได้ด้วย กระดาษกับปากกา
น่าทึ่งที่ภาพ 512×512 สามารถแทนได้ด้วย 85 โทเค็น และวิดีโอด้วย 263 โทเค็นต่อวินาที
นี่ดูเหมือนเป็นปัญหาสมดุลใหม่ระหว่าง หน่วยความจำกับ embedding
เหมือนคำถามที่ว่า “คุณหมุนแอปเปิลในหัวได้ไหม” spatial embedding น่าจะทำให้เกิด ความเข้าใจพลวัตเชิงสัญชาตญาณ ได้
ที่ทีม FlyShirley ของเราเองก็ศึกษาพื้นที่นี้ผ่าน การจำลองฝึกนักบิน และมีแผนจะลองโมเดลของ Fei-Fei
การเรียนรู้และให้เหตุผลจากวิดีโอต้องใช้ ทรัพยากรประมวลผลมหาศาล ดังนั้น
จึงยังสงสัยว่าแนวทางนี้จะช่วยงาน agent assistant (การเขียนโค้ด การตลาด การจัดตาราง ฯลฯ) ได้จริงแค่ไหน
ผมกลับคิดว่ามันน่าจะเป็นโครงสร้างการคำนวณที่เหมาะกับ สายหุ่นยนต์ มากกว่า