14 คะแนน โดย GN⁺ 2025-11-12 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • ปัญญาเชิงพื้นที่ (spatial intelligence) คือขอบเขตสำคัญที่จะเปลี่ยนวิธีที่ AI เข้าใจและโต้ตอบกับโลกจริงและโลกเสมือนอย่างพื้นฐาน
  • ปัจจุบัน โมเดลภาษาขนาดใหญ่ (LLM) เก่งมากด้านการประมวลผลภาษา แต่ความสามารถในการให้เหตุผลเชิงพื้นที่ เช่น ระยะทาง ทิศทาง และความสอดคล้องทางกายภาพ ยังไม่ถึงระดับมนุษย์
  • แนวทางใหม่ที่ถูกเสนอเพื่อแก้ปัญหานี้คือ world model ซึ่งเป็นสถาปัตยกรรมโมเดลเชิงกำเนิดรุ่นถัดไปที่มีคุณสมบัติแบบเชิงกำเนิด หลายโมดัล และโต้ตอบได้
  • World Labs กำลังพัฒนาโมเดลลักษณะนี้ และเวอร์ชันเริ่มต้นชื่อ Marble ได้สาธิตความสามารถในการสร้างและคงไว้ซึ่งสภาพแวดล้อม 3D ที่สอดคล้องกันจากอินพุตหลายรูปแบบ
  • ปัญญาเชิงพื้นที่คือขั้นถัดไปของพัฒนาการ AI ที่จะเสริมขีดความสามารถของมนุษย์ในหลากหลายสาขา เช่น ความคิดสร้างสรรค์ หุ่นยนต์ วิทยาศาสตร์ การแพทย์ และการศึกษา

แนวคิดและความสำคัญของปัญญาเชิงพื้นที่

  • สติปัญญาของมนุษย์วิวัฒนาการมาบนพื้นฐานของ วงจรการรับรู้-การกระทำ (perception-action loop) และปัญญาเชิงพื้นที่คือองค์ประกอบหลักที่ทำให้สิ่งนี้เกิดขึ้น
    • การจอดรถ การหยิบจับสิ่งของ หรือการเคลื่อนที่ในสภาพแวดล้อมที่ซับซ้อน ล้วนพึ่งพาการให้เหตุผลเชิงพื้นที่
    • แม้แต่ในพัฒนาการของเด็กก่อนใช้ภาษา ก็ยังได้เรียนรู้ความรู้สึกเชิงพื้นที่ผ่านการโต้ตอบกับสภาพแวดล้อม
  • ความคิดสร้างสรรค์และจินตนาการ ก็มีรากฐานอยู่บนปัญญาเชิงพื้นที่เช่นกัน
    • ตั้งแต่ภาพเขียนในถ้ำไปจนถึงภาพยนตร์ เกม และความจริงเสมือน (VR) มนุษย์ใช้การคิดเชิงพื้นที่เพื่อถ่ายทอดโลก
    • การออกแบบอุตสาหกรรม ดิจิทัลทวิน และการฝึกหุ่นยนต์ ต่างก็มีการจำลองเชิงพื้นที่เป็นแกนสำคัญ
  • ในทางประวัติศาสตร์ ปัญญาเชิงพื้นที่ก็เป็นแรงขับเคลื่อนของความก้าวหน้าทางอารยธรรม
    • การคำนวณเส้นรอบวงโลกของ Eratosthenes นวัตกรรมโครงสร้างของ Spinning Jenny และการค้นพบโครงสร้าง DNA ล้วนเป็นผลจากการคิดเชิงพื้นที่
  • แม้ AI ปัจจุบันจะก้าวหน้าในด้านการรับรู้ภาพและการสร้างภาพ แต่ยังขาด ความสอดคล้องเชิงพื้นที่ ในเรื่องอย่าง การเข้าใจระยะทาง ทิศทาง และกฎฟิสิกส์
    • แม้แต่โมเดลหลายโมดัลรุ่นล่าสุดก็ยังทำได้ไม่ดีในการหมุนวัตถุ การนำทางในเขาวงกต หรือการคาดการณ์ทางกายภาพ
    • ข้อจำกัดนี้ทำให้การประยุกต์ใช้ในโลกจริง เช่น การควบคุมหุ่นยนต์ รถยนต์ไร้คนขับ และการเรียนรู้แบบดื่มด่ำ ยังถูกจำกัด

world model: สถาปัตยกรรม AI แบบใหม่สำหรับทำให้ปัญญาเชิงพื้นที่เป็นจริง

  • หากต้องการทำให้ปัญญาเชิงพื้นที่เกิดขึ้นจริง จำเป็นต้องมี world model ที่ซับซ้อนกว่า LLM
    • โมเดลต้องเข้าใจ สร้าง และโต้ตอบกับ ความซับซ้อนเชิงความหมาย เชิงกายภาพ เชิงเรขาคณิต และเชิงพลวัต ของโลกจริงและโลกเสมือนอย่างบูรณาการ
  • ความสามารถหลัก 3 ประการของ world model
    1. เชิงกำเนิด (Generative) : สร้างโลกที่สอดคล้องกันทั้งในเชิงการรับรู้ เรขาคณิต และฟิสิกส์
      • สามารถจำลองพื้นที่จริงหรือเสมือน พร้อมรักษาความต่อเนื่องระหว่างสถานะปัจจุบันกับสถานะก่อนหน้า
    2. หลายโมดัล (Multimodal) : ประมวลผลอินพุตหลากหลาย เช่น ภาพ วิดีโอ ข้อความ และท่าทาง แบบผสานรวม
      • ต้องมีทั้งความสมจริงด้านภาพและความสามารถในการตีความความหมาย
    3. โต้ตอบได้ (Interactive) : คาดการณ์และสร้างสถานะถัดไปตามการกระทำที่ป้อนเข้าไป
      • หากมีการกำหนดสถานะเป้าหมายไว้ ก็ควรสามารถคาดการณ์การเปลี่ยนแปลงของโลกและการกระทำที่สอดคล้องได้
  • เพราะต้องสะท้อน กฎฟิสิกส์ โครงสร้างเรขาคณิต และพลวัต อย่างสอดคล้อง ซึ่งซับซ้อนกว่าการสร้างภาษามาก จึงเป็นโจทย์ทางเทคนิคที่ยากอย่างยิ่ง

งานวิจัยของ World Labs และโจทย์ทางเทคนิค

  • World Labs ก่อตั้งขึ้นเมื่อต้นปี 2024 และกำลังทำวิจัย world model ที่เน้นปัญญาเชิงพื้นที่
  • หัวข้อวิจัยหลัก
    • การนิยามฟังก์ชันการเรียนรู้แบบสากล: ตั้งเป้าหมายการเรียนรู้ที่เรียบง่ายเหมือน “การทำนายโทเคนถัดไป” ของ LLM แต่สะท้อนกฎฟิสิกส์และเรขาคณิตได้
    • ข้อมูลฝึกขนาดใหญ่: ใช้หลายแหล่งข้อมูล เช่น ภาพและวิดีโอบนอินเทอร์เน็ต ข้อมูลสังเคราะห์ และข้อมูลความลึกกับการรับสัมผัส
    • สถาปัตยกรรมโมเดลแบบใหม่: วิจัยการทำโทเคนไนซ์และโครงสร้างหน่วยความจำที่อิงการรับรู้แบบ 3D·4D
      • ตัวอย่างเช่น RTFM (Real-Time Frame-based Model) ใช้เฟรมเชิงพื้นที่เป็นหน่วยความจำเพื่อรองรับการสร้างแบบเรียลไทม์และรักษาความสอดคล้อง
  • Marble ซึ่งเป็นผลลัพธ์ระยะแรก สามารถสร้างและคงไว้ซึ่งสภาพแวดล้อม 3D ที่สอดคล้องกันจากอินพุตหลายแบบ และได้มีการสาธิตให้ผู้ใช้บางส่วนชมแล้ว
    • กำลังพัฒนาต่อโดยมีเป้าหมายจะเปิดเผยสู่สาธารณะในอนาคต

พื้นที่การประยุกต์ใช้ของปัญญาเชิงพื้นที่

ความคิดสร้างสรรค์และการผลิตคอนเทนต์

  • Marble มอบความสามารถในการ สร้างโลก 3D แบบสำรวจได้เต็มรูปแบบ ให้แก่ผู้สร้างภาพยนตร์ นักออกแบบเกม และสถาปนิก
    • สามารถทดลองฉากและมุมมองที่หลากหลายได้โดยไม่ติดข้อจำกัดด้านงบประมาณหรือภูมิศาสตร์
    • สร้างประสบการณ์แบบดื่มด่ำในงานเล่าเรื่อง ศิลปะ การศึกษา และการออกแบบ
  • การออกแบบการเล่าเรื่องเชิงพื้นที่ ช่วยย่นกระบวนการสร้างภาพสำหรับงานออกแบบสถาปัตยกรรม อุตสาหกรรม และแฟชั่น
  • การขยายตัวของ ประสบการณ์แบบดื่มด่ำบน VR·XR ทำให้ครีเอเตอร์รายบุคคลก็สามารถสร้างโลกของตนเองได้

หุ่นยนต์

  • คอขวดของการฝึกหุ่นยนต์คือ การขาดแคลนข้อมูลฝึก และ world model ช่วยอุดช่องว่างนี้ได้
    • ช่วยลดช่องว่างระหว่างการจำลองกับโลกจริง ทำให้ฝึกได้ในสภาพแวดล้อมที่หลากหลาย
  • ปัญญาเชิงพื้นที่เป็นสิ่งจำเป็นสำหรับการสร้าง หุ่นยนต์ที่ทำงานร่วมกับมนุษย์
    • เพื่อพัฒนาหุ่นยนต์ที่สามารถเข้าใจเป้าหมายและการกระทำของมนุษย์ พร้อมทำงานร่วมกันได้ในห้องทดลอง บ้าน และสถานที่อื่น ๆ
  • ยังสามารถใช้สร้างสภาพแวดล้อมการฝึกและ benchmark สำหรับ หุ่นยนต์หลากหลายรูปแบบ — นาโนบอต หุ่นยนต์นิ่ม และหุ่นยนต์สำหรับทะเลลึกหรืออวกาศ

วิทยาศาสตร์ การแพทย์ การศึกษา

  • งานวิทยาศาสตร์: เร่งการทดลองด้วยการจำลองหลายมิติ และลดต้นทุนการคำนวณในงานอย่างการวิจัยภูมิอากาศและวัสดุ
  • การแพทย์: ขยายการใช้ AI ที่อาศัยปัญญาเชิงพื้นที่ในด้านการค้นหายา การวินิจฉัยจากภาพ และการติดตามผู้ป่วย
  • การศึกษา: ทำให้แนวคิดที่ซับซ้อนเห็นภาพได้ และมอบสภาพแวดล้อมการเรียนรู้แบบดื่มด่ำที่ปรับให้เหมาะกับผู้เรียน
    • นักเรียนสามารถสำรวจโครงสร้างเซลล์หรือเหตุการณ์ทางประวัติศาสตร์ ขณะที่ผู้เชี่ยวชาญสามารถฝึกทักษะผ่านการจำลองที่สมจริง

วิสัยทัศน์การพัฒนา AI ที่ยึดมนุษย์เป็นศูนย์กลาง

  • เป้าหมายของการพัฒนา AI คือ การเสริมขีดความสามารถของมนุษย์ ไม่ใช่การแทนที่
    • ควรพัฒนาไปในทิศทางที่เพิ่มความคิดสร้างสรรค์ ผลิตภาพ การเชื่อมโยง และความพึงพอใจในชีวิต
  • ปัญญาเชิงพื้นที่ถูกนำเสนอในฐานะเทคโนโลยีที่จะขยาย จินตนาการ การดูแลเอาใจใส่ และความสามารถในการสำรวจค้นคว้า ของมนุษย์
  • เพื่อทำให้วิสัยทัศน์นี้เกิดขึ้นจริง จำเป็นต้องมี ความร่วมมือจากทั้งระบบนิเวศ AI ไม่ว่าจะเป็นนักวิจัย บริษัท และผู้กำหนดนโยบาย

บทสรุป

  • AI ได้เปลี่ยนแปลงสังคมไปแล้วในหลายมิติ แต่ ปัญญาเชิงพื้นที่ ถูกเสนอให้เป็นนวัตกรรมในขั้นถัดไป
  • ผ่าน world model เราจะสามารถพัฒนา เครื่องจักรที่มีปัญญาเชิงพื้นที่ และโต้ตอบกับโลกจริงได้อย่างกลมกลืน
  • สิ่งนี้ถูกมองว่าเป็นจุดเปลี่ยนทางเทคโนโลยีที่จะยกระดับกิจกรรมหลักของมนุษย์ เช่น การวิจัยโรค การเล่าเรื่อง และการดูแล
  • เช่นเดียวกับที่วิวัฒนาการของสติปัญญามนุษย์เริ่มต้นจากปัญญาเชิงพื้นที่ ก็มีการเสนอวิสัยทัศน์ว่า ความสมบูรณ์ของ AI ก็จะไปสิ้นสุดที่ปัญญาเชิงพื้นที่เช่นกัน

1 ความคิดเห็น

 
GN⁺ 2025-11-12
ความเห็นจาก Hacker News
  • อ่านแล้วก็ยังไม่ค่อยเข้าใจว่าพวกเขา เข้าใจอะไรกันแน่
    ในบันทึกแทบไม่มีข้อมูลที่เป็นสาระจริง ๆ มีแค่ประมาณว่า “รวบรวมข้อมูลเชิงพื้นที่แบบเดียวกับ Imagenet”
    คนที่ทำวิจัยด้าน spatial intelligence ส่วนใหญ่อยู่ฝั่ง ประสาทวิทยา
    ในบทความสรุปที่ผมเขียนไว้ อธิบายว่า entorhinal cortex, grid cell และการแปลงพิกัดอาจเป็นหัวใจสำคัญ
    สัตว์ทุกชนิดสำรวจโลกโดยแปลงพิกัดแบบเรียลไทม์ และมนุษย์ก็มีการแทนพิกัดที่หลากหลายที่สุดในบรรดานั้น
    ผมคิดว่าปัญญาระดับมนุษย์คือการรู้ว่าเมื่อไรและอย่างไรจึงควรแปลงระบบพิกัดเพื่อดึงข้อมูลที่มีประโยชน์ออกมา
    แม้จะเป็นงานเขียนก่อนยุคบูมของ LLM แต่ผมก็ยังเชื่อว่าทิศทางนี้ถูกต้อง

    • ผมเคยมีความคิดคล้าย ๆ กันตั้งแต่ยุค 1990s
      มันต่อยอดไปสู่งานวิจัยเรื่องการตรวจจับการชน แอนิเมชันที่อิงฟิสิกส์ การแก้สมการไม่เชิงเส้น และการ เคลื่อนที่ด้วยขา บนภูมิประเทศขรุขระ แต่ยังไม่ใช่ AI
      ทุกวันนี้แนวทางกลับเป็นการทุ่มพลังประมวลผลมหาศาล แล้วหวังให้ระบบเรียนรู้ค้นพบการแทนโลกเชิงพื้นที่ภายในได้เอง
      การเดินของหุ่นยนต์ดีขึ้นมากแล้ว แต่ การหยิบจับในสภาพแวดล้อมที่ไม่เป็นระเบียบ (manipulation) ยังแย่มาก
      ต่อให้เทียบกับวิดีโอจากแล็บ McCarthy ที่ Stanford ในยุค 1960s ก็ยังไม่ได้ต่างกันมาก
      เมื่อก่อนผมคิดว่าเราควรไปให้ถึง สติปัญญาระดับหนูหรือกระรอก ก่อนระดับมนุษย์ แต่กลับกลายเป็นว่า AI เชิงนามธรรมมาก่อน ซึ่งน่าประหลาดใจ
      ช่วงหลังผมสนใจงานวิจัยด้าน การสร้างวิดีโอ ที่ให้ดูวิดีโอสั้น ๆ แล้วทำนายฉากถัดไป
      ผมคิดว่าแก่นของ common sense ก็คือความสามารถในการคาดเดาว่า “อะไรจะเกิดขึ้นต่อไป” ในช่วงเวลาสั้น ๆ
    • น่าสนใจที่ทั้งคุณและ คู่สามีภรรยา Moser (ผู้ได้รับรางวัลโนเบล) ต่างก็เชื่อว่า grid cell คือกุญแจสำคัญที่ทำให้สัตว์เข้าใจตำแหน่งของตัวเองในโลก
      ข่าวประชาสัมพันธ์รางวัลโนเบลที่เกี่ยวข้องก็น่าอ่านเช่นกัน
    • ผมอ่านไปได้ไม่กี่ย่อหน้าก็เลิก เพราะไม่เห็นมีคำจำกัดความของ ‘spatial intelligence’ เลย
      มีแต่ คำฮิตแบบสาย VC อย่าง “transform”, “revolutionize”, “next frontier”, “North Star” มากเกินไป จนทำให้ความน่าเชื่อลดลง
    • อ่านบทความแล้วชอบมาก โดยเฉพาะบรรณานุกรมที่น่าสนใจ
      Nature ปี 2018 เรื่อง "Vector-based navigation using grid-like representations in artificial agents",
      Nature ปี 2024 เรื่อง "Modeling hippocampal spatial cells in rodents navigating in 3D environments",
      และ grid-cell simulation ของ DeepMind ก็ควรดูไปพร้อมกัน
      ในวงการประสาทวิทยามีการศึกษาการรับรู้เชิงพื้นที่กันมานานมากแล้ว
    • ท้ายที่สุด สิ่งสำคัญคือเราจะได้ insight ที่ใช้ได้จริง จากงานวิจัยแบบนี้หรือไม่
      การคัดลอกระบบชีวภาพมาตรง ๆ แทบจะล้มเหลวเสมอ
      CNN ได้แรงบันดาลใจจากสมอง แต่ในเชิงโครงสร้างก็แตกต่างกัน และ LLM ก็แทบไม่เหมือนสมองมนุษย์เลย
      ความคล้ายกันในเชิงหน้าที่ของ LLM ไม่ได้มาจากการเลียนแบบโครงสร้างสมอง แต่มาจาก กระบวนการฝึก
  • นี่ก็เป็นแค่ ระบบจำลอง ที่ทำงานได้ในโลกเสมือนแคบ ๆ เท่านั้น
    ระบบแบบนี้แทบไม่ช่วยให้เรียนรู้พลวัตที่ซับซ้อนของโลกจริง
    โมเดลโลกเสมือนเป็นเพียง กรณีเฉพาะที่ถูกทำให้ง่ายลง ของโมเดลโลกกายภาพ และยังไม่เห็นหลักฐานว่าบริษัทนี้มีความก้าวหน้าที่เป็นรูปธรรมในด้าน spatial intelligence

  • ช่วงนี้ผมลองเอา agentic coding ไปใช้กับ CAD แล้วได้ประสบการณ์ที่น่าทึ่งมาก
    ผมต้องเพิ่มเกลียวให้โมเดลสำหรับพิมพ์ 3D เลยใช้เรขาคณิตเชิงคำนวณเพื่อให้เอเจนต์สามารถ ‘สัมผัส’ โมเดลได้
    โดยคอนโวลฟ์รัศมีของทรงกลมไปทั่วทั้งโมเดลเพื่อหาตำแหน่งพอร์ต แล้วค่อยเพิ่มเกลียวเข้าไป
    หลังลองอยู่ไม่กี่ครั้งก็สำเร็จ และประสบการณ์นี้ทำให้ผมตระหนักว่าโมเดล ต้องมี ‘สัมผัสทางการแตะต้อง’
    สุดท้ายแล้วโมเดล 3D ต้องถูกทำให้เป็นโค้ดเพื่อให้ตรวจสอบความถูกต้องได้

    • ศักยภาพของ Generative CAD นั้นมหาศาล
      ผมเคยลองกับ OpenSCAD แต่โมเดลปัจจุบันยังขาด common sense เรื่องการเชื่อมต่อของรูปทรง
      ถ้ามีชุดข้อมูล CAD แบบอิงโค้ดมากขึ้น มันจะใช้งานได้มีประโยชน์กว่านี้มาก
      ไม่อย่างนั้นสุดท้ายก็ต้องพึ่ง การเรียนรู้ที่อิงการจำลองฟิสิกส์
    • อยากรู้ว่าคุณใช้ CadQuery หรือเปล่า ถ้ามีบทความสรุปสิ่งที่เรียนรู้ไว้ก็อยากอ่าน
    • อยากรู้รายละเอียดขั้นตอนการทำมากกว่านี้ และสงสัยว่ามีแผนจะเขียนสรุปเป็นบทความไหม
    • ผมเองก็กำลังลองแนวทาง วัตถุ 3D เชิงกำเนิด อยู่ เลยอยากฟังเพิ่มเติม
    • ต่างจากการ prompt LLM ตรงที่การ อธิบายวัตถุเรขาคณิตด้วยข้อความ นั้นยากมากจริง ๆ
      มันจะกำกวมประมาณว่า “อย่าวางตรงนั้น ไปวางตรงโน้น”
  • Genie 3 ไปถึงเป้าหมายที่เธอพูดถึงได้ระดับหนึ่งแล้ว นั่นคือ โมเดลโลกที่ควบคุมได้ และมีกฎฟิสิกส์ที่สอดคล้องกัน
    โมเดลพี่น้องอย่าง Veo 3 ก็แสดงความสามารถในการแก้ปัญหาเชิงพื้นที่ด้วย
    Genie และ Veo ใกล้เคียงกับวิสัยทัศน์ของเธอมากกว่า World Labs เสียอีก
    แต่ในบทความกลับไม่พูดถึงโมเดลของ Google เลย ทำให้รู้สึกเหมือนเป็น บทความประชาสัมพันธ์บริษัทตัวเอง มากกว่า

    • Gemini ER ก็เป็นโมเดลที่ทำงานเชิงพื้นที่ในโลกจริงเช่นกัน
      ดู DeepMind Gemini Robotics ER
  • ตอนนี้ AI ยังเรียนรู้จากบนเว็บเป็นหลัก และ ยังเรียนรู้จากปฏิสัมพันธ์กับมนุษย์ไม่ได้
    มนุษย์เรียนรู้ผ่านบริบทและความทรงจำที่สะสมมาตลอดชีวิต แต่ AI พอจบบทสนทนาแล้วบริบทนั้นก็หายไป
    ถ้ามี หน่วยความจำบริบทขนาดใหญ่แบบเฉพาะบุคคล ก็จะมีคุณค่ามากขึ้นมาก

    • Nested Learning ของ Google Research อาจเป็นทางออกของปัญหานี้
      วิธีเดิมจะเกิด catastrophic forgetting เมื่อฝึกเพิ่ม แต่ Nested Learning แบ่งเป็นโมเดลเล็กหลายตัว จึงฝึกซ้ำได้โดยไม่ทำให้ส่วนอื่นพัง
    • ‘บริบท’ ของมนุษย์เป็นผลลัพธ์จาก การสั่งสมผ่านวิวัฒนาการ นับพันล้านปี
      ความเข้าใจเชิงพื้นที่ที่เรามีนั้นมหาศาลราวกับการจำลองควอนตัมระดับจักรวาล
      ในทางกลับกัน สิ่งที่เราจำลองได้สมบูรณ์จริง ๆ ในวันนี้ยังมีเพียงระดับ อะตอมหรือเซลล์ เท่านั้น
  • ระหว่างอ่านบทความนี้ ผมนึกขึ้นได้ว่ากรณีแรกที่มนุษย์ ‘คิดนำหน้าธรรมชาติ’ อาจเป็น ล้อ
    ธรรมชาตินั้นขรุขระ แต่มนุษย์สร้างถนนเรียบขึ้นมาเพื่อให้การกลิ้งเป็นไปได้
    ความก้าวหน้าของวิทยาศาสตร์และเทคโนโลยีก็เป็นอีกตัวอย่างของการถ่ายทอด สัญชาตญาณด้านแพตเทิร์น ข้ามรุ่น
    ผมไม่แน่ใจว่า ‘superintelligence’ จะเป็นไปได้ในรูปแบบอื่นนอกจากเรื่องความเร็วหรือไม่ แต่ ความสามารถในการคิดแบบสามมิติ น่าจะจำเป็นหาก AI จะก้าวข้ามมนุษย์และธรรมชาติ

    • ร่างกายมนุษย์คือ ระบบที่จัดระเบียบอย่างมีแบบแผน ซึ่งเซลล์จำนวนมากร่วมมือกัน
      เช่นเดียวกับที่หลอดเลือดลำเลียงสารอาหารและสัญญาณ ถนนก็ลำเลียงทรัพยากร
      บางทีธรรมชาติอาจเพียงแค่ขยายความสามารถในการจัดระเบียบนั้นไปสู่ ระดับสปีชีส์ และก็มีเหตุผลไม่มากนักที่จะบอกว่ามนุษย์อยู่เหนือธรรมชาติ
  • การรับรู้ของมนุษย์คือโครงสร้างที่สร้างขึ้นบน ปัญญาเชิงพื้นที่
    มันไม่ได้ประกอบขึ้นจากความคิดเชิงนามธรรมล้วน ๆ แต่เป็น ประสบการณ์บูรณาการที่มีรากฐานจากประสาทสัมผัส
    วิวัฒนาการไม่ได้ทำให้เกิดการทำให้เป็นนามธรรมผ่านสมองเชิงสัญลักษณ์ แต่ผ่าน การหลอมรวมของประสาทสัมผัส
    ปัญญาไม่ได้เกิดจากอัลกอริทึม แต่เกิดจาก ความสอดประสานอย่างคงเส้นคงวาระหว่างประสาทสัมผัสต่าง ๆ
    ความสมบูรณ์ของประสาทสัมผัสต่างหากคือทิศทางที่ควรไปต่อ

  • ผมกำลังตามอ่านบล็อกโพสต์ที่สรุปสถานะของ การให้เหตุผลเชิงพื้นที่ ของ LLM
    ข้อสรุปคือ... ยังต้องไปอีกไกล

  • Spatial token อาจช่วยได้ แต่ไม่จำเป็นเสมอไป
    ปัญหาฟิสิกส์จำนวนมากยังคงแก้ได้ด้วย กระดาษกับปากกา
    น่าทึ่งที่ภาพ 512×512 สามารถแทนได้ด้วย 85 โทเค็น และวิดีโอด้วย 263 โทเค็นต่อวินาที
    นี่ดูเหมือนเป็นปัญหาสมดุลใหม่ระหว่าง หน่วยความจำกับ embedding
    เหมือนคำถามที่ว่า “คุณหมุนแอปเปิลในหัวได้ไหม” spatial embedding น่าจะทำให้เกิด ความเข้าใจพลวัตเชิงสัญชาตญาณ ได้
    ที่ทีม FlyShirley ของเราเองก็ศึกษาพื้นที่นี้ผ่าน การจำลองฝึกนักบิน และมีแผนจะลองโมเดลของ Fei-Fei

  • การเรียนรู้และให้เหตุผลจากวิดีโอต้องใช้ ทรัพยากรประมวลผลมหาศาล ดังนั้น
    จึงยังสงสัยว่าแนวทางนี้จะช่วยงาน agent assistant (การเขียนโค้ด การตลาด การจัดตาราง ฯลฯ) ได้จริงแค่ไหน
    ผมกลับคิดว่ามันน่าจะเป็นโครงสร้างการคำนวณที่เหมาะกับ สายหุ่นยนต์ มากกว่า