• แม้ AI ฝั่งซอฟต์แวร์จะก้าวหน้าแบบก้าวกระโดด แต่หุ่นยนต์ในโลกกายภาพก็ยังทำงานพื้นฐานอย่างการพับผ้าหรือจัดเครื่องล้างจานได้ยากอยู่ดี
  • โลกกายภาพเต็มไปด้วยแรงเสียดทาน การบดบัง (occlusion) พลวัตที่คาดเดาไม่ได้ และความสุ่มซึ่งแตกต่างโดยพื้นฐานจากสภาพแวดล้อม AI ที่ยึดข้อความเป็นศูนย์กลาง
  • World Model ไม่ได้ทำงานโดยเขียนกฎฟิสิกส์ลงไปโดยตรง แต่เรียนรู้จากประสบการณ์จริงเพื่อคาดการณ์สถานะในอนาคตตามการกระทำ
  • JEPA (Joint-Embedding Predictive Architecture) คาดการณ์ตัวแทนเชิงนามธรรมแทนการทำนายระดับพิกเซล จึงช่วยกรองสัญญาณรบกวนได้ แต่มีปัญหา representation collapse
  • LeJEPA แก้ปัญหานี้ด้วยเทคนิค regularization ทางคณิตศาสตร์ และนำเสนอรากฐานเชิงทฤษฎีสำหรับการเปลี่ยนผ่านของวงการหุ่นยนต์จากแนวทางที่อิงกฎแบบเขียนมือไปสู่แนวทางที่อิงการเรียนรู้

ช่องว่างระหว่าง AI ดิจิทัลกับหุ่นยนต์กายภาพ

  • LLM สามารถเขียนโค้ด ออกแบบยาและโปรตีน สรุปเอกสารกฎหมาย ติวหนังสือให้นักเรียน สร้างดนตรีและศิลปะ ไปจนถึงแก้ปัญหาการให้เหตุผลทางคณิตศาสตร์ที่ AI แบบดั้งเดิมแก้ไม่ได้มานานหลายทศวรรษ
  • ในทางกลับกัน หุ่นยนต์ในโลกจริงเมื่อออกนอกสภาพแวดล้อมคลังสินค้าที่ควบคุมได้ก็มักล้มเหลวอย่างต่อเนื่องกับงานพื้นฐาน เช่น พับผ้า ทำความสะอาดห้องรก หยิบจับวัตถุรูปร่างไม่แน่นอน จัดเครื่องล้างจาน ทำอาหาร หรือจัดโต๊ะอาหาร
  • หุ่นยนต์ผู้ช่วยในบ้านแบบอัตโนมัติ ระบบที่เคลื่อนที่อย่างปลอดภัยในสภาพแวดล้อมที่คาดเดาไม่ได้ หรือความสามารถในการจัดการวัตถุยืดหยุ่นในระดับเด็กเล็ก ยังไม่เกิดขึ้นจริง ขณะที่หุ่นยนต์ในโรงงานและห้องแล็บยังคงมีลักษณะต้นทุนสูง เปราะบาง พึ่งพาสคริปต์ และเชี่ยวชาญแคบ
  • นักวิจัยหุ่นยนต์อย่าง Rodney Brooks ตั้งข้อสงสัยกับแนวทางที่พึ่งพา “vision-only” เพราะงาน manipulation อาศัยสัญญาณจากการสัมผัส ฟีดแบ็กแรง และ proprioceptionอย่างมาก แต่ระบบปัจจุบันยังไม่มีสัญญาณเหล่านี้หรือมีอย่างหยาบมาก
  • โมเดลภาษาทำงานอยู่ในโลกของข้อความซึ่งเป็นโลกที่เสถียรและมีโครงสร้างสม่ำเสมอและการกระทำแบบดิจิทัลย้อนกลับได้ แต่โลกกายภาพเต็มไปด้วยแรงเสียดทาน การบดบัง พลวัตที่คาดเดาไม่ได้ และความสุ่มอย่างต่อเนื่อง

ความหมายและบทบาทของ World Model

  • มนุษย์พึ่งพา**ตัวแทนภายใน (internal representation)**ของสภาพแวดล้อมเมื่อต้องตัดสินใจและวางแผนในโลกจริง และการวางแผนก็คือกระบวนการจินตนาการสถานะในอนาคตตามการกระทำในใจ
  • ตัวแทนภายในนี้เก็บไว้เฉพาะข้อมูลที่จำเป็นต่อการแก้ปัญหาและตัดรายละเอียดที่ไม่จำเป็นออก เช่น เวลาวางแผนเส้นทางไปทำงาน เราจะคำนึงถึงถนน เวลา และปริมาณการจราจร แต่ไม่รวมข้อมูลที่ไม่เกี่ยวข้องอย่างเสียงเฉพาะที่รถแต่ละคันส่งออกมา
  • ในระดับที่สูงขึ้น ตัวแทนภายในเหล่านี้สะท้อนโครงสร้างของโลก ทำให้สามารถนำสถานการณ์ใหม่มาเทียบเข้ากับรูปแบบที่คุ้นเคยได้อย่างรวดเร็ว
    • ตัวอย่าง: แม้จะเจอประตูที่มีมือจับรูปร่างแปลกตาเป็นครั้งแรก ก็ยังรับรู้ได้จากรูปร่างและตำแหน่งว่ามันคือมือจับ และอนุมานวิธีใช้งานจากความเข้าใจทั่วไปว่า “ประตูเปิดได้ด้วยการออกแรงที่มือจับ”
  • World Model แตกต่างจากpolicyที่แปลงการสังเกตเป็นการกระทำทันที โดยมันไม่ได้ตัดสินใจเอง แต่มีหน้าที่คาดการณ์ว่าโลกจะเปลี่ยนไปอย่างไรภายใต้การกระทำที่เป็นไปได้หลายแบบ และสร้างตัวแทนแบบบีบอัดของสถานะอนาคต
  • เมื่อมีโมเดลทำนายเช่นนี้ planner (หรือ policy ชั้นล่าง) จะสามารถเปรียบเทียบและประเมินอนาคตที่จินตนาการไว้หลายแบบ เพื่อเลือกลำดับการกระทำที่นำไปสู่ผลลัพธ์ที่ดีที่สุดได้

คุณสมบัติ 4 ประการของ World Model ที่มีประโยชน์

  • สะท้อนโครงสร้างของโลก: ต้องเก็บตัวแทนที่เผยให้เห็นโครงสร้างของโลก ไม่ใช่เพียงข้อมูลประสาทสัมผัสดิบ
  • ทั่วไปได้ข้ามหลายงาน: ต้องปรับตัวกับงานใหม่ได้โดยไม่ต้องเรียนรู้ใหม่ทั้งหมดทุกครั้ง
  • กรองรายละเอียดที่ไม่เกี่ยวข้อง: ต้องโฟกัสเฉพาะข้อมูลที่มีผลต่อผลลัพธ์ และตัดองค์ประกอบที่ไม่จำเป็นออก
  • คาดการณ์การเปลี่ยนแปลงของโลกตามการกระทำ: ต้องสามารถจินตนาการผลลัพธ์ที่เป็นไปได้ล่วงหน้าก่อนลงมือจริง

ประวัติของการเรียนรู้ตัวแทนโลกที่มีความหมาย

  • ความก้าวหน้าหลักในสาย perception ของ deep learning แม้ไม่ได้ตั้งใจ ก็ได้สร้างตัวแทนที่มีโครงสร้างของโลกขึ้นภายใน
  • ใน computer vision โมเดลที่ฝึกให้จำแนกรูปภาพเป็นแมว สุนัข หรือช้าง ได้สร้างตัวแทนภายในที่มีการจัดระเบียบดีและนำกลับมาใช้ซ้ำได้
  • ระหว่างการ optimize เป้าหมายง่าย ๆ อย่างการเดาเนื้อหาในภาพ ฟีเจอร์ที่เรียนรู้ก็เข้ารหัสข้อมูลอย่างรูปร่าง พื้นผิว ท่าทาง และความหมายเชิง semantic ได้โดยธรรมชาติ
  • ตัวแทนที่ได้เช่นนี้สามารถนำไปใช้เป็นstate inputสำหรับงานอย่างการตรวจจับวัตถุ การติดตาม และการแบ่งส่วน ได้โดยไม่ต้องฝึกเพิ่มแยกต่างหาก
  • หลังจากนั้น การเรียนรู้ก็ขยายจากแนวทางที่เน้นการจำแนกไปสู่การสร้างภาพส่วนที่หายไปกลับคืนตามบริบทที่กำหนด ทำให้ได้ตัวแทนที่สมบูรณ์และทั่วไปมากขึ้น
  • แต่ข้อจำกัดพื้นฐานก็เริ่มปรากฏ: อินพุตจากประสาทสัมผัสมักมีรายละเอียดที่ไม่เกี่ยวกับงานปลายทางและโดยตัวมันเองก็ทำนายไม่ได้เสมอ
    • ตัวอย่าง: ลวดลายระลอกน้ำเล็ก ๆ บนผิวหม้อที่กำลังเดือดนั้นสุ่มโดยเนื้อแท้ และแทบไม่ช่วยการตัดสินใจใด ๆ
    • โมเดลที่อิงการสร้างกลับพยายามทำให้รายละเอียดเหล่านี้เป็นเป้าหมายการทำนายด้วย จึงพยายามเข้ารหัสความสุ่มที่ไม่มีความหมายต่อ World Modelเข้าไปด้วย
    • ผลคือ ตัวแทนของโลกถูกสร้างขึ้นในสภาพที่พันกันกับสัญญาณรบกวนมากกว่าโครงสร้างสำคัญ

แนวทางของ JEPA

  • หากการสร้างภาพกลับคือปัญหาการเติมเต็มรูปแบบในภาพ (เมื่อเห็นภาพบางส่วนแล้วทำนายพิกเซลที่หายไป) World Model ก็อาจมองได้ว่าเป็นปัญหาการเติมเต็มรูปแบบตามเวลา
    • กล่าวคือ เมื่อให้สถานะปัจจุบันของโลกและลำดับการกระทำมาแล้ว ต้องทำนายสถานะในอนาคต
  • JEPA (Joint-Embedding Predictive Architecture) แทนที่จะทำ image reconstruction หรือทำนายเฟรมวิดีโอในอนาคตระดับพิกเซล กลับโฟกัสที่การคาดการณ์ตัวแทนเชิงนามธรรมของอนาคตที่ถูกกำหนดเงื่อนไขด้วย latent variable
  • latent variable อาจเข้าใจได้ว่าเป็นการกระทำที่หุ่นยนต์ทำ หรือเป็นปัจจัยอิสระที่ส่งผลต่อการเปลี่ยนแปลงในอนาคต
  • การฝึกให้ทำนายสถานะเชิงนามธรรมของฉาก แทนรูปลักษณ์ระดับพิกเซลที่แม่นตรง ทำให้สามารถสร้างตัวแทนที่มีระเบียบและนำไปใช้งานได้จริง โดยไม่เปลืองความจุของโมเดลไปกับรายละเอียดภาพที่ไม่เกี่ยวข้อง
  • JEPA สร้างตัวแทนที่จับองค์ประกอบที่เสถียรและมีความหมาย พร้อมทั้งตัดรายละเอียดที่สุ่มสูงออกไปโดยธรรมชาติ
  • เป้าหมายการเรียนรู้เองก็ชี้นำไม่ให้เข้ารหัสรายละเอียดอย่างรูปร่างที่แน่นอนของไอน้ำจากกาน้ำหรือพื้นผิวละเอียดของผ้ายับ
    • เพราะรายละเอียดเหล่านี้โดยเนื้อแท้แล้วคาดการณ์ไม่ได้ และกลับทำให้การทำนายสถานะของโลกในอนาคตยากขึ้น
  • หากต้องการประสิทธิภาพสูง โมเดลจำเป็นต้องแทนด้านที่คาดการณ์ได้และสำคัญต่อความเข้าใจว่าโลกเปลี่ยนไปอย่างไร
  • แก่นสำคัญของการเลือกสถาปัตยกรรมนี้คือ การเปลี่ยนเป้าหมายของโมเดลจากการสร้างกลับธรรมดา ไปสู่การเรียนรู้พลวัตของโลกที่คาดการณ์ได้

ข้อจำกัดของ JEPA และปัญหา representation collapse

  • สาเหตุที่ JEPA ยังไม่แพร่หลายมากนักในช่วงไม่กี่ปีที่ผ่านมา คือการแยกแยะระหว่างรายละเอียดที่มี noise สูงและคาดการณ์ไม่ได้ กับโครงสร้างที่มีความหมายได้ไม่ชัดเจนพอ
  • หากไม่มีข้อจำกัดที่เหมาะสม โมเดลมักมีแนวโน้มยุบตัวไปสู่ตัวแทนแบบ trivial
  • เรื่องนี้คล้ายกับระบบจัดแฟ้มที่แก้ปัญหาข้อมูลมากเกินไปด้วยการทิ้งหมวดหมู่เอกสารทั้งหมวดไปเลย
    • โมเดล JEPA เลือกทางลัดเพื่อหลีกเลี่ยง noise ที่คาดการณ์ไม่ได้ แต่ระหว่างนั้นก็ทิ้งโครงสร้างที่มีประโยชน์ไปด้วย

LeJEPA: คำตอบเชิงคณิตศาสตร์

  • Randall Balestriero และ Yann LeCun เสนอ LeJEPA ซึ่งเป็นregularizer ที่มีฐานรองรับทางคณิตศาสตร์เพื่อป้องกัน representation collapse ที่เกิดใน JEPA
  • แนวคิดหลักคือ ทำให้พื้นที่ตัวแทนภายในคงความละเอียดอย่างสม่ำเสมอในทุกทิศทาง เพื่อไม่ให้การกระจายตัวไปกองอยู่แค่บางฟีเจอร์แล้วละเลยส่วนที่เหลือ
  • เพื่อทำเช่นนั้น จึงชี้นำการกระจายของ embedding ให้มีลักษณะเป็นisotropic Gaussian
  • ข้อจำกัดนี้ชี้นำให้โมเดลใช้ความจุอย่างสม่ำเสมอทั่วทุกมิติของตัวแทน จึงรักษาตัวแทนภายในที่มีความสมบูรณ์และตรงตามเงื่อนไขไว้ได้
  • แม้ภายนอกจะดูเป็นข้อจำกัดเชิงเรขาคณิตที่เรียบง่าย แต่ให้ผลลัพธ์ทรงพลังดังนี้
    • เพิ่มเสถียรภาพของกระบวนการเรียนรู้
    • รักษาโครงสร้างที่มีความหมายไว้
    • เรียนรู้ตัวแทนที่สมบูรณ์และคาดการณ์ได้โดยไม่ต้องพึ่ง heuristic อย่าง data augmentation หรือ contrastive negatives
  • นี่สะท้อนการเปลี่ยนผ่านจากเทคนิคเฉพาะหน้าเพื่อกันโมเดลล่ม ไปสู่แนวทางเชิงทฤษฎีที่ชี้นำให้โมเดลเรียนรู้โครงสร้างของโลกเองโดยไม่ถูก noise ครอบงำ

เส้นทางใหม่ที่ World Model เสนอ

  • แนวคิดเหล่านี้บ่งชี้ถึงการเปลี่ยนมุมมองอย่างรากฐานต่อวงการหุ่นยนต์
  • ตลอดหลายทศวรรษที่ผ่านมา วงการหุ่นยนต์ติดอยู่ในวงจรซ้ำ ๆ ดังนี้
    • ออกแบบวิธีแก้สำหรับงานเฉพาะด้วยมือ
    • ตรวจพบความล้มเหลวใน edge case
    • เพิ่มกฎและข้อยกเว้นเข้าไปเรื่อย ๆ
  • World Model เสนอเส้นทางให้หลุดจากวงจรนี้
    • แทนที่จะเขียนกฎฟิสิกส์ใส่เครื่องโดยตรง
    • เราสามารถเปลี่ยนไปสู่ระบบที่เรียนรู้เพื่อคาดการณ์สถานะของโลกในอนาคตและให้เหตุผลบนพื้นฐานนั้น

คำถามที่ยังไม่ถูกแก้

  • จะชี้นำให้โมเดลสำรวจการกระทำที่มีความหมายและมีประโยชน์ได้อย่างมีประสิทธิภาพอย่างไร
  • จะขยายไปสู่ความซับซ้อนทั้งหมดของสภาพแวดล้อมไร้โครงสร้างได้อย่างไร
  • เมื่อความเป็นอัตโนมัติเพิ่มขึ้น จะรักษาความปลอดภัยและทำให้สอดคล้องกับเจตนาของมนุษย์ได้อย่างไร
  • ปัญหาเหล่านี้ไม่ง่ายเลย แต่ก็มีลักษณะต่างไปโดยคุณภาพจากปัญหาที่ขวางวงการหุ่นยนต์มาตลอด 50 ปีที่ผ่านมา
  • สิ่งที่เปลี่ยนไปคือ ตอนนี้มีกรอบทฤษฎีที่สอดคล้องกับโครงสร้างของปัญหาแล้ว

บทสรุป

  • LeJEPA และแนวทางที่เกี่ยวข้องไม่ใช่แค่การปรับปรุงแบบค่อยเป็นค่อยไป แต่เป็นฐานรากทางคณิตศาสตร์สำหรับการเรียนรู้ World Model ที่รับมือกับความไม่แน่นอนของโลกจริงได้
  • ช่องว่างระหว่างความฉลาดแบบดิจิทัลกับความสามารถทางกายภาพ เริ่มดูเป็นโจทย์ที่แก้ไขได้ผ่านงานวิจัยเป็นครั้งแรก ไม่ใช่แค่วิทยาศาสตร์จินตนาการอีกต่อไป

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น