Toyota Research Institute อ้างความก้าวหน้าในการสอนพฤติกรรมใหม่ให้หุ่นยนต์

(tri.global)

2 คะแนน โดย GN⁺ 2023-09-21 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

เพื่อเพิ่มจำนวนงานควบคุมจัดการที่ซับซ้อนได้อย่างรวดเร็ว Toyota Research Institute เปิดเผยแนวทางการสอนพฤติกรรมหุ่นยนต์ด้วย generative AI ที่ใช้ Diffusion Policy
วิธีนี้เป็นก้าวหนึ่งสู่ Large Behavior Models สำหรับหุ่นยนต์ โดยพยายามนำบทบาทที่ LLM มีใน AI แบบสนทนามาประยุกต์ใช้กับการเรียนรู้พฤติกรรมของหุ่นยนต์
TRI ระบุว่าได้สอนทักษะมากกว่า 60 อย่าง เช่น การเทของเหลว การใช้เครื่องมือ และการจัดการวัตถุที่เปลี่ยนรูปได้ โดย ไม่ต้องเขียนโค้ดใหม่ แต่ให้ข้อมูลใหม่เท่านั้น
หัวใจสำคัญคือการเรียนรู้ที่ผสาน การสาธิตแบบสัมผัส จากครูเข้ากับคำอธิบายเป้าหมายด้วยภาษา และสามารถสร้างพฤติกรรมที่นำไปใช้งานแบบอัตโนมัติได้ด้วยการสาธิตเพียงไม่กี่สิบครั้ง
เป้าหมายคือให้ได้หลายร้อยทักษะภายในสิ้นปี 2023 และ 1,000 ทักษะ ภายในสิ้นปี 2024 พร้อมออกแบบการรับประกันความปลอดภัยควบคู่ไปกับ Drake และสแต็กควบคุมแบบปรับแต่งเอง

เร่งความเร็วการเรียนรู้พฤติกรรมหุ่นยนต์ด้วย Diffusion Policy

Toyota Research Institute ประกาศ แนวทาง generative AI สำหรับสอนทักษะใหม่ที่ซับซ้อนให้หุ่นยนต์ได้อย่างรวดเร็วและเสถียร
แนวทางนี้เป็นก้าวสู่การสร้าง Large Behavior Models(LBMs) สำหรับหุ่นยนต์ และถูกเปรียบเทียบกับบทบาทของ Large Language Models(LLMs) ใน AI แบบสนทนา
วิธีล้ำสมัยเดิมมีข้อจำกัดหลายอย่างในการสอนพฤติกรรมใหม่
- การเรียนรู้ ช้าและมีความสม่ำเสมอต่ำ
- ประสิทธิภาพต่ำ และมักจำกัดอยู่กับงานแคบ ๆ ในสภาพแวดล้อมที่มีข้อจำกัดสูง
- วิศวกรหุ่นยนต์ต้องใช้เวลาหลายชั่วโมงเขียนโค้ดที่ซับซ้อน หรือผ่านการลองผิดลองถูกจำนวนมาก

เรียนรู้ทักษะมากกว่า 60 อย่างโดยไม่ต้องเขียนโค้ดใหม่

โมเดลพฤติกรรมหุ่นยนต์ของ TRI ใช้ การสาธิตแบบสัมผัส จากครูร่วมกับคำอธิบายเป้าหมายด้วยภาษา
จากนั้นเรียนรู้ทักษะที่สาธิตด้วย Diffusion Policy ที่ขับเคลื่อนด้วย AI
- พฤติกรรมใหม่สามารถนำไปใช้งานแบบอัตโนมัติได้ด้วยการสาธิตเพียงไม่กี่สิบครั้ง
- ผลลัพธ์การเรียนรู้มุ่งเน้นการสร้างพฤติกรรมที่สม่ำเสมอ ทำซ้ำได้ และมีประสิทธิภาพสูงอย่างรวดเร็ว
TRI ได้สอนทักษะซับซ้อนมากกว่า 60 อย่างให้หุ่นยนต์แล้ว
- ตัวอย่างคือ การเทของเหลว การใช้เครื่องมือ และการจัดการวัตถุที่เปลี่ยนรูปได้
- ทำได้โดย ให้ข้อมูลใหม่ เท่านั้นโดยไม่ต้องเขียนโค้ดใหม่
เป้าหมายคือหลายร้อยทักษะภายในสิ้นปี 2023 และ 1,000 ทักษะ ภายในสิ้นปี 2024
ทักษะใหม่ครอบคลุมพฤติกรรมที่โต้ตอบกับโลกได้หลากหลายรูปแบบ เกินกว่าการ “pick and place” แบบง่าย ๆ
- ในระยะยาวอาจนำไปใช้กับหุ่นยนต์ที่ช่วยเหลือมนุษย์ในสภาพแวดล้อมประจำวันซึ่งคาดเดาไม่ได้และเปลี่ยนแปลงอยู่เสมอ

แพลตฟอร์มปรับแต่งเองและการออกแบบความปลอดภัยบนพื้นฐาน Drake

TRI และกลุ่มของ Professor Song แห่ง Columbia University พัฒนา Diffusion Policy ซึ่งเป็นแนวทาง generative AI สำหรับการเรียนรู้พฤติกรรม
- Diffusion Policy ถูกนำเสนอในงาน Robotics Science and Systems conference ปี 2023
แพลตฟอร์มหุ่นยนต์ของ TRI ถูกสร้างขึ้นแบบปรับแต่งเองสำหรับงาน การควบคุมจัดการด้วยสองแขน ที่ซับซ้อน
- มุ่งเน้นให้เกิด tactile feedback และ tactile sensing
TRI ใช้ Drake เป็นเครื่องมือออกแบบบนโมเดลและแพลตฟอร์มจำลองสำหรับหุ่นยนต์
- สแต็กหุ่นยนต์ภายในสร้างขึ้นบน optimization และ systems framework ของ Drake
- Drake เปิดเผยเป็นโอเพนซอร์สเพื่อช่วยขับเคลื่อนงานของชุมชนหุ่นยนต์โดยรวม
ความปลอดภัยเป็นองค์ประกอบสำคัญในการออกแบบงานวิจัยหุ่นยนต์ของ TRI
- ระบบมีมาตรการป้องกันที่ขับเคลื่อนโดย Drake และสแต็กควบคุมหุ่นยนต์แบบปรับแต่งเอง
- ออกแบบให้หุ่นยนต์รักษา การรับประกันความปลอดภัย เพื่อไม่ให้ชนกับตัวเองหรือสิ่งแวดล้อม

1 ความคิดเห็น

GN⁺ 2023-09-21

ความคิดเห็นจาก Hacker News

ในฐานะคนที่เคยอยู่ในชุมชน การเรียนรู้ของหุ่นยนต์ ทั้งในบัณฑิตวิทยาลัยและในอุตสาหกรรม ผมเข้าใจได้เต็มที่ว่าทำไม TRI จึงได้รับคำชมส่วนใหญ่ที่นี่ แต่ก็อยากชี้ให้ถูกว่าผลงานหลักควรยกเครดิตให้ใคร
แกนกลางของความก้าวหน้านี้คือ Diffusion Policy [1] ซึ่งพัฒนาและบุกเบิกโดยแล็บของศาสตราจารย์ Shuran Song แห่ง Columbia เว็บไซต์โปรเจกต์ต้นฉบับ [2] ก็ควรค่าแก่การดูอย่างยิ่ง และมีการทดลองในโลกจริงที่ยาก ๆ อยู่มาก
ในงานประชุม R:SS ปีนี้ [3] มันเป็นตัวเต็งขวัญใจชุมชนสำหรับรางวัล Best Paper Award และแล็บของเรา รวมถึงแล็บด้านการเรียนรู้อื่น ๆ ในภาควิชาวิทยาการหุ่นยนต์ ก็อ่านวิเคราะห์บทความนี้กันอย่างละเอียด ผมรู้จักบางคนที่พับโปรเจกต์ behavioral cloning/imitation learning แล้วหันมาทางแนวทางนี้เต็มตัว เพราะมันจัดการกับพื้นที่การกระทำแบบหลายโหมดได้เป็นธรรมชาติกว่ามาก
ศาสตราจารย์ Song เป็นนักวิจัยที่โดดเด่นมากในวงการวิทยาการหุ่นยนต์ตอนนี้ และได้เสนอแนวทางยอดเยี่ยมหลายอย่างที่ขยายสู่โลกจริงได้อย่างสง่างาม เช่น IRP [4] IRP ได้รางวัล R:SS 2022 Best Paper และ FlingBot [5], Scaling Up Distilling Down [6] ก็น่าดูเช่นกัน
[1] - https://arxiv.org/abs/2303.04137
[2] - https://diffusion-policy.cs.columbia.edu/
[3] - https://roboticsconference.org/program/awards/
[4] - https://irp.cs.columbia.edu/
[5] - https://flingbot.cs.columbia.edu/
[6] - https://www.cs.columbia.edu/~huy/scalingup/
- ถ้าพูดอย่างเป็นธรรม TRI เองก็ให้เครดิตศาสตราจารย์ Song และบทความที่ลิงก์ไว้เช่นกัน ในบทความนั้นก็ระบุว่า TRI เป็นสถาบันร่วมวิจัย ด้วย
  “Diffusion Policy: ผู้ร่วมงานจาก TRI และกลุ่มของศาสตราจารย์ Song แห่ง Columbia University ได้พัฒนาแนวทาง generative AI แบบใหม่และทรงพลังสำหรับการเรียนรู้พฤติกรรม แนวทางนี้เรียกว่า Diffusion Policy ช่วยให้สอนพฤติกรรมได้ง่ายและรวดเร็วผ่านการสาธิต”
- ดูเหมือนว่าทั้ง Diffusion Policy และ IRP จะเป็นงานร่วมกับ TRI
- มีใครอธิบาย diffusion แบบเข้าใจง่ายได้ไหม? จะอธิบายในระดับคนที่เข้าใจ autoencoder, transformer, convolutional neural network ก็ได้
  ผมสงสัยว่าทำไมมันถึงทำงานได้ดีกว่าทางเลือกอื่น ๆ ที่กล่าวถึงข้างต้นมาก
- ดูเหมือนว่านักวิจัยบางส่วนจากแล็บของศาสตราจารย์ Song ก็เคยทำงานร่วมกับ Toyota ด้วย
สำหรับคนที่สนใจ มีช่อง YouTube ของ Russ Tedrake: https://www.youtube.com/@underactuated5171
ในช่องนี้มีเลกเชอร์ 6.4210 (2023) Robotics Manipulation และ 6.8210 (2023) Underactuated Robotics อยู่
ดีใจที่ได้เห็นงานล่าสุดของ Russ Tedrake คอร์สออนไลน์ Underactuated Robotics ของเขาเป็นคอร์สที่ดีมากสำหรับการทำความเข้าใจความซับซ้อนของวิทยาการหุ่นยนต์
งานด้านการเรียนรู้ของหุ่นยนต์ที่มักถูกแนะนำกันมากใน HN โดยทั่วไปอยู่ในระดับ “เอา LLM ไปแปะกับหุ่นยนต์แบบคร่าว ๆ ก็พอ” เลยดีที่ได้เห็นคนที่มีความรู้ลึกกว่านั้นมากถูกพูดถึง การจะสร้าง embodied agent ที่ใช้งานได้จริงในโลกจริงอันวุ่นวาย แค่แก้ปัญหาการเรียนรู้ภาษาอย่างเดียวไม่พอ
เว็บไซต์โหลดไม่ขึ้น แต่ผมหาวิดีโอใน Toyota Research YouTube เจอ: https://www.youtube.com/watch?v=w-CGSQAO5-Q
- ช่วงประมาณ 2:40 ในวิดีโออธิบายว่าเป็น “โรงเรียนอนุบาลสำหรับหุ่นยนต์” ซึ่งเป็นมุมมองที่น่าสนใจ
  ถ้ามีโปรโตคอลมาตรฐานสำหรับเทคนิคการเรียนรู้ ผมสงสัยว่าจะคราวด์ซอร์สการเรียนรู้งานใหม่ ๆ ได้ไหม เช่น ให้คนประมูลงานที่ต้องการ ใครแก้ได้ก็รับรางวัล และทุกคนได้ประโยชน์ หางยาวของงานต่าง ๆ ยาวมากจนดูเหมือนว่าศูนย์วิจัยส่วนกลางแห่งเดียวไม่น่าจะจัดการได้ทั้งหมด
Google ก็ทำอะไรคล้าย ๆ กันเมื่อประมาณเดือนก่อน และเคยขึ้น HN แล้ว [1]
ผมสงสัยว่าใช้ force feedback มากแค่ไหน วัตถุนิ่ม ๆ กลม ๆ ใหญ่ ๆ ในวิดีโอนั่นเป็นเหมือนนิ้วขนาดใหญ่ที่มีเซ็นเซอร์แรงกดจำนวนมากอยู่ข้างในหรือเปล่า? เซ็นเซอร์แรงกดแบบแผ่นมีมาตั้งแต่ทศวรรษ 1980 แล้ว แต่ตอนนั้นเราไม่รู้ว่าจะใช้ข้อมูลมหาศาลพวกนั้นอย่างไร ตอนนี้การมีข้อมูลเซ็นเซอร์มากเกินไปกลายเป็นปัญหาที่เล็กลงมาก
เมื่อก่อนผมเคยลองแก้ปัญหานี้โดยติดประแจปลายปิดเข้ากับแขนหุ่นยนต์ แนวคิดคือคลำหาหัวน็อต ใส่ประแจเข้าไป แล้วหมุน เซ็นเซอร์แรงแบบ 6 แกนก็เพียงพอแล้ว แต่เป็นยุคก่อน deep learning เลยไปได้ไม่ไกลนัก ถึงอย่างนั้นก็ยังสร้างอุปกรณ์หุ่นยนต์ประแจขึ้นมาได้
[1] https://news.ycombinator.com/item?id=37167698
- วัตถุนิ่ม ๆ นั้นจริง ๆ แล้วแทบจะเป็น บอลลูนพองลม ที่มีกล้องอยู่ข้างใน และกล้องจะสังเกตการเสียรูปของบอลลูน: https://punyo.tech
น่าประทับใจจริง ๆ ดูยิ่งกว่าการสาธิตของ Boston Dynamics เสียอีก
การกลับแพนเค้กนั้นยากมาก เพราะแพนเค้กแต่ละชิ้นไม่เหมือนกัน รู้ว่าในวิดีโอแบบนี้เป็นฉากที่คัดมาแล้ว แต่การทำให้หุ่นยนต์เรียนรู้จากแค่การสาธิตง่าย ๆ แล้วทำสิ่งนี้ได้ รู้สึกเหมือนเป็นก้าวกระโดดครั้งใหญ่
- การกลับแพนเค้กทำได้มาตั้งแต่ปี 2010 แล้ว สิ่งที่ดูน่าประทับใจสำหรับมนุษย์อาจง่ายสำหรับหุ่นยนต์ และในทางกลับกันก็เช่นกัน: https://youtu.be/W_gxLKSsSIE?si=HDyNXe1Ys_eFXiVU
  อีกตัวอย่างหนึ่งคือ หุ่นยนต์จั๊กลิงทำได้มาตั้งแต่ทศวรรษ 1990 แล้ว แต่จนถึงตอนนี้ก็ยังไม่มีหุ่นยนต์ที่เปิดประตูแบบไหนก็ได้อย่างเสถียรเหมือนมนุษย์ได้ เป็นอะไรที่คล้ายกับ ปฏิทรรศน์ของ Moravec
- ถ้าพูดแบบคนทั่วไป วิธีที่มีประสิทธิภาพที่สุดในการฝึกหุ่นยนต์แบบนี้คือป้อน วิดีโอหลายหมื่นล้านคลิป ที่แสดงวิธีทำงานให้มันหรือเปล่า?
- เคยคิดว่างานใช้แรงงานจะปลอดภัยไปอีกนานมาก แต่ตอนนี้อาจไม่ใช่แล้วก็ได้ หวังว่าคนที่ทำนโยบายจะคิดอย่างจริงจังว่าโลกที่ผู้คนไม่มีงานให้ทำจะหน้าตาเป็นอย่างไร
ฟังดูคล้ายงานอย่าง PaLM-E ที่ Google เคยทำ: https://blog.research.google/2023/03/palm-e-embodied-multimodal-language.html
เป็นช่วงเวลาที่น่าสนใจจริง ๆ สำหรับวงการหุ่นยนต์
- อันนี้ดูดีกว่า PaLM-E มาก หุ่นยนต์ที่ใช้มีความสามารถมากกว่า และงานก็ซับซ้อนกว่ามาก
  ยิ่งไปกว่านั้น มันทำงานด้วยความเร็วเดียวกับตอนที่มนุษย์บังคับหุ่นยนต์เพื่อสาธิต การสาธิตของ PaLM-E จริง ๆ แล้วช้าจนทรมาน ต้องแสดงเป็นวิดีโอที่เร่งความเร็วทั้งหมด
วิธีไปสู่หุ่นยนต์ฮิวแมนนอยด์อเนกประสงค์น่าจะออกมาค่อนข้างใกล้เคียงกับแบบนี้
ตัวอย่างเช่น มีหุ่นยนต์ฮิวแมนนอยด์สไตล์ Boston Dynamics อยู่ที่ไซต์งาน สมมติว่าเป็นช่างก่ออิฐ นอกไซต์งานมีพื้นที่โล่งที่มีพื้นลู่วิ่งรอบทิศทาง กล้องและเซนเซอร์วัดความลึกรอบ ๆ ส่วนมนุษย์สวมชุด motion capture แบบ Hollywood กับเฮดเซ็ต VR เพื่อดูภาพจากกล้องของหุ่นยนต์
คนคนนั้นเดินไปยังกองอิฐ หยิบ และวาง เหมือนที่ทำในไซต์งาน หุ่นยนต์เคลื่อนไหวแบบเรียลไทม์ในไซต์งานและเลียนแบบการเคลื่อนไหวของมนุษย์ ไม่แน่ใจว่าถ้าจะทำให้ถูกต้องต้องมีพร็อพประกอบหรือไม่ หรือแค่ความจำกล้ามเนื้อจากการทำงานหน้างานมาหลายปีก็เพียงพอแล้ว
บันทึกข้อมูลทั้งหมดไว้ แล้วให้ใครสักคนดูสตรีมวิดีโอและติดป้ายกำกับให้แต่ละการกระทำที่เกิดขึ้น จากนั้นใส่ทั้งหมดเข้าไปในอัลกอริทึม machine learning จนสุดท้ายไปถึงจุดที่ส่งแค่แบบก่อสร้างให้หุ่นยนต์ แล้วบอกว่า “สร้างกำแพงนี้ให้หน่อย”
- ประมาณ 3/4 แรกแทบจะเหมือนกับภาพยนตร์ปี 2008 เรื่อง Sleep Dealer เลย จนคิดว่าอ้างอิงจากเรื่องนั้น
- แต่เท่าที่ผมรู้ แม้แต่อุปกรณ์ที่มีการเคลื่อนไหวหยาบกว่ามาก ซึ่งแมปทางกายภาพกับการเคลื่อนไหวของผู้ควบคุมที่เป็นมนุษย์แบบหลวม ๆ ก็ยังไม่มีการนำแนวทางนี้ไปใช้อย่างสุกงอม ตัวอย่างเช่น เครื่องจักรอย่างรถขุดที่บังคับด้วยจอยสติ๊กคู่
- ระยะสั้นอาจเป็นแบบนั้นได้ แต่ระยะยาวคงไม่ใช่
  น่าจะส่งทีมไปดิจิทัลไลซ์ไซต์งาน และสร้าง digital twin สถาปนิกจะทำการแมปทุกอย่างเข้ากับ twin นี้ แล้วระบบคอมพิวเตอร์จะจำลองขั้นตอนการก่อสร้าง จากนั้นจึงส่งหุ่นยนต์ลงไซต์งาน และถ้าจำเป็นก็รับโมเดลที่ปรับจูนละเอียดแล้วมาสร้างโดยอัตโนมัติ
- เคยอ่านนิยายหรือเรื่องสั้นที่มีคอนเซปต์แบบนี้มาก่อน หุ่นยนต์ถูกบังคับในไซต์งานเพื่อการเรียนรู้ แล้วหลังจากนั้นก็ถูกปล่อยให้ทำเอง จำพล็อตเรื่องที่เหลือหรือผู้เขียนไม่ได้แล้ว
- ใช่ นั่นเรียกว่า reinforcement learning
ผมเข้าใจว่าเหตุผลที่ใช้คำว่า “large language model” ก็เพราะด้วยข้อความจำนวนมหาศาลจากทั้งเว็บ, Library of Congress ฯลฯ ทำให้ LLM มีชุดข้อมูลขนาดใหญ่ให้เรียนรู้ คำว่า “large” ในที่นี้หมายถึงส่วนนั้น
แต่พอในวิดีโอนี้พูดถึง “large behavior model” ตรงไหนที่ large? จะได้ข้อมูลอินพุตพฤติกรรมปริมาณมหาศาลแบบเดียวกันจากที่ไหน? ดูเหมือนมีคนหลายสิบคนในห้องแล็บใหญ่คอยสาธิตพฤติกรรม ซึ่งก็ดี แต่คนจำนวนนี้ดูไม่น่าจะสร้างข้อมูลได้มากเท่ากับคอนเทนต์ตัวหนังสือดิจิทัลทั้งหมด
ดูเท่มาก แต่ไม่ค่อยแน่ใจว่าคนคนหนึ่งจะเป็นทั้งศาสตราจารย์ประจำของ MIT และรองประธานประจำของ TRI ไปพร้อมกันได้หรือเปล่า
เคยเห็นการทำงานสองตำแหน่งแบบนี้มาก่อน แต่ถ้าไม่ได้ทำงานเกิน 70 ชั่วโมงต่อสัปดาห์ ก็ยากจะเข้าใจว่ามันทำได้จริงอย่างไร
- อาจเป็นกรณีที่ถึงแม้จะทำงานไม่ถึง 40 ชั่วโมงต่อสัปดาห์ แต่เขาเชี่ยวชาญในสาขานั้นมากจน งาน 10 ชั่วโมง ของเขาไม่สามารถแทนที่ได้ด้วยคนอื่นที่ทำงานเต็มเวลา
  ถ้าเปรียบกับวิศวกรรมซอฟต์แวร์ ต่อให้ John Carmack ทำงานในโปรเจกต์แค่เดือนละ 6–7 วัน ก็ยังยินดีให้เงินเดือนและบทบาทดี ๆ กับเขา เพราะเขาคือ John Carmack

Toyota Research Institute อ้างความก้าวหน้าในการสอนพฤติกรรมใหม่ให้หุ่นยนต์

เร่งความเร็วการเรียนรู้พฤติกรรมหุ่นยนต์ด้วย Diffusion Policy

เรียนรู้ทักษะมากกว่า 60 อย่างโดยไม่ต้องเขียนโค้ดใหม่

แพลตฟอร์มปรับแต่งเองและการออกแบบความปลอดภัยบนพื้นฐาน Drake

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News