2 คะแนน โดย GN⁺ 2024-02-25 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Beyond A*: การวางแผนที่ดียิ่งขึ้นด้วยทรานส์ฟอร์เมอร์

  • โมเดลทรานส์ฟอร์เมอร์ได้สร้างความก้าวหน้าอย่างมากในหลากหลายแอปพลิเคชัน แต่ยังตามหลังวิธีวางแผนเชิงสัญลักษณ์แบบดั้งเดิมเมื่อต้องแก้โจทย์การตัดสินใจที่ซับซ้อน
  • ทีมวิจัยได้นำเสนอวิธีฝึกทรานส์ฟอร์เมอร์ให้แก้โจทย์การวางแผนที่ซับซ้อน และพัฒนาโมเดลชื่อ Searchformer ซึ่งใช้ขั้นตอนการค้นหาน้อยกว่าการค้นหาแบบ A* เดิมสูงสุด 26.8% ขณะเดียวกันก็ยังแก้ปริศนา Sokoban ที่ไม่เคยเห็นมาก่อนได้อย่างเหมาะสมที่สุดในเวลา 93.7%
  • Searchformer เป็นโมเดลทรานส์ฟอร์เมอร์แบบ encoder-decoder ที่ถูกฝึกให้คาดการณ์พฤติกรรมการค้นหาของ A* และถูก fine-tune ผ่าน expert iteration เพื่อสร้างแผนที่เหมาะสมที่สุดโดยใช้ขั้นตอนการค้นหาน้อยกว่า A*

วิธีการฝึกและประสิทธิภาพ

  • ในวิธีการฝึก พฤติกรรมการค้นหาของ A* ถูกแทนด้วยลำดับโทเค็นที่แสดงช่วงเวลาที่สถานะถูกเพิ่มเข้าและนำออกจากต้นไม้การค้นหาในการวางแผนเชิงสัญลักษณ์
  • ในการศึกษาแบบ ablation สำหรับการค้นหาเส้นทางในเขาวงกต Searchformer ทำได้ดีกว่าโมเดลอ้างอิงที่คาดการณ์แผนที่เหมาะสมที่สุดโดยตรงอย่างชัดเจน โดยมีขนาดโมเดลเล็กกว่า 5-10 เท่า และใช้ชุดข้อมูลฝึกเล็กกว่า 10 เท่า
  • ทีมวิจัยแสดงให้เห็นว่า Searchformer มีประสิทธิภาพในการเพิ่มสัดส่วนของโจทย์ที่แก้ได้และลดพฤติกรรมการค้นหาสำหรับโจทย์การตัดสินใจที่มีขนาดใหญ่และซับซ้อนมากขึ้น เช่น Sokoban

ความเห็นของ GN⁺

  • งานวิจัยนี้แสดงให้เห็นถึงความเป็นไปได้ใหม่ของการประยุกต์ใช้โมเดลทรานส์ฟอร์เมอร์ในวงการปัญญาประดิษฐ์ การนำเสนอแนวทางที่มีประสิทธิภาพมากกว่าวิธีเชิงสัญลักษณ์แบบเดิมในการแก้โจทย์การตัดสินใจที่ซับซ้อน ถือเป็นความก้าวหน้าสำคัญที่ช่วยขยายขอบเขตการประยุกต์ใช้ AI
  • โมเดล Searchformer แสดงความสามารถในการแก้ปัญหาได้รวดเร็วและมีประสิทธิภาพยิ่งขึ้นโดยใช้ทรัพยากรน้อยลง ซึ่งอาจเป็นข้อได้เปรียบอย่างมากโดยเฉพาะเมื่อใช้งาน AI ในสภาพแวดล้อมที่มีทรัพยากรจำกัด
  • งานวิจัยนี้ชี้ให้เห็นว่าความก้าวหน้าของเทคโนโลยี AI ไม่จำเป็นต้องพึ่งพาเพียงข้อมูลที่มากขึ้นและโมเดลที่ใหญ่ขึ้นเท่านั้น แต่ยังเกิดขึ้นได้ผ่านการปรับปรุงวิธีวิทยาและอัลกอริทึมอย่างชาญฉลาด ซึ่งเป็นแนวทางที่น่าสนใจและเป็นประโยชน์อย่างมากในแง่ของความยั่งยืนและประสิทธิภาพของการวิจัย AI

1 ความคิดเห็น

 
GN⁺ 2024-02-25
ความคิดเห็นจาก Hacker News
  • มีงานวิจัยที่น่าสนใจเกี่ยวกับการใช้ทรานส์ฟอร์เมอร์สำหรับการวางแผนการเคลื่อนไหวของหุ่นยนต์ การที่แขนหุ่นยนต์จะเคลื่อนจากจุดหนึ่งไปยังอีกจุดหนึ่งโดยไม่ชนวัตถุเป็นปัญหาที่ยากมาก เพราะปัญหานี้มีมิติสูงและเป็นแบบต่อเนื่อง วิธีวางแผนก่อนหน้านี้ใช้การคำนวณมากและไม่ได้ดีนัก นี่เป็นหนึ่งในเหตุผลที่ทำให้การเคลื่อนไหวของหุ่นยนต์ดู "ไม่เป็นธรรมชาติ" และหุ่นยนต์ทำงานหลายอย่างที่เราต้องการได้ไม่ดีนัก แนวทางนี้ดูเหมือนจะแข่งขันกับวิธีวางแผนแบบอื่นได้ และนำเสนอการวางแผนเส้นทางที่เหมาะสมที่สุดได้เร็วกว่า
  • สงสัยว่าก่อนเริ่มแนวทางการวิจัยนี้ ได้ลองใช้อัลกอริทึม J* ที่ปรับแก้แล้ว ซึ่งเป็นเวอร์ชันที่ปรับให้เหมาะสมของอัลกอริทึม A* สำหรับกราฟเกม/การหาเส้นทางหรือไม่ สำหรับผู้ที่สนใจ มีข้อมูลเกี่ยวกับ "Game AI Pro 2"
  • การวางแผนถูกจัดการได้ดีอยู่แล้วด้วยเทคนิคที่มีอยู่ เช่น การค้นหากราฟ, SAT-solver, OR, Prolog ฯลฯ ปัญหามักอยู่ที่การหาค่าที่เหมาะสมที่สุดระหว่างทางเลือกที่ทำได้หลายแบบ และก็สงสัยว่าทรานส์ฟอร์เมอร์เหมาะกับการทำสิ่งนี้หรือไม่ บทบาทของเทคโนโลยี LLM ดูจะใกล้เคียงกับการแปลงคำอธิบายภาษาธรรมชาติให้เป็นโปรแกรมที่รันได้มากกว่า และ Prolog ก็ถูกออกแบบมาสำหรับ NLP แบบดั้งเดิมในท้ายที่สุด จึงถือว่าใกล้เคียงกันมาก
  • การแปลภาษาด้วยเครื่องเคยเกี่ยวข้องกับการถอดรหัสไวยากรณ์ที่ซับซ้อนและการค้นหา แต่ตอนนี้ใช้ทรานส์ฟอร์เมอร์กับ MT และใช้การถอดรหัสที่ง่ายกว่ามากซึ่งแทบไม่ต้องค้นหาเลย อาจเป็นไปได้ว่าเราจะไปถึง 'จุดเริ่มต้นที่สมบูรณ์' ซึ่งใช้โมเดลการพยากรณ์ที่ดีที่สุดในปัจจุบันเพื่อเรียนรู้ฮิวริสติกสำหรับการค้นหาสถาปัตยกรรมโครงข่ายประสาท (NAS) และค้นหาบล็อกประสาทแบบใหม่ที่ดีกว่าทรานส์ฟอร์เมอร์และ Mamba
  • วลี "ขั้นตอนการค้นหาน้อยกว่าการค้นหา A* มาตรฐาน 26.8%" แสดงให้เห็นว่าประสิทธิภาพดีกว่า A* เล็กน้อย แต่ใน Sokoban ก็ยังไม่ถึงระดับล้ำสมัย (SOTA) สิ่งที่น่าประทับใจในงานนี้คืออะไร และทำไมถึงขึ้น Hacker News ก็ยังน่าสงสัย
  • ถ้าทรานส์ฟอร์เมอร์สามารถวางแผนได้ AGI (ปัญญาประดิษฐ์ทั่วไป) อาจแค่ต้องการการฝึกที่ดีกว่านี้
  • มีเวอร์ชันรูปแบบหนังสือเสียงที่สรุปบทความนี้ไว้สำหรับผู้ที่เรียนรู้ผ่านการฟัง
  • งานนี้ทำให้นึกถึงบทความ Neural Network Diffusion ที่อยู่บนหน้าแรกของ HN เมื่อวาน บทความก่อนหน้านั้นฝึกโมเดลที่ข้ามขั้นตอน SGD ส่วนบทความนี้ข้ามขั้นตอนการค้นหาของ A* แต่อีกด้านหนึ่ง การเลือกฮิวริสติกของ A* สำหรับ Sokoban นั้นไม่ดีนัก ระหว่างอ่านบทความนี้ก็ลองเล่น Sokoban อยู่ 20 นาที แล้วรู้สึกว่าฮิวริสติกการค้นหานั้นอ่อนมาก เพราะเพื่อจะเล่นต่อได้ มักต้องย้ายกล่องให้ออกห่างจากสถานะเป้าหมายก่อน
  • สงสัยว่ามีใครคอยรวบรวมรายการอัลกอริทึมแบบดั้งเดิมหรือปัญหา NP-complete ที่ตอนนี้ทำได้ดีกว่าด้วยการใช้ดีปเลิร์นนิงหรือไม่
  • ค่อนข้างมองโลกในแง่ดีมากเกี่ยวกับการใช้ฮิวริสติกที่เรียนรู้มาในอัลกอริทึมแบบไม่ต่อเนื่องอย่าง A* หรือ Focal search ในไลบรารีการหาค่าที่เหมาะสมที่สุดแบบไม่ต่อเนื่องสมัยใหม่ส่วนใหญ่ สิ่งที่อธิบายประสิทธิภาพ เช่นใน CPLEX ก็คือฮิวริสติกและการจูน พอพูดถึงการใช้แนวทางเรียนรู้แบบ end-to-end เพื่อแทนที่ขั้นตอนการค้นหาค่าที่เหมาะสมที่สุดที่เข้าใจดีอยู่แล้ว ก็ยังเข้าใจน้อยกว่า แต่ก็อาจเป็นความกังวลที่เกินไป คิดว่าผู้เขียนพลาดโอกาสนั้นไป