Richard Sutton และ Andrew Barto ได้รับรางวัลทัวริงประจำปี 2024

(awards.acm.org)

1 คะแนน โดย GN⁺ 2025-03-06 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ACM ได้ประกาศให้ Andrew G. Barto และ Richard S. Sutton ซึ่งเป็นผู้วางรากฐานเชิงแนวคิดและเชิงอัลกอริทึมของ การเรียนรู้แบบเสริมกำลัง เป็นผู้ได้รับรางวัล 2024 ACM A.M. Turing Award
ทั้งสองได้ทำให้ การเรียนรู้จากรางวัล กลายเป็นกรอบปัญหาทั่วไปอย่างเป็นทางการตั้งแต่ทศวรรษ 1980 และพัฒนาแนวทางที่ทำงานได้แม้ในสถานการณ์ที่ไม่ทราบสภาพแวดล้อมและรางวัลล่วงหน้า
ผลงานสำคัญต่อยอดไปสู่ การเรียนรู้ความแตกต่างเชิงเวลา, วิธี policy gradient, การแทนฟังก์ชันด้วยโครงข่ายประสาทเทียม และการออกแบบเอเจนต์ที่ผสานการเรียนรู้เข้ากับการวางแผน
หนังสือเรียนปี 1998 Reinforcement Learning: An Introduction ถูก อ้างอิงมากกว่า 75,000 ครั้ง และส่งอิทธิพลต่อ AlphaGo, RLHF ของ ChatGPT, การควบคุมหุ่นยนต์, การควบคุมความแออัดของเครือข่าย และการออกแบบชิป
รางวัลทัวริงซึ่งได้รับการสนับสนุนจาก Google มอบ เงินรางวัล 1 ล้านดอลลาร์สหรัฐ และ ACM มองว่าการเรียนรู้แบบเสริมกำลังมีส่วนทั้งต่อความก้าวหน้าของ AI และความเข้าใจการทำงานของสมอง

ผู้ได้รับรางวัลและเหตุผลในการคัดเลือก

ACM ได้ประกาศให้ Andrew G. Barto และ Richard S. Sutton เป็นผู้ได้รับรางวัล 2024 ACM A.M. Turing Award
เหตุผลในการคัดเลือกคือผลงานในการพัฒนา รากฐานเชิงแนวคิดและเชิงอัลกอริทึมของการเรียนรู้แบบเสริมกำลัง
ทั้งสองได้แนะนำแนวคิดหลักของการเรียนรู้แบบเสริมกำลังผ่านงานวิจัยตั้งแต่ทศวรรษ 1980 พร้อมสร้างรากฐานทางคณิตศาสตร์และอัลกอริทึมสำคัญ
Barto เป็นศาสตราจารย์กิตติคุณด้าน Information and Computer Sciences แห่ง University of Massachusetts, Amherst
Sutton เป็นศาสตราจารย์ด้านวิทยาการคอมพิวเตอร์ที่ University of Alberta, นักวิทยาศาสตร์วิจัยที่ Keen Technologies และเฟลโลว์ของ Amii (Alberta Machine Intelligence Institute)
ACM A.M. Turing Award ได้รับการขนานนามว่าเป็น “รางวัลโนเบลแห่งวงการคอมพิวติ้ง” และมอบ เงินรางวัล 1 ล้านดอลลาร์สหรัฐ ด้วยการสนับสนุนทางการเงินจาก Google, Inc.

ปัญหาที่การเรียนรู้แบบเสริมกำลังแก้ไข

ปัญญาประดิษฐ์โดยทั่วไปคือศาสตร์ที่มุ่งสร้าง เอเจนต์ ที่สามารถรับรู้สภาพแวดล้อมและลงมือกระทำได้
เอเจนต์ที่ฉลาดกว่าจะต้องเลือกแนวทางการกระทำที่ดีกว่า และการตัดสินว่าการกระทำใดดีกว่าอีกการกระทำหนึ่งถือเป็นแกนกลางของ AI
รางวัล (reward) เป็นคำที่มาจากจิตวิทยาและประสาทวิทยา หมายถึงสัญญาณที่มอบให้โดยสัมพันธ์กับคุณภาพของการกระทำของเอเจนต์
การเรียนรู้แบบเสริมกำลังคือกระบวนการเรียนรู้ว่าจะกระทำอย่างไรให้ประสบความสำเร็จมากขึ้นโดยอาศัยสัญญาณรางวัลนี้
Alan Turing ในบทความปี 1950 เรื่อง “Computing Machinery and Intelligence” ได้อภิปรายคำถาม “เครื่องจักรสามารถคิดได้หรือไม่?” และเสนอแนวทางการเรียนรู้ของเครื่องที่อิงกับรางวัลและการลงโทษ
Arthur Samuel ได้พัฒนาโปรแกรมหมากฮอสที่เรียนรู้จากการเล่นกับตัวเองในช่วงปลายทศวรรษ 1950 แต่หลังจากนั้นหลายทศวรรษก็แทบไม่มีความก้าวหน้าครั้งใหญ่ในสาย AI นี้

ผลงานทางเทคนิคของ Barto และ Sutton

ในช่วงต้นทศวรรษ 1980 Barto และ Sutton ซึ่งขณะนั้นเป็นนักศึกษาปริญญาเอกของเขา เริ่มทำให้การเรียนรู้แบบเสริมกำลังเป็น กรอบปัญหาทั่วไป โดยได้รับแรงบันดาลใจจากข้อสังเกตทางจิตวิทยา
ทั้งสองใช้รากฐานทางคณิตศาสตร์ของ กระบวนการตัดสินใจแบบมาร์คอฟ (MDP)
- ใน MDP เอเจนต์จะตัดสินใจในสภาพแวดล้อมเชิงความน่าจะเป็น
- หลังการเปลี่ยนสถานะแต่ละครั้งจะได้รับสัญญาณรางวัล และมีเป้าหมายเพื่อเพิ่มรางวัลสะสมระยะยาวให้สูงสุด
ทฤษฎี MDP มาตรฐานสมมติว่าข้อมูลทั้งหมดเป็นที่ทราบของเอเจนต์ แต่กรอบการเรียนรู้แบบเสริมกำลังครอบคลุมสถานการณ์ที่ไม่ทราบทั้งสภาพแวดล้อมและรางวัลด้วย
เพราะต้องการข้อมูลน้อยและกรอบ MDP มีความทั่วไปสูง การเรียนรู้แบบเสริมกำลังจึงนำไปใช้ได้กับปัญหาหลากหลาย
Barto และ Sutton ได้พัฒนาแนวทางอัลกอริทึมพื้นฐานของการเรียนรู้แบบเสริมกำลังหลายแบบผ่านงานวิจัยร่วมกันและความร่วมมือต่อเนื่อง
- ผลงานที่สำคัญที่สุดคือ การเรียนรู้ความแตกต่างเชิงเวลา (temporal difference learning) ซึ่งสร้างความก้าวหน้าครั้งใหญ่ในการแก้ปัญหาการพยากรณ์รางวัล
- วิธี policy gradient (policy-gradient methods) ก็เป็นอีกแนวทางสำคัญ
- ทั้งสองยังพัฒนาแนวทางที่ใช้โครงข่ายประสาทเทียมเป็นเครื่องมือแทนฟังก์ชันที่เรียนรู้ได้
- และยังเสนอการออกแบบเอเจนต์ที่ผสานการเรียนรู้กับการวางแผน โดยให้เรียนรู้ความรู้เกี่ยวกับสภาพแวดล้อมเพื่อนำมาเป็นพื้นฐานของการวางแผน

อิทธิพลที่ต่อยอดสู่ตำราและ deep reinforcement learning

หนังสือเรียนปี 1998 Reinforcement Learning: An Introduction ยังคงเป็นเอกสารอ้างอิงมาตรฐานของสาขานี้ และถูก อ้างอิงมากกว่า 75,000 ครั้ง
หนังสือเล่มนี้ช่วยให้นักวิจัยหลายพันคนเข้าใจและมีส่วนร่วมกับการเรียนรู้แบบเสริมกำลังซึ่งเคยเป็นสาขาเกิดใหม่ และยังส่งอิทธิพลต่อกิจกรรมวิจัยด้านวิทยาการคอมพิวเตอร์ในปัจจุบัน
แม้อัลกอริทึมของ Barto และ Sutton จะถูกพัฒนามาหลายสิบปีก่อน แต่ในช่วง 15 ปีที่ผ่านมา การผสานกันของการเรียนรู้แบบเสริมกำลังกับอัลกอริทึม deep learning ได้ก่อให้เกิดความก้าวหน้าครั้งใหญ่ในงานประยุกต์จริง
การผสานนี้นำไปสู่เทคนิค deep reinforcement learning
บทความนี้ระบุว่าอัลกอริทึม deep learning ถูกบุกเบิกโดย Bengio, Hinton และ LeCun ผู้ได้รับรางวัลทัวริงปี 2018

ตัวอย่างการใช้งานและการขยายงานวิจัย

ตัวอย่างเด่นของการเรียนรู้แบบเสริมกำลังคือ AlphaGo ที่เอาชนะนักโกะมนุษย์ระดับแนวหน้าได้ในปี 2016 และ 2017
ChatGPT ก็ถูกนับรวมอยู่ในผลงานสำคัญเช่นกัน
- ChatGPT เป็นโมเดลภาษาขนาดใหญ่ที่ฝึกด้วยกระบวนการสองขั้นตอน
- ในขั้นตอนที่สอง ใช้ การเรียนรู้แบบเสริมกำลังจากฟีดแบ็กของมนุษย์ (RLHF) เพื่อสะท้อนความคาดหวังของมนุษย์
ในวงการหุ่นยนต์ มีตัวอย่างทั้งการควบคุมวัตถุด้วยมือหุ่นยนต์และการแก้ Rubik’s Cube ในโลกจริง
- แสดงให้เห็นว่าการเรียนรู้แบบเสริมกำลังที่ฝึกในสภาพจำลองก็สามารถประสบความสำเร็จในโลกจริงที่แตกต่างกันมากได้
ด้านการประยุกต์ใช้อื่น ๆ ได้แก่ การควบคุมความแออัดของเครือข่าย, การออกแบบชิป, โฆษณาบนอินเทอร์เน็ต, การหาค่าเหมาะที่สุด, การเพิ่มประสิทธิภาพซัพพลายเชนระดับโลก, การปรับปรุงพฤติกรรมและความสามารถในการให้เหตุผลของแชตบอต และการปรับปรุงอัลกอริทึมการคูณเมทริกซ์
เทคโนโลยีที่ได้รับแรงบันดาลใจจากประสาทวิทยาได้ส่งอิทธิพลย้อนกลับไปยังประสาทวิทยาด้วย
- งานวิจัยล่าสุดรวมถึงงานของ Barto มองว่าอัลกอริทึมการเรียนรู้แบบเสริมกำลังบางประเภทที่พัฒนาขึ้นใน AI อธิบายการค้นพบหลายอย่างที่เกี่ยวข้องกับ ระบบโดพามีน ในสมองมนุษย์ได้ดีที่สุด

มุมมองของ ACM และ Google

Yannis Ioannidis ประธาน ACM ประเมินว่างานวิจัยของ Barto และ Sutton แสดงให้เห็นศักยภาพของการประยุกต์แนวทางข้ามสาขากับโจทย์เก่าแก่ของวงการคอมพิวติ้ง
วิทยาศาสตร์การรู้คิด, จิตวิทยา และประสาทวิทยา ได้เป็นแรงบันดาลใจต่อการพัฒนาการเรียนรู้แบบเสริมกำลัง และการเรียนรู้แบบเสริมกำลังก็ได้มอบทั้งรากฐานของความก้าวหน้าสำคัญใน AI และความเข้าใจการทำงานของสมองที่ลึกซึ้งยิ่งขึ้น
Ioannidis ระบุว่าการเรียนรู้แบบเสริมกำลังไม่ใช่เพียงขั้นบันไดที่ผ่านพ้นไปแล้ว แต่ยังคงเติบโตต่อเนื่อง และมีศักยภาพต่อความก้าวหน้าเพิ่มเติมทั้งในคอมพิวติ้งและอีกหลายสาขา
Jeff Dean รองประธานอาวุโสของ Google อ้างถึงคำพูดของ Alan Turing ในการบรรยายปี 1947 ที่ว่า “สิ่งที่เราต้องการคือเครื่องจักรที่สามารถเรียนรู้จากประสบการณ์”
Dean ประเมินว่าการเรียนรู้แบบเสริมกำลังที่ Barto และ Sutton เป็นผู้บุกเบิกนั้นตอบโจทย์ของ Turing โดยตรง เป็นแกนหลักของความก้าวหน้าใน AI ตลอดหลายทศวรรษที่ผ่านมา และยังคงเป็นเสาหลักสำคัญของกระแส AI ในปัจจุบัน

ประวัติย่อของผู้ได้รับรางวัล

Andrew Barto เป็นศาสตราจารย์กิตติคุณในภาควิชา Information and Computer Sciences ของ University of Massachusetts, Amherst
- เริ่มต้นเส้นทางอาชีพในปี 1977 ในฐานะนักวิจัยหลังปริญญาเอกที่ UMass Amherst
- หลังจากนั้นดำรงตำแหน่ง Associate Professor, Professor และ Department Chair
- สำเร็จการศึกษาระดับปริญญาตรีสาขาคณิตศาสตร์ และปริญญาโทกับปริญญาเอกสาขา Computer and Communication Sciences จาก University of Michigan
- ได้รับรางวัล UMass Neurosciences Lifetime Achievement Award, IJCAI Award for Research Excellence และ IEEE Neural Network Society Pioneer Award
- เป็น IEEE Fellow และ AAAS Fellow
Richard Sutton เป็นศาสตราจารย์ด้าน Computing Science ที่ University of Alberta, นักวิทยาศาสตร์วิจัยที่ Keen Technologies บริษัทปัญญาประดิษฐ์ทั่วไปในดัลลัส และหัวหน้าที่ปรึกษาด้านวิทยาศาสตร์ของ Amii
- ดำรงตำแหน่ง DeepMind Distinguished Research Scientist ตั้งแต่ปี 2017 ถึง 2023
- ทำงานเป็น Principal Technical Staff Member ในแผนก AI ของ AT&T Shannon Laboratory ตั้งแต่ปี 1998 ถึง 2002
- ความร่วมมือกับ Barto เริ่มขึ้นในปี 1978 ที่ University of Massachusetts at Amherst โดย Barto เป็นอาจารย์ที่ปรึกษาทั้งระดับปริญญาเอกและหลังปริญญาเอกของ Sutton
- สำเร็จการศึกษาระดับปริญญาตรีสาขาจิตวิทยาจาก Stanford University และปริญญาโทกับปริญญาเอกสาขา Computer and Information Science จาก University of Massachusetts at Amherst
- ได้รับรางวัล IJCAI Research Excellence Award, Canadian Artificial Intelligence Association Lifetime Achievement Award และ University of Massachusetts at Amherst Outstanding Achievement in Research Award
- เป็นเฟลโลว์ของ Royal Society of London, Association for the Advancement of Artificial Intelligence และ Royal Society of Canada

1 ความคิดเห็น

GN⁺ 2025-03-06

ความคิดเห็นจาก Hacker News

เห็นข่าวนี้แล้วดีใจจริง ๆ กลายเป็นว่าผมกับภรรยาได้ซื้อ บ้านของ Andy Barto กับภรรยา
ตอนซื้อมีการแข่งขันยื่นประมูล และเขาบอกให้ “เสนอราคาที่ดีที่สุดมา” พอรู้ว่าเขาเป็นนักคณิตศาสตร์ ผมเลยเสนอเป็น จำนวนเงินที่เป็นจำนวนเฉพาะ ดีใจมากที่เห็นผลงานของเขาได้รับการยอมรับ
- น่าจะเล่นมุกว่า “เอาให้แฟร์กันทั้งสองฝ่าย 2 ดอลลาร์ เป็นไง?”
- ถ้าบอกว่า “จำนวนเงินที่เป็นจำนวนเฉพาะ” นี่คือ $12345678910987654321 หรือเปล่า?
- เรื่องสุดยอดมาก อยากรู้ว่า จำนวนเงินเฉพาะ นั้นเท่าไหร่
เยี่ยม และสมควรได้รับอย่างยิ่ง ทั้งสองฉบับของ ตำรา Reinforcement Learning เปิดให้อ่านเป็น PDF ฟรี
ผมทำงานเป็นผู้ปฏิบัติงาน AI แบบมีค่าจ้างมาตั้งแต่ปี 1982 แต่ Reinforcement Learning เป็นหัวข้อที่เรียนรู้ด้วยตัวเองได้ยากสำหรับผม และหนังสือของ Sutton/Barto กับคอร์ส Reinforcement Learning บน Coursera ของอาจารย์ White ช่วยได้มาก แนะนำเลย
โปรแกรมตัวอย่างของหนังสือมีให้ทั้ง Common Lisp และ Python: http://incompleteideas.net/book/the-book-2nd.html
ตอนนี้เป็นจังหวะดีที่จะกลับไปอ่าน The Bitter Lesson อีกครั้ง: https://www.cs.utexas.edu/~eunsol/courses/data/bitter_lesson...
- URL ทางการอยู่ที่นี่: <http://www.incompleteideas.net/IncIdeas/BitterLesson.html>
- เป็นบทเรียนที่ขมขื่นจริง ๆ เมื่อก่อนการเข้ารหัสความรู้ของมนุษย์ลงในคอมพิวเตอร์เป็นเรื่องสนุก และทำให้เราเข้าใจได้ว่าเกิดอะไรขึ้น
  ตอนนี้ทุกอย่างกำลังกลายเป็น กล่องดำขนาดมหึมา ที่หาเหตุผลอธิบายได้ยาก อีกทั้งกฎของมัวร์ก็กลายเป็นคำพยากรณ์ที่ทำให้เป็นจริงด้วยตัวเอง AI ผลักดันความต้องการพลังประมวลผลขึ้นอย่างมาก ทำให้ผู้ผลิตชิปสร้างฮาร์ดแวร์เฉพาะทาง และสิ่งนี้ก็หมุนต่อไปเหมือน flywheel
- เรื่องนี้ขึ้นอยู่กับว่าเป้าหมายของงานวิจัย AI คืออะไร ถ้าเป้าหมายคือการสร้างเครื่องจักรที่ทำงานซึ่งเคยถูกมองว่ามีแต่จิตใจมนุษย์เท่านั้นที่ทำได้หรือจำเป็นต้องทำได้ดี บทเรียนอันขมขื่น แบบนี้ก็คุ้มค่ามาก
  แต่ถ้าเป้าหมายคือการสอนเครื่องให้ทำ X พร้อมกับทำความเข้าใจว่ามนุษย์ทำ X ได้อย่างไร โครงสร้างเชิงสถิติที่ซับซ้อนขึ้นเรื่อย ๆ ก็ให้ข้อมูลได้จำกัด ผมไม่ได้เข้าข้างฝ่ายใดฝ่ายหนึ่ง แค่หมายความว่าอาจต้องใช้แนวทางที่ละเอียดอ่อนกว่านี้
- ใน computer vision ก็มีแนวโน้มคล้ายกัน วิธีการยุคแรกมองการมองเห็นด้วยการหา edge, generalized cylinders, ฟีเจอร์ SIFT แต่ทุกวันนี้สิ่งเหล่านี้ถูกทิ้งไป และโครงข่ายประสาท deep learning สมัยใหม่ทำได้ดีกว่ามากด้วย convolution และ invariance บางอย่างเท่านั้น
  ผมอยู่ในวงการช่วงที่ pattern matching ใน vision เริ่มตายไป มันไม่ได้หายไปหมดเสียทีเดียว และสิ่งที่ได้เรียนตอนนั้นก็ยังมีประโยชน์ในที่อื่น ๆ
- แค่คิดถึงบทเรียนอันขมขื่นที่ผู้ปฏิบัติงาน natural language processing แบบคลาสสิกคงได้เรียนรู้ก็ชวนเวียนหัวแล้ว บทความนั้นยังคงถูกต้องจนถึงวันนี้
หนังสือ Reinforcement Learning: An Introduction ของพวกเขาเป็นหนึ่งในตำราที่เข้าถึงง่ายที่สุดในสาย AI/แมชชีนเลิร์นนิง ขอแนะนำอย่างยิ่ง
- ผมเคยพยายามเข้าสาย Reinforcement Learning แต่ทุกครั้งรู้สึกว่าสูตรต่าง ๆ และสารพัดอย่างที่มีเครื่องหมายดอกจันนั้นเกินระดับผมไปไกล
- อยากรู้ว่าพื้นฐานของคุณเป็นอย่างไร น่าเสียดายที่ผมไม่ได้รู้สึกว่าหนังสือเล่มนั้นเข้าถึงง่ายนัก
- หนังสือเล่มนั้นอ่านแล้วเพลิน แนะนำอย่างยิ่ง
- หนังสือที่พูดถึงคือ Reinforcement Learning: An Introduction ใช่ไหม? หรือพวกเขาเขียนเล่มอื่นด้วย?
ถ้าจะให้สมดุลกัน ควรมอบให้กับนักฟิสิกส์ด้วย
ต้องย้ำว่า Sutton เป็น ผู้สนับสนุนแนวคิดการสืบทอดโดยสิ่งที่ไม่ใช่มนุษย์ และเป็นคนที่ไม่สนใจถ้ามนุษยชาติทั้งหมดตายไป เขาไม่ใช่คนที่ควรเชื่อถือหรือยกย่อง: https://www.youtube.com/watch?v=NgHFMolXs3U
- รางวัลของ ACM มอบให้จาก ความสำเร็จทางวิชาการในสายอาชีพ ของพวกเขา เราควรเลิกหมกมุ่นกับการขุดชีวิตส่วนตัวของใครสักคนเพื่อหาส่วนที่เขาพูดแปลกที่สุด แล้วใช้สิ่งนั้นทาทับความสำเร็จทั้งชีวิตให้กลายเป็นความชั่วร้าย
  เป็นเรื่องโง่และอันตรายที่ใคร ๆ ก็สามารถทำให้ความสำเร็จอันสูงส่งในเรื่อง B ซึ่งอาจเปลี่ยนโลกได้กลายเป็นโมฆะ เพียงเพราะไม่ชอบ A และคนคนนั้นเคยพูดหรือทำ A อินเทอร์เน็ตยกระดับการตัดสินของคนที่รู้เรื่องนั้นดีให้มีน้ำหนักเท่ากับความไม่ชอบแบบง่าย ๆ วิธีคิดแบบนี้กำลังแบ่งแยกผู้คนในวงกว้างขึ้นเรื่อย ๆ และมันทำให้ผมโกรธ
- คุณเคยเจอ Sutton ตัวจริงไหม? ในบรรดาคนที่ผมเคยพบ เขาใกล้เคียงกับฮิปปี้ที่อบอุ่น ใส่ใจ และเปี่ยมแพสชันที่สุด เขาไม่ได้อยากให้มนุษย์ทุกคนตาย
  ปาฐกถาที่ลิงก์มาก็ไม่ได้สนับสนุนคำกล่าวอ้างนั้น ถ้าผมพลาดตรงไหน ช่วยทิ้ง timestamp ไว้ด้วย ในปาฐกถา เขาพูดว่าถึงมนุษยชาติจะไม่ได้ควบคุมชะตาของตัวเองแต่เพียงฝ่ายเดียวอีกต่อไป ก็จะนำไปสู่ยุคแห่งความรุ่งเรือง สไลด์สรุปที่ 12:33 มีหัวข้อเขียนตามตัวอักษรว่า “ความหวังที่ดีที่สุดสำหรับอนาคตระยะยาวของมนุษยชาติ” ซึ่งตรงข้ามกับ “ไม่สนใจถ้ามนุษยชาติทั้งหมดตายไป” โดยสิ้นเชิง
  การที่ผมเตรียมเรื่องการสืบทอด ไม่ได้หมายความว่าผมอยากหรือคาดหวังให้ลูกสาวฆ่าผม ผมแค่อยากเกษียณอย่างมีสุขภาพดีและยืนยาว แล้วจากไปอย่างสงบโดยรู้ว่าผมได้ทิ้งสิ่งที่ดีที่สุดเท่าที่ทำได้ไว้ให้ลูกสาว ภายใต้ความสัมพันธ์แบบพึ่งพาอาศัยกันกับจักรวาล
- “ไม่สนใจถ้ามนุษยชาติทั้งหมดตายไป” ดูเป็นการอธิบายจุดยืนของเขาที่รุนแรงและชวนเข้าใจผิด
  ในมุมผม เขาดูใกล้เคียงกับคนที่เชื่อว่ามนุษย์จะถูกแทนที่ด้วย transhuman ในท้ายที่สุดอย่างหลีกเลี่ยงไม่ได้ มากกว่าจะมีเจตนาร้าย มันดูเหมือนยูโทเปียแบบนิยายวิทยาศาสตร์ที่หยาบ ๆ และไม่น่าจะเป็นเหตุผลที่ไม่ควรเฉลิมฉลองผลงานทางวิชาการของเขา
- การบอกให้รู้ว่ามีมุมมองแบบนั้นก็น่าสนใจ แต่ผมไม่เข้าใจว่าทำไมแค่เพราะใครบางคนมีความเห็นที่เราไม่เห็นด้วย จึงไม่ควรเชื่อถือหรือยกย่องเขา
  โดยเฉพาะการสื่อเป็นนัยว่า Sutton อยากให้ทุกคนตายอย่างจริงจังนั้นดูมีหลักฐานอ่อนมาก
- สไลด์สุดท้ายของเขาเขียนตามตัวอักษรว่า “ความหวังที่ดีที่สุดสำหรับอนาคตระยะยาวของมนุษยชาติ” ตรงข้ามกับข้อกล่าวอ้างเลย
ผมใช้ หนังสือ Reinforcement Learning ของพวกเขาในวิชาที่สอน เขียนได้สวยงามและเปิดให้อ่านฟรี: http://incompleteideas.net/book/the-book-2nd.html
บางครั้งประโยคดีมากจนผมอ่านเพลินจนพลาดเนื้อหาจริง ๆ ไป
ขอแสดงความยินดีอย่างยิ่งกับ Andrew Barto และ Richard Sutton ที่ได้รับรางวัล Turing Award ตอนเป็นนักศึกษา Reinforcement Learning: An Introduction คือประตูสู่สาขานี้สำหรับผม
โดยเฉพาะบทที่ 6 Temporal Difference Learning ได้เปลี่ยนวิธีมองการตัดสินใจแบบลำดับขั้นของผมไปอย่างรากฐาน จนถึงตอนนี้ก็ยังเป็นคลาสสิกเหนือกาลเวลาที่แนะนำให้อ่านอย่างยิ่ง
เป็นรางวัลที่รอมานาน พวกเขาผลักดันไอเดียหนึ่งตั้งแต่ต้นจนจบ จนทำให้มันเติบโตจากบทส่วนย่อยในหนังสือ dynamic programming กลายเป็น ทั้งสาขาหนึ่ง
ผมอยากเห็น Reinforcement Learning ถูกใช้มากกว่านี้ในเกม ซึ่งเป็นจุดเริ่มต้นของทั้งหมดนี้ด้วย คงจะยอดเยี่ยมมาก
เป็นรางวัลที่สมควรได้รับ Reinforcement Learning จะยิ่งสำคัญขึ้นเรื่อย ๆ ด้วยความยืดหยุ่นที่มันมีร่วมกับ neural networks
เมื่อขยายสเกลต่อไป บทเรียนอันขมขื่น ก็คงไม่รู้สึกขมขื่นเท่าไรนัก

Richard Sutton และ Andrew Barto ได้รับรางวัลทัวริงประจำปี 2024

ผู้ได้รับรางวัลและเหตุผลในการคัดเลือก

ปัญหาที่การเรียนรู้แบบเสริมกำลังแก้ไข

ผลงานทางเทคนิคของ Barto และ Sutton

อิทธิพลที่ต่อยอดสู่ตำราและ deep reinforcement learning

ตัวอย่างการใช้งานและการขยายงานวิจัย

มุมมองของ ACM และ Google

ประวัติย่อของผู้ได้รับรางวัล

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News