การค้นหาของ AI: บทเรียนที่ขมขื่นยิ่งกว่า

(yellow-apartment-148.notion.site)

1 คะแนน โดย GN⁺ 2024-06-16 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

หากเพิ่มความสามารถด้าน การค้นหา (search) ที่ใช้เวลาอนุมานนานขึ้นให้กับ foundation model อาจเปิดเส้นทางการพัฒนา AI ที่ต่างจากการรอโมเดลขนาดใหญ่กว่าออกมา
Leela Chess Zero เอาชนะ Stockfish ได้ด้วยการเล่นกับตัวเองและ deep learning แต่ Stockfish กลับมาครองความได้เปรียบอีกครั้งด้วยการผสาน neural network ที่เล็กกว่าเข้ากับ search pipeline ที่แข็งแกร่ง
การค้นหาในที่นี้คือความสามารถในการเพิ่มสมรรถนะการแก้ปัญหาโดยใช้ compute ตอน inference มากขึ้น ไม่ใช่ compute ตอน training และไม่ได้หมายถึงแค่ MCTS แบบหมากรุกหรือ AlphaBeta
การค้นหาช่วยให้มุ่ง compute ไปเฉพาะบริเวณที่จำเป็น ทำให้บริษัทอย่าง Pfizer มีทางเลือกในการจ่าย ต้นทุนการอนุมาน เองโดยไม่ต้องรอโมเดลที่ใหญ่กว่าของ OpenAI
หากนำการค้นหามาใช้กับงานวิจัย AI ก่อน ก็อาจใช้ค้นหาอัลกอริทึมการค้นหาและสถาปัตยกรรมโมเดลที่มีประสิทธิภาพกว่าได้ ทำให้ AI แบบพัฒนาตัวเองอาจอยู่ใกล้กว่าที่คาด

“บทเรียนที่ขมขื่นยิ่งกว่า” ที่ Leela และ Stockfish แสดงให้เห็น

Leela Chess Zero คือเอนจินหมากรุกที่เริ่มต้นด้วยการรู้เพียงกติกา แล้วเรียนรู้ผ่าน การเล่นกับตัวเองหลายหมื่นล้านครั้ง
- ไม่ได้ hardcode ความรู้หมากรุกของมนุษย์เข้าไปโดยตรง แต่เดินหมากในแบบที่เรียนรู้เองจนพลิกทฤษฎีหมากรุกที่มนุษย์เชื่อกันมา
- แสดงให้เห็นการสละหมากระยะยาวและการเดินที่สร้างสรรค์ และชนะใน การแข่งขันชิงแชมป์โลก
จุดแข็งของ Leela คือ deep learning และแสดงพลังของการคำนวณและการเรียนรู้ขนาดใหญ่ตามที่ The Bitter Lesson กล่าวไว้ได้อย่างชัดเจน
- สอดคล้องกับแนวโน้มที่ representation ซึ่งเรียนรู้ด้วยตัวเองอาจทรงพลังกว่าความรู้ที่มนุษย์ออกแบบไว้
ทีม Leela สังเกตในปี 2018 ว่า network ที่ใหญ่กว่ามีความแข็งแกร่งกว่านetwork ที่เล็กกว่าอย่างสม่ำเสมอ
- network ที่ใหญ่กว่าแสดง คุณสมบัติอุบัติใหม่ เหมือนมองล่วงหน้าได้หลายตา แม้ไม่มีการค้นหาแบบชัดเจน
ในปี 2020 ทีม Leela รวบรวม compute จากผู้บริจาคองค์กรและจาก GTX 1070 ของคนรู้จักเพื่อฝึก network ที่ใหญ่ขึ้น และเตรียมโมเดลที่ใหญ่ที่สุดไว้ก่อนการแข่งขันระดับโลก แต่ก็พ่ายแพ้

การกลับมาพลิกเกมของ Stockfish: โมเดลเล็กกับการค้นหาที่แข็งแกร่ง

Stockfish เป็นโปรแกรมหมากรุกที่ครองความเหนือกว่าในช่วงทศวรรษ 2010 และในปี 2019 ก็ใกล้เคียงกับ AI แบบเก่าที่มนุษย์ฝังความรู้ของเกมลงในโค้ดด้วยเทคนิคทางคณิตศาสตร์
Leela เอาชนะ Stockfish ในปี 2019 ด้วย deep learning และแนวทาง tabula rasa แต่หลังจากนั้น Stockfish นำเทคนิค deep learning ของ Leela มาใช้ฝึกโมเดลที่เล็กกว่ามาก
- โมเดลนั้น เล็กกว่าโมเดลระดับสูงสุดของ Leela หลายร้อยเท่า
- Stockfish นำโมเดลเล็กนี้ใส่เข้าไปใน search pipeline เดิม และก็เหนือกว่า Leela ทันที
ชัยชนะนี้ดูสวนทางกับ scaling law ที่มุ่งไปยังโมเดลที่ใหญ่ขึ้น
- เพราะแม้โมเดลจะเล็กกว่า แต่อัลกอริทึมการค้นหามีประสิทธิภาพกว่า ใช้ฮาร์ดแวร์ได้ดีกว่า และมองได้ไกลกว่า
“บทเรียนที่ขมขื่นยิ่งกว่า” คือแม้ในยุค deep learning อันโดดเด่น ก็ไม่ควรประเมิน พลังของการค้นหาใน AI ต่ำเกินไป

นิยามของการค้นหาใน foundation model และข้อจำกัดปัจจุบัน

foundation model อย่าง GPT-4 ยังขาดการค้นหาในความหมายที่บทความนี้กล่าวถึง
- ปัจจุบันยังไม่สามารถขอให้ GPT-4 คิดปัญหาเป็นเวลาหนึ่งเดือนแล้วคาดหวังคำตอบที่ดีกว่าได้
- การขอให้ “คิดแบบทีละขั้นตอน” อาจเพิ่มประสิทธิภาพได้ แต่ผลตอบแทนจะลดลงอย่างรวดเร็ว
การค้นหาใน foundation model คือความสามารถในการแก้ปัญหาให้ดีขึ้นโดยใช้ compute ตอน inference มากขึ้น ไม่ใช่ compute ตอน training
- ไม่ได้หมายถึงเฉพาะการค้นหาแบบ MCTS หรือ AlphaBeta ในหมากรุก
- การคิดทบทวนภายในของมนุษย์และการทำงานร่วมกันก็อยู่ในนิยามนี้ด้วย
นักวิจัย AI นักเศรษฐศาสตร์ และ CEO อาจประเมินต่ำไปว่าการเพิ่มการค้นหาให้กับ foundation model นั้นใกล้และสำคัญเพียงใด
เหตุผลที่การค้นหาสำคัญสรุปได้เป็นสามข้อ
- การนำไปใช้จริงอาจไม่จำเป็นต้องมีสเกลโมเดลที่ใหญ่ขึ้นเสมอไป
- สามารถมุ่ง compute ไปเฉพาะจุดที่จำเป็นได้
- อาจเร่งการทำให้งานวิจัย AI เป็นอัตโนมัติได้

สเกลอาจไม่ใช่เงื่อนไขตั้งต้นของการค้นหา

สมมติฐานที่แพร่หลายคือการทำให้ LLM ค้นหาได้ต้องอาศัยโมเดลที่ใหญ่กว่า
- Sholto Douglas กล่าว ว่าการจัดการกับการคิดระยะยาวต้องมี “nines” เพิ่มขึ้นในความน่าเชื่อถือของ LLM
- Leopold Aschenbrenner มอง ว่า pretraining อาจมีวัตถุดิบที่จำเป็นต่อการค้นหาอยู่แล้ว และต้องการ “การ scale เพิ่มอีกเล็กน้อย” กับ token เพิ่มเติม
แต่กรณีหมากรุกสั่นคลอนแนวคิดที่ว่าสเกลเป็นเงื่อนไขตั้งต้นของการค้นหา
- DeepMind ศึกษาใน อัลกอริทึมหมากรุกที่ไม่มีการค้นหา ว่าพฤติกรรมการมองไปข้างหน้าเกิดขึ้นเองตามธรรมชาติโดยไม่มี scaffolding ภายนอก
- ตรรกะคือ ในหมากรุกมีอัลกอริทึมการค้นหาอยู่แล้ว จึงมีเหตุผลน้อยที่จะรอให้ความสามารถมองล่วงหน้าที่ไม่มีประสิทธิภาพเกิดขึ้นโดยบังเอิญในโมเดลใหญ่
Scaling Scaling Laws with Board Games แสดงให้เห็นว่า ทุกครั้งที่เพิ่ม compute ตอน training 10 เท่า จะลด compute ตอน test ได้ประมาณ 15 เท่า
- ผลลัพธ์นี้ยังสังเกตได้แม้ลดลงไปถึงโมเดลที่มี neuron เดียว
- เชื่อมโยงกับกรณีที่ Stockfish ชนะ Leela ด้วยโมเดลที่ เล็กกว่าถึง 3 หลัก
โมเดลปัจจุบันอาจใหญ่พออยู่แล้วที่จะทำให้การค้นหาเป็นไปได้ และบางทีอาจใหญ่เกินจำเป็นด้วยซ้ำ

เศรษฐศาสตร์ของการค้นหาและความเป็นไปได้ในการทำให้งานวิจัย AI เป็นอัตโนมัติ

การค้นหาทำให้แลกเปลี่ยนกันได้ระหว่าง compute ตอน training กับ compute ตอน inference และทำให้ใช้ต้นทุนเฉพาะในโดเมนที่ต้องการ
ตัวอย่างของ Pfizer แสดงให้เห็นว่าการค้นหานำไปสู่ การใช้จ่าย compute รายโดเมน อย่างไร
- หาก Pfizer ต้องการวิจัยยาตัวใหม่ ก็อาจรอจนถึงปี 2030 ให้ OpenAI เปิดตัวโมเดลที่ใหญ่ขึ้น 4 หลัก
- หรืออาจใช้ compute ตอน inference มากขึ้น 4 หลักตั้งแต่ตอนนี้ เพื่อพยายามให้ได้ความสามารถใกล้เคียงกัน
หากสมมติว่า Pfizer ใช้เงินกับ GPT-4 ปีละ 100,000 ดอลลาร์ การเข้าถึงความสามารถระดับ ASI ในปี 2030 จะต้องเพิ่มงบ AI ขึ้น 4 หลักเป็นปีละ 1 พันล้านดอลลาร์
- งบ R&D ของ Pfizer อยู่ที่ 12 พันล้านดอลลาร์ อยู่แล้ว
- การฝึกโมเดลที่มีความสามารถเดียวกันอาจต้องใช้เงินระดับหลายล้านล้านดอลลาร์สำหรับ OpenAI
เส้นทางสู่ ASI ปี 2030 ของ Leopold Aschenbrenner คือแนวทางที่ผ่านคลัสเตอร์ขนาดใหญ่ รายได้ที่เพิ่มขึ้น สินเชื่อองค์กรขนาดใหญ่ และการที่รัฐบาลสร้างคลัสเตอร์ที่ใหญ่ขึ้น จนโมเดลใหญ่พอจะทำวิจัย AI ได้เอง
- ในโลกที่ไม่มีการค้นหา เส้นทางนี้ดูสมเหตุสมผล
ในโลกที่การค้นหาทำงานได้ จะมีเส้นทางอื่นที่เป็นไปได้
- การค้นหาทำงานได้บนโมเดลที่มีอยู่
- ห้องแล็บขนาดใหญ่และรัฐบาลนำการค้นหาไปใช้กับงานวิจัย AI หรือข่าวกรองต่างประเทศทันที
- compute ตอน inference มีจำกัด ทำให้รัฐบาลหรือห้องแล็บขนาดใหญ่จำกัดการใช้งานไว้กับความมั่นคงหรือการวิจัย AI
- ความก้าวหน้าของ AI ที่อาศัยการค้นหาค้นพบอัลกอริทึมการค้นหาและสถาปัตยกรรมโมเดลที่มีประสิทธิภาพกว่า
- เพราะการค้นหาไม่ต้องการข้อมูลฝึกเพิ่มขึ้น ปัญหา กำแพงข้อมูล จึงอ่อนลง
- นำไปสู่มุมมองที่ว่า intelligence explosion อาจเริ่มไม่ใช่ในปี 2030 แต่เป็นปีถัดไป
หากใช้การค้นหากับงานวิจัย AI ผลลัพธ์จะแตกต่างจากการค้นพบยาใหม่ตรงที่สามารถมีส่วนช่วยสร้าง AI ที่ดีกว่าได้โดยตรง
- โมเดลยุคแรกที่เสริมด้วยการค้นหาอาจยังไม่มี agency แบบมนุษย์ที่ใช้เครื่องมือหรือรันการทดสอบได้
- แต่ก็ถูกมองว่าสามารถขับเคลื่อนความก้าวหน้าของอัลกอริทึมได้เหมือน “armchair theorists” ที่เหนือมนุษย์
- หาก GPT-4 ใช้ 1 ล้านล้าน token และเงิน 15 ล้านดอลลาร์เพื่อค้นหาอัลกอริทึมที่ลดต้นทุนการฝึกได้ 3% หรือเพิ่มประสิทธิภาพการค้นหาได้ 10% ก็มีการคำนวณว่าสามารถคืนทุนได้
การคาดการณ์นี้อาศัยสมมติฐานสองข้อ
- มีอัลกอริทึมการค้นหาสำหรับ foundation model ที่ทำให้เกิดการเพิ่มประสิทธิภาพคล้ายกับที่เห็นในระบบ RL
- การค้นหาเปลี่ยนทุนที่มีอยู่ให้เป็น intelligence ได้มีประสิทธิภาพกว่าการ scale โมเดล
ต่างจาก scaling law ในทศวรรษ 2020 หลักฐานที่ดีเกี่ยวกับประสิทธิภาพและเศรษฐศาสตร์ของการค้นหายังมีน้อย และยังเหลือการคาดการณ์ต่อยอดจากประสบการณ์ reinforcement learning ในเกม

1 ความคิดเห็น

GN⁺ 2024-06-16

ความคิดเห็นจาก Hacker News

ประสิทธิภาพของการค้นหาไปได้ไกลพอ ๆ กับคุณภาพของ value function แต่ตอนนี้ value function ยังมีลักษณะเฉพาะโดเมนสูงมาก และแทบไม่มีหรือมีหลักฐานน้อยมากว่าจะสร้าง value function ที่ generalize ไปยังโดเมนใหม่ได้ดี
บทความนี้จริง ๆ แล้วกระโดดเชิงแนวคิดจาก “หมากรุกมี value function ที่ดี” ไปเป็น “เราสามารถสร้าง value function ที่ดีพอให้การค้นหาสำหรับงานวิจัย AI เป็นไปได้”
แน่นอนว่าถ้าทำได้ก็คงยอดเยี่ยมและเหมือนจอกศักดิ์สิทธิ์ แต่ก็ยังสงสัยว่าทำได้จริงไหม แถมถ้าค่าเวลา inference ของ LLM เพิ่มขึ้น 1000 เท่าหรือ 10000 เท่า ต้นทุนก็จะพุ่งไปสู่ระดับที่เหลือเชื่อ
- อาจพูดได้ว่ามี generalized value function อยู่บ้างแล้ว นั่นคือ LLM benchmark ปัญหาคือยังไม่มีตัวประมาณที่ราคาถูกพอสำหรับทำ tree search ตอน inference
  หมากรุกใช้ได้เพราะความได้เปรียบด้านตัวหมากเป็นตัวประมาณชัยชนะที่ดีพอสมควร และคำนวณได้ง่ายมาก
- อยากรู้ว่าคนเชื่อจริงไหมว่าจะมีจุดเปลี่ยนของ “AI ทั่วไป” มาถึง ส่วนที่พูดมานี้รู้สึกว่าสะท้อนเหตุผลที่ทำให้สงสัยนักวิจัย AI ที่เชื่อว่า “เราใกล้ถึงแล้ว” ได้ดี
  ตั้งแต่แรกดูเหมือน AGI เองก็ยังนิยามได้ไม่ชัดว่าคืออะไรแน่
- ในบางโดเมน การประเมินตัวเอง อย่างเดียวก็อาจพอได้ แบบนั้น AI ก็จะพยายามหลายครั้งเพื่อหาคำตอบที่ได้คะแนนสูงกว่าตามเกณฑ์ของตัวเอง แล้วประเมินตัวเองซ้ำไปเรื่อย ๆ
- สิ่งที่จำเป็นสำหรับ value function ที่ดีมีเพียง simulation คุณภาพสูง ของงานนั้น
  บางโดเมนทำแบบนี้ได้ดีกว่า ตัวอย่างเช่นตัวพิสูจน์ทฤษฎีบททางคณิตศาสตร์สามารถบอกได้อย่างแม่นยำว่าทำสำเร็จหรือไม่
  ผลพลอยได้คืออาจใส่ความสามารถคล้ายการค้นหาเพื่อช่วยนักวิจัยมนุษย์ลงใน Lean ได้ และนั่นก็อาจช่วยให้ AI ด้านคณิตศาสตร์ก้าวหน้าได้ด้วย
- Stockfish มีจำนวนตาเดินที่ถูกกติกาในแต่ละตำแหน่งจำกัด และยังสามารถ prune กิ่งที่แพ้ได้ตั้งแต่เนิ่น ๆ อย่างรุนแรง แต่ถึงอย่างนั้นเมื่อมองล่วงหน้า 40 ตา ก็ยังมีแนวโน้มว่าจะต้องประเมินตำแหน่งหลายล้านตำแหน่ง
  ต้นทุนของการให้ LLM ประเมินประโยคถัดไปเป็นล้าน ๆ แบบเพื่อเลือกคำตอบที่ดีที่สุดเพียงหนึ่งเดียวนั้นแทบจินตนาการไม่ออก
  จุดที่ tree search อาจสมเหตุสมผลกว่าสำหรับ LLM อาจเป็นการหาเหตุผลผ่านเส้นทางแบบ “ถ้าคิดแบบนี้ล่ะ” ในหน่วยที่หยาบกว่าทางเลือกระดับคำ ไม่ใช่ทางเลือกระดับคำทีละคำ ถึงอย่างนั้นต้นทุนของการสร้าง การประเมิน และการ prune ก็อาจพุ่งเกินรับไหวได้ง่าย และแนวทางที่มีอคติแบบนี้ก็ดูจะขัดกับ บทเรียนอันขมขื่น ตรง ๆ มากกว่าจะสอดคล้องกับมัน
นี่เป็นปัญหาที่ยากมากในการแก้โดยทั่วไป และแม้แต่นักวิจัยฉลาด ๆ อย่าง Yann LeCun ก็กำลังพยายามหาว่า บทบาทของการค้นหา ในการสร้าง AGI คืออะไร
ตอนนี้สิ่งที่ Yann กำลังเดิมพันดูเหมือนจะเป็นการใช้ Joint Embedding Predictive Architectures หรือ JEPA เพื่อการเรียนรู้ representation สร้าง world model ที่แข็งแรง แล้วให้เอเจนต์ลองการกระทำที่ต่างกันเพื่อทดสอบทฤษฎี
งานวิจัย [0] นี้สรุปวิสัยทัศน์ที่เป็นไปได้ของเขาได้ดี แต่แน่นอนว่ายากกว่าการเอาแค่การค้นหามาบวกกับ transformer มาก
มันตั้งอยู่บนสมมติฐานว่าภาษาสามารถแทนโลกได้ดีพอที่เอเจนต์จะสำรวจอยู่บนมันอย่างมีประสิทธิภาพ และสร้างแนวคิดใหม่ที่มีประโยชน์ได้ ซึ่งยังรู้สึกว่าเป็นคำถามเปิด LLM รู้อะไรอยู่บ้าง? มันรู้จริงไหม? นี่เป็นสิ่งที่นักวิจัยต้องหาคำตอบ
ถ้า LLM ปัจจุบันสามารถจำลอง world model ที่มีความสมบูรณ์พอได้จริง การค้นหาก็อาจมีประโยชน์จริง แต่ถ้ามันแค่เลียนแบบ ก็เท่ากับเรากำลังสำรวจอยู่บนความเชื่อที่เชื่อถือไม่ได้
นั่นจึงเป็นเหตุผลว่าทำไมวิดีโอถึงสำคัญ เพราะมันเป็นหลักฐานว่ามนุษย์สามารถดึง world model ที่ใช้ประโยชน์ได้ออกมาจากลำดับของภาพ
ภาษาและหมากรุกมี action space ที่แทบจะเป็นแบบไม่ต่อเนื่องอยู่แล้ว จึงสามารถฝึก generative model ที่สร้างอินพุตทั้งหมดกลับคืนมาเพื่อคำนวณ loss ได้ แต่เมื่อขยับไปสู่วิดีโอ transformer ก็ต้องขยายไปสู่การกระจายแบบต่อเนื่อง ทำให้การสร้าง predictive world model ที่ใช้งานได้ยากขึ้นมาก
[0]: https://arxiv.org/abs/2306.02572
- รู้สึกว่าแนวคิดที่ว่า AGI เป็นไปได้ ตั้งอยู่บนจินตนาการที่ลึกและแพร่หลายว่ามองสมองมนุษย์เป็นคอมพิวเตอร์ แต่สมองมนุษย์ไม่ใช่คอมพิวเตอร์
  ต่อให้เขียนโปรแกรมซับซ้อนแค่ไหน มันก็ยังเป็น เครื่องทัวริง อยู่ดี แต่มนุษย์โดยพื้นฐานแล้วไม่ใช่แบบนั้น
  https://aeon.co/essays/your-brain-does-not-process-informati...
  อุปมาเรื่อง การประมวลผลข้อมูล ของสติปัญญามนุษย์ตอนนี้ครอบงำทั้งชีวิตประจำวันและวิทยาศาสตร์ในการอธิบายความคิดมนุษย์ แต่ท้ายที่สุดมันก็เป็นเพียงอุปมาอีกแบบหนึ่งที่เราสร้างขึ้นเพื่อทำความเข้าใจกับสิ่งที่เรายังไม่เข้าใจจริง ๆ และสักวันมันก็น่าจะถูกแทนที่ด้วยอุปมาอื่นหรือด้วยความรู้จริง
  แม้จะฟัง Beethoven ซิมโฟนีหมายเลข 5 ในคอนเสิร์ตเดียวกัน การเปลี่ยนแปลงที่เกิดในสมองของฉันกับของอีกคนก็แทบจะแตกต่างกันโดยสิ้นเชิงอย่างแน่นอน เพราะการเปลี่ยนแปลงนั้นเกิดขึ้นบนโครงสร้างประสาทที่ถูกหล่อหลอมจากประสบการณ์เฉพาะตัวของแต่ละคน
  เพราะแบบนี้แม้คนสองคนจะได้ยินเรื่องเดียวกัน ก็จะไม่สามารถเล่าซ้ำออกมาได้เหมือนกัน และเมื่อเวลาผ่านไปความแตกต่างนั้นก็ยิ่งมากขึ้น ไม่มี “สำเนา” ของเรื่องนั้นถูกสร้างขึ้น มีเพียงแต่แต่ละคนที่ได้ฟังเรื่องนั้นแล้วเปลี่ยนแปลงไปไม่มากก็น้อย
- สำหรับคำถามที่ว่า “มันรู้จริงไหม?” ผมคิดว่าคำตอบคือรู้ เพียงแต่มันก็คิดว่ามันรู้เรื่องที่ผิดสนิทด้วยเช่นกัน
  ลักษณะเด่นที่สุดที่ผมสังเกตจาก LLM คือมันจัดการกับ ตรรกะและคณิตศาสตร์ ได้ไม่ดีนัก มันให้ข้อมูลที่ผิดอย่างชัดเจนด้วยความมั่นใจ แม้ในกรณีที่การตอบว่า “ไม่รู้” จะดีกว่าอย่างเห็นได้ชัด และผมคิดว่าเป็นไปได้น้อยมากที่นี่จะเป็นการออกแบบโดยตั้งใจ
บทความเริ่มต้นด้วยสมมติฐานที่น่าสนใจ แต่กลับไม่ได้นิยามว่า การค้นหา คืออะไรในบริบทของ LLM และคำกล่าวที่ว่า “Pfizer สามารถเข้าใกล้ความสามารถระดับ GPT-8 ได้ตั้งแต่วันนี้ด้วยการใช้ compute สำหรับการให้เหตุผลมากขึ้น” ก็ไม่ได้อธิบายไว้ จึงทำให้เนื้อหาดูไม่เพียงพอ
แม้จะเป็นคนทำงานสาย AI โดยตรงก็ยังตามได้ยาก
ควรมีคนช่วยอธิบายเพิ่มเติมว่าต้นฉบับต้องการสื่ออะไร
การค้นหาในเอนจินหมากรุก หรือการมองล่วงหน้าหลายตา ดูจะเป็นไปได้เพราะมีฟังก์ชันวัตถุประสงค์ที่ใช้จัดอันดับผลลัพธ์ได้
มีตัวชี้วัดสำหรับตัดสินว่าทางเลือกใด “ดีกว่า” และสิ่งนี้มักใกล้เคียงกับคุณลักษณะเฉพาะของ reinforcement learning
จึงสงสัยว่า LLM มีตัวชี้วัดแบบนั้นหรือไม่
- จุดนี้ทำให้ฉันสับสนมากเหมือนกัน
  ถ้าจะเดา อาจหมายถึงการลองรันต่อไปอีกสองสามโทเค็นสำหรับแต่ละโทเค็นที่โมเดลทำนายไว้เป็นอันดับต้น ๆ แล้วติดตามว่ากิ่งไหนทำได้ดีที่สุดเมื่อเทียบกับข้อมูลฝึก จากนั้นนำข้อมูลนั้นกลับไปใช้ในการฝึก
  แต่การค้นหาควรช่วยเพิ่มประสิทธิภาพในช่วงอนุมาน ซึ่งวิธีนี้ทำไม่ได้
- น่าจะหมายถึงอย่างนั้น และผมคิดว่าไม่มีตัวชี้วัดแบบนั้น
  คนอาจพยายามทำ adversarial evaluation แต่สุดท้ายก็ดูมีแนวโน้มจะลู่เข้าไปสู่การทำนายแบบค่าเฉลี่ย
  อีกอย่าง การอนุมานของ LLM ก็ไม่ได้ถูก
  การแลกเปลี่ยนระหว่างต้นทุนการอนุมานกับต้นทุนการฝึกแตกต่างกันมากในแต่ละแอปพลิเคชัน
  อาจมีโดเมนที่การยอมรับต้นทุนการอนุมานเพิ่มขึ้น 100 เท่าหรือ 1000 เท่า เพื่อแลกกับการลดต้นทุนการฝึกลง 10 เท่า ยังพอฟังขึ้นอยู่
Charlie Steiner เคยชี้ประเด็นนี้ไว้แล้วบน Less Wrong เมื่อ 5 ปีก่อน
ถ้านำ GPT-3 ไปฝึกด้วยชุดตำราแพทย์ แล้วบอกให้มันเสนอวิธีรักษาอัลไซเมอร์ มันจะไม่ได้เสนอวิธีรักษา แต่จะพูดถึงสิ่งที่มนุษย์เคยพูดไว้เกี่ยวกับการรักษาอัลไซเมอร์
ใจความคือ มันไม่ได้เป็น logical oracle แต่เป็น intuitive oracle ที่เล่าเรื่องได้ฟังดูน่าเชื่อถือโดยอาศัยความเชื่อมโยงในข้อมูลฝึก
สิ่งที่ความยากของการรักษาอัลไซเมอร์บ่งชี้ คือมีบางอย่างขาดหายไปจากการออกแบบลักษณะนี้ และสิ่งนั้นคือ การค้นหา
นี่ไม่ได้แปลว่าโครงข่ายประสาทจะไม่มีทางส่งออกวิธีรักษาได้โดยตรง แต่ดูเหมือนว่าต้องมีมิติ “วิธีรักษาอัลไซเมอร์” อยู่แล้วภายในโมเดลที่ฝึกมา
หากเรายังไม่รู้วิธีรักษา แนวทางที่เป็นจริงกว่าคือค่อย ๆ เคลื่อนผ่านปริภูมิเชิงตรรกะผ่านหลายขั้นของเหตุผล ค่อย ๆ แคบความเป็นไปได้ลงจนเจอสิ่งที่ตรงเงื่อนไข
กล่าวคือกำลังแก้ปัญหาแบบค้นหา
ถ้า AI สามารถบอกวิธีรักษาอัลไซเมอร์ได้ ก็มีความเป็นไปได้สูงว่ามันกำลังค้นหาวิธีรักษาอย่างชัดเจน หรือไม่ก็มีสถานะภายในที่ทำการค้นหาโดยปริยาย
https://www.lesswrong.com/posts/EMZeJ7vpfeF4GrWwm/self-super...
- ถ้าทำให้เป็นภาพรวม ไม่จำกัดเฉพาะ GPT จะพูดแบบนี้ได้ไหม
  “ถ้านำเครื่องจักรเชิงตรรกะไปฝึกด้วยชุดตำราแพทย์ แล้วสั่งให้บอกวิธีรักษาอัลไซเมอร์ มันจะไม่ได้บอกวิธีรักษา แต่จะบอกสิ่งที่ตำราเหล่านั้นพูดไว้เกี่ยวกับการรักษาอัลไซเมอร์”
  ผมคิดว่าอาจไม่ใช่แบบนั้น
  GPT ดูเหมือนจะถูกจำกัดอยู่มากกับการทวนและนำสิ่งที่อ่านมาจัดเรียงใหม่ แต่ถ้าเป็นอัลกอริทึมอื่นที่ให้เหตุผลได้ดีกว่า ก็อาจทำ meta research ได้จริง
  หมายถึงสามารถนำผลการทดลองอัลไซเมอร์ทั้งหมดที่มีอยู่มาลด solution space ให้แคบกว่าที่มนุษย์เคยทำได้
  มนุษย์อาจไม่มีความสามารถจะเก็บผลลัพธ์ที่เกี่ยวข้องทั้งหมดไว้พร้อมกัน แต่คอมพิวเตอร์อาจทำได้
  เมื่อบอก GPT ว่า “คิดเป็นขั้นเป็นตอน” ประสิทธิภาพก็ดีขึ้น ดังนั้นมันย่อมมีรูปแบบของการให้เหตุผลที่จำเป็นอยู่บ้าง
  และมันก็ทำงานแบบ “นี่คือข้อมูล ช่วยแปลงมันหน่อย” ได้ดี
  ข้อจำกัดอยู่ที่คุณภาพของการให้เหตุผล และขนาดของหน้าต่างที่ใช้ทำการแปลงนั้น
  แต่ข้อมูลที่มันจำได้จากการฝึกอาจมีมากกว่าหน้าต่างโทเค็นของอินพุตมาก จึงอาจเป็นทางอ้อมในการเลี่ยงข้อจำกัดบางส่วน
  ถ้ามีทั้งสองความสามารถ ก็ยากจะบอกว่ามันขยายต่อไม่ได้
  ผมไม่แน่ใจว่าจะตัดความเป็นไปได้ที่ GPT รุ่นพัฒนาต่ออาจหาวิธีรักษาอัลไซเมอร์จากข้อมูลที่มีอยู่แล้วได้อย่างไร และถ้าเป็นระบบที่เหมาะกับงานนี้มากกว่า ก็อาจไม่จำเป็นต้องถึงระดับ AGI ด้วยซ้ำ
  แน่นอนว่าองค์ประกอบที่จำเป็นต่อคำตอบต้องมีอยู่ในข้อมูล
  แต่ข้อความที่ยกมาดูเหมือนจะตัดความเป็นไปได้ในการระบุวิธีรักษาทิ้งไปเลย แม้ว่าข้อมูลจะมีทุกอย่างที่ต้องใช้ครบแล้ว เหลือเพียงยังไม่มีคำตอบที่ประกอบเสร็จเท่านั้น
การค้นหาแทบจะแน่นอนว่าจำเป็น และคนที่พูดถึงคลัสเตอร์ระดับล้านล้านดอลลาร์คงควรไปคุยกับคนที่สร้างเอนจินหมากรุกเหนือมนุษย์ซึ่งตอนนี้รันได้แม้แต่บนสมาร์ตโฟน
เพราะอาจมีใครหาวิธีใช้คลัสเตอร์มูลค่า 1 ล้านดอลลาร์ หรือแม้แต่ 500,000 คลัสเตอร์มูลค่า 1 ล้านดอลลาร์ เอาชนะคลัสเตอร์มูลค่าล้านล้านดอลลาร์ได้
ข้อสรุปของผมเกี่ยวกับหมากรุกคือ branching factor ของหมากรุกไม่ได้ใหญ่จนทำให้แนวทาง breadth-first ใช้ไม่ได้
branching factor ค่ากลาง หรือจำนวนตาที่เดินได้ตามกติกา สูงสุดอยู่ราว 40 และโดยทั่วไปอยู่แถว ๆ 30
จำนวนที่มากที่สุดที่ผมเคยเห็นในสถานะจากเกมจริงคือ 147 แต่ตอนนั้นแทบทุกตาเป็น checkmate อยู่แล้ว
สาเหตุที่การทำเอนจินโกะให้เหนือมนุษย์ทำได้ยากอยู่นาน เป็นเพราะ branching factor ใหญ่กว่าหมากรุกมาก
การที่ MCTS ครอบคลุมได้น้อยกว่า จึงมีเหตุผลว่าการค้นหาแบบ exhaustive อาจหาจุดอ่อนและใช้ประโยชน์จากมันได้
ปัญหาคือแนวทาง breadth-first จะใช้กับเกมและสถานการณ์ที่ใหญ่กว่านี้ได้หรือไม่ ซึ่งคำตอบดูชัดเจนว่าไม่ได้
branching factor ของสถานการณ์ในโลกจริงใหญ่กว่าหมากรุกอีกหลายหลัก
อย่างไรก็ตาม ต่างจากหมากรุก ตัดสินใจเล็ก ๆ ส่วนใหญ่ในโลกจริงไม่ค่อยสำคัญนัก
เวลาจะเดินทางจากนิวยอร์กไปลอสแอนเจลิส การจะขับรถ บิน หรือเดินนั้นสำคัญมาก
แต่ตอนก้าวออกประตูจะก้าวเท้าซ้ายหรือขวาก่อน หรือจะกะพริบตาตอนนี้หรืออีก 2 วินาทีข้างหน้า โดยมากแล้วไม่สำคัญ
- ผมมองว่า branching factor ของ LLM ถ้าวัดจากจำนวนโทเค็นถัดไปที่เป็นไปได้ จะอยู่ราว 50,000
บทความนี้ดูเหมือนจะคาดการณ์อนาคตแบบจับต้องได้ไม่มากและค่อนข้างมั่นใจเกินไป แต่ก็ดูน่าลองพิจารณา
“การค้นหา” คือการทำให้ “สร้างแล้วทดสอบ” และ rejection sampling เป็นแนวคิดทั่วไปขึ้นมา ซึ่งเป็น AI แบบคลาสสิก
ตอนที่เรียนวิชาเบื้องต้นด้าน AI ก่อนยุคดอตคอม เคยเรียนการเขียนโปรแกรมค้นหาด้วย Prolog
ความเร็วขึ้นอยู่กับเวลาที่ใช้สร้างผู้สมัครหนึ่งรายการ เวลาที่ใช้ทดสอบ และต้องลองผู้สมัครกี่รายการ ถ้าสิ่งเหล่านี้ช้าทั้งหมด ระบบโดยรวมก็ช้า
ตัวอย่างของ rejection sampling ที่มีมนุษย์อยู่ในลูปคือการใช้ตัวสร้างภาพ แล้วลองเปลี่ยนพรอมป์ตไปเรื่อย ๆ จนกว่าจะได้ภาพที่ชอบ แต่ลูปนี้ช้าเพราะการสร้างภาพใหม่ใช้เวลานาน
ถ้าการสร้างภาพทำงานได้เร็วเหมือน Google Image Search มันก็น่าจะกลายเป็นอะไรที่มีความหมายจริง ๆ
การพิสูจน์ทฤษฎีบท และการ fuzzing โปรแกรมนั้นทำงานอัตโนมัติได้ เร็ว และมีฟังก์ชันประเมินที่ดี จึงดูเหมาะกับการผสาน LLM เข้ากับการค้นหา
ดูเหมือนว่า Google จะเปิดเผย fuzzer [1] ที่เชื่อมต่อกับ LLM ที่ต้องการได้ ไม่แน่ใจว่ามีใครเคยลองใช้หรือยัง
[1] https://github.com/google/oss-fuzz-gen
- ขั้นตอนการค้นหาและ “ฟังก์ชันประเมิน” ที่ใช้กันในวงการพิสูจน์ทฤษฎีบทหรือการวางแผนนั้น ในทางทฤษฎีเข้าใกล้ขีดจำกัดที่เหมาะที่สุดอยู่แล้ว
  เพราะฉะนั้นสิ่งที่ต้องการไม่ใช่การประเมินแบบใหม่หรือขั้นตอนการค้นหาแบบใหม่ แต่เป็น คณิตศาสตร์แบบใหม่ ที่จะรับประกันได้ว่ามันคุ้มค่าตั้งแต่แรกที่จะลอง
  ถ้ายกตัวอย่างการพิสูจน์ทฤษฎีบท SLD-Resolution คือกระบวนการพิสูจน์ทฤษฎีบทอัตโนมัติสำหรับการอนุมานเชิงอุปนัยที่ทั้งถูกต้องและครบถ้วน สำหรับการทำให้ใช้หน่วยความจำอย่างมีประสิทธิภาพอาจใช้การค้นหาแบบ depth-first ได้ แต่จะติดลูปเมื่อเจอ left recursion ส่วนการทำให้ใช้เวลาอย่างมีประสิทธิภาพอาจใช้การค้นหาแบบ breadth-first พร้อม memoization ได้ แต่ความซับซ้อนด้านพื้นที่จะโตแบบเอ็กซ์โปเนนเชียล
  ตรงนี้ “ฟังก์ชันประเมิน” ใช้ไม่ได้ เพราะ Resolution เองก็เป็นฟังก์ชันชนิดหนึ่งที่ประเมินความจริง หรือความแน่นอนของค่าความจริง ของประโยคตรรกะเชิงรูปแบบอยู่แล้ว
  และมันทั้งถูกต้อง ครบถ้วน และกึ่งตัดสินได้สำหรับตรรกะที่กำหนดชัดเจน ถ้าไม่ละเมิด Church-Turing นี่ก็คือสิ่งที่ดีที่สุดแล้ว
  เราสามารถปรับปรุงประสิทธิภาพได้ด้วยการค้นหาแบบฮิวริสติก ตัวอย่างเช่น มีความพยายามหลีกเลี่ยงความเป็น NP-hard ของความสัมพันธ์แบบ subsumption ซึ่งเป็นส่วนสำคัญของ SLD-Resolution ในงานจริง และตรงนั้นก็มีฟังก์ชันต้นทุนเชิงฮิวริสติกในความหมายที่กว้างกว่าเข้ามาเกี่ยวข้อง
  แต่มีปัญหาสองข้อคือ a) ถ้าใช้การค้นหาแบบฮิวริสติก ก็หมายถึงต้องยอมเสียความครบถ้วน และ b) ในการวางแผนเองก็มีวิธีที่ค่อนข้างแข็งแรงอยู่แล้วในการผ่อนคลายปัญหาการวางแผนเพื่ออนุมานฟังก์ชันฮิวริสติก
  บทเรียนคือให้เลือกได้แค่สองในสามระหว่าง ความถูกต้อง ความครบถ้วน และประสิทธิภาพ วิธีแบบการเรียนรู้ของเครื่องเชิงสถิติอย่าง LLM ก็แค่เลือกอีกคู่หนึ่งที่ต่างจากเทคนิคเดิมได้เท่านั้น
  โดยพื้นฐานแล้ว ในขีดจำกัดสมรรถนะโดยรวมของ AI ที่อิงการค้นหา เรามาถึงจุดที่เหลือเพียงผลได้เล็กน้อยตามขอบแล้ว และคงจะอยู่ตรงนั้นจนกว่าจะมีใครเสนอคณิตศาสตร์ที่ดีกว่า
- Terence Tao นักคณิตศาสตร์ชื่อดังและผู้สนับสนุนอย่างแข็งขันของการพิสูจน์ทฤษฎีบทด้วยคอมพิวเตอร์ เชื่อว่าการเรียนรู้ของเครื่องจะเปิดเส้นทางใหม่ในวงการตัวพิสูจน์ทฤษฎีบท
ผมคิดว่าตัวเองเข้าใจพื้นที่ของเกมที่ Leela และ Stockfish ปัจจุบันกำลังค้นหาอยู่ แต่ไม่เข้าใจว่าผู้เขียนมองว่า LLM กำลังค้นหาอยู่ในพื้นที่ความเป็นไปได้แบบไหน
1. คำที่ใช้ 2) โมเดลทางคณิตศาสตร์ การเรียนรู้แบบเสริมกำลัง หรือวัสดุศาสตร์ 3) พื้นที่ที่เล็กกว่าและเป็นทางการมากกว่าอย่างพื้นที่เกมของหมากรุก ทั้งหมดนี้ หรืออย่างอื่นกันแน่ ยังไม่ชัดเจน ไม่แน่ใจว่าเขาอธิบายไว้ชัดเจนที่ไหนแล้วแต่ผมพลาดไปหรือเปล่า
- ดูเหมือนว่าเขาต้องการให้ อัลกอริทึมการค้นหาเอง ไปค้นหาเพื่อหาอัลกอริทึมการค้นหาที่ดีกว่าอีกที กล่าวคือการพัฒนาตัวเอง เช่นนั้นข้อจำกัดเฉพาะโดเมนที่แคบกว่าบางส่วนก็อาจหายไปได้
ก่อนที่ LLM จะค้นพบวิธีรักษามะเร็ง ขอเสนอให้มันค้นพบปัญหาที่จัดการง่ายกว่าก่อน นั่นคือ “ชีสเค้กของพระเจ้า”
คือชีสเค้กที่อร่อยจนเชฟที่ยุติธรรม 100 คนตัดสินว่าอร่อยที่สุดเท่าที่เคยกินมา
LLM แค่ต้องค้นหา “พื้นที่ของชีสเค้ก” ที่ถูกจำกัดเชิงการจัดวางองค์ประกอบมากกว่ามากอย่างชาญฉลาด เพื่อหาเรซิปีชีสเค้กที่อร่อยที่สุดเท่าที่ทำได้
แต่ LLM อบชีสเค้กไม่ได้ และต่อให้อบได้ก็ประเมินรสชาติไม่ได้
จนกว่า AI จะแก้ปัญหา “ชีสเค้กของพระเจ้า” ได้ ก็คงดีกว่าถ้าทุกคนจะใจเย็นลงกับเรื่อง AGI สักหน่อย
- คุกกี้พวกนี้อร่อยมาก แต่ยังไม่ถึงระดับพระเจ้า ด้วยการลงทุนเพิ่มอีกนิดและใช้เทคนิคที่ทันสมัยกว่านี้ ผมคิดว่าน่าจะทำเรซิปีที่ดีมากได้ และอาจทำได้ดีกว่ามนุษย์คนใดคนหนึ่งด้วยซ้ำ
  ดูเหมือนว่า AI น่าจะสร้างเรซิปีที่ชนะการแข่งขันอบขนมที่มีการแข่งขันสูงมากได้ เพียงแต่การชนะกรรมการ ครบทั้ง 100 คน น่าจะเป็นไปไม่ได้สำหรับใครก็ตาม
  https://static.googleusercontent.com/media/research.google.c...
- อยากรู้ว่าจะมองอย่างไรถ้าคำตอบคือ “ต้องใช้เวลา 2 สัปดาห์กับ 5000 ดอลลาร์ ถึงจะให้คำตอบที่มีความหมายได้”
- ต่อให้ยังอยู่ภายใต้ข้อจำกัดของ LLM ที่รันบนคอมพิวเตอร์ล้วน ๆ ถ้า LLM สามารถเขียนเรื่องสั้นที่ยอดเยี่ยมจริง ๆ หรือข้อความโฆษณาที่ดีได้ โลกก็คงเปลี่ยนไป
- TikTok ก็คือเวอร์ชันดิจิทัลของปัญหานี้
- ผมไม่แน่ใจว่าจะมีใครคิดไหมว่า ถ้าใช้โปรแกรมช่วยด้วย LLM มาลองผิดลองถูกกับเรซิปีชีสเค้ก แล้วให้คณะกรรมการชิมประเมิน สุดท้ายจะไม่ออกมาเป็นชีสเค้กที่ดีที่สุดในประวัติศาสตร์
  ส่วนการอบนั้นเป็นเรื่องของหุ่นยนต์ จึงอาจเทียบกันได้ไม่ค่อยยุติธรรม แต่ทุกวันนี้ก็ทำได้ในระดับหนึ่งแล้ว
ปัญหาใหญ่ที่สุดที่ผู้เขียนยังไม่ทันสังเกตคือ ต้องใช้ compute มากแค่ไหนสำหรับสิ่งนี้
บทความนี้ก็เหมือนคำพูดที่ว่า ถ้าให้เวลาลิงมากพอ มันก็เขียน Shakespeare ได้ แน่นอนว่ามันจริง แต่พื้นที่การค้นหานั้นใหญ่เกินกว่าจะจัดการได้ และถึงแม้จะมีคำตอบอยู่ที่ไหนสักแห่ง ก็หาไม่เจอท่ามกลางความโกลาหลนั้น
ผมกำลังสร้างระบบ LLM แบบตัดกิ่งและเชิงวิวัฒนาการแบบเต็มเวลามานานกว่าหนึ่งปี
ผมลองสร้างอัลกอริทึม “search” หรือ “exploration” มาหลายแบบแล้ว ปัญหาคือเมื่อผ่านไปหลายขั้น เอเจนต์ที่เดิมได้รับมอบหมายให้ค้นคว้าหรือทำงานด้านชีววิทยา กลับไปเล่าเรื่องเรือรบแทน นี่เป็นตัวอย่างจากงานก่อนหน้าจริง ๆ
การค้นหาแบบขั้นตอนเดียวเป็นแทบจะสถานการณ์เดียวที่ฟังก์ชันการค้นหาทำงานได้จริง เอเจนต์หลายขั้นตอนทำให้ความเป็นไปได้ระเบิดไปสู่อนันต์อย่างรวดเร็ว
แม้แต่ขั้นตอนเดียวก็ยังมีปัญหา เช่น ถ้ารันคำถาม zero-shot ให้แก้ปัญหาโค้ด 1000 ครั้ง มันอาจช่วยให้เจอคำตอบที่ดีกว่าได้ แต่ที่ทำได้ก็เพราะนี่เป็นพื้นที่การค้นหาที่มีขอบเขต และข้อจำกัดนั้นเป็นเรื่องที่ดี
ไม่นานมานี้ผมทดสอบกับโมเดล LLM หลายตัว โดยให้ อนุมาน 10,000 ครั้ง จากอินพุตพรอมป์เดียวกัน เปลี่ยนแค่การตั้งค่าอินพุต ความเป็นไปได้ของคำตอบจากพรอมป์แต่ละอันไม่ได้ไร้ขีดจำกัด แต่มันมีขอบเขต จึงทำให้ LLM ยังทำงานได้ในตอนนี้
ปรากฏการณ์ที่เอเจนต์ทำงานได้ไม่ดีคือตัวอย่างของปัญหานี้ พื้นที่การค้นหาแบบขั้นตอนเดียวก็ใหญ่มหาศาลอยู่แล้ว และมันจะขยายแบบเอ็กซ์โปเนนเชียลทุกครั้งที่เอเจนต์ขยับไปอีกหนึ่งขั้น
ผมกำลังสร้างเครื่องมือและระบบเพื่อแก้ปัญหานี้อยู่ แต่การค้นหาในสเกลใหญ่ยังดูห่างไกลพอ ๆ กับการบอกว่า “ถ้าขยายขนาดโมเดล AI อีก 100 เท่า ก็จะแก้ได้”
ความเป็นอิสระในการทำงาน ไม่ใช่สิ่งเดียวกับสติปัญญาหรือการให้เหตุผล
มักมีคนพูดว่า “Leela Chess Zero ถูกเรียกว่า zero เพราะเริ่มต้นมาโดยรู้แค่กติกา” แต่นั่นไม่ถูกต้อง
Leela และระบบตระกูลเดียวกันยังมีความรู้เฉพาะด้านหมากรุกอีกอย่างที่สำคัญต่อประสิทธิภาพ นั่นคือ world model ของเกม ที่แทนเกมหมากรุกเป็น game tree ซึ่งแบ่งเป็นหนึ่ง ply ในแต่ละตาของผู้เล่น
game tree นี้ถูกสำรวจด้วยอัลกอริทึมค้นหาแบบแข่งขันกัน เช่น minimax หรือ Monte Carlo Tree Search โดยเท่าที่ผมเข้าใจ Leela เลือกใช้ MCTS
วิธีจำลองเกมให้เป็น game tree อย่างแม่นยำยิ่งขึ้นนั้นใช้ได้ไม่ใช่แค่กับหมากรุก แต่กับเกมอีกมากมายด้วย แต่ game tree แบบเฉพาะที่ใช้ใน chess engine นั้นเหมาะกับบอร์ดเกมสองผู้เล่นแบบผลรวมศูนย์และข้อมูลสมบูรณ์ที่คล้ายหมากรุก
เกมประเภทอื่นต้องใช้โมเดลอื่นและอัลกอริทึมค้นหาแบบอื่น ตัวอย่างเช่น Poker และ Libratus [1]
game tree เหล่านี้ หรือก็คือ world model ของเกม ยังตัดทิ้งไม่ได้ในตอนนี้ถ้าเป้าหมายคือประสิทธิภาพระดับสูง บทความกล่าวถึงอัลกอริทึมแบบไม่ค้นหา และแตะแกนข้อจำกัดของมันสั้น ๆ นั่นคือ “ทำไม?”
นี่ก็เป็นประเด็นที่มีต่อ บทเรียนอันขมขื่น เช่นกัน เพราะมันเลือกอย่างตามสะดวกว่าอะไรจะนับเป็นความรู้เฉพาะโดเมน หรือ “โมเดล” ในฐานะทฤษฎี
อย่างที่ Rodney Brooks [2] และคนอื่น ๆ พูดไว้ convolutional neural network ครองงานจัดหมวดหมู่ภาพได้ เพราะมันใช้ convolutional layer เพื่อสร้างความไม่แปรผันต่อการเลื่อนตำแหน่ง นั่นคือโมเดลการมองเห็นของเครื่องที่มนุษย์ประดิษฐ์ขึ้น
เช่นเดียวกับที่ game tree เป็นโมเดลของเกมที่มนุษย์ประดิษฐ์ขึ้น และแทบทุกอย่างที่เราทำมาใน AI และ machine learning จนถึงตอนนี้ก็เป็นแบบนั้น มนุษย์สร้างโมเดลของโลก สภาพแวดล้อม โดเมน และกระบวนการ แล้วคอมพิวเตอร์ก็คำนวณบนโมเดลนั้น และบางครั้งก็ทำได้เหนือกว่ามนุษย์อย่างในหมากรุกหรือโกะ หรืออย่างน้อยก็ให้ผลลัพธ์ที่เราไม่อาจหาได้ด้วยวิธีที่มนุษย์ประดิษฐ์ขึ้นเอง
บทเรียนที่ควรเรียนรู้นั้นเป็นอีกแบบ: โมเดลของมนุษย์ + การคำนวณของเครื่อง คือสิ่งที่แก้ปัญหายากทั้งหมดของ AI มาโดยตลอดตลอด 80 ปีที่ผ่านมา และเราไม่รู้เลยว่าจะทำอะไรที่ต่างจากนี้แม้เพียงเล็กน้อยได้อย่างไร
[1] https://en.wikipedia.org/wiki/Libratus
[2] https://rodneybrooks.com/a-better-lesson/
- ผมยังไม่เคยเห็นอัลกอริทึมที่สร้าง world model ได้จากการสังเกตเพียงอย่างเดียว เคยเห็นสัญญาณบ้าง แต่ยังไม่ถึงระดับมนุษย์
  สักวันมันจะมาถึง เรากำลังมีชีวิตอยู่ในยุคที่น่าตื่นเต้น

การค้นหาของ AI: บทเรียนที่ขมขื่นยิ่งกว่า

“บทเรียนที่ขมขื่นยิ่งกว่า” ที่ Leela และ Stockfish แสดงให้เห็น

การกลับมาพลิกเกมของ Stockfish: โมเดลเล็กกับการค้นหาที่แข็งแกร่ง

นิยามของการค้นหาใน foundation model และข้อจำกัดปัจจุบัน

สเกลอาจไม่ใช่เงื่อนไขตั้งต้นของการค้นหา

เศรษฐศาสตร์ของการค้นหาและความเป็นไปได้ในการทำให้งานวิจัย AI เป็นอัตโนมัติ

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News