ความคิดสร้างสรรค์และการค้นพบของ AI ตามมุมมองของ Rich Sutton

(twitter.com/RichardSSutton)

5 คะแนน โดย GN⁺ 2026-06-11 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Generative AI ที่ฝึกด้วยการเรียนรู้แบบมีผู้สอนเป็นโมเดลเลียนแบบที่ทำงานคล้ายตัวอย่างที่เคยเห็น จึงมีประโยชน์ก็จริง แต่มีข้อจำกัดต่อการค้นพบใหม่ในวิทยาศาสตร์และคณิตศาสตร์
ในการตอบคำถามจากอินเทอร์เน็ตหรือสรุปเอกสาร ความแปลกใหม่กลับกลายเป็น ภาพหลอน และคำตอบที่ดีมาจากคุณภาพของ แหล่งข้อมูลต้นทาง
แม้ในกรณีที่ต้องการความแปลกใหม่ เช่น การสร้างนิยายหรือภาพ ก็ยังยากที่จะรู้ว่าผลลัพธ์ใกล้กับข้อมูลฝึกมากแค่ไหน และความสุ่มแม้จะสร้างความใหม่ได้ แต่หากไม่มีการประเมินก็ไม่อาจกลายเป็นการค้นพบที่ดีได้
ระบบอย่าง AlphaGo, AlphaZero, GT-Sophy, AlphaFold, AlphaProof, Claude-Code และ RL-Lyft ค้นหาผลลัพธ์ที่ทั้งใหม่และดีผ่าน การประเมินและการคงไว้แบบเลือกสรร
หากต้องการ AI scientist ที่สมบูรณ์ ต้องแบ่งปันเป้าหมายอย่างชัดเจนเพื่อให้ AI สร้าง ประเมิน และค้นพบได้เอง และจำเป็นต้องมี การทำให้ความคิดสร้างสรรค์และการค้นพบเป็นอัตโนมัติ

ข้อจำกัดและประโยชน์ของ Generative AI

Generative AI คือ โมเดลเลียนแบบ ที่รับตัวอย่างจำนวนมากแล้วสร้างข้อความเหมือนมนุษย์ สร้างภาพเหมือนศิลปินหรือธรรมชาติ หรือสร้างวิดีโอคล้ายคลิปบนอินเทอร์เน็ต
Generative AI อาจมีประโยชน์อย่างมาก แต่คำล้อเก่าว่า “ส่วนที่ดีไม่ใหม่ และส่วนที่ใหม่ไม่ดี” ยังใช้ได้กับหลายส่วนของเทคโนโลยีนี้
เวลาค้นหาคำตอบจากอินเทอร์เน็ตหรือสรุปเอกสาร AI ไม่จำเป็นต้องใหม่ และคุณภาพของคำตอบก็มาจาก แหล่งข้อมูลต้นทาง เช่น ผู้เขียนเอกสารหรือบทความบนอินเทอร์เน็ต
หากคำตอบของ AI เติมบางอย่างเกินกว่าข้อมูลต้นทาง นั่นคือ ภาพหลอน และโดยมากผู้ใช้ไม่ได้ต้องการให้ AI แต่งเรื่องขึ้นมา

ความแปลกใหม่ ความสุ่ม และปัญหาของการประเมิน

กรณียกเว้นที่ต้องการความแปลกใหม่จริง ๆ คือเมื่อผู้ใช้ต้องการนิยายและความบันเทิง ไม่ใช่ข้อเท็จจริงหรือความเป็นจริง
ผู้ใช้อาจขอให้ Generative AI แต่งนิทานก่อนนอนสำหรับเด็ก หรือสร้างภาพที่ต่างจากภาพเดิมบนอินเทอร์เน็ตแต่ยังมีพื้นฐานจากสิ่งเหล่านั้น
เนื่องจากอินเทอร์เน็ตมีขนาดใหญ่มากและมีแหล่งอ้างอิงที่เป็นไปได้จำนวนมหาศาล จึงยากในทางปฏิบัติที่จะรู้ว่าเรื่องสั้น บทกวี หรือภาพของ AI มีความสร้างสรรค์จริงมากน้อยเพียงใด
กระบวนการของ Generative AI บางส่วนเป็นแบบ stochastic ทำให้แต่ละการตัดสินใจสามารถแตกแขนงไปได้หลายทาง และสร้างวิถีที่ต่างกันทุกครั้ง
หากวิถีนั้นอิงกับความสุ่ม ก็อาจใหม่ได้ และหากอิงกับข้อมูลฝึก ก็อาจดีได้เพราะคุณภาพของข้อมูล แต่ไม่อาจทั้งใหม่และดีไปพร้อมกัน

การค้นพบที่วิทยาศาสตร์และคณิตศาสตร์ต้องการ

แม้ Generative AI จะไม่อาจทั้งดีและใหม่พร้อมกัน แต่สำหรับการใช้งานส่วนใหญ่ก็ไม่ใช่ปัญหาร้ายแรง และหากมันเร็ว ถูก เล็ก ปรับแต่งได้ และทำซ้ำได้ ก็อาจเป็น เทคโนโลยีที่พลิกโฉม
ในวิทยาศาสตร์และคณิตศาสตร์ AI แบบเลียนแบบอย่างเดียวไม่เพียงพอ แต่ต้องมี ความคิดสร้างสรรค์ที่แท้จริง และการค้นพบ
การเดินหมากที่ 37 ของ AlphaGo, สไตล์หมากรุกอันเป็นเอกลักษณ์ของ AlphaZero และสมรรถนะการแข่งรถจำลองของ GT-Sophy เป็นตัวอย่างของการค้นพบสิ่งที่ทั้งใหม่และดี
AlphaFold, AlphaProof และ Claude-Code ถูกยกเป็นตัวอย่างของระบบที่สร้างความก้าวหน้าจริงในวิทยาศาสตร์ คณิตศาสตร์ และการเขียนโปรแกรม
RL-Lyft คือระบบที่ปรับวิธีจัดสรรรถให้ผู้โดยสารในธุรกิจเรียกรถโดยสารให้เหมาะสมที่สุด
โมเดลภาษาบางส่วนได้รับการเสริมด้วยวิธีที่ก้าวข้าม Generative AI แบบการเรียนรู้ภายใต้การสอน

สามขั้นของการค้นพบ

การค้นพบคือกระบวนการลองหลายสิ่ง ดูว่าอะไรใช้ได้ผล แล้วเก็บสิ่งที่ได้ผลดีที่สุดไว้
วิวัฒนาการโดยการคัดเลือกตามธรรมชาติ วิธีการทางวิทยาศาสตร์ รวมถึงชีวิตประจำวันและการเรียนรู้ ต่างก็ขับเคลื่อนด้วยการลองแล้วจดจำสิ่งที่ได้ผล
ในจิตวิทยา สิ่งนี้เรียกว่า instrumental learning หรือ operant conditioning และใน machine learning เรียกว่า reinforcement learning
แม้แต่ในการวางแผนและการค้นหาชุดผสม แนวคิดการค้นพบแบบ “generate and test” ก็ยังใช้ได้
แก่นของการค้นพบคือการผสานสามขั้น ได้แก่ ความแปรผัน, การประเมิน, และ การคงไว้แบบเลือกสรร
การเรียนรู้แบบมีผู้สอนเพียงอย่างเดียวไม่มีวิธีประเมินสิ่งที่สร้างขึ้นระหว่างรันไทม์ และเมื่อไม่มีการประเมินก็ไม่มีการคงไว้แบบเลือกสรร จึงไม่มีการค้นพบ
ความแปลกใหม่อาจปรากฏขึ้นชั่วครู่ แต่หากไม่มีการรับรู้คุณค่าของมัน มันก็จะหายไปและสูญหาย

การประเมิน เป้าหมาย และความเป็นอิสระ

เมื่อมนุษย์ใช้ Generative AI สร้างภาพหลายภาพแล้วเลือกภาพที่ชอบ ระบบมนุษย์+AI ก็เป็นผู้ทำให้การค้นพบเสร็จสมบูรณ์
เมื่อมีเป้าหมายที่ชัดเจนก็สามารถประเมินได้ เช่น บางหมากนำไปสู่การรุกจน บางขั้นนำไปสู่บทพิสูจน์ และบางการกระทำให้รางวัลสูง
จีโนไทป์บางแบบสร้างการจำลองตัวเองได้มากกว่า และทฤษฎีบางอย่างอธิบายข้อมูลได้ดีกว่า
ความแปรผันไม่จำเป็นต้องสุ่มทั้งหมด และนักวิทยาศาสตร์ที่ดีไม่ได้เลือกทฤษฎีมาทดสอบแบบตามใจสุ่ม
หากตำแหน่งของคำตอบถูกกำหนดแน่นอนทั้งหมด ก็ไม่ใช่การค้นพบ เพราะการค้นพบต้องมี ความไม่แน่นอน
การอัปเดตน้ำหนักด้วย backpropagation เป็นแบบกำหนดแน่ชัด แต่เนื่องจากน้ำหนักเริ่มต้นด้วยค่าสุ่มเล็ก ๆ จึงยังมีความแปรผันอยู่
การตั้งต้นแบบสุ่มเป็นรูปแบบของความแปรผันที่จำเป็นและต้องทำอย่างถูกต้องเพื่อให้ได้สมรรถนะที่ดี
ใน backpropagation ความแปรผันเกิดขึ้นเพียงครั้งเดียวตอนเริ่มต้นเครือข่าย จึงมีผลเพียงชั่วคราว และภายหลังเครือข่ายอาจสูญเสียความสามารถในการเรียนรู้
“continual backpropagation” จะรีเซ็ตนิวรอนที่ใช้น้อยเป็นครั้งคราวด้วยค่าน้ำหนักสุ่มขนาดเล็ก เพื่อให้ความแปรผันดำเนินต่อไปและคงความยืดหยุ่นไว้
การค้นพบต้องอาศัยการประเมินจากมนุษย์หรือจากเป้าหมายที่ชัดเจน และความเป็นอิสระเต็มรูปแบบเป็นไปได้เมื่อเป้าหมายที่ชัดเจนทำหน้าที่เป็นผู้ประเมิน
หากต้องการความสามารถเต็มรูปแบบของ AI scientist ก็ต้องแบ่งปันเป้าหมายเพื่อให้ AI สร้าง ประเมิน ค้นพบ และมีส่วนร่วมในการบรรลุเป้าหมายนั้น

1 ความคิดเห็น

GN⁺ 2026-06-11

ความเห็นจาก Hacker News

การประยุกต์ใช้ที่ประสบความสำเร็จที่สุด เช่น การเขียนโค้ด ไม่ได้เกิดจาก LLM/การสร้างโมเดลแบบล้วน ๆ แต่เกิดจากการปิดลูปด้วย agentic harness
ลูปสร้าง-ทดสอบ-ปรับปรุงแบบเลือกสรรเป็นรูปแบบหลักของงานวิทยาศาสตร์ และ LLM + reinforcement learning with verifiable rewards + ฟีดแบ็กการรันจากคอมไพเลอร์/เทอร์มินัล ก็จำลองกระบวนการนี้ได้ค่อนข้างดี
สิ่งนี้ใกล้เคียงกับ Fisher/Box feedback loop ที่ถูกนำไปใช้บนระบบคำนวณสมัยใหม่(https://www-sop.inria.fr/members/Ian.Jermyn/philosophy/writi...) และ LLM ก็เป็นเพียงองค์ประกอบหนึ่งเท่านั้น
น่าเสียดายที่ Sutton พูดถึงแค่ด้าน LLM/backprop แทนที่จะพูดถึงภาพรวมทั้งหมดในปัจจุบัน ผมสงสัยมากว่าลูปแบบนี้จะทำให้การค้นพบเป็นอัตโนมัติได้อย่างน้อยบางส่วนหรือไม่
การค้นพบยังมีองค์ประกอบมากกว่านั้น และก็ยังไม่ชัดเจนว่าโมเดล/สมมติฐานตั้งต้นมาจากไหน หรือการอัปเดตถูกเลือกอย่างไร ผมเพิ่งเห็นว่า Hanson's Patterns of Discovery น่าจะพูดถึงแนวทางนั้น แม้ยังไม่ได้อ่าน แต่ก็สงสัยว่ามีเบาะแสเชิงกลไกหรือไม่
- ปัญหาว่าโมเดล/สมมติฐานตั้งต้นมาจากไหนและเลือกการอัปเดตอย่างไร ก็เป็นปัญหาใน reinforcement learning เช่นกัน ดังนั้นโดยทั่วไปจึงสอนให้เลียนแบบ trajectory บางชุดด้วย supervised learning ก่อน แล้วค่อยใช้ reinforcement learning มาปรับโมเดลต่อ
  ถ้าใช้ reinforcement learning อย่างเดียวจะมีปัญหาใหญ่ว่าไปถึงรางวัลได้ยาก จึงยากที่จะเรียนรู้งานด้วย RL ล้วน ๆ มนุษย์เองก็แก้ปัญหาการค้นพบด้วยการผสานสัญญาณกำกับจากการเรียนหนังสือเข้ากับการสำรวจเพื่อแก้โจทย์ และคนที่ไม่มีการศึกษาพื้นฐานด้านคณิตศาสตร์เลย ต่อให้ฉลาดมากก็ยากจะสร้างผลงานยิ่งใหญ่ได้ การบูตสแตรปก็คือการสำรวจที่ในอดีตมีคนจ่ายต้นทุนไปแล้ว
- เห็นด้วยเต็มที่กับ ความสำคัญของ harness
  แต่ก็ดูเหมือนจะมีปัญหาแบบเดียวกับที่อัลกอริทึมเชิงวิวัฒนาการเคยเจอ คุณอาจสร้างคำตอบผู้สมัครได้เรื่อย ๆ จนกว่าเงินจะหมด แต่ก็ยังต้องประเมินคำตอบเหล่านั้นอยู่ดี ต้องมี fitness function และนั่นหมายความว่าอย่างน้อยก็ต้องรู้รูปทรงคร่าว ๆ ของคำตอบอยู่แล้ว ถ้าใครรู้จักงานเกี่ยวกับ fitness function ที่เปิดกว้างกว่านี้ ผมอยากอ่าน
- นักวิจัยที่วิจารณ์ LLM มักตั้งประเด็นที่ คุณสมบัติทางคณิตศาสตร์/เชิงโครงสร้าง พื้นฐานของ LLM แต่ดูเหมือนจะมองข้ามงานวิศวกรรมที่ทำรอบตัวโมเดลเพื่อให้มันมีประโยชน์
  ด้วยข้อจำกัดทางคณิตศาสตร์เหล่านั้น LLM อาจไม่ใช่เส้นทางไปสู่ AGI จริง ๆ ก็ได้ แต่ ณ ตอนนี้พูดตรง ๆ ว่ามันดูไม่สำคัญนัก
- ประเด็นที่สำคัญที่สุดคือ ลูปเสริมแรง ถูกใช้ระหว่างการฝึก แม้ผมจะไม่เห็นด้วยกับสมมติฐานดั้งเดิมของ Sutton แต่หลังจากมี reinforcement learning แล้ว สมมติฐานนั้นก็ยิ่งอ่อนลง
ผมชอบกรอบความคิดประมาณว่า “สิ่งใหม่ที่ถูกสร้างขึ้นจะนับว่าเป็นความคิดสร้างสรรค์ได้ก็ต่อเมื่อมันถูกประเมิน หากไม่มีการประเมินและการเก็บรักษาผลลัพธ์ที่ดีที่สุดไว้ ก็ไม่มีอะไรถูกสร้างขึ้นจริง ๆ ความใหม่อาจโผล่มาชั่วครู่ แต่ถ้าไม่มีใครรับรู้คุณค่าของมัน มันก็จะหายไปและสูญหาย”
คนจำนวนมากในคอมเมนต์บน Twitter และอาจรวมถึงบางคนที่นี่ ดูเหมือนจะไม่ได้อ่านเลยจากย่อหน้าเปิดไป เขาไม่ได้บอกว่าระบบ AI ไม่สามารถมีความคิดสร้างสรรค์และการค้นพบได้ แต่เขากำลังบอกว่า generative AI ที่ไม่มี harness ไม่สามารถมีความคิดสร้างสรรค์และการค้นพบได้
นั่นหมายความว่าต้องมีอีกระบบหนึ่งที่สามารถรับรู้คุณค่าของไอเดียใหม่และจดจำมันไว้ เขายังยกตัวอย่างด้วยว่าขั้นตอนการรับรู้คุณค่านี้สามารถทำให้เป็นอัตโนมัติได้ และทำให้เกิดความคิดสร้างสรรค์กับการค้นพบได้ในระบบอัตโนมัติเต็มรูปแบบตามนิยามของเขาเอง
- โดยรวมเห็นด้วย แต่ถ้าจะอ้างแบบนี้โดยยึดนิยามของ generative AI ที่แคบและไม่ตรงกับวิธีใช้งานจริง ก็จะกลายเป็นการโต้แย้งหุ่นฟาง
ถ้าผมไม่ได้พลาดอะไรไป ข้ออ้างนี้ดูเหมือนจะใช้ได้เฉพาะกับ ยุคก่อน pretraining เท่านั้น (เช่น GPT 1~4) ไม่ใช่หรือ? กระบวนทัศน์ post-training และ reinforcement learning ทุกวันนี้ก็ชัดเจนว่ามีการกลายพันธุ์ การประเมิน และการคงไว้แบบเลือกสรรอยู่แล้วไม่ใช่หรือ?
- ต้นฉบับดูเหมือนจะมองข้าม ขั้นตอน post-training อย่าง reinforcement learning with verifiable rewards (RLVR) ไป แน่นอนว่าผมไม่ได้จะอ้างว่า Rich Sutton ไม่รู้เรื่องพวกนี้ RLVR เองก็มีวิธีประเมินที่แคบมาก
  ผมสงสัยว่านี่เป็นสัญญาณล่วงหน้าหรือไม่ว่า Keen Tech กำลังเอนเอียงไปทางแนวคิด Ineffable Intelligence ของ David Silver
- RLVR ก็ยังไม่สามารถขยายออกไปนอก base distribution ได้ และแค่หาค่าโหมดภายในนั้นเท่านั้น
  พูดอีกแบบคือมีการประเมินและการเก็บรักษาไว้ แต่ไม่มีการกลายพันธุ์หรือ “การวางแผน”
  แต่นั่นไม่ได้แปลว่าใช้ LLM ไม่ได้ AlphaEvolve ก็ทำแบบนั้นพอดี เพียงแต่มันใช้ตัววางแผนเชิงวิวัฒนาการง่าย ๆ จากภายนอก ประเด็นใหญ่ที่เขาพูดคือ ตัววางแผนของเรายัง “ทื่อ” อยู่มาก และควรลงทุนกับจุดนี้เพิ่ม
  เวลาใช้ LLM แบบวนซ้ำใน Claude Code ผู้ใช้ก็ทำหน้าที่เป็นตัววางแผนภายนอก และนั่นก็ใช้ได้ผลดี
ดูเหมือนว่าการตั้งโจทย์ในการพูดถึงปัญหาที่ AlphaGo และโมเดล generative AI แบบนี้เผชิญอยู่นั้นจะแปลกไปหน่อย
AlphaGo ถูกประเมินอย่างเข้มงวดจากภายนอก ไม่ได้เป็นสิ่งที่มันสร้างขึ้นเอง
โมเดล generative AI เองก็สามารถประสบความสำเร็จได้ในหลายโดเมนเมื่อได้รับการประเมินอย่างเข้มงวดจากภายนอก จุดที่น่าทึ่งเป็นพิเศษคือมันประสบความสำเร็จได้ในหลายด้าน ตั้งแต่งานเขียนโปรแกรมง่าย ๆ ไปจนถึงคณิตศาสตร์แนวหน้าสุด (เช่น การเสนอ counterexample ต่อข้อคาดเดาเมื่อไม่นานนี้) และแม้แต่การเขียน kernel code ที่ปรับแต่งได้ดียิ่งขึ้น
ในสาขาที่วิธีแก้มีความซับซ้อนอย่างยิ่ง แต่การประเมินมีความซับซ้อนน้อยกว่าเมื่อเทียบกัน ก็มีทั้ง reinforcement learning จำนวนมาก รวมถึงการค้นพบและการคัดเลือกเส้นทางแบบ “คล้ายวิวัฒนาการ” ที่เกิดขึ้นจริง
เพราะอย่างนั้นการเอาไปเทียบกับ AlphaGo จึงดูแปลก AlphaGo ได้รับการประเมินที่เข้มงวดและเป็นอิสระจากตัวมันเอง ซึ่งมนุษย์ในฐานะแหล่งภายนอกเป็นผู้ให้มา ภายในขอบเขตที่แคบ ขณะที่ generative AI เองก็สามารถแสดงผลลัพธ์ที่น่าทึ่งได้มากเมื่อมีการประเมินแบบนั้นให้
ที่แปลกยิ่งกว่าคือ ในหลายกรณี นวัตกรรมและความก้าวหน้าไม่ได้ต้องการไอเดียใหม่อย่างแท้จริงเสมอไป แต่เกิดจากการลงมือใช้วิธี กลยุทธ์ และไอเดียที่ต่างกันอย่างมีคุณภาพสูงเป็นชั้น ๆ ซ้อนกัน ในหลายโดเมน ความรู้ร่วมกันของเราทั้งเบาบางและซับซ้อนอย่างมาก ดังนั้นความสามารถในการนำเครื่องมือ โมเดล และไอเดียมาจัดเรียงผสมใหม่แบบเลือกสรรด้วยคุณภาพสูงจึงทรงพลังมาก
ภายใต้ขอบเขตการสำรวจที่มีจำกัด (เวลา ทรัพยากร) ความต่างระหว่างการที่ “ตัวเลือกที่ดี” มีอยู่ 1% กับ 3% นั้นเป็นคนละโลกกันโดยสิ้นเชิง
ที่สำคัญที่สุด เรื่องข้างต้นไม่ได้เกี่ยวกับ สติปัญญา แต่เกี่ยวกับการเพาะปลูกวิธีแก้ปัญหาแบบแห้งแล้งสำหรับปัญหาสำคัญและมีคุณค่าที่เรามีอยู่ ดูเหมือนว่าข้อถกเถียงเรื่อง AGI และสติปัญญาส่วนใหญ่จะพลาดข้อเท็จจริงง่าย ๆ นี้ เช่นเดียวกับอุปมาอุปไมยที่มักพูดกันว่า เครื่องบินไม่ได้บินเหมือนนก หรือเรือดำน้ำไม่ได้ว่ายน้ำ ซึ่งไม่เกี่ยวกับประโยชน์ใช้สอยเลย
สุดท้าย คุณคิดจริง ๆ หรือว่าระบบเหล่านี้จะไม่สามารถทำได้ดีกว่าโดยเฉลี่ยในปัญหาที่คนทั่วไปต้องเจอตลอดชีวิต? ในโลกที่การสอบปัญหาทั่วไปในสายวิทยาศาสตร์หรือการแพทย์ให้คะแนน 60~70% ก็ได้ปริญญาแล้ว เราควรนิยามสติปัญญาของมนุษย์อย่างไร?
- อยากเสริมสั้น ๆ ว่าเครื่องบินก็มี ปีกแบบ airfoil เหมือนนก และเรือดำน้ำก็มีถังอากาศคล้ายถุงลมของปลา
  ยังมีนกอย่างอัลบาทรอสที่แทบไม่ต้องกระพือปีกเลยขณะบิน
ผมมองว่าส่วนสำคัญมากของ deep learning คือ การทำ generalization แบบ compositional โมเดลเรียนรู้ชิ้นส่วนที่นำกลับมาใช้ได้ เช่น abstraction, style, procedure, constraint และนำสิ่งเหล่านั้นมาประกอบใหม่ในแบบที่ไม่เคยปรากฏเป็นทั้งชุดมาก่อนในข้อมูลฝึก
ดังนั้นแม้วัตถุดิบจะมาจากข้อมูลในอดีต องค์ประกอบสุดท้ายก็อาจใหม่ได้อย่างมีนัยสำคัญ
ผมตามประเด็นของเขาไม่ค่อยทัน a) เขาหมายถึงว่าจำเป็นต้องมีอัลกอริทึมพื้นฐานแบบใหม่ที่รวมเป้าหมาย หรือก็คือ “รสนิยม” เข้าไปในขั้นฝึกโดยตรง หรือ b) เขาหมายถึงว่าควรทำให้โมเดลที่ฝึกแล้วมุ่งไปยังเป้าหมายระหว่างการวนซ้ำ?
ถ้าเป็น a) เขาก็ไม่ได้เสนออัลกอริทึมแบบนั้น และผมก็ไม่รู้ด้วยว่าจะวัดเป้าหมายเชิงนามธรรมในระดับต่ำแบบนั้นอย่างไร หรือเขาเสนออัลกอริทึมดังกล่าวไว้แล้วแต่ผมอ่านพลาด? ถ้าเป็น b) มันมีอยู่แล้ว AlphaEvolve หรือหลายกรณีที่เขาพูดถึงก็เป็นแบบนั้น และถ้าจะพูดแบบกวน ๆ ก็คือแค่พิมพ์ /goal แล้วรันก็ได้
อีกอย่าง ผมคิดว่าการบอกว่า LLM ทำสิ่งที่ดีและใหม่ไม่ได้ เป็นความผิดแบบเหมารวม ถ้ามันทำได้ คุณอาจบอกว่า “นั่นไม่ใหม่หรอก แค่เป็นของต่อยอด” แต่ยกตัวอย่างเช่น ถ้าผมสร้างภาษาโปรแกรมด้วย LLM และมันทำงานได้เหมาะกับจุดประสงค์ของผม นั่นไม่ใช่ทั้งของใหม่และของดีหรือ? หรือหมายความว่านอกจาก FORTRAN แล้ว ภาษาอื่นทั้งหมดไม่ใช่ของใหม่?
ทุกอย่างล้วนต่อยอดมาจากสิ่งเดิม และเราสามารถใส่ LLM เข้าไปในลูปที่ประเมินสิ่งที่ LLM ลองทำได้ เขาไม่น่าใช่คนทื่อจนผิดพลาดขนาดนี้ ดังนั้นผมน่าจะกำลังเข้าใจอะไรผิดไป
- ไม่ เขาดูเหมือนจะบอกว่าเรามีสิ่งเหล่านี้อยู่แล้ว และควรใช้มันให้มากขึ้น
  AlphaGo ใช้การค้นพบเมื่อประเมินทางเดินที่เป็นไปได้และทำซ้ำ
  Claude Code ก็ใช้การค้นพบเมื่อมันสร้างสคริปต์แล้วประเมินว่าสคริปต์นั้นทำงานหรือไม่
  เขากำลังบอกว่าในวิทยาศาสตร์และวิศวกรรม เราควรทำให้ระบบ AI ประเมินและทำซ้ำได้ด้วยตัวเองแบบเดียวกับที่ทำในโค้ด
  โดยพื้นฐานแล้วมันคือ วิศวกรรมฮาร์เนสเพื่อวิศวกรรม
- LLM มีแผนที่ แต่ไม่สามารถแยก พื้นที่อุดมสมบูรณ์กับพื้นที่กันดาร ออกจากกันได้ เช่น โมเดลใหม่ของ Anthropic จะสร้าง “ยา” ที่มีแนวโน้มดีได้อย่างไร? ก็เพราะนอกจากความรู้ที่ฝังอยู่ในโมเดลแล้ว มันยังดูดซับกระบวนทัศน์การอนุมานของ AlphaFold เข้าไปด้วย Claude เพียงลำพังน่าจะออกแบบวิธีวิเคราะห์โปรตีนไม่ได้
- ในงานนำเสนอ YouTube ของเขาชิ้นหนึ่ง เหมือนเขาจะพูดว่าเรากำลังก้าวเข้าสู่ยุคของ “นักออกแบบ” แห่งจักรวาล
  https://youtu.be/ThFq87Rp21s?si=SrKj72_X8bjnB6ED
  ประมาณนาทีที่ 35
เวลาใช้คำอย่าง “สร้างสรรค์” กับ AI ต้องเจาะจงให้มาก
AI สร้างศิลปะได้ไหม? มันอาจสร้างบางสิ่งที่ให้ความรื่นรมย์ทางประสาทสัมผัสได้ แต่ท้ายที่สุดแล้วศิลปะคือการสื่ออารมณ์และความรู้สึกของมนุษย์ และแม้แต่มนุษย์ด้วยกันเองก็ไม่ได้เข้าใจศิลปะอย่างเป็นสากลเสมอไป “อารมณ์และความรู้สึก” จึงทำให้ศิลปะอาจผูกติดอย่างลึกซึ้งกับความเชื่อและประสบการณ์ร่วมของกลุ่มเฉพาะ
แล้วมันจะสร้างสรรค์ได้ไหมในสาขาที่ไม่อัตวิสัยอย่างคณิตศาสตร์หรือวิทยาศาสตร์? Einstein ได้ทฤษฎีสัมพัทธภาพทั่วไปมาจากการทดลองทางความคิดเชิงสร้างสรรค์ หาก AI ทดสอบกรอบคณิตศาสตร์หลายแบบเพื่อแก้ปัญหาที่ปรากฏจากการทดลอง แล้วสุดท้ายเสนอ สมการสนามของทฤษฎีสัมพัทธภาพทั่วไป ออกมา แบบนั้นถือว่าสร้างสรรค์ไหม? อาจจะใช่ แต่แน่นอนว่าไม่ใช่ในแบบเดียวกัน
- คุณสร้างศิลปะได้จากทุกอย่าง ตั้งแต่ไม้กับดินโคลนไปจนถึงแก้วกับอากาศ แน่นอนว่า AI ก็สร้างศิลปะได้
  ถ้าคำถามคือเครื่องจักรสร้างศิลปะได้หรือไม่ สุดท้ายก็ต้องมีใครสักคนเปิดเครื่องนั้นและออกแบบให้มันสร้างศิลปะอยู่ดี ดังนั้นถ้าจะว่ากันจริง ๆ ก็อาจพูดได้ว่าคนคนนั้นหรือคนเหล่านั้นต่างหากที่เป็นผู้สร้างศิลปะ
  ในทางประวัติศาสตร์ คำถามว่า “x เป็นศิลปะหรือไม่?” สุดท้ายก็มักลงเอยด้วยคำตอบว่า “ใช่” เสมอ ไม่รู้ว่าทำไมผู้คนถึงยังตกหลุมพรางเดิมซ้ำ ๆ
- นิยามความสร้างสรรค์ของเขาเป็นแบบ closed-loop กล่าวคือ แนวคิดที่สร้างขึ้นต้องเป็นสิ่งใหม่สำหรับตัวระบบเอง ไม่ใช่ใหม่สำหรับผู้สังเกตการณ์ที่ยืนดูอยู่ข้าง ๆ
- คำกล่าวที่ว่า “ศิลปะคือการสื่ออารมณ์และความรู้สึกของมนุษย์” มีจุดคลาดเคลื่อนเล็กน้อย ศิลปะใกล้เคียงกับการก่อให้เกิดอารมณ์ในผู้รับสาร ไม่ว่าจะเป็นผู้ชม ผู้ฟัง ฯลฯ มากกว่าการถ่ายทอดอารมณ์ของผู้สร้าง
  บทความเรื่องศิลปะใน Wikipedia เปิดต้นไว้แบบนี้
  “Art is a diverse range of cultural activity centered around works utilizing creative or imaginative talents, which are expected to evoke a worthwhile experience”
  https://en.wikipedia.org/wiki/Art
  ดังนั้น AI ก็ทำศิลปะได้ เพราะมันแค่ต้องทำให้ผู้รับสารเกิดการตอบสนองทางอารมณ์
- โมเดลปัจจุบันถูกฝึกด้วย pastiche ของภาพและการรีมิกซ์สไตล์ แต่ก็ไม่มีเหตุผลอะไรที่เราจะเพิ่มชั้น Artistic Director ที่เรียนรู้ตัวบ่งชี้ทางอารมณ์และวัฒนธรรม แล้วคอยกำกับการทำ pastiche และรีมิกซ์ไม่ได้
  ปัญหาในทางปฏิบัติคือ ความสามารถของโมเดลในการทำตามพรอมป์ต์ยังจำกัดมาก ระดับรายละเอียดที่กำหนดได้ในการออกแบบฉากยังหยาบเกินไป จึงอาจให้เอฟเฟกต์แบบ “slop” ที่เต็มไปด้วยรายละเอียดเชิง pastiche ที่ถูกเติม ๆ มาเยอะ แต่ยังสร้างงานแบบที่วัตถุประกอบแต่ละชิ้นถูกจัดวางอย่างตั้งใจเพื่อเสริมสารของงานไม่ได้
  https://en.wikipedia.org/wiki/The_Awakening_Conscience
  โดยพื้นฐานแล้ว มันคือเวอร์ชันสำหรับผู้เชี่ยวชาญของปัญหา “ช่วยวาดนกกระทุงขี่จักรยานให้หน่อย”
  ในบางสถานการณ์ เราต้องการการควบคุมเชิงสร้างสรรค์ระดับนั้น และตัวสร้างภาพปัจจุบันยังไปไม่ถึง
  และหากไม่มีการควบคุมนั้น ก็จะไปไม่ถึงระดับ meta-creativity ที่สามารถสร้างสุนทรียะแบบใหม่ซึ่งกลายเป็นหมุดหมายทางวัฒนธรรมได้ อย่างที่ศิลปินชื่อดังเคยทำและยังคงทำอยู่
- ทุกวันนี้คนมักโหวตลบงานศิลปะที่ทำให้รู้สึกไม่สบายใจ
  พวกเขาแค่อยากได้โดพามีน ไม่อยากคิดเพราะการคิดมันเจ็บปวด
ผมไม่ได้มองว่าแมชชีนเลิร์นนิงจะสร้างสรรค์หรือค้นพบอะไรใหม่ไม่ได้ ความสร้างสรรค์และการค้นพบ ท้ายที่สุดแล้วคือการคิดถึงแนวคิดที่ถูกต้องหลายอย่างพร้อมกัน ทั้งที่ภายนอกดูเหมือนไม่เกี่ยวข้องกัน ส่วนการคิดแบบอัลกอริทึมคือการจัดการกับแนวคิดที่มีความเกี่ยวข้องกันอย่างชัดเจนมากกว่า
ต่อให้ไม่ใช่ LLM โมเดลบางประเภทก็สามารถสร้างไอเดียแบบสุ่ม จัดอันดับ แล้วแสดงผลลัพธ์ที่ดีที่สุดออกมาได้
เพียงแต่ผมคิดว่ามนุษย์เก่งกว่าในเรื่องแบบนั้น ขณะที่แมชชีนเลิร์นนิงเก่งกว่ากับการคิดเชิงอัลกอริทึม โดยคำว่า “เก่งกว่า” ในที่นี้หมายถึงมีประสิทธิภาพกว่า และเป็นสิ่งที่เราชอบทำมากกว่า รวมถึงยังประเมินสิ่งที่ดึงดูดมนุษย์ในเชิงอัตวิสัยได้แม่นยำกว่า โดยเฉพาะ รสนิยม ของเราเองด้วย
แมชชีนเลิร์นนิงต้องอาศัยการทำให้เป็นนามธรรมทั่วไปมากกว่าการเขียนโปรแกรม แต่ผมก็ยังคิดว่ามันควรถูกปรับให้เหมาะกับงานที่เป็นตรรกะเป็นส่วนใหญ่ เช่น การพัฒนาซอฟต์แวร์ การแปล หรือเครื่องมือสำหรับศิลปะและการค้นพบ
ก็ไม่เป็นไร LLM ในสภาพปัจจุบันก็มีประโยชน์อยู่แล้ว แม้มันจะไม่มีวันสร้างคณิตศาสตร์หรือฟิสิกส์แห่งคนรุ่นถัดไปออกมาได้ก็ตาม
แม้ในหมู่มนุษย์เอง สมองที่สร้างการกระโดดทางความคิดแบบเป็นขั้นก็หาได้ยากมาก จนเราถึงขั้น จดจำพวกเขาด้วยชื่อ
- แต่อาจกำลังมองข้ามไปว่า มนุษย์ที่หายากเหล่านั้นยืนอยู่บนกองความล้มเหลวและการค้นพบที่พอใช้ได้จำนวนมหาศาล ซึ่งสร้างโดยมนุษย์ที่ “ธรรมดา” กว่าและถูกประวัติศาสตร์ลืมเลือนไป
ลิงก์สำรอง: <https://xcancel.com/RichardSSutton/status/206121608774494665...>
ตอนนี้ฝั่งผมขึ้น 502 “Bad Gateway” แต่ก็น่าจะกลับมาใช้ได้ในสักช่วงหนึ่ง

ความคิดสร้างสรรค์และการค้นพบของ AI ตามมุมมองของ Rich Sutton

ข้อจำกัดและประโยชน์ของ Generative AI

ความแปลกใหม่ ความสุ่ม และปัญหาของการประเมิน

การค้นพบที่วิทยาศาสตร์และคณิตศาสตร์ต้องการ

สามขั้นของการค้นพบ

การประเมิน เป้าหมาย และความเป็นอิสระ

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นจาก Hacker News