4 คะแนน โดย GN⁺ 4 시간 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Generative AI ที่ฝึกด้วยการเรียนรู้แบบมีผู้สอนเป็นโมเดลเลียนแบบที่ทำงานคล้ายตัวอย่างที่เคยเห็น จึงมีประโยชน์ก็จริง แต่มีข้อจำกัดต่อการค้นพบใหม่ในวิทยาศาสตร์และคณิตศาสตร์
  • ในการตอบคำถามจากอินเทอร์เน็ตหรือสรุปเอกสาร ความแปลกใหม่กลับกลายเป็น ภาพหลอน และคำตอบที่ดีมาจากคุณภาพของ แหล่งข้อมูลต้นทาง
  • แม้ในกรณีที่ต้องการความแปลกใหม่ เช่น การสร้างนิยายหรือภาพ ก็ยังยากที่จะรู้ว่าผลลัพธ์ใกล้กับข้อมูลฝึกมากแค่ไหน และความสุ่มแม้จะสร้างความใหม่ได้ แต่หากไม่มีการประเมินก็ไม่อาจกลายเป็นการค้นพบที่ดีได้
  • ระบบอย่าง AlphaGo, AlphaZero, GT-Sophy, AlphaFold, AlphaProof, Claude-Code และ RL-Lyft ค้นหาผลลัพธ์ที่ทั้งใหม่และดีผ่าน การประเมินและการคงไว้แบบเลือกสรร
  • หากต้องการ AI scientist ที่สมบูรณ์ ต้องแบ่งปันเป้าหมายอย่างชัดเจนเพื่อให้ AI สร้าง ประเมิน และค้นพบได้เอง และจำเป็นต้องมี การทำให้ความคิดสร้างสรรค์และการค้นพบเป็นอัตโนมัติ

ข้อจำกัดและประโยชน์ของ Generative AI

  • Generative AI คือ โมเดลเลียนแบบ ที่รับตัวอย่างจำนวนมากแล้วสร้างข้อความเหมือนมนุษย์ สร้างภาพเหมือนศิลปินหรือธรรมชาติ หรือสร้างวิดีโอคล้ายคลิปบนอินเทอร์เน็ต
  • Generative AI อาจมีประโยชน์อย่างมาก แต่คำล้อเก่าว่า “ส่วนที่ดีไม่ใหม่ และส่วนที่ใหม่ไม่ดี” ยังใช้ได้กับหลายส่วนของเทคโนโลยีนี้
  • เวลาค้นหาคำตอบจากอินเทอร์เน็ตหรือสรุปเอกสาร AI ไม่จำเป็นต้องใหม่ และคุณภาพของคำตอบก็มาจาก แหล่งข้อมูลต้นทาง เช่น ผู้เขียนเอกสารหรือบทความบนอินเทอร์เน็ต
  • หากคำตอบของ AI เติมบางอย่างเกินกว่าข้อมูลต้นทาง นั่นคือ ภาพหลอน และโดยมากผู้ใช้ไม่ได้ต้องการให้ AI แต่งเรื่องขึ้นมา

ความแปลกใหม่ ความสุ่ม และปัญหาของการประเมิน

  • กรณียกเว้นที่ต้องการความแปลกใหม่จริง ๆ คือเมื่อผู้ใช้ต้องการนิยายและความบันเทิง ไม่ใช่ข้อเท็จจริงหรือความเป็นจริง
  • ผู้ใช้อาจขอให้ Generative AI แต่งนิทานก่อนนอนสำหรับเด็ก หรือสร้างภาพที่ต่างจากภาพเดิมบนอินเทอร์เน็ตแต่ยังมีพื้นฐานจากสิ่งเหล่านั้น
  • เนื่องจากอินเทอร์เน็ตมีขนาดใหญ่มากและมีแหล่งอ้างอิงที่เป็นไปได้จำนวนมหาศาล จึงยากในทางปฏิบัติที่จะรู้ว่าเรื่องสั้น บทกวี หรือภาพของ AI มีความสร้างสรรค์จริงมากน้อยเพียงใด
  • กระบวนการของ Generative AI บางส่วนเป็นแบบ stochastic ทำให้แต่ละการตัดสินใจสามารถแตกแขนงไปได้หลายทาง และสร้างวิถีที่ต่างกันทุกครั้ง
  • หากวิถีนั้นอิงกับความสุ่ม ก็อาจใหม่ได้ และหากอิงกับข้อมูลฝึก ก็อาจดีได้เพราะคุณภาพของข้อมูล แต่ไม่อาจทั้งใหม่และดีไปพร้อมกัน

การค้นพบที่วิทยาศาสตร์และคณิตศาสตร์ต้องการ

  • แม้ Generative AI จะไม่อาจทั้งดีและใหม่พร้อมกัน แต่สำหรับการใช้งานส่วนใหญ่ก็ไม่ใช่ปัญหาร้ายแรง และหากมันเร็ว ถูก เล็ก ปรับแต่งได้ และทำซ้ำได้ ก็อาจเป็น เทคโนโลยีที่พลิกโฉม
  • ในวิทยาศาสตร์และคณิตศาสตร์ AI แบบเลียนแบบอย่างเดียวไม่เพียงพอ แต่ต้องมี ความคิดสร้างสรรค์ที่แท้จริง และการค้นพบ
  • การเดินหมากที่ 37 ของ AlphaGo, สไตล์หมากรุกอันเป็นเอกลักษณ์ของ AlphaZero และสมรรถนะการแข่งรถจำลองของ GT-Sophy เป็นตัวอย่างของการค้นพบสิ่งที่ทั้งใหม่และดี
  • AlphaFold, AlphaProof และ Claude-Code ถูกยกเป็นตัวอย่างของระบบที่สร้างความก้าวหน้าจริงในวิทยาศาสตร์ คณิตศาสตร์ และการเขียนโปรแกรม
  • RL-Lyft คือระบบที่ปรับวิธีจัดสรรรถให้ผู้โดยสารในธุรกิจเรียกรถโดยสารให้เหมาะสมที่สุด
  • โมเดลภาษาบางส่วนได้รับการเสริมด้วยวิธีที่ก้าวข้าม Generative AI แบบการเรียนรู้ภายใต้การสอน

สามขั้นของการค้นพบ

  • การค้นพบคือกระบวนการลองหลายสิ่ง ดูว่าอะไรใช้ได้ผล แล้วเก็บสิ่งที่ได้ผลดีที่สุดไว้
  • วิวัฒนาการโดยการคัดเลือกตามธรรมชาติ วิธีการทางวิทยาศาสตร์ รวมถึงชีวิตประจำวันและการเรียนรู้ ต่างก็ขับเคลื่อนด้วยการลองแล้วจดจำสิ่งที่ได้ผล
  • ในจิตวิทยา สิ่งนี้เรียกว่า instrumental learning หรือ operant conditioning และใน machine learning เรียกว่า reinforcement learning
  • แม้แต่ในการวางแผนและการค้นหาชุดผสม แนวคิดการค้นพบแบบ “generate and test” ก็ยังใช้ได้
  • แก่นของการค้นพบคือการผสานสามขั้น ได้แก่ ความแปรผัน, การประเมิน, และ การคงไว้แบบเลือกสรร
  • การเรียนรู้แบบมีผู้สอนเพียงอย่างเดียวไม่มีวิธีประเมินสิ่งที่สร้างขึ้นระหว่างรันไทม์ และเมื่อไม่มีการประเมินก็ไม่มีการคงไว้แบบเลือกสรร จึงไม่มีการค้นพบ
  • ความแปลกใหม่อาจปรากฏขึ้นชั่วครู่ แต่หากไม่มีการรับรู้คุณค่าของมัน มันก็จะหายไปและสูญหาย

การประเมิน เป้าหมาย และความเป็นอิสระ

  • เมื่อมนุษย์ใช้ Generative AI สร้างภาพหลายภาพแล้วเลือกภาพที่ชอบ ระบบมนุษย์+AI ก็เป็นผู้ทำให้การค้นพบเสร็จสมบูรณ์
  • เมื่อมีเป้าหมายที่ชัดเจนก็สามารถประเมินได้ เช่น บางหมากนำไปสู่การรุกจน บางขั้นนำไปสู่บทพิสูจน์ และบางการกระทำให้รางวัลสูง
  • จีโนไทป์บางแบบสร้างการจำลองตัวเองได้มากกว่า และทฤษฎีบางอย่างอธิบายข้อมูลได้ดีกว่า
  • ความแปรผันไม่จำเป็นต้องสุ่มทั้งหมด และนักวิทยาศาสตร์ที่ดีไม่ได้เลือกทฤษฎีมาทดสอบแบบตามใจสุ่ม
  • หากตำแหน่งของคำตอบถูกกำหนดแน่นอนทั้งหมด ก็ไม่ใช่การค้นพบ เพราะการค้นพบต้องมี ความไม่แน่นอน
  • การอัปเดตน้ำหนักด้วย backpropagation เป็นแบบกำหนดแน่ชัด แต่เนื่องจากน้ำหนักเริ่มต้นด้วยค่าสุ่มเล็ก ๆ จึงยังมีความแปรผันอยู่
  • การตั้งต้นแบบสุ่มเป็นรูปแบบของความแปรผันที่จำเป็นและต้องทำอย่างถูกต้องเพื่อให้ได้สมรรถนะที่ดี
  • ใน backpropagation ความแปรผันเกิดขึ้นเพียงครั้งเดียวตอนเริ่มต้นเครือข่าย จึงมีผลเพียงชั่วคราว และภายหลังเครือข่ายอาจสูญเสียความสามารถในการเรียนรู้
  • “continual backpropagation” จะรีเซ็ตนิวรอนที่ใช้น้อยเป็นครั้งคราวด้วยค่าน้ำหนักสุ่มขนาดเล็ก เพื่อให้ความแปรผันดำเนินต่อไปและคงความยืดหยุ่นไว้
  • การค้นพบต้องอาศัยการประเมินจากมนุษย์หรือจากเป้าหมายที่ชัดเจน และความเป็นอิสระเต็มรูปแบบเป็นไปได้เมื่อเป้าหมายที่ชัดเจนทำหน้าที่เป็นผู้ประเมิน
  • หากต้องการความสามารถเต็มรูปแบบของ AI scientist ก็ต้องแบ่งปันเป้าหมายเพื่อให้ AI สร้าง ประเมิน ค้นพบ และมีส่วนร่วมในการบรรลุเป้าหมายนั้น

1 ความคิดเห็น

 
GN⁺ 4 시간 전
ความเห็นจาก Hacker News
  • การประยุกต์ใช้ที่ประสบความสำเร็จที่สุด เช่น การเขียนโค้ด ไม่ได้เกิดจาก LLM/การสร้างโมเดลแบบล้วน ๆ แต่เกิดจากการปิดลูปด้วย agentic harness
    ลูปสร้าง-ทดสอบ-ปรับปรุงแบบเลือกสรรเป็นรูปแบบหลักของงานวิทยาศาสตร์ และ LLM + reinforcement learning with verifiable rewards + ฟีดแบ็กการรันจากคอมไพเลอร์/เทอร์มินัล ก็จำลองกระบวนการนี้ได้ค่อนข้างดี
    สิ่งนี้ใกล้เคียงกับ Fisher/Box feedback loop ที่ถูกนำไปใช้บนระบบคำนวณสมัยใหม่(https://www-sop.inria.fr/members/Ian.Jermyn/philosophy/writi...) และ LLM ก็เป็นเพียงองค์ประกอบหนึ่งเท่านั้น
    น่าเสียดายที่ Sutton พูดถึงแค่ด้าน LLM/backprop แทนที่จะพูดถึงภาพรวมทั้งหมดในปัจจุบัน ผมสงสัยมากว่าลูปแบบนี้จะทำให้การค้นพบเป็นอัตโนมัติได้อย่างน้อยบางส่วนหรือไม่
    การค้นพบยังมีองค์ประกอบมากกว่านั้น และก็ยังไม่ชัดเจนว่าโมเดล/สมมติฐานตั้งต้นมาจากไหน หรือการอัปเดตถูกเลือกอย่างไร ผมเพิ่งเห็นว่า Hanson's Patterns of Discovery น่าจะพูดถึงแนวทางนั้น แม้ยังไม่ได้อ่าน แต่ก็สงสัยว่ามีเบาะแสเชิงกลไกหรือไม่

    • ปัญหาว่าโมเดล/สมมติฐานตั้งต้นมาจากไหนและเลือกการอัปเดตอย่างไร ก็เป็นปัญหาใน reinforcement learning เช่นกัน ดังนั้นโดยทั่วไปจึงสอนให้เลียนแบบ trajectory บางชุดด้วย supervised learning ก่อน แล้วค่อยใช้ reinforcement learning มาปรับโมเดลต่อ
      ถ้าใช้ reinforcement learning อย่างเดียวจะมีปัญหาใหญ่ว่าไปถึงรางวัลได้ยาก จึงยากที่จะเรียนรู้งานด้วย RL ล้วน ๆ มนุษย์เองก็แก้ปัญหาการค้นพบด้วยการผสานสัญญาณกำกับจากการเรียนหนังสือเข้ากับการสำรวจเพื่อแก้โจทย์ และคนที่ไม่มีการศึกษาพื้นฐานด้านคณิตศาสตร์เลย ต่อให้ฉลาดมากก็ยากจะสร้างผลงานยิ่งใหญ่ได้ การบูตสแตรปก็คือการสำรวจที่ในอดีตมีคนจ่ายต้นทุนไปแล้ว
    • เห็นด้วยเต็มที่กับ ความสำคัญของ harness
      แต่ก็ดูเหมือนจะมีปัญหาแบบเดียวกับที่อัลกอริทึมเชิงวิวัฒนาการเคยเจอ คุณอาจสร้างคำตอบผู้สมัครได้เรื่อย ๆ จนกว่าเงินจะหมด แต่ก็ยังต้องประเมินคำตอบเหล่านั้นอยู่ดี ต้องมี fitness function และนั่นหมายความว่าอย่างน้อยก็ต้องรู้รูปทรงคร่าว ๆ ของคำตอบอยู่แล้ว ถ้าใครรู้จักงานเกี่ยวกับ fitness function ที่เปิดกว้างกว่านี้ ผมอยากอ่าน
    • นักวิจัยที่วิจารณ์ LLM มักตั้งประเด็นที่ คุณสมบัติทางคณิตศาสตร์/เชิงโครงสร้าง พื้นฐานของ LLM แต่ดูเหมือนจะมองข้ามงานวิศวกรรมที่ทำรอบตัวโมเดลเพื่อให้มันมีประโยชน์
      ด้วยข้อจำกัดทางคณิตศาสตร์เหล่านั้น LLM อาจไม่ใช่เส้นทางไปสู่ AGI จริง ๆ ก็ได้ แต่ ณ ตอนนี้พูดตรง ๆ ว่ามันดูไม่สำคัญนัก
    • ประเด็นที่สำคัญที่สุดคือ ลูปเสริมแรง ถูกใช้ระหว่างการฝึก แม้ผมจะไม่เห็นด้วยกับสมมติฐานดั้งเดิมของ Sutton แต่หลังจากมี reinforcement learning แล้ว สมมติฐานนั้นก็ยิ่งอ่อนลง
  • ผมชอบกรอบความคิดประมาณว่า “สิ่งใหม่ที่ถูกสร้างขึ้นจะนับว่าเป็นความคิดสร้างสรรค์ได้ก็ต่อเมื่อมันถูกประเมิน หากไม่มีการประเมินและการเก็บรักษาผลลัพธ์ที่ดีที่สุดไว้ ก็ไม่มีอะไรถูกสร้างขึ้นจริง ๆ ความใหม่อาจโผล่มาชั่วครู่ แต่ถ้าไม่มีใครรับรู้คุณค่าของมัน มันก็จะหายไปและสูญหาย”
    คนจำนวนมากในคอมเมนต์บน Twitter และอาจรวมถึงบางคนที่นี่ ดูเหมือนจะไม่ได้อ่านเลยจากย่อหน้าเปิดไป เขาไม่ได้บอกว่าระบบ AI ไม่สามารถมีความคิดสร้างสรรค์และการค้นพบได้ แต่เขากำลังบอกว่า generative AI ที่ไม่มี harness ไม่สามารถมีความคิดสร้างสรรค์และการค้นพบได้
    นั่นหมายความว่าต้องมีอีกระบบหนึ่งที่สามารถรับรู้คุณค่าของไอเดียใหม่และจดจำมันไว้ เขายังยกตัวอย่างด้วยว่าขั้นตอนการรับรู้คุณค่านี้สามารถทำให้เป็นอัตโนมัติได้ และทำให้เกิดความคิดสร้างสรรค์กับการค้นพบได้ในระบบอัตโนมัติเต็มรูปแบบตามนิยามของเขาเอง

    • โดยรวมเห็นด้วย แต่ถ้าจะอ้างแบบนี้โดยยึดนิยามของ generative AI ที่แคบและไม่ตรงกับวิธีใช้งานจริง ก็จะกลายเป็นการโต้แย้งหุ่นฟาง
  • ถ้าผมไม่ได้พลาดอะไรไป ข้ออ้างนี้ดูเหมือนจะใช้ได้เฉพาะกับ ยุคก่อน pretraining เท่านั้น (เช่น GPT 1~4) ไม่ใช่หรือ? กระบวนทัศน์ post-training และ reinforcement learning ทุกวันนี้ก็ชัดเจนว่ามีการกลายพันธุ์ การประเมิน และการคงไว้แบบเลือกสรรอยู่แล้วไม่ใช่หรือ?

    • ต้นฉบับดูเหมือนจะมองข้าม ขั้นตอน post-training อย่าง reinforcement learning with verifiable rewards (RLVR) ไป แน่นอนว่าผมไม่ได้จะอ้างว่า Rich Sutton ไม่รู้เรื่องพวกนี้ RLVR เองก็มีวิธีประเมินที่แคบมาก
      ผมสงสัยว่านี่เป็นสัญญาณล่วงหน้าหรือไม่ว่า Keen Tech กำลังเอนเอียงไปทางแนวคิด Ineffable Intelligence ของ David Silver
    • RLVR ก็ยังไม่สามารถขยายออกไปนอก base distribution ได้ และแค่หาค่าโหมดภายในนั้นเท่านั้น
      พูดอีกแบบคือมีการประเมินและการเก็บรักษาไว้ แต่ไม่มีการกลายพันธุ์หรือ “การวางแผน”
      แต่นั่นไม่ได้แปลว่าใช้ LLM ไม่ได้ AlphaEvolve ก็ทำแบบนั้นพอดี เพียงแต่มันใช้ตัววางแผนเชิงวิวัฒนาการง่าย ๆ จากภายนอก ประเด็นใหญ่ที่เขาพูดคือ ตัววางแผนของเรายัง “ทื่อ” อยู่มาก และควรลงทุนกับจุดนี้เพิ่ม
      เวลาใช้ LLM แบบวนซ้ำใน Claude Code ผู้ใช้ก็ทำหน้าที่เป็นตัววางแผนภายนอก และนั่นก็ใช้ได้ผลดี
  • ดูเหมือนว่าการตั้งโจทย์ในการพูดถึงปัญหาที่ AlphaGo และโมเดล generative AI แบบนี้เผชิญอยู่นั้นจะแปลกไปหน่อย
    AlphaGo ถูกประเมินอย่างเข้มงวดจากภายนอก ไม่ได้เป็นสิ่งที่มันสร้างขึ้นเอง
    โมเดล generative AI เองก็สามารถประสบความสำเร็จได้ในหลายโดเมนเมื่อได้รับการประเมินอย่างเข้มงวดจากภายนอก จุดที่น่าทึ่งเป็นพิเศษคือมันประสบความสำเร็จได้ในหลายด้าน ตั้งแต่งานเขียนโปรแกรมง่าย ๆ ไปจนถึงคณิตศาสตร์แนวหน้าสุด (เช่น การเสนอ counterexample ต่อข้อคาดเดาเมื่อไม่นานนี้) และแม้แต่การเขียน kernel code ที่ปรับแต่งได้ดียิ่งขึ้น
    ในสาขาที่วิธีแก้มีความซับซ้อนอย่างยิ่ง แต่การประเมินมีความซับซ้อนน้อยกว่าเมื่อเทียบกัน ก็มีทั้ง reinforcement learning จำนวนมาก รวมถึงการค้นพบและการคัดเลือกเส้นทางแบบ “คล้ายวิวัฒนาการ” ที่เกิดขึ้นจริง
    เพราะอย่างนั้นการเอาไปเทียบกับ AlphaGo จึงดูแปลก AlphaGo ได้รับการประเมินที่เข้มงวดและเป็นอิสระจากตัวมันเอง ซึ่งมนุษย์ในฐานะแหล่งภายนอกเป็นผู้ให้มา ภายในขอบเขตที่แคบ ขณะที่ generative AI เองก็สามารถแสดงผลลัพธ์ที่น่าทึ่งได้มากเมื่อมีการประเมินแบบนั้นให้
    ที่แปลกยิ่งกว่าคือ ในหลายกรณี นวัตกรรมและความก้าวหน้าไม่ได้ต้องการไอเดียใหม่อย่างแท้จริงเสมอไป แต่เกิดจากการลงมือใช้วิธี กลยุทธ์ และไอเดียที่ต่างกันอย่างมีคุณภาพสูงเป็นชั้น ๆ ซ้อนกัน ในหลายโดเมน ความรู้ร่วมกันของเราทั้งเบาบางและซับซ้อนอย่างมาก ดังนั้นความสามารถในการนำเครื่องมือ โมเดล และไอเดียมาจัดเรียงผสมใหม่แบบเลือกสรรด้วยคุณภาพสูงจึงทรงพลังมาก
    ภายใต้ขอบเขตการสำรวจที่มีจำกัด (เวลา ทรัพยากร) ความต่างระหว่างการที่ “ตัวเลือกที่ดี” มีอยู่ 1% กับ 3% นั้นเป็นคนละโลกกันโดยสิ้นเชิง
    ที่สำคัญที่สุด เรื่องข้างต้นไม่ได้เกี่ยวกับ สติปัญญา แต่เกี่ยวกับการเพาะปลูกวิธีแก้ปัญหาแบบแห้งแล้งสำหรับปัญหาสำคัญและมีคุณค่าที่เรามีอยู่ ดูเหมือนว่าข้อถกเถียงเรื่อง AGI และสติปัญญาส่วนใหญ่จะพลาดข้อเท็จจริงง่าย ๆ นี้ เช่นเดียวกับอุปมาอุปไมยที่มักพูดกันว่า เครื่องบินไม่ได้บินเหมือนนก หรือเรือดำน้ำไม่ได้ว่ายน้ำ ซึ่งไม่เกี่ยวกับประโยชน์ใช้สอยเลย
    สุดท้าย คุณคิดจริง ๆ หรือว่าระบบเหล่านี้จะไม่สามารถทำได้ดีกว่าโดยเฉลี่ยในปัญหาที่คนทั่วไปต้องเจอตลอดชีวิต? ในโลกที่การสอบปัญหาทั่วไปในสายวิทยาศาสตร์หรือการแพทย์ให้คะแนน 60~70% ก็ได้ปริญญาแล้ว เราควรนิยามสติปัญญาของมนุษย์อย่างไร?

    • อยากเสริมสั้น ๆ ว่าเครื่องบินก็มี ปีกแบบ airfoil เหมือนนก และเรือดำน้ำก็มีถังอากาศคล้ายถุงลมของปลา
      ยังมีนกอย่างอัลบาทรอสที่แทบไม่ต้องกระพือปีกเลยขณะบิน
  • ผมมองว่าส่วนสำคัญมากของ deep learning คือ การทำ generalization แบบ compositional โมเดลเรียนรู้ชิ้นส่วนที่นำกลับมาใช้ได้ เช่น abstraction, style, procedure, constraint และนำสิ่งเหล่านั้นมาประกอบใหม่ในแบบที่ไม่เคยปรากฏเป็นทั้งชุดมาก่อนในข้อมูลฝึก
    ดังนั้นแม้วัตถุดิบจะมาจากข้อมูลในอดีต องค์ประกอบสุดท้ายก็อาจใหม่ได้อย่างมีนัยสำคัญ

  • ผมตามประเด็นของเขาไม่ค่อยทัน a) เขาหมายถึงว่าจำเป็นต้องมีอัลกอริทึมพื้นฐานแบบใหม่ที่รวมเป้าหมาย หรือก็คือ “รสนิยม” เข้าไปในขั้นฝึกโดยตรง หรือ b) เขาหมายถึงว่าควรทำให้โมเดลที่ฝึกแล้วมุ่งไปยังเป้าหมายระหว่างการวนซ้ำ?
    ถ้าเป็น a) เขาก็ไม่ได้เสนออัลกอริทึมแบบนั้น และผมก็ไม่รู้ด้วยว่าจะวัดเป้าหมายเชิงนามธรรมในระดับต่ำแบบนั้นอย่างไร หรือเขาเสนออัลกอริทึมดังกล่าวไว้แล้วแต่ผมอ่านพลาด? ถ้าเป็น b) มันมีอยู่แล้ว AlphaEvolve หรือหลายกรณีที่เขาพูดถึงก็เป็นแบบนั้น และถ้าจะพูดแบบกวน ๆ ก็คือแค่พิมพ์ /goal แล้วรันก็ได้
    อีกอย่าง ผมคิดว่าการบอกว่า LLM ทำสิ่งที่ดีและใหม่ไม่ได้ เป็นความผิดแบบเหมารวม ถ้ามันทำได้ คุณอาจบอกว่า “นั่นไม่ใหม่หรอก แค่เป็นของต่อยอด” แต่ยกตัวอย่างเช่น ถ้าผมสร้างภาษาโปรแกรมด้วย LLM และมันทำงานได้เหมาะกับจุดประสงค์ของผม นั่นไม่ใช่ทั้งของใหม่และของดีหรือ? หรือหมายความว่านอกจาก FORTRAN แล้ว ภาษาอื่นทั้งหมดไม่ใช่ของใหม่?
    ทุกอย่างล้วนต่อยอดมาจากสิ่งเดิม และเราสามารถใส่ LLM เข้าไปในลูปที่ประเมินสิ่งที่ LLM ลองทำได้ เขาไม่น่าใช่คนทื่อจนผิดพลาดขนาดนี้ ดังนั้นผมน่าจะกำลังเข้าใจอะไรผิดไป

    • ไม่ เขาดูเหมือนจะบอกว่าเรามีสิ่งเหล่านี้อยู่แล้ว และควรใช้มันให้มากขึ้น
      AlphaGo ใช้การค้นพบเมื่อประเมินทางเดินที่เป็นไปได้และทำซ้ำ
      Claude Code ก็ใช้การค้นพบเมื่อมันสร้างสคริปต์แล้วประเมินว่าสคริปต์นั้นทำงานหรือไม่
      เขากำลังบอกว่าในวิทยาศาสตร์และวิศวกรรม เราควรทำให้ระบบ AI ประเมินและทำซ้ำได้ด้วยตัวเองแบบเดียวกับที่ทำในโค้ด
      โดยพื้นฐานแล้วมันคือ วิศวกรรมฮาร์เนสเพื่อวิศวกรรม
    • LLM มีแผนที่ แต่ไม่สามารถแยก พื้นที่อุดมสมบูรณ์กับพื้นที่กันดาร ออกจากกันได้ เช่น โมเดลใหม่ของ Anthropic จะสร้าง “ยา” ที่มีแนวโน้มดีได้อย่างไร? ก็เพราะนอกจากความรู้ที่ฝังอยู่ในโมเดลแล้ว มันยังดูดซับกระบวนทัศน์การอนุมานของ AlphaFold เข้าไปด้วย Claude เพียงลำพังน่าจะออกแบบวิธีวิเคราะห์โปรตีนไม่ได้
    • ในงานนำเสนอ YouTube ของเขาชิ้นหนึ่ง เหมือนเขาจะพูดว่าเรากำลังก้าวเข้าสู่ยุคของ “นักออกแบบ” แห่งจักรวาล
      https://youtu.be/ThFq87Rp21s?si=SrKj72_X8bjnB6ED
      ประมาณนาทีที่ 35
  • เวลาใช้คำอย่าง “สร้างสรรค์” กับ AI ต้องเจาะจงให้มาก
    AI สร้างศิลปะได้ไหม? มันอาจสร้างบางสิ่งที่ให้ความรื่นรมย์ทางประสาทสัมผัสได้ แต่ท้ายที่สุดแล้วศิลปะคือการสื่ออารมณ์และความรู้สึกของมนุษย์ และแม้แต่มนุษย์ด้วยกันเองก็ไม่ได้เข้าใจศิลปะอย่างเป็นสากลเสมอไป “อารมณ์และความรู้สึก” จึงทำให้ศิลปะอาจผูกติดอย่างลึกซึ้งกับความเชื่อและประสบการณ์ร่วมของกลุ่มเฉพาะ
    แล้วมันจะสร้างสรรค์ได้ไหมในสาขาที่ไม่อัตวิสัยอย่างคณิตศาสตร์หรือวิทยาศาสตร์? Einstein ได้ทฤษฎีสัมพัทธภาพทั่วไปมาจากการทดลองทางความคิดเชิงสร้างสรรค์ หาก AI ทดสอบกรอบคณิตศาสตร์หลายแบบเพื่อแก้ปัญหาที่ปรากฏจากการทดลอง แล้วสุดท้ายเสนอ สมการสนามของทฤษฎีสัมพัทธภาพทั่วไป ออกมา แบบนั้นถือว่าสร้างสรรค์ไหม? อาจจะใช่ แต่แน่นอนว่าไม่ใช่ในแบบเดียวกัน

    • คุณสร้างศิลปะได้จากทุกอย่าง ตั้งแต่ไม้กับดินโคลนไปจนถึงแก้วกับอากาศ แน่นอนว่า AI ก็สร้างศิลปะได้
      ถ้าคำถามคือเครื่องจักรสร้างศิลปะได้หรือไม่ สุดท้ายก็ต้องมีใครสักคนเปิดเครื่องนั้นและออกแบบให้มันสร้างศิลปะอยู่ดี ดังนั้นถ้าจะว่ากันจริง ๆ ก็อาจพูดได้ว่าคนคนนั้นหรือคนเหล่านั้นต่างหากที่เป็นผู้สร้างศิลปะ
      ในทางประวัติศาสตร์ คำถามว่า “x เป็นศิลปะหรือไม่?” สุดท้ายก็มักลงเอยด้วยคำตอบว่า “ใช่” เสมอ ไม่รู้ว่าทำไมผู้คนถึงยังตกหลุมพรางเดิมซ้ำ ๆ
    • นิยามความสร้างสรรค์ของเขาเป็นแบบ closed-loop กล่าวคือ แนวคิดที่สร้างขึ้นต้องเป็นสิ่งใหม่สำหรับตัวระบบเอง ไม่ใช่ใหม่สำหรับผู้สังเกตการณ์ที่ยืนดูอยู่ข้าง ๆ
    • คำกล่าวที่ว่า “ศิลปะคือการสื่ออารมณ์และความรู้สึกของมนุษย์” มีจุดคลาดเคลื่อนเล็กน้อย ศิลปะใกล้เคียงกับการก่อให้เกิดอารมณ์ในผู้รับสาร ไม่ว่าจะเป็นผู้ชม ผู้ฟัง ฯลฯ มากกว่าการถ่ายทอดอารมณ์ของผู้สร้าง
      บทความเรื่องศิลปะใน Wikipedia เปิดต้นไว้แบบนี้
      “Art is a diverse range of cultural activity centered around works utilizing creative or imaginative talents, which are expected to evoke a worthwhile experience”
      https://en.wikipedia.org/wiki/Art
      ดังนั้น AI ก็ทำศิลปะได้ เพราะมันแค่ต้องทำให้ผู้รับสารเกิดการตอบสนองทางอารมณ์
    • โมเดลปัจจุบันถูกฝึกด้วย pastiche ของภาพและการรีมิกซ์สไตล์ แต่ก็ไม่มีเหตุผลอะไรที่เราจะเพิ่มชั้น Artistic Director ที่เรียนรู้ตัวบ่งชี้ทางอารมณ์และวัฒนธรรม แล้วคอยกำกับการทำ pastiche และรีมิกซ์ไม่ได้
      ปัญหาในทางปฏิบัติคือ ความสามารถของโมเดลในการทำตามพรอมป์ต์ยังจำกัดมาก ระดับรายละเอียดที่กำหนดได้ในการออกแบบฉากยังหยาบเกินไป จึงอาจให้เอฟเฟกต์แบบ “slop” ที่เต็มไปด้วยรายละเอียดเชิง pastiche ที่ถูกเติม ๆ มาเยอะ แต่ยังสร้างงานแบบที่วัตถุประกอบแต่ละชิ้นถูกจัดวางอย่างตั้งใจเพื่อเสริมสารของงานไม่ได้
      https://en.wikipedia.org/wiki/The_Awakening_Conscience
      โดยพื้นฐานแล้ว มันคือเวอร์ชันสำหรับผู้เชี่ยวชาญของปัญหา “ช่วยวาดนกกระทุงขี่จักรยานให้หน่อย”
      ในบางสถานการณ์ เราต้องการการควบคุมเชิงสร้างสรรค์ระดับนั้น และตัวสร้างภาพปัจจุบันยังไปไม่ถึง
      และหากไม่มีการควบคุมนั้น ก็จะไปไม่ถึงระดับ meta-creativity ที่สามารถสร้างสุนทรียะแบบใหม่ซึ่งกลายเป็นหมุดหมายทางวัฒนธรรมได้ อย่างที่ศิลปินชื่อดังเคยทำและยังคงทำอยู่
    • ทุกวันนี้คนมักโหวตลบงานศิลปะที่ทำให้รู้สึกไม่สบายใจ
      พวกเขาแค่อยากได้โดพามีน ไม่อยากคิดเพราะการคิดมันเจ็บปวด
  • ผมไม่ได้มองว่าแมชชีนเลิร์นนิงจะสร้างสรรค์หรือค้นพบอะไรใหม่ไม่ได้ ความสร้างสรรค์และการค้นพบ ท้ายที่สุดแล้วคือการคิดถึงแนวคิดที่ถูกต้องหลายอย่างพร้อมกัน ทั้งที่ภายนอกดูเหมือนไม่เกี่ยวข้องกัน ส่วนการคิดแบบอัลกอริทึมคือการจัดการกับแนวคิดที่มีความเกี่ยวข้องกันอย่างชัดเจนมากกว่า
    ต่อให้ไม่ใช่ LLM โมเดลบางประเภทก็สามารถสร้างไอเดียแบบสุ่ม จัดอันดับ แล้วแสดงผลลัพธ์ที่ดีที่สุดออกมาได้
    เพียงแต่ผมคิดว่ามนุษย์เก่งกว่าในเรื่องแบบนั้น ขณะที่แมชชีนเลิร์นนิงเก่งกว่ากับการคิดเชิงอัลกอริทึม โดยคำว่า “เก่งกว่า” ในที่นี้หมายถึงมีประสิทธิภาพกว่า และเป็นสิ่งที่เราชอบทำมากกว่า รวมถึงยังประเมินสิ่งที่ดึงดูดมนุษย์ในเชิงอัตวิสัยได้แม่นยำกว่า โดยเฉพาะ รสนิยม ของเราเองด้วย
    แมชชีนเลิร์นนิงต้องอาศัยการทำให้เป็นนามธรรมทั่วไปมากกว่าการเขียนโปรแกรม แต่ผมก็ยังคิดว่ามันควรถูกปรับให้เหมาะกับงานที่เป็นตรรกะเป็นส่วนใหญ่ เช่น การพัฒนาซอฟต์แวร์ การแปล หรือเครื่องมือสำหรับศิลปะและการค้นพบ

  • ก็ไม่เป็นไร LLM ในสภาพปัจจุบันก็มีประโยชน์อยู่แล้ว แม้มันจะไม่มีวันสร้างคณิตศาสตร์หรือฟิสิกส์แห่งคนรุ่นถัดไปออกมาได้ก็ตาม
    แม้ในหมู่มนุษย์เอง สมองที่สร้างการกระโดดทางความคิดแบบเป็นขั้นก็หาได้ยากมาก จนเราถึงขั้น จดจำพวกเขาด้วยชื่อ

    • แต่อาจกำลังมองข้ามไปว่า มนุษย์ที่หายากเหล่านั้นยืนอยู่บนกองความล้มเหลวและการค้นพบที่พอใช้ได้จำนวนมหาศาล ซึ่งสร้างโดยมนุษย์ที่ “ธรรมดา” กว่าและถูกประวัติศาสตร์ลืมเลือนไป
  • ลิงก์สำรอง: <https://xcancel.com/RichardSSutton/status/206121608774494665...>
    ตอนนี้ฝั่งผมขึ้น 502 “Bad Gateway” แต่ก็น่าจะกลับมาใช้ได้ในสักช่วงหนึ่ง