10 คะแนน โดย GN⁺ 2025-07-01 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • ความก้าวหน้าของ AI ในช่วงหลังมีหัวใจสำคัญอยู่ที่ การนำชุดข้อมูลใหม่มาใช้ มากกว่าการมีไอเดียใหม่
  • ความก้าวหน้าครั้งใหญ่ส่วนมากเกิดจากการนำเทคโนโลยีที่มีอยู่แล้วไปใช้กับแหล่งข้อมูลใหม่
  • การเปลี่ยนแปลงของข้อมูลส่งผลต่อประสิทธิภาพของโมเดลมากกว่านวัตกรรมด้านเทคโนโลยี AI
  • การเปลี่ยนผ่านกระบวนทัศน์ครั้งต่อไปก็น่าจะเกิดขึ้นได้เมื่อ นำแหล่งข้อมูลใหม่อย่าง YouTube หรือหุ่นยนต์มาใช้
  • แม้นักวิจัยส่วนใหญ่จะ มุ่งไปที่ระเบียบวิธีใหม่ แต่ในความเป็นจริงข้อมูลคือหัวใจของความก้าวหน้า

สถานะและรูปแบบของพัฒนาการ AI

  • ตลอด 15 ปีที่ผ่านมา โดยเฉพาะ 5 ปีหลัง AI ได้พัฒนาแบบ ก้าวกระโดด
  • นักวิจัยบางส่วนมองว่า ความสามารถของ AI ในงานเฉพาะด้านนั้น เติบโตแบบเอ็กซ์โปเนนเชียล คล้าย 'กฎของมัวร์สำหรับ AI'
  • แต่ในความเป็นจริง การทะลุขีดจำกัดครั้งใหญ่มิได้เกิดขึ้นบ่อย และโครงสร้างโดยรวมคือ ความก้าวหน้าที่ช้าแต่ต่อเนื่อง

นวัตกรรมมาจากไหน

  • หลายคนคิดว่าพัฒนาการของ AI มาจาก ไอเดียของวงการวิชาการและอุตสาหกรรม เช่น MIT, Stanford, Google
  • ผ่านงานวิจัยยังมี นวัตกรรมด้านระบบที่ช่วยลดต้นทุนการฝึกโมเดลและเพิ่มประสิทธิภาพ อย่างต่อเนื่อง
    • ปี 2022 Stanford พัฒนา FlashAttention เพื่อเพิ่มประสิทธิภาพการใช้หน่วยความจำ
    • ปี 2023 Google ใช้ speculative decoding เพื่อเพิ่มความเร็วในการอนุมาน
    • ปี 2024 โปรเจกต์ Muon เสนอแนวทาง optimizer แบบใหม่
    • ปี 2025 DeepSeek-R1 เปิดเป็นโอเพนซอร์สและให้โมเดลระดับใกล้เคียงแล็บ AI ชั้นนำ
  • นักวิจัยเผยแพร่ผลลัพธ์อย่างรวดเร็วและเปิดกว้างผ่าน arXiv งานประชุม และโซเชียลมีเดีย ทำให้เกิด การทดลองทางวิทยาศาสตร์แบบกระจายตัวทั่วโลก อย่างคึกคัก

ทำไมจึงรู้สึกว่านวัตกรรม AI ช้าลง

  • ระยะหลัง โมเดลใหม่อย่าง Grok 3 และ GPT-4.5 มีช่วงการพัฒนาประสิทธิภาพที่แคบลง
  • ในการประเมินใช้งานจริง เช่น โอลิมปิกคณิตศาสตร์ คะแนนกลับไม่สูง จนมีเสียงวิจารณ์ว่าการประกาศผลเกินจริง
  • การเปลี่ยนแปลงกระบวนทัศน์ครั้งใหญ่ เช่น deep learning, transformer, RLHF และ reasoning เกิดขึ้นไม่บ่อย และมักกินช่วงเวลาระดับ 10 ปี

จุดร่วมของความก้าวหน้าครั้งใหญ่: ชุดข้อมูลใหม่

  • จุดเปลี่ยนสำคัญ 4 ครั้งเกิดขึ้นสอดคล้องกับช่วงที่ มีการนำแหล่งข้อมูลใหม่มาใช้ในสเกลใหญ่เป็นครั้งแรก
    • AlexNet: ImageNet (ข้อมูลภาพขนาดใหญ่ที่มีการติดป้ายกำกับ)
    • Transformers: ข้อมูลข้อความจากทั้งเว็บ (Internet)
    • RLHF: ข้อมูล 'ข้อความที่ดี' จากฟีดแบ็กของมนุษย์
    • Reasoning: ผลลัพธ์จากเครื่องมือตรวจสอบภายนอก เช่น เครื่องคิดเลขและคอมไพเลอร์
  • หลังจากเริ่มใช้ชุดข้อมูลเหล่านี้ในระดับใหญ่เป็นครั้งแรก ก็จะตามมาด้วย การแข่งขันเพื่อแย่งชิงข้อมูลที่ยังเหลืออยู่ และ การพัฒนาเทคนิคเพื่อใช้งานข้อมูลเหล่านั้นอย่างมีประสิทธิภาพ

บทบาทของไอเดียใหม่เทียบกับข้อมูล

  • แม้ไม่ใช่สถาปัตยกรรมโมเดลแบบเดียวกัน แต่ หากได้รับข้อมูลชุดเดียวกัน ก็สามารถพัฒนาโมเดลที่มีระดับใกล้เคียงกันได้
  • ในทางปฏิบัติ การเปลี่ยนชุดข้อมูลที่ใช้ฝึก ส่งผลต่อประสิทธิภาพมากกว่า นวัตกรรมทางเทคนิค
    • ต่อให้ไม่ใช่ AlexNet แต่หากมี ImageNet ก็ยังเกิดความก้าวหน้าได้
    • ต่อให้ไม่ใช่ Transformer แต่ LSTM หรือ SSM ก็อาจให้ประสิทธิภาพใกล้เคียงกันเมื่อใช้ข้อมูลเดียวกัน
  • ชุดข้อมูลเป็นตัวกำหนดเพดานสูงสุดของผลลัพธ์การฝึก และไม่สามารถก้าวข้ามได้ด้วยการปรับปรุงโมเดลหรืออัลกอริทึมเพียงอย่างเดียว
  • อย่างที่ The Bitter Lesson เน้นไว้ สิ่งที่สำคัญจริง ๆ ในท้ายที่สุด ไม่ใช่วิธีการใหม่ แต่คือข้อมูล

ตัวเต็งของการเปลี่ยนกระบวนทัศน์ AI ครั้งต่อไป

  • การก้าวกระโดดครั้งใหญ่รอบถัดไปของ AI มีแนวโน้มสูงว่าจะไม่ได้มาจาก network ใหม่หรือวิธี RL แบบใหม่ แต่จะมาจาก แหล่งข้อมูลใหม่ที่ยังไม่ถูกใช้
  • กล่าวคือ การเปลี่ยนกระบวนทัศน์มีแนวโน้มสูงที่จะเกิดขึ้นเมื่อ สามารถรวบรวมชุดข้อมูลใหม่ในระดับมหาศาลได้
    • ตัวเต็งที่ถูกจับตามองมากที่สุด: ข้อมูลวิดีโอจาก YouTube และแพลตฟอร์มลักษณะเดียวกัน
      • มีวิดีโอถูกอัปโหลดขึ้น YouTube ราว 500 ชั่วโมงในทุก ๆ นาที
      • วิดีโอมีข้อมูลมากกว่าข้อความหลายสิบเท่า และยังเรียนรู้ได้ทั้งนัยทางภาษา บริบททางกายภาพ และบริบททางวัฒนธรรม
      • มีความเป็นไปได้สูงที่บริษัทบิ๊กเทคอย่าง Google จะเริ่มฝึกบนชุดข้อมูลนี้อย่างจริงจังในไม่ช้า
    • อีกความเป็นไปได้หนึ่ง: การเก็บข้อมูลโลกกายภาพผ่านหุ่นยนต์ (embodied system)
      • หากโครงสร้างพื้นฐานสำหรับประมวลผลและฝึกข้อมูลจากกล้องและเซนเซอร์บน GPU ในสเกลใหญ่พร้อมใช้งาน ข้อมูลประเภทนี้ก็มีโอกาสสูงจะกลายเป็นต้นตอของนวัตกรรม AI เช่นกัน
  • ข้อมูลข้อความกำลังเข้าใกล้ขีดจำกัด ดังนั้น แหล่งข้อมูลใหม่อย่างวิดีโอและหุ่นยนต์อาจเป็นตัวกำหนดอนาคตของ AI

บทสรุป

  • พัฒนาการครั้งต่อไปของ AI จะไม่ได้มาจากไอเดียหรืออัลกอริทึมใหม่ แต่มาจากแหล่งข้อมูลใหม่
  • แม้ว่า 95% ของนักวิจัยจะมุ่งไปที่ระเบียบวิธีใหม่ แต่นวัตกรรมที่แท้จริงกลับเกิดจากการเปลี่ยนแปลงของชุดข้อมูล
  • หากต้องการให้ AI ก้าวหน้า สิ่งที่ควรโฟกัสคือ ไม่ใช่ไอเดียใหม่ แต่คือการจัดหาข้อมูลใหม่

1 ความคิดเห็น

 
GN⁺ 2025-07-01
ความคิดเห็นจาก Hacker News
  • ระบุว่าวิธีที่ John Carmack ใช้สำรวจประเด็นนี้ค่อนข้างน่าสนใจ
    ได้แบ่งปันประสบการณ์การฝึกโมเดลให้เล่นวิดีโอเกม 2D ได้เก่งเหนือมนุษย์ จากนั้นจึงทดสอบว่ามันจะเล่นเกม 2D ที่ไม่เคยเห็นมาก่อนหรือด่านใหม่ ๆ ได้ดีหรือไม่
    ผลลัพธ์คือประสิทธิภาพของโมเดลกลับลดลงเมื่อเจอเกมที่ไม่มีประสบการณ์มาก่อน จึงเน้นว่านี่ไม่ใช่ปัญญาประดิษฐ์ แต่เป็นเพียงความชำนาญเฉพาะงาน
    ระบุว่าการสร้างปัญญาทั่วไปที่เรียนรู้เกม 2D ใหม่ได้เร็วกว่ามนุษย์นั้นยากกว่าการปลุกกระแสความกลัวเรื่อง ASI มาก

    • ชี้ว่าจริง ๆ แล้วโมเดลที่ John Carmack ใช้เพื่อสรุปผลนี้ไม่ใช่เทคโนโลยีล่าสุด และเป็นโปรเจกต์เชิงสนุกที่ไม่ได้ใช้ foundational model ราคาแพง
      หากเป็นงานวิจัยวิดีโอ/วิชัน AI ที่ลึกจริง วิธีที่เหมาะกว่าคือการควบคุม latent space เชิงความน่าจะเป็นที่ใช้ได้กับเกมโดยรวม
      ยกตัวอย่างความสามารถของ veo3 ในการสร้างวิดีโอภายใต้ข้อจำกัดของพรอมป์ต์ เพื่ออธิบายว่า AI สามารถทำให้ทั่วไปกับเกม 2D·3D ได้
      อ้างว่า veo3 สามารถแสดงผลลัพธ์คล้ายกับว่าเล่นเกมใด ๆ ได้อย่างสมเหตุสมผล แม้จะไม่ได้ fine-tuning สำหรับเกมใดเกมหนึ่งโดยเฉพาะ

    • บอกว่าเข้าใจยากว่าทำไมผู้คนถึงพยายามพาการถกเถียงไปในทิศทางแบบนี้
      มีหลายวิธีอย่างชัดเจนในการบรรลุเป้าหมายที่กำหนดไว้ และตั้งคำถามว่าทำไมการทดลองของ John Carmack ซึ่งไม่ใช่ผู้เชี่ยวชาญด้าน AI จึงถูกมองเป็นมาตรฐาน

    • คิดว่าอาจเป็นเพราะขยายขนาดโมเดลมากเกินไปจนเกิด overfitting (ภาวะที่พอดีกับชุดข้อมูลเฉพาะเกินไป)
      สงสัยว่าหากใส่ข้อจำกัดให้โมเดล อาจชี้นำให้มันเรียนรู้ heuristic (กฎเชิงประสบการณ์) ที่ทั่วไปมากขึ้นได้หรือไม่
      ย้ำว่าหากเป็น AI ที่ไม่มีข้อจำกัด สุดท้ายมันก็คงแค่เล่นซ้ำสถิติ speedrun ที่ดีที่สุดเท่านั้น แต่เมื่อเจอคอนเทนต์ใหม่ heuristic ที่หลากหลายจะสำคัญกว่ามาก

    • ระบุว่าหัวข้อที่พูดถึงคือสาขา Meta-Reinforcement Learning
      บอกว่าการที่ John Carmack มาสำรวจสาขานี้มีความหมาย แต่ไม่ใช่หัวข้อวิจัยใหม่โดยสิ้นเชิง
      เกริ่นนำ Meta-Reinforcement Learning แบบง่าย

    • บอกว่าประเด็นว่าโมเดลมี ‘สติปัญญาจริง’ หรือไม่ เป็นหัวข้อที่น่าสนใจสำหรับวงวิชาการที่สนใจ AGI แต่สำหรับผู้ใช้จำนวนมากที่ใช้ LLM ให้เกิดประโยชน์จริง เรื่องนี้ไม่สำคัญนัก
      มีจุดยืนว่าไม่ได้สนใจนักว่าความก้าวหน้าตอนนี้จะนำไปสู่ AGI หรือไม่
      แชร์ว่าต่อให้หยุดอยู่แค่ Claude 4 ก็ยังคงใช้งานอย่างมีประโยชน์ต่อไป
      เน้นว่าประเด็นที่น่าสนใจกว่าการถกเถียงเรื่อง AGI คือทุกวันนี้ผู้คนใช้ AI อย่างไรจริง ๆ

  • กล่าวอย่างมั่นใจว่าตอนนี้พวกเรากำลังอยู่ในยุคเริ่มต้นของ AI
    ยกตัวอย่างว่ามีความก้าวหน้าที่น่าทึ่งใน AI สองด้านคือภาษา (LLM: GPT-4, Claude) และการมองเห็น (CLIP, DALL·E)
    ชี้ว่าคอมพิวเตอร์สามารถแต่งบทกวี สร้างโค้ด อธิบายภาพ และสนทนาระดับมนุษย์ได้ แต่ที่จริงแล้วเป็นเพียงการขยายสองโมดาลิตีคือข้อความและภาพเท่านั้น
    สติปัญญาของมนุษย์มีลักษณะเป็นมัลติโมดัลที่ประสานกันอย่างหนาแน่น ทั้งการสัมผัส รส กลิ่น การเคลื่อนไหว อารมณ์ และประสาทสัมผัสอื่น ๆ
    LLM หรือ Vision Transformer แทบยังไม่สามารถจำลององค์ประกอบเหล่านี้ได้
    เน้นว่าพรมแดนที่แท้จริงของ AI คือโลกของประสาทสัมผัสอันซับซ้อนและอุดมสมบูรณ์ในชีวิตประจำวัน
    อธิบายว่าสิ่งนี้ต้องการเซนเซอร์แบบใหม่ วิธีแทนข้อมูลที่ก้าวข้าม token และวิธีฝึกโมเดลแบบใหม่ที่เรียนรู้จากประสบการณ์

    • โต้แย้งอย่างสุภาพต่อความเห็นที่ว่าภาษาและการมองเห็นเป็นเพียงจุดเริ่มต้นของแก่นแท้ปัญญาประดิษฐ์
      บอกว่าการสัมผัสก็น่าสนใจ แต่สำหรับปฏิสัมพันธ์ทั้งหมดบนโลกออนไลน์ เสียง วิดีโอ และภาษาเพียงพอแล้ว
      อธิบายว่าความต่างชี้ขาดระหว่างมนุษย์กับสัตว์ไม่ได้อยู่ที่ ‘ประสาทสัมผัสที่เหลือ’ แต่อยู่ที่เสียง ภาพ และภาษา
      มองว่าสำหรับการกระทำในโลกจริง การบูรณาการการสัมผัส การรับรู้ท่าทาง และกลิ่นนั้นสำคัญ แต่แก่นของสติปัญญาเองอยู่ที่ภาษาและการมองเห็น

    • คิดว่าสองสิ่งที่ต้องก้าวหน้าที่สุดคือความสามารถในการปรับตัวแบบอินทรีย์และความคงอยู่ของความทรงจำ
      ชี้ว่าสมองมนุษย์มีโครงสร้างที่เปลี่ยนแปลงแบบไดนามิก แต่ LLM คงที่ และจะ ‘เรียนรู้’ ได้ก็ต่อเมื่อถูกฝึกซ้ำด้วยข้อมูลที่ให้มา
      ย้ำว่าหากต้องการสร้างเครื่องจักรอัจฉริยะ มันต้องเรียนรู้แบบเรียลไทม์และจดจำข้อมูลได้ด้วยตัวเอง

    • เสนออีกมุมมองว่าด้วยสถาปัตยกรรม AI ที่เรามีอยู่ตอนนี้ ภาษาและการมองเห็นอาจเป็นจุดสิ้นสุดแล้วก็ได้
      แม้ช่วงไม่กี่ปีที่ผ่านมาเราจะเห็นข่าว LLM มากมาย แต่แทบไม่มีความก้าวหน้าที่โดดเด่นในสาขา AI อื่นนอกจากนั้น

    • เน้นว่าอนาคตของความก้าวหน้า AI ที่แท้จริงคือชีวิตแบบมนุษย์ที่เต็มไปด้วยประสาทสัมผัสและผูกพันกับโลกกายภาพ
      เปรียบเทียบว่าดังที่ใน Dr. Who เคยกล่าวถึง Dalek ว่าไม่ใช่เครื่องจักรที่มีสมอง แต่เป็นเครื่องจักรทั้งตัว มนุษย์เองก็เช่นกัน ทั้งร่างกายคือความเป็นตัวเรา

    • แสดงมุมมองเชิงประชดต่อคำว่า ‘ความก้าวหน้าที่ไม่น่าเชื่อ’ ว่าเป็นเพียงการนำเทคโนโลยีจากยุค 1970 ที่เคยถูกทิ้งไป มาใช้กับคอมพิวเตอร์ที่ทรงพลังกว่าล้านเท่า
      บอกว่ายังไม่เห็นนวัตกรรมพื้นฐานด้านโครงสร้างโมเดลหรือวิธีคำนวณที่ดูจะทำให้ประสิทธิภาพเพิ่มขึ้นแบบเอ็กซ์โปเนนเชียลต่อไปได้โดยเฉพาะ

  • กล่าวถึงความสับสนระหว่างความก้าวหน้าทางวิทยาศาสตร์กับความก้าวหน้าทางเทคโนโลยี
    อธิบายว่าเมื่อวิทยาศาสตร์ก้าวหน้า มักพุ่งขึ้นอย่างรวดเร็วแบบ S-curve และหลังจากนั้นจะเข้าสู่ช่วงผลตอบแทนลดลงเรื่อย ๆ
    ชี้ให้เห็นว่าผู้คนมักแยกไม่ออกระหว่างช่วงเพิ่มประสิทธิภาพอย่างรวดเร็วกับช่วงชะลอตัว

    • เหน็บว่าการเรียกการโหมกระแสหรือความคาดหวังธรรมดา ๆ ว่า ‘ความก้าวหน้าทางเทคโนโลยี’ นั้นใจกว้างเกินไป

    • เสริมว่าผู้คนจำนวนมากไม่ค่อยเข้าใจความแตกต่างระหว่าง S-curve กับฟังก์ชันเอ็กซ์โปเนนเชียล
      อธิบายว่าในบางช่วงมันอาจดูแทบไม่ต่างกันเลย

  • สงสัยว่าทำไม DeepSeek ถึงถูกหยิบยกขึ้นมากล่าวถึงเป็นพิเศษ

  • สำหรับคนที่อ่านงานวิจัยและเปเปอร์ด้านสถาปัตยกรรมโมเดล ชี้ว่ามีไอเดียใหม่จำนวนมากหลั่งไหลออกมาอยู่ตลอด
    แต่ผลลัพธ์ที่น่าสนใจจริง ๆ มีเพียงบางส่วนเท่านั้น
    คาดเดาว่าไลบรารีอย่าง PyTorch อาจมีผลในทางที่ขัดขวางการพัฒนาเชิงทดลองด้วย
    มองว่าการหยิบองค์ประกอบพื้นฐานมาใช้แบบสำเร็จรูปกลายเป็นเรื่องปกติมากเกินไป จนผู้คนไม่ค่อยคิดลึกกับแต่ละองค์ประกอบแล้ว
    ตั้งข้อสงสัยกับแนวโน้มที่ชอบเอา tokenizer หรือ vision model ที่คนอื่นทำไว้มาแปะเพิ่มแบบอัตโนมัติ เพียงเพื่อให้ผ่านเช็กลิสต์ใน ‘model card’

    • อธิบายว่านี่เป็นรูปแบบที่พบได้บ่อยและเป็นธรรมชาติมากในโลกมนุษย์ด้วย
      เมื่อ ROI ของการสำรวจทางปัญญาบนเทคโนโลยีพื้นฐานปัจจุบันลดลง ทรัพยากรบุคคลย่อมไหลไปยังที่อื่นชั่วคราว
      แต่เมื่อถึงขีดจำกัด ท้ายที่สุดคนเก่งที่สร้างนวัตกรรมก็จะกลับมาสร้างความก้าวหน้าครั้งใหญ่ในพื้นที่พื้นฐานอีกครั้ง
      มองว่า foundational tech รุ่นถัดไปอย่าง PyTorch ก็จะวิวัฒน์ในลักษณะนี้เช่นกัน

    • ชี้ว่าตลอด 2~3 ปีที่ผ่านมา ความปรับปรุงเชิงสถาปัตยกรรมขนาดใหญ่ที่ทำให้คนจำนวนมากรู้จักและใช้ในชีวิตประจำวันจริง ๆ นั้นเกิดขึ้นไม่บ่อยนัก แต่ในขณะเดียวกันผู้คนก็มักมองข้ามว่าระยะเวลา 3 ปีนั้นสั้นมาก
      นอกจาก LLM แล้ว ก็ยังมีงานวิจัยที่น่าสนใจและมีประโยชน์อีกมาก แม้ตัวเองจะไม่ใช่ผู้เชี่ยวชาญในสาขานั้น แต่ก็รู้สึกว่ามีความพยายามใหม่ ๆ หลากหลายมหาศาลกำลังหลั่งไหลออกมา

    • บอกว่าถึงไม่มี PyTorch คนที่ไม่ได้คิดจะทดลองอะไรใหม่ ๆ ก็คงยังมีแนวโน้มแบบเดิมอยู่ดี

  • เสนออีกมุมมองว่าเมื่อนึกถึงระบบที่จำลองสติปัญญาระดับมนุษย์ ความแตกต่างหลักของโมเดลอาจมาจาก ‘การเปลี่ยนแปลงของชุดข้อมูล’
    เพราะในความเป็นจริง ความทรงจำ การศึกษา และภูมิหลังของมนุษย์เองก็มีส่วนอย่างมากต่อความสามารถในการแก้ปัญหา จึงมีความคล้ายคลึงกันอยู่

  • สงสัยถึงความเป็นไปได้ที่โมเดลจะได้ข้อมูลมาแบบเชิงรุก นั่นคือค้นหาข้อมูลและเรียนรู้ด้วยตัวเอง
    เสนอว่าจำเป็นต้องมีวิธีที่เหมือนทารกมนุษย์ คือทำกิจกรรมหลากหลายและเรียนรู้ผ่านประสบการณ์ตรง
    บอกว่าควรหลุดพ้นจากสภาพปัจจุบันที่มีแต่ป้อนข้อมูลเข้าไปเรื่อย ๆ และยกตัวอย่างว่าตอนนี้มันสร้างวัตถุ 3D ได้แล้ว จึงเป็นทิศทางที่ดีหากนำไปผสานกับตัวจำลองฟิสิกส์
    ยก Cursor เป็นตัวอย่าง โดยเสนอว่าหลังตั้งกฎแล้ว หากใช้ reasoning model อนุมานเหตุผลของกฎนั้นและสะท้อนกลับเข้าไปในข้อมูลฝึก ก็จะยิ่งเพิ่มคุณค่าของข้อมูลได้
    มองว่าหากย้อนดูเหตุผลของการเลือกพฤติกรรมของผู้ใช้แล้วทำเป็นข้อมูลฝึก ก็อาจได้อินไซต์ที่ลึกขึ้น

    • แจ้งว่าขณะนี้มีการวิจัยอย่างคึกคักในด้าน simulation และ ‘embodied AI’ เช่น แขนกลหรือรถยนต์

    • ระบุว่าวิธีการนั้นก็คือ reinforcement learning นั่นเอง และเป็นสาขาที่ไม่ได้ง่ายในทางปฏิบัติ

  • เสนอความเห็นว่าไอเดียใหม่ส่วนใหญ่ล้วนเริ่มต้นจากไอเดียเก่า
    AI เป็นเครื่องมือที่เข้าถึงไอเดียเก่าได้เร็วขึ้นและด้วยมุมมองใหม่
    เน้นว่านวัตกรรมมักเกิดจากช่องว่างหรือจุดตัดของไอเดียเก่า และท้ายที่สุดนวัตกรรมก็เกิดขึ้นบนผลงานของคนรุ่นก่อน
    อธิบายว่าสามารถมอง AI เป็นลิฟต์ที่พาขึ้นไปยืนบนไหล่ยักษ์ได้ทันที และสุดท้ายก็ขึ้นอยู่กับว่าจะใช้เครื่องมือนั้นอย่างไร

    • เห็นด้วยเรื่องการเข้าถึงไอเดียเก่า แต่โต้แย้งว่าการเข้าถึงด้วยมุมมองใหม่เองก็ยังมีข้อจำกัด
      บอกว่า LLM ช่วยตีความข้อมูลได้บางส่วน แต่ยังไม่เพียงพอที่จะสร้างไอเดียใหม่อย่างแท้จริงเมื่อเทียบกับงานวิจัยเดิม
      อธิบายว่าการใช้ LLM อาจเร่งงานวิจัยในบางพื้นที่เฉพาะได้ แต่ในพื้นที่อื่นก็ยังมีข้อจำกัด

    • ยกตัวอย่างว่าจินตนาการถึงมนุษย์ที่มีความรู้ทั้งหมดแล้วแต่ยังไม่สามารถคิดไอเดียใหม่อย่างแท้จริงออกมาได้ เป็นเรื่องยาก

    • เน้นว่าประเด็นของบทความคือการพูดถึงนวัตกรรมใน AI เอง และการเพิ่มปริมาณ/คุณภาพของข้อมูล
      บอกว่าแม้จะมีนวัตกรรมพื้นฐานอยู่จริง แต่วิธีปรับปรุงประสิทธิภาพที่ดีที่สุดก็ยังคงเป็นการมีข้อมูลมากขึ้นและมีคุณภาพสูงขึ้น
      ยกวงจรการพัฒนา AI แบบ ‘ข้อมูลมากขึ้น → โมเดลลึกขึ้น → วนซ้ำอีกครั้ง’ เป็นตัวอย่าง
      และสงสัยว่าความเห็นของตนเชื่อมโยงกับมุมมองนี้อย่างไร

    • โต้แย้งความคิดที่ว่าไอเดียใหม่ทั้งหมดมาจากของเก่าเท่านั้น โดยยกเกร็ดการค้นพบโครงสร้างวงแหวนเบนซีนเป็นตัวอย่าง
      อธิบายว่าแนวคิดเรื่องโครงสร้างวงแหวนเบนซีนเกิดจากภาพในความฝันของงูที่กัดหางตัวเอง (‘Ouroboros’) ซึ่งสะท้อนว่า จินตนาการที่ไม่เคยมีมาก่อนก็มักเป็นแหล่งกำเนิดของนวัตกรรมได้

  • พูดว่า LLM รุ่นล่าสุดสุดท้ายแล้วก็เป็นเพียงการบวกและคูณตัวเลข
    พูดแบบสุดโต่งว่าเป็นสิ่งที่ชาวบาบิโลนทำกันมาตั้งแต่ 4,000 ปีก่อน

    • อธิบายว่ามนุษย์เองก็เป็นเพียงผลของปฏิสัมพันธ์ของคลื่น และความหมายทั้งหมดก็เป็นสิ่งที่ถูกให้คุณค่าในภายหลัง
      ระบุว่าหากมีวิธีทำดัชนีใน conceptual space ก็สามารถสำรวจความไม่คาดคิดได้ และความเป็นไปได้ก็ไร้ขีดจำกัด

    • เปรียบเทียบว่าชาวบาบิโลนทำสิ่งนี้บนแผ่นดินเหนียว ขณะที่ยุคปัจจุบันประมวลผลภายในสารกึ่งตัวนำที่มีผนังหนาระดับอะตอม
      จึงเสนอว่าความแตกต่างในวิธีการนั้นมีมากทีเดียว

  • คิดว่าการฝึก AI ในปัจจุบันจริง ๆ แล้วใกล้เคียงกับการทำให้มันท่องจำชุดข้อมูล
    เน้นว่าไม่ใช่วิธีที่มันคิดกับข้อมูลด้วยตัวเองแล้วอนุมานข้อสรุปและจดจำเอาไว้
    ประเมินว่ามันอาจรู้ ‘ข้อเท็จจริง’ ในหัวข้อที่กำหนดได้มากกว่าคนจบ PhD แต่เมื่อเป็นการคิดกับเนื้อหาเหล่านั้น มนุษย์ก็ยังเหนือกว่าอยู่ดี

    • เลยคาดเดาว่านั่นอาจเป็นเหตุผลที่แม้แต่ผู้จบดอกเตอร์ก็มักวางตำราไว้ใกล้ตัว
      และย้อนถามว่าจำเป็นจริงหรือที่โมเดล AI จะต้องจำข้อเท็จจริงที่ถูกบันทึกไว้แล้วทั้งหมด

    • อธิบายว่าในความเป็นจริง กระบวนการนั้นซับซ้อนกว่านิดหน่อย
      มองว่าเป็นการทำให้ข้อมูลถูกทำให้เป็นภายในในรูปแบบ heuristic เพื่อให้ตอบสนองต่ออินพุตได้อย่างเหมาะสม
      heuristic นี้บางครั้งก็ทำให้มนุษย์ประหลาดใจ และบางทีก็แสดงการแก้ปัญหาที่แปลกใหม่ได้
      แม้แนวคิดเรื่อง ‘การคิด’ จะกว้างเกินกว่าจะตัดสินได้ง่าย แต่ก็วินิจฉัยว่ายังห่างไกลจาก AGI มาก

    • ชี้ว่าแนวอธิบายเรื่อง ‘จำข้อเท็จจริงในหัวข้อหนึ่งได้มากกว่าคนจบ PhD’ นั้น ถ้าเช่นนั้นโน้ตบุ๊กก็เก็บข้อเท็จจริงได้มากกว่าเช่นกัน