21 คะแนน โดย GN⁺ 2025-06-07 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • โมเดลการให้เหตุผลขนาดใหญ่ (Large Reasoning Models, LRMs) แสดงให้เห็นถึงการปรับปรุงประสิทธิภาพในระดับหนึ่งในการแก้ปัญหาที่ซับซ้อน แต่ก็เผยให้เห็นอย่างชัดเจนถึง ข้อจำกัดเชิงพื้นฐานและปัญหาด้านการขยายขนาด
  • LRMs แสดงปรากฏการณ์ที่ กระบวนการให้เหตุผลพังทลายลงอย่างรวดเร็วเมื่อความยากของปัญหาเพิ่มขึ้น และจากการวิเคราะห์ยังพบปรากฏการณ์ย้อนแย้งที่เมื่อความพยายามในการให้เหตุผล (ปริมาณโทเค็นที่ใช้) เกินจุดวิกฤตกลับลดลงแทน
  • เมื่อ เปรียบเทียบ LLM มาตรฐานกับ LRMs ภายใต้ทรัพยากรการประมวลผลเท่ากัน พบว่าในโจทย์ง่าย LLM มาตรฐานทำได้ดีกว่า, ในระดับความยากปานกลาง LRMs ได้เปรียบ, และในโจทย์ยากมากทั้งสองแบบล้มเหลวทั้งหมด
  • LRMs มีข้อจำกัดอย่างชัดเจนในการให้เหตุผลเชิงอัลกอริทึมแบบชัดแจ้งและในกระบวนการคิดที่สม่ำเสมอ โดยแสดงพฤติกรรมที่แตกต่างหรือไม่สอดคล้องกันไปตามสภาพแวดล้อมของปริศนาแต่ละแบบ
  • งานวิจัยนี้ยืนยันถึง ปัญหาความน่าเชื่อถือและข้อจำกัดด้านการขยายขนาดของโมเดลให้เหตุผลในปัจจุบัน และชี้ว่าการออกแบบ AI รุ่นถัดไปจำเป็นต้องมีการประเมินที่แม่นยำและการปรับปรุงสถาปัตยกรรม
  • งานวิจัยของ Apple เรื่อง "The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity"

ภาพรวมและวัตถุประสงค์ของงานวิจัย

  • การปรากฏขึ้นของ โมเดลเฉพาะทางด้านการให้เหตุผลบนฐาน LLM ขนาดใหญ่ (LRMs) ในช่วงหลัง ทำให้เกิดความจำเป็นในการศึกษาว่าโครงสร้างของ “การคิด” และข้อจำกัดของโมเดลเหล่านี้ในการแก้ปัญหาเป็นอย่างไร
  • ปัจจุบันการประเมินส่วนใหญ่ยังอิงกับอัตราคำตอบถูกบนเบนช์มาร์กคณิตศาสตร์และโค้ดดิ้ง ซึ่งไม่สามารถวัดได้อย่างแม่นยำทั้งปัญหาการปนเปื้อนของข้อมูลและคุณภาพของกระบวนการ “คิด” ภายใน
  • งานวิจัยนี้จึงออกแบบสภาพแวดล้อมแบบปริศนาที่ สามารถควบคุมระดับความซับซ้อนได้อย่างละเอียดโดยคงโครงสร้างเชิงตรรกะไว้ เพื่อให้วิเคราะห์ได้ไม่เพียงผลลัพธ์สุดท้าย แต่รวมถึง ลำดับการให้เหตุผลภายใน ด้วย

สภาพแวดล้อมการประเมินและวิธีการทดลอง

การออกแบบสภาพแวดล้อมแบบปริศนา

  • ใช้สภาพแวดล้อมแบบปริศนา 4 แบบต่อไปนี้เพื่อควบคุมการทดลองและปรับระดับความซับซ้อนอย่างเป็นระบบ
    • หอคอยฮานอย: ปรับความยากด้วยจำนวนแผ่น โดยไม่ประเมินว่าเป็นคำตอบที่เหมาะที่สุดหรือไม่ แต่ตัดสินจากการไปถึงสถานะเป้าหมาย
    • หมากกระโดดสลับตำแหน่ง: ควบคุมความซับซ้อนด้วยจำนวนหมากสีแดง สีน้ำเงิน และช่องว่าง โดยมีเป้าหมายสุดท้ายคือสลับตำแหน่งกันให้สำเร็จ
    • ข้ามแม่น้ำ: ปรับความยากด้วยจำนวนคู่ผู้กระทำ-เอเจนต์และความจุของเรือ โดยต้องย้ายทั้งหมดภายใต้เงื่อนไขข้อจำกัด
    • โลกของบล็อก: ปรับด้วยจำนวนบล็อก โดยย้ายจากสถานะตั้งต้นไปยังสถานะการเรียงซ้อนตามเป้าหมาย

แต่ละสภาพแวดล้อมสามารถเพิ่มความซับซ้อนได้อย่างละเอียดผ่านการปรับจำนวนองค์ประกอบของปริศนา

ผลการทดลองสำคัญ

1. รูปแบบการให้เหตุผล 3 แบบตามระดับความซับซ้อน

  • ความซับซ้อนต่ำ: LLM มาตรฐาน มีประสิทธิภาพมากกว่า (ประหยัดโทเค็นกว่า) LRMs และในหลายกรณีก็มีอัตราคำตอบถูกสูงกว่า
  • ความซับซ้อนปานกลาง: กระบวนการคิดที่ยาวขึ้น (Chain-of-Thought) และการไตร่ตรองตนเองของ LRMs แสดงข้อได้เปรียบด้านประสิทธิภาพ
  • ความซับซ้อนสูง: โมเดลทั้งสองแบบ เกิดการพังทลายของประสิทธิภาพทันที (อัตราคำตอบถูกเป็น 0) และยังพบว่าที่จุดนี้ LRMs ใช้โทเค็นเพื่อการให้เหตุผลลดลงด้วย ซึ่งเป็นความไร้ประสิทธิภาพอีกรูปแบบหนึ่ง

2. การวิเคราะห์เชิงลึกของร่องรอยการคิด (Reasoning Trace)

  • “คิดมากเกินไป (overthinking)”: ในปัญหาความซับซ้อนต่ำ LRMs มักพบคำตอบที่ถูกตั้งแต่ช่วงต้น แต่หลังจากนั้นกลับทำการสำรวจที่ผิดซ้ำ ๆ ต่อไป แสดงรูปแบบของ การสิ้นเปลืองการประมวลผลโดยไม่จำเป็น
  • ความยากปานกลาง: หลังตรวจพบคำตอบผิด โมเดลค่อย ๆ เข้าใกล้คำตอบที่ถูก แต่ต้องใช้กระบวนการสำรวจมากขึ้นกว่าก่อนหน้า
  • ความยากสูง: ยืนยันการเกิด ภาวะพังทลาย ที่ไม่สามารถสร้างคำตอบที่ถูกต้องได้ตลอดทั้งกระบวนการให้เหตุผล

3. ข้อจำกัดในการรันอัลกอริทึม

  • แม้จะ ให้ชุดอัลกอริทึมที่กำหนดไว้ผ่านพรอมป์ต์ โมเดลก็ยังไม่สามารถรันตามนั้นได้อย่างน่าเชื่อถือแม้แต่ในระดับพื้นฐาน
  • สิ่งนี้ชี้ให้เห็นถึง การขาดความสามารถพื้นฐานในการจัดการสัญลักษณ์ ที่จำเป็นต่อการปฏิบัติตามโครงสร้างเชิงตรรกะอย่างถูกต้อง ไม่ใช่แค่การ “หาคำตอบ” เท่านั้น

4. ปัญหาเบนช์มาร์กและการปนเปื้อนของข้อมูล

  • บนเบนช์มาร์กคณิตศาสตร์เดิม (MATH500, AIME24, AIME25) พบว่า ช่องว่างด้านประสิทธิภาพระหว่างโมเดลแบบคิดและไม่คิดไม่สม่ำเสมอ
  • ในกรณีของ AIME25 ยังเผยให้เห็นข้อจำกัดที่ทำให้ประเมินความสามารถการให้เหตุผลที่แท้จริงของโมเดลได้ยาก เนื่องจากความเป็นไปได้ของการปนเปื้อนของข้อมูล

บทสรุปของงานวิจัยและนัยสำคัญ

  • งานวิจัยนี้นำเสนอ สภาพแวดล้อมการประเมินเชิงละเอียดบนฐานปริศนา เพื่อวิเคราะห์เชิงประจักษ์อย่างลึกซึ้งว่า LLM สำหรับการให้เหตุผลมีความสามารถในการคิดจริงหรือไม่ และข้อจำกัดของมันปรากฏขึ้นตรงจุดใด
  • โมเดลให้เหตุผลที่มีอยู่ในปัจจุบันมี ข้อจำกัดเชิงพื้นฐานที่พังทลายลงโดยสิ้นเชิงเมื่อเกินระดับความซับซ้อนบางจุด และปัญหานี้ไม่สามารถแก้ได้ด้วยงบประมาณโทเค็นหรือการเพิ่ม self-reflection แบบง่าย ๆ
  • ตั้งคำถามต่อ ข้อจำกัดของวิธีประเมินแบบเดิม และเสนอแนวทางสภาพแวดล้อมการวัดผลแบบห้องปฏิบัติการ
  • แม้แต่โมเดลให้เหตุผลระดับ SOTA ในปัจจุบันก็ยัง ไม่สามารถบรรลุความสามารถในการแก้ปัญหาแบบทั่วไปได้
  • มี ข้อจำกัดด้านการสเกลของการใช้โทเค็นเพื่อการให้เหตุผลตามความซับซ้อน
  • เสนอการประเมินแบบ อิงร่องรอยกระบวนการคิด (trace) เพื่อวิเคราะห์กลไกการแก้ไขตนเองและการค้นหาความผิดพลาด
  • พบ ความล้มเหลวและความไม่สม่ำเสมอในการรันอัลกอริทึมแบบชัดแจ้ง
  • ผลลัพธ์นี้ตอกย้ำความสำคัญของการออกแบบ AI รุ่นถัดไป การประเมินความน่าเชื่อถือ และการวัดสมรรถนะของโมเดลในสภาพแวดล้อมที่หลีกเลี่ยงปัญหาการปนเปื้อนของข้อมูล

แนวโน้มงานวิจัยที่เกี่ยวข้อง

  • มีความพยายามหลากหลายในการเสริมความสามารถด้านการให้เหตุผล เช่น CoT (Chain-of-Thought), เทคนิคการตรวจสอบตนเอง, และการกระตุ้นการคิดด้วยการเรียนรู้เสริมกำลัง
  • ความยากในการได้มาซึ่งข้อมูล CoT คุณภาพสูง และข้อจำกัดของแนวทาง supervised/RL เริ่มเด่นชัดขึ้น
  • ตัวอย่างเด่น ได้แก่ DeepSeek-R1, Claude 3.7 Sonnet Thinking
  • มีการตั้งคำถามต่อปัญหา “การคิดมากเกินไป” (overthinking) และความน่าเชื่อถือของตัวชี้วัดจากการปนเปื้อนของเบนช์มาร์ก
  • ย้ำความจำเป็นของ การประเมินบนฐานสภาพแวดล้อมแบบปริศนาที่ควบคุมความซับซ้อนของปัญหาได้อย่างละเอียด

งานต่อไปและข้อจำกัด

  • จำเป็นต้องมีการศึกษาต่อเกี่ยวกับ ข้อจำกัดเชิงพื้นฐานของโมเดลให้เหตุผลในการทำตามตรรกะอย่างชัดแจ้ง/การจัดการสัญลักษณ์
  • แม้พิจารณาเป็นรายกรณีของ สภาพแวดล้อมแบบปริศนา ก็ยังพบว่าพฤติกรรมของโมเดลไม่สม่ำเสมอ (เช่น ความต่างของประสิทธิภาพระหว่างหอคอยฮานอยกับโจทย์ข้ามแม่น้ำ) ซึ่งบ่งชี้ถึงความเป็นไปได้ของข้อจำกัดในการให้เหตุผลที่อิงข้อมูล
  • ในการออกแบบระบบ AI จำเป็นอย่างยิ่งที่จะต้องมีการตรวจสอบเชิงละเอียดที่รวมถึง ลำดับการให้เหตุผลระหว่างทางและความสอดคล้องทางตรรกะ

การวิเคราะห์นี้ให้ข้อคิดสำคัญไม่เพียงต่อการใช้งานจริง แต่ยังรวมถึงการออกแบบและระบบการประเมิน AI สำหรับการให้เหตุผลรุ่นถัดไปด้วย

1 ความคิดเห็น

 
GN⁺ 2025-06-07
ความเห็นจาก Hacker News
  • ผมคิดว่านี่เป็นหนึ่งในเหตุผลที่ทำให้เรารู้สึกสับสน เพราะ LLM ใช้ภาษา และเมื่อดู ‘Biology of Large Language Models’ กับ ‘Safety Alignment Should Be Made More Than Just a Few Tokens Deep’ จะเห็นว่ากระบวนการที่เกิดขึ้นข้างในนั้นต่างจากมนุษย์โดยสิ้นเชิง จึงมีหลายส่วนที่ทำให้ผลลัพธ์ดูแปลกและไม่คุ้นเคย
    แม้จะคิดเรื่องการออกแบบระบบด้วยเทคโนโลยี หรือโครงสร้างที่ทำให้ทั้งระบบให้ผลลัพธ์มากกว่าผลรวมของแต่ละส่วน ก็ยังยากมากที่จะเข้าใจขีดความสามารถของสิ่งเหล่านี้อย่างชัดเจน
    ต่อให้รู้หลักการทำงานอยู่บ้าง ก็ยังมีความประหลาดแบบที่ทำให้รู้สึกราวกับเป็นเวทมนตร์ เมื่อเห็นมันจัดการกับภาษา
    เลยเขียนบทความนี้ขึ้นมาเพื่อจัดระเบียบความคิด
    ผมคิดว่างานวิจัยแบบนี้ยอดเยี่ยมมาก และต่อจากนี้เราจำเป็นต้องพยายามทำความเข้าใจให้มากขึ้นอีกมาก ว่าจะใช้โทเคนให้ดีและสร้างระบบให้ถูกต้องได้อย่างไร
    [ลิงก์อ้างอิง]

    • Biology of Large Language Models

    • Safety Alignment Should Be Made More Than Just a Few Tokens Deep

    • ผมเข้าใจความคิดที่อยากสร้างโครงสร้างซึ่งทั้งระบบมีค่ามากกว่าผลรวมของแต่ละส่วน และส่วนตัวมองว่าการเขียนโปรแกรมเองก็ทำหน้าที่แบบนั้น
      ถ้าแยกงานหรือปัญหาออกเป็นหน่วยเล็ก ๆ ที่มีปฏิสัมพันธ์กันน้อยที่สุด ก็จะเกิดโครงสร้างที่การรวมกันของมันสร้างผลลัพธ์ที่ใหญ่กว่าเดิม
      และผมเชื่อว่าถ้าหลอมแนวคิดนี้เข้าไปใน workflow ของการเขียนโปรแกรมได้ดี แม้แต่ LLM ที่ประสิทธิภาพไม่สูงนักก็สามารถถูกใช้เป็นส่วนหนึ่งของทางแก้ได้อย่างเป็นธรรมชาติ

    • ในทางกลับกัน ผมก็คิดได้เหมือนกันว่าทั้งระบบอาจแย่กว่าทุกส่วนประกอบของมันก็ได้
      แต่ละงานอาจทำได้ดีเมื่อแยกกัน แต่พอรวมกันแล้วกลับพันกันยุ่ง
      แม้จะเป็นสิ่งที่คงพัฒนาได้ในอนาคต แต่เพราะเราไม่อาจทำให้ทุกปัญหาถูก optimize ได้ทั้งหมด วิธีที่เฉพาะทางกว่าอาจมีประสิทธิภาพมากกว่าในท้ายที่สุด

  • ภาษามนุษย์เองก็ไม่ได้สมบูรณ์แบบในฐานะเครื่องมือทางการรับรู้ แต่ผมเชื่อว่ามันถูกใช้งานได้ดีในชั้นบน ไม่ใช่ในระดับรากฐาน เช่น การสื่อสารหรือการให้เหตุผลระดับสูง
    ภาษามนุษย์นั้นกำกวมและไม่สมบูรณ์โดยธรรมชาติ จึงรู้สึกว่าไม่เพียงพอจะสร้างการรับรู้ที่แข็งแรงได้ เมื่อเทียบกับวิธีที่โต้ตอบกับสภาพแวดล้อมโดยตรง
    ดังนั้นถ้าใช้เพียงความคล่องทางภาษาและความสามารถในการดึงความรู้ของโมเดล LLM/LRM มาเป็นมาตรวัดสติปัญญา ก็หลงเชื่อได้ง่ายมาก

  • ผมคิดว่าไอเดียการนำสภาพแวดล้อมแบบปริศนาที่ปรับระดับความยากได้อย่างเป็นระบบมาใช้ แทน benchmark แบบเดิม ๆ อย่างโจทย์คณิตศาสตร์นั้นเฉียบมาก
    การวิเคราะห์ช่วงสมรรถนะสามระดับก็น่าสนใจ คือ โมเดลดั้งเดิมทำได้ดีในงานง่าย ๆ, LRM ทำได้ดีในความซับซ้อนระดับกลาง, และเมื่อความยากสูงมากทุกโมเดลก็พังหมด
    ผมรู้สึกว่าเราจำเป็นต้องวาด ‘แผนที่(map)’ ของช่วงความซับซ้อนเหล่านี้ให้มากกว่านี้
    และก็อยากรู้ว่ามูลค่าทางเศรษฐกิจกับช่วงความซับซ้อนนั้นเชื่อมโยงกันอย่างไร
    เพื่อจะตอบคำถามนี้ ผมคิดว่าเราต้องมีวิธีประเมินที่ประณีตกว่าปริศนาทั่วไป และนำไปใช้กับงานเศรษฐกิจจริงได้ด้วย

  • ผมคิดว่าสัญชาตญาณหลักที่ผู้เขียนพยายามสื่อคือความเชื่อว่าโมเดลเป็นสิ่งที่ ‘รอบรู้แต่ขาดไหวพริบ’
    ผมไม่เคยเห็นงานวิจัยที่จัดการกับคำถามนี้ในเชิงปริมาณได้ดีจริง ๆ ดังนั้นงานนี้เองก็คงยากที่จะทำให้ทุกคนเห็นตรงกัน
    ฝ่ายมองบวกต่อ AI เชื่อว่าความโง่ของโมเดลลดลงแล้ว ขณะที่ฝ่ายสงสัยคิดว่าแค่มีความรู้มากขึ้นเท่านั้น จึงยากที่ช่องว่างของจุดยืนจะหดแคบลง
    ถึงอย่างนั้นผมก็คิดว่าเราควรถกเรื่องนี้ต่อไป
    เพราะถ้าโมเดลรอบรู้แต่โง่ มันก็ยากที่จะไปถึง superintelligence (ASI) ได้ และอาจทำได้แค่บทบาทผู้ช่วยระดับ SaaS แบบเดิม ซึ่งทำให้ผลกระทบทางเศรษฐกิจมีขอบเขตจำกัด
    หวังว่าวันหนึ่งผู้เขียนจะสามารถแก้ปัญหานี้ได้อย่างยอดเยี่ยม

    • เราชอบติดคำคุณศัพท์แบบมนุษย์ให้เทคโนโลยีนี้อยู่เรื่อย ๆ เช่น รอบรู้ โง่ ฯลฯ จนเผลอทำให้มันมีบุคลิก ทั้งที่จริงผมมองว่ามันเป็นเพียงเครื่องมือบริสุทธิ์ที่ไม่มีอะไรแบบนั้นเลย
      สิ่งที่ LRM ทำก็แค่ปรับแต่งข้อมูลบริบท (ข้อมูลที่มันสร้างขึ้นเอง) เพื่อให้ได้คำตอบสุดท้าย
      แม้กระบวนการนี้จะเป็นไอเดียที่ยอดเยี่ยม แต่ก็ยังไม่สามารถแก้ข้อจำกัดพื้นฐานอย่างปัญหา hallucination ได้
      ผมยังเคยเห็นระหว่างบทสนทนาว่าโมเดลเริ่มต้นด้วยเหตุผลที่เกือบถูกต้อง แต่พอมีการปฏิเสธตัวเองแบบ ‘เดี๋ยวก่อน!’ ต่อเนื่อง ผลลัพธ์กลับพังลง
      การยัดเยียดคุณลักษณะแบบมนุษย์มากเกินไปแบบนี้ มีแต่จะกลายเป็นการโหมตลาดเกินจริงและขัดขวางการพัฒนา
      ท้ายที่สุดเทคโนโลยีนี้ไม่ใช่ปัญญาประดิษฐ์ที่แท้จริง แต่เป็นเอนจินจับคู่รูปแบบขนาดใหญ่และสร้างข้อมูลเชิงความน่าจะเป็น
      มันยังใช้งานได้จริงอยู่มาก แต่ถ้าใส่ความเป็นมนุษย์ให้มันมากเกินไป การถกเถียงก็จะยิ่งขุ่นมัว

    • ผมมีทั้งความคาดหวังและความกลัวต่อ AI พร้อมกัน เพราะในช่วงไม่กี่ปีที่ผ่านมา AI ไม่ได้ ‘ฉลาด’ ขึ้นมากนัก แต่ความสามารถเชิงใช้งานจริงพัฒนาขึ้นอย่างมหาศาล
      ความสามารถในการใช้ความรู้ เครื่องมือ และบริบทเพิ่มขึ้นมาก
      เพราะฉะนั้นสิ่งที่ผมกลัวที่สุดคือสถานะที่ ‘ความสามารถด้านการให้เหตุผล/agency’ กำลังรอการปลดล็อก
      กล่าวคือ จากการมีความรู้เกือบครอบจักรวาล อาจเหลือแค่หนึ่งหรือสอง breakthrough ที่จะทำให้มันสามารถตัดสินใจเชิงกลยุทธ์อย่างแม่นยำได้จริงแบบขนาน
      ถ้าสองอย่างนั้นมารวมกัน ผลลัพธ์จะน่ากลัวมาก
      เพราะอาจมี AI ที่ชี้นำกระแสความคิดของผมได้เลย เหมือนกำลังคุยกับอัจฉริยะที่มองเกมล่วงหน้ากว่ามนุษย์ 6 ตา
      นักวิจัย AI แนวหน้าตอนนี้ก็ยกให้ reasoning+agency เป็นโจทย์สำคัญที่สุด จึงอาจเห็นความคืบหน้าเร็วก็ได้
      ทุกวันนี้ LLM เก่งมากในเรื่องการตัดสินแบบฉับพลัน แต่

      1. การให้เหตุผล/วางกลยุทธ์แบบเป็นลำดับขั้นที่ยาวจริง ๆ
      2. การลงมือเชิงกลยุทธ์จากการให้เหตุผลอย่างฉับไว (ระดับเดียวกับที่ผู้เชี่ยวชาญนึกคำตอบออกได้ทันทีจากสัญชาตญาณ)
        ยังขาดอยู่ทั้งคู่
        การแก้ปัญหานี้อาจต้องการ reasoning แบบ system 2 อย่างแท้จริง (ส่วน ‘system 1’ คือ transformer ปัจจุบัน) หรืออาจเป็นแค่การทำให้มันเรียนรู้ ‘สัญชาตญาณเชิงกลยุทธ์’ ได้เร็วขึ้นด้วยข้อมูลและอัลกอริทึมที่ดีกว่า
        แน่นอนว่าก็อาจเป็นเพราะปัญหายากเกินไป ต้องผ่านอุปสรรคหลายขั้น หรืออาจต้องใช้พลังประมวลผลมากมหาศาล
        ดังนั้นผมไม่ได้มั่นใจ แต่ก็กลัวมากว่าสุดท้ายจะเกิดความก้าวหน้าที่ทรงพลังจริง ๆ
    • ผมก็ไม่เห็นเหตุผลเหมือนกันว่าทำไมสิ่งมีชีวิตที่รอบรู้แต่โง่จะต้องหยุดอยู่แค่ระดับสติปัญญาของมนุษย์

  • ผมสงสัยว่า Apple กำลังล้มเหลวในเรื่อง AI จริง ๆ หรือแค่เปลี่ยนทิศทาง R&D ไปในทางที่เชื่อว่า AI ไม่ได้สำคัญขนาดนั้นสำหรับตัวเอง

    • เมื่อมองปรากฏการณ์ที่ฟีเจอร์ AI ถูกยัดเข้าไปในสินค้า consumer จำนวนมากช่วงนี้ มันดูเหมือนต้องการอวดศักยภาพทางเทคโนโลยีให้กับนักลงทุนมากกว่าจะทำเพื่อผู้ใช้
      ในความเป็นจริง ทั้ง Apple, Google, Meta, Microsoft, Samsung ต่างก็โหมการตลาดฟีเจอร์ AI ที่ยังต่ำกว่าความคาดหวัง แต่ผลงานจริงกลับไม่ดีนัก
      ดังนั้นการที่ Apple กำลังคิดหาทิศทางใหม่ อาจเป็นสัญญาณเชิงบวกก็ได้

    • ถ้ามองแบบประชดน้อยลงหน่อย มันอาจเป็นความพยายามลดความคาดหวังเพื่อไม่ให้มีการประเมินความเป็นไปได้จริงของ LLM สูงเกินไป
      ต่อให้เป็น ‘Siri ที่ฉลาดขึ้น’ บนผลิตภัณฑ์ Apple ก็ยังไปไม่ถึงผู้ช่วย AI แท้จริงแบบ Jarvis ของ Iron Man อยู่ดี
      ในทางกลับกัน บรรยากาศของนักลงทุนกลับดูคาดหวังเกินจริงกว่านั้นมาก
      แต่ถ้ามองแบบประชดมากขึ้น ผมคิดว่า Apple มีประวัติยาวนานในการกลบจุดอ่อนด้าน machine learning ของตัวเอง
      ตัวอย่างเช่น ตอนที่ Siri ตามหลัง Google มาก ก็มีการอธิบายย้อนหลังว่าเป็นเพราะปกป้องข้อมูลจึงฝึกโมเดลไม่ได้
      งานวิจัยที่เกี่ยวข้อง

    • ผมคิดว่าทุกบริษัทต่างก็มีกรอบเล่าเรื่องของตัวเอง
      OpenAI กับ Anthropic เองก็มีแรงจูงใจที่จะโปรโมตความสามารถของ LLM เกินจริงเหมือนกัน ดังนั้นจะไปกล่าวหาว่า Apple ลำเอียงอยู่ฝ่ายเดียวก็คงไม่ได้

  • จากที่งานวิจัยทดลองกับสภาพแวดล้อมแบบปริศนาหลากหลายและซับซ้อน ผมรู้สึกเห็นด้วยมากกับข้อสรุปว่าเมื่อเกินระดับความยากหนึ่งไปแล้ว LRM จะล้มเหลวโดยสิ้นเชิง และยังมีข้อจำกัดประหลาดที่เมื่อความซับซ้อนของปัญหาเพิ่มขึ้น ความพยายามในการให้เหตุผลจะเพิ่มขึ้นช่วงสั้น ๆ ก่อนจะกลับลดลงเสียเอง
    ผมเจอประสบการณ์เดียวกันตอนเขียนโค้ด คือช่วงแรกยังค่อย ๆ ทำให้ซับซ้อนขึ้นได้ แต่พอข้ามจุดหนึ่งไปแล้วมันจะพังทั้งระบบจนเหมือนไม่กล้าลองต่อด้วยซ้ำ
    ถ้าอยากใช้ LLM อย่าง Claude หรือ aider ให้ได้ผลจริง การควบคุมความซับซ้อนของปัญหาที่ป้อนให้โมเดลรับมือจึงสำคัญมาก

  • มันทำให้นึกถึงช่วงหนึ่งที่บรรยากาศการถกเรื่อง AGI (ปัญญาประดิษฐ์ทั่วไป) เหมือนกำลังจะมาถึงในเร็ววันอย่างมาก
    รู้สึกว่า Gartner hype cycle จับรูปแบบการไหลของเทคโนโลยีได้แม่นจริง ๆ

    • เมื่อความก้าวหน้าทางเทคโนโลยีเดินเป็นเส้นโค้งรูปตัว S ช่วงก่อนจะหักหัวลงมักพุ่งขึ้นแรงมาก จึงคาดเดาได้ยากมากว่ามันจะเริ่มชะลอเมื่อไร
      ตอน Boeing 747 ลำแรกออกมาในปี 1968 คงไม่มีใครจินตนาการว่าหลังจากนั้นอุตสาหกรรมการบินจะนิ่งอยู่แบบไม่มีการเปลี่ยนแปลงใหญ่ไปอีกกว่าครึ่งศตวรรษ

    • สถานการณ์เหมือนรถยนต์ขับเคลื่อนอัตโนมัติเป๊ะ
      เหมือนจะมาถึง ‘ตรงหน้า’ แล้ว แต่ก็ยังเลี้ยว ‘ผ่านมุม’ นั้นไปไม่ได้เสียที

    • จริง ๆ แล้วบรรยากาศแบบ AGI ‘ใกล้แค่เอื้อม’ นี้ก็เป็นเรื่องเมื่อแค่ 2 ปีก่อนเอง
      ถ้าจะไปจาก GPT2 ถึง AGI ในเวลาเพียง 10 ปี มันก็ยังนับว่าเร็วอย่างมหาศาลอยู่ดี

    • ผมรู้สึกว่าเทคโนโลยีคืบหน้าไปแล้วราว 80% แต่ส่วนที่ง่ายทำไปหมดแล้ว และ 20% ที่เหลือนี้ยากมากจนกินเวลาเป็นปี ๆ

    • AGI นั้นตั้งแต่มีคอมพิวเตอร์มาก็ถูกพูดอยู่เรื่อย ๆ ว่า ‘ใกล้จะมาแล้ว’
      ปัญหาบางอย่าง (เช่น machine translation) ดูเหมือนแก้ได้ในทางปฏิบัติ ก็เพราะเราค่อย ๆ ลดมาตรฐานคำว่า ‘แก้ได้’ ลง ไม่ใช่เพราะเราเข้าใกล้ AGI อย่างแท้จริง
      ตัว AGI เองก็คล้ายความเชื่อวันสิ้นโลกแบบ世俗อย่างหนึ่ง

  • ผมคิดว่าสภาพแวดล้อมแบบปริศนาอย่าง Tower of Hanoi, Checkers Jumping, River Crossing, Block World ถ้าอนุญาตให้เขียนโค้ดได้จริง LLM ทุกตัวก็น่าจะแก้ได้สมบูรณ์แบบ
    แม้มองในฝั่งมนุษย์เอง ถ้าให้คูณเลข 20 หลักด้วยมือก็ผิดพลาดกันได้ง่าย ดังนั้นผมไม่คิดว่าการที่ LLM ทำไม่ได้จะเป็นปัญหาอะไร

    • มนุษย์สามารถออกแบบขีปนาวุธหรือวิศวกรรมความแม่นยำสูงได้แม้ไม่มีคอมพิวเตอร์ และถ้าลงเวลา กลยุทธ์ ความพยายามเพิ่ม หรือใช้เครื่องมืออย่างกระดาษ สุดท้ายก็แก้ปัญหาได้
      สมองมนุษย์ไม่ได้ถูกออกแบบมาเพื่อการคำนวณแบบนี้โดยตรง แต่จุดแข็งของสติปัญญาทั่วไปคือมันหาทางจัดการได้ด้วยวิธีของตัวเองไม่ทางใดก็ทางหนึ่ง

    • ขอแนะนำงานวิจัย framework ใหม่ที่ให้ LLM ทำหน้าที่เป็น ‘ครูนโยบาย’ สำหรับการฝึก RL agent
      แนวคิดคือใช้คำแนะนำจากครู LLM เพื่อฝึก student RL agent ขนาดเล็กอย่างรวดเร็ว แล้วให้มันเรียนรู้เพิ่มเติมจาก feedback ของสภาพแวดล้อม จนท้ายที่สุดตัว student สามารถทำภารกิจได้ดีกว่าครูเสียอีก
      งานวิจัยที่เกี่ยวข้อง

    • ผมคิดว่าที่ LLM ทุกตัวแก้ปัญหาแนวนี้ได้ดีก็อาจเป็นเพราะมีตัวอย่างคำตอบจำนวนมหาศาลถูกเก็บอยู่ใน codebase อยู่แล้ว

    • เหตุผลที่มนุษย์ทำไม่ได้กับเหตุผลที่ LLM ทำไม่ได้ เป็นคนละเรื่องกันโดยสิ้นเชิง
      LLM มักจะทำการคูณเองได้ไม่ดีจริง ๆ ส่วนมนุษย์ส่วนใหญ่แค่ไม่อยากทำมากกว่า

  • ผมสนใจประโยคในงานวิจัยที่ว่า ‘การคำนวณที่แม่นยำนั้นยาก และการให้เหตุผลมีความไม่สม่ำเสมอไปตามปริศนาแต่ละประเภท’
    ผมคิดว่า LLM/LRM ควรได้รับความช่วยเหลือจาก logic, optimization, constraint programming (IA) ซึ่งเป็นญาติใกล้ชิดของ automation ด้าน AI
    สำหรับข้อมูลอ้างอิง ขอแนะนำ การบรรยายร่วมของ John Hooker จาก CMU, การบรรยายของ Gerald Sussman จาก MIT, Google OR-Tools, แพลตฟอร์ม MiniZinc

  • ผมรู้สึกว่าผลการวิจัยที่บอกว่า ในงานที่ง่ายที่สุด LLM ทำได้ดี, ในความซับซ้อนระดับกลาง LRM ทำได้ดี, และในระดับยากมากทุกตัวล้มเหลวนั้นน่าประทับใจมาก

    • ให้ความรู้สึกเหมือนมีการเหน็บแนมนิด ๆ แต่ก็อธิบายให้ชัดเจนยากเหมือนกัน