22 คะแนน โดย xguru 2025-05-13 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • ระบุว่า LLM ต้องการ กระบวนทัศน์การเรียนรู้แบบที่ 3 ที่ก้าวเลย pretraining และ fine-tuning แบบเดิม นั่นคือ “System Prompt Learning”
  • Pretraining คือการเรียนรู้ความรู้ ส่วน fine-tuning คือการเรียนรู้พฤติกรรมที่เป็นนิสัย และทั้งสองแบบล้วนมาพร้อมกับ การเปลี่ยนแปลงพารามิเตอร์ของโมเดล
  • ในทางกลับกัน การเรียนรู้ของมนุษย์คล้ายกับการเปลี่ยนแปลงของ system prompt มากกว่า โดยอยู่ในรูปแบบ “เผชิญสถานการณ์ปัญหา → ทำความเข้าใจ → วางกลยุทธ์ → จดจำไว้อย่างชัดเจนสำหรับครั้งถัดไป”
    • ตัวอย่าง: คล้ายกับการจดบันทึกให้ตัวเองว่า “ถ้าเจอปัญหาประเภทนี้ ควรลองใช้แนวทาง/วิธีแก้แบบนี้”
  • แนวคิดนี้ต่างจาก memory สำหรับจดจำบริบทผู้ใช้ทั่วไป เพราะมันใกล้เคียงกับการ เก็บกลยุทธ์การแก้ปัญหาและขั้นตอนการให้เหตุผลในภาพรวมอย่างชัดเจน มากกว่า
  • มนุษย์สามารถ จดจำหรือบันทึก กลยุทธ์เหล่านี้ได้อย่างมีสติ แต่ LLM ยังไม่มี scratchpad แบบนั้น จึงเหมือน ตัวเอกจาก Memento
  • การเรียนรู้ที่อิงกลยุทธ์ลักษณะนี้อาจเป็นเส้นทางรับฟีดแบ็กที่ มีมิติสูงกว่าและใช้ข้อมูลอย่างมีประสิทธิภาพมากกว่า reinforcement learning (RL) ที่อิงสัญญาณรางวัลมาก
  • system prompt ของ Claude ที่รั่วไหลออกมาเมื่อไม่นานนี้มีความยาว ราว 17,000 คำ และไม่ได้ระบุแค่ความชอบด้านพฤติกรรมเท่านั้น แต่ยังอธิบาย กลยุทธ์การแก้ปัญหาทั่วไป ไว้อย่างละเอียดด้วย

    ตัวอย่าง: เมื่อถูกขอให้นับจำนวนคำ Claude จะไม่ตอบทันที แต่จะคิดเป็นขั้นตอน
    และใส่หมายเลขให้แต่ละคำ/ตัวอักษร/อักขระ ก่อนจะ ทำกระบวนการนับอย่างชัดเจน แล้วจึงตอบ

  • ความรู้ลักษณะนี้ ไม่จำเป็นต้องถูกทำให้ฝังอยู่ใน weights ทันทีหรือทั้งหมดเพียงอย่างเดียว และ ก็ไม่ควรเป็นสิ่งที่มนุษย์ต้องมานั่งเขียน system prompt ด้วยมือเพื่อป้อนให้ทีละรายการ
  • แต่แนวทางนี้สามารถเกิดขึ้นได้ผ่านรูปแบบการเรียนรู้ใหม่อย่าง System Prompt Learning ซึ่งแม้ในแง่การตั้งค่าจะคล้าย RL แต่
    วิธีเรียนรู้จริงจะใกล้กับการแก้ไขข้อความ (edit) มากกว่าการใช้ gradient descent
  • system prompt ของ LLM จำนวนมากอาจถูกเขียนขึ้นผ่านการเรียนรู้แบบ system prompt และมันจะ คล้ายกับการที่ LLM เขียนหนังสือสอนวิธีแก้ปัญหาด้วยตัวเอง
  • แนวทางที่ LLM แก้ไข/อัปเดต prompt ของตัวเอง แบบนี้มีศักยภาพจะกลายเป็น กระบวนทัศน์การเรียนรู้ใหม่ที่ทรงพลัง
    • อย่างไรก็ตาม ยังมีโจทย์ที่ต้องแก้:
      • การแก้ไขข้อความนี้จะทำงานอย่างไร?
      • โมเดลสามารถเรียนรู้ระบบแก้ไขนี้เองได้หรือไม่ หรือควรต้องเรียนรู้หรือไม่?
      • หากต้องการ ค่อย ๆ ย้ายความรู้เชิงกลยุทธ์แบบชัดเจนไปสู่ความเคยชิน/weights ที่ฝังภายในเหมือนมนุษย์ จะต้องมีกลไกแบบใด?

1 ความคิดเห็น

 
parkindani 2025-05-13

ถ้า LLM สามารถเปลี่ยน system prompt ได้ด้วยตัวเอง ก็คงต้องมีมนุษย์เป็นคนกำหนดกฎเกี่ยวกับนโยบายนั้นอยู่ดี สุดท้ายอาจเหลือเพียงสิ่งอย่างกฎสามข้อของหุ่นยนต์ก็เป็นได้ครับ