Andrej Karpathy ระบุว่า LLM ต้องการ “การเรียนรู้ system prompt”

xguru · 2025-05-13T09:03:46+09:00

ระบุว่า LLM ต้องการ กระบวนทัศน์การเรียนรู้แบบที่ 3 ที่ก้าวเลย pretraining และ fine-tuning แบบเดิม นั่นคือ “System Prompt Learning” Pretraining คือการเรียนรู้ความรู้ ส่วน fine-tuning คือการเรียนรู้พฤติกรรมที่เป็นนิสัย และทั้งสองแบบล้วนมาพร้อมกับ การเปลี่ยนแปลงพารามิเตอร์ของโมเดล ในทางกลับกัน การเรียนรู้ของมนุษย์คล้ายกับการเปลี่ยนแปลงของ system prompt มากกว่า โดยอยู่ในรูปแบบ “เผชิญสถานการณ์ปัญหา → ทำความเข้าใจ → วางกลยุทธ์ → จดจำไว้อย่างชัดเจนสำหรับครั้งถัดไป” ตัวอย่าง: คล้ายกับการจดบันทึกให้ตัวเองว่า “ถ้าเจอปัญหาประเภทนี้ ควรลองใช้แนวทาง/วิธีแก้แบบนี้” แนวคิดนี้ต่างจาก memory สำหรับจดจำบริบทผู้ใช้ทั่วไป เพราะมันใกล้เคียงกับการ เก็บกลยุทธ์การแก้ปัญหาและขั้นตอนการให้เหตุผลในภาพรวมอย่างชัดเจน มากกว่า มนุษย์สามารถ จดจำหรือบันทึก กลยุทธ์เหล่านี้ได้อย่างมีสติ แต่ LLM ยังไม่มี scratchpad แบบนั้น จึงเหมือน ตัวเอกจาก Memento การเรียนรู้ที่อิงกลยุทธ์ลักษณะนี้อาจเป็นเส้นทางรับฟีดแบ็กที่ มีมิติสูงกว่าและใช้ข้อมูลอย่างมีประสิทธิภาพมากกว่า reinforcement learning (RL) ที่อิงสัญญาณรางวัลมาก system prompt ของ Claude ที่รั่วไหลออกมาเมื่อไม่นานนี้มีความยาว ราว 17,000 คำ และไม่ได้ระบุแค่ความชอบด้านพฤติกรรมเท่านั้น แต่ยังอธิบาย กลยุทธ์การแก้ปัญหาทั่วไป ไว้อย่างละเอียดด้วย ตัวอย่าง: เมื่อถูกขอให้นับจำนวนคำ Claude จะไม่ตอบทันที แต่จะคิดเป็นขั้นตอน และใส่หมายเลขให้แต่ละคำ/ตัวอักษร/อักขระ ก่อนจะ ทำกระบวนการนับอย่างชัดเจน แล้วจึงตอบ ความรู้ลักษณะนี้ ไม่จำเป็นต้องถูกทำให้ฝังอยู่ใน weights ทันทีหรือทั้งหมดเพียงอย่างเดียว และ ก็ไม่ควรเป็นสิ่งที่มนุษย์ต้องมานั่งเขียน system prompt ด้วยมือเพื่อป้อนให้ทีละรายการ แต่แนวทางนี้สามารถเกิดขึ้นได้ผ่านรูปแบบการเรียนรู้ใหม่อย่าง System Prompt Learning ซึ่งแม้ในแง่การตั้งค่าจะคล้าย RL แต่ วิธีเรียนรู้จริงจะใกล้กับการแก้ไขข้อความ (edit) มากกว่าการใช้ gradient descent system prompt ของ LLM จำนวนมากอาจถูกเขียนขึ้นผ่านการเรียนรู้แบบ system prompt และมันจะ คล้ายกับการที่ LLM เขียนหนังสือสอนวิธีแก้ปัญหาด้วยตัวเอง แนวทางที่ LLM แก้ไข/อัปเดต prompt ของตัวเอง แบบนี้มีศักยภาพจะกลายเป็น กระบวนทัศน์การเรียนรู้ใหม่ที่ทรงพลัง อย่างไรก็ตาม ยังมีโจทย์ที่ต้องแก้: การแก้ไขข้อความนี้จะทำงานอย่างไร? โมเดลสามารถเรียนรู้ระบบแก้ไขนี้เองได้หรือไม่ หรือควรต้องเรียนรู้หรือไม่? หากต้องการ ค่อย ๆ ย้ายความรู้เชิงกลยุทธ์แบบชัดเจนไปสู่ความเคยชิน/weights ที่ฝังภายในเหมือนมนุษย์ จะต้องมีกลไกแบบใด?

(x.com/karpathy)

22 คะแนน โดย xguru 2025-05-13 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ระบุว่า LLM ต้องการ กระบวนทัศน์การเรียนรู้แบบที่ 3 ที่ก้าวเลย pretraining และ fine-tuning แบบเดิม นั่นคือ “System Prompt Learning”
Pretraining คือการเรียนรู้ความรู้ ส่วน fine-tuning คือการเรียนรู้พฤติกรรมที่เป็นนิสัย และทั้งสองแบบล้วนมาพร้อมกับ การเปลี่ยนแปลงพารามิเตอร์ของโมเดล
ในทางกลับกัน การเรียนรู้ของมนุษย์คล้ายกับการเปลี่ยนแปลงของ system prompt มากกว่า โดยอยู่ในรูปแบบ “เผชิญสถานการณ์ปัญหา → ทำความเข้าใจ → วางกลยุทธ์ → จดจำไว้อย่างชัดเจนสำหรับครั้งถัดไป”
- ตัวอย่าง: คล้ายกับการจดบันทึกให้ตัวเองว่า “ถ้าเจอปัญหาประเภทนี้ ควรลองใช้แนวทาง/วิธีแก้แบบนี้”
แนวคิดนี้ต่างจาก memory สำหรับจดจำบริบทผู้ใช้ทั่วไป เพราะมันใกล้เคียงกับการ เก็บกลยุทธ์การแก้ปัญหาและขั้นตอนการให้เหตุผลในภาพรวมอย่างชัดเจน มากกว่า
มนุษย์สามารถ จดจำหรือบันทึก กลยุทธ์เหล่านี้ได้อย่างมีสติ แต่ LLM ยังไม่มี scratchpad แบบนั้น จึงเหมือน ตัวเอกจาก Memento
การเรียนรู้ที่อิงกลยุทธ์ลักษณะนี้อาจเป็นเส้นทางรับฟีดแบ็กที่ มีมิติสูงกว่าและใช้ข้อมูลอย่างมีประสิทธิภาพมากกว่า reinforcement learning (RL) ที่อิงสัญญาณรางวัลมาก
system prompt ของ Claude ที่รั่วไหลออกมาเมื่อไม่นานนี้มีความยาว ราว 17,000 คำ และไม่ได้ระบุแค่ความชอบด้านพฤติกรรมเท่านั้น แต่ยังอธิบาย กลยุทธ์การแก้ปัญหาทั่วไป ไว้อย่างละเอียดด้วย

ตัวอย่าง: เมื่อถูกขอให้นับจำนวนคำ Claude จะไม่ตอบทันที แต่จะคิดเป็นขั้นตอน
และใส่หมายเลขให้แต่ละคำ/ตัวอักษร/อักขระ ก่อนจะ ทำกระบวนการนับอย่างชัดเจน แล้วจึงตอบ
ความรู้ลักษณะนี้ ไม่จำเป็นต้องถูกทำให้ฝังอยู่ใน weights ทันทีหรือทั้งหมดเพียงอย่างเดียว และ ก็ไม่ควรเป็นสิ่งที่มนุษย์ต้องมานั่งเขียน system prompt ด้วยมือเพื่อป้อนให้ทีละรายการ
แต่แนวทางนี้สามารถเกิดขึ้นได้ผ่านรูปแบบการเรียนรู้ใหม่อย่าง System Prompt Learning ซึ่งแม้ในแง่การตั้งค่าจะคล้าย RL แต่
วิธีเรียนรู้จริงจะใกล้กับการแก้ไขข้อความ (edit) มากกว่าการใช้ gradient descent
system prompt ของ LLM จำนวนมากอาจถูกเขียนขึ้นผ่านการเรียนรู้แบบ system prompt และมันจะ คล้ายกับการที่ LLM เขียนหนังสือสอนวิธีแก้ปัญหาด้วยตัวเอง
แนวทางที่ LLM แก้ไข/อัปเดต prompt ของตัวเอง แบบนี้มีศักยภาพจะกลายเป็น กระบวนทัศน์การเรียนรู้ใหม่ที่ทรงพลัง
- อย่างไรก็ตาม ยังมีโจทย์ที่ต้องแก้:
  - การแก้ไขข้อความนี้จะทำงานอย่างไร?
  - โมเดลสามารถเรียนรู้ระบบแก้ไขนี้เองได้หรือไม่ หรือควรต้องเรียนรู้หรือไม่?
  - หากต้องการ ค่อย ๆ ย้ายความรู้เชิงกลยุทธ์แบบชัดเจนไปสู่ความเคยชิน/weights ที่ฝังภายในเหมือนมนุษย์ จะต้องมีกลไกแบบใด?

1 ความคิดเห็น

parkindani 2025-05-13

ถ้า LLM สามารถเปลี่ยน system prompt ได้ด้วยตัวเอง ก็คงต้องมีมนุษย์เป็นคนกำหนดกฎเกี่ยวกับนโยบายนั้นอยู่ดี สุดท้ายอาจเหลือเพียงสิ่งอย่างกฎสามข้อของหุ่นยนต์ก็เป็นได้ครับ

Andrej Karpathy ระบุว่า LLM ต้องการ “การเรียนรู้ system prompt”

บทความที่เกี่ยวข้อง

1 ความคิดเห็น