Andrej Karpathy ระบุว่า LLM ต้องการ “การเรียนรู้ system prompt”
(x.com/karpathy)- ระบุว่า LLM ต้องการ กระบวนทัศน์การเรียนรู้แบบที่ 3 ที่ก้าวเลย pretraining และ fine-tuning แบบเดิม นั่นคือ “System Prompt Learning”
- Pretraining คือการเรียนรู้ความรู้ ส่วน fine-tuning คือการเรียนรู้พฤติกรรมที่เป็นนิสัย และทั้งสองแบบล้วนมาพร้อมกับ การเปลี่ยนแปลงพารามิเตอร์ของโมเดล
- ในทางกลับกัน การเรียนรู้ของมนุษย์คล้ายกับการเปลี่ยนแปลงของ system prompt มากกว่า โดยอยู่ในรูปแบบ “เผชิญสถานการณ์ปัญหา → ทำความเข้าใจ → วางกลยุทธ์ → จดจำไว้อย่างชัดเจนสำหรับครั้งถัดไป”
- ตัวอย่าง: คล้ายกับการจดบันทึกให้ตัวเองว่า “ถ้าเจอปัญหาประเภทนี้ ควรลองใช้แนวทาง/วิธีแก้แบบนี้”
- แนวคิดนี้ต่างจาก memory สำหรับจดจำบริบทผู้ใช้ทั่วไป เพราะมันใกล้เคียงกับการ เก็บกลยุทธ์การแก้ปัญหาและขั้นตอนการให้เหตุผลในภาพรวมอย่างชัดเจน มากกว่า
- มนุษย์สามารถ จดจำหรือบันทึก กลยุทธ์เหล่านี้ได้อย่างมีสติ แต่ LLM ยังไม่มี scratchpad แบบนั้น จึงเหมือน ตัวเอกจาก Memento
- การเรียนรู้ที่อิงกลยุทธ์ลักษณะนี้อาจเป็นเส้นทางรับฟีดแบ็กที่ มีมิติสูงกว่าและใช้ข้อมูลอย่างมีประสิทธิภาพมากกว่า reinforcement learning (RL) ที่อิงสัญญาณรางวัลมาก
- system prompt ของ Claude ที่รั่วไหลออกมาเมื่อไม่นานนี้มีความยาว ราว 17,000 คำ และไม่ได้ระบุแค่ความชอบด้านพฤติกรรมเท่านั้น แต่ยังอธิบาย กลยุทธ์การแก้ปัญหาทั่วไป ไว้อย่างละเอียดด้วย
ตัวอย่าง: เมื่อถูกขอให้นับจำนวนคำ Claude จะไม่ตอบทันที แต่จะคิดเป็นขั้นตอน
และใส่หมายเลขให้แต่ละคำ/ตัวอักษร/อักขระ ก่อนจะ ทำกระบวนการนับอย่างชัดเจน แล้วจึงตอบ - ความรู้ลักษณะนี้ ไม่จำเป็นต้องถูกทำให้ฝังอยู่ใน weights ทันทีหรือทั้งหมดเพียงอย่างเดียว และ ก็ไม่ควรเป็นสิ่งที่มนุษย์ต้องมานั่งเขียน system prompt ด้วยมือเพื่อป้อนให้ทีละรายการ
- แต่แนวทางนี้สามารถเกิดขึ้นได้ผ่านรูปแบบการเรียนรู้ใหม่อย่าง System Prompt Learning ซึ่งแม้ในแง่การตั้งค่าจะคล้าย RL แต่
วิธีเรียนรู้จริงจะใกล้กับการแก้ไขข้อความ (edit) มากกว่าการใช้ gradient descent - system prompt ของ LLM จำนวนมากอาจถูกเขียนขึ้นผ่านการเรียนรู้แบบ system prompt และมันจะ คล้ายกับการที่ LLM เขียนหนังสือสอนวิธีแก้ปัญหาด้วยตัวเอง
- แนวทางที่ LLM แก้ไข/อัปเดต prompt ของตัวเอง แบบนี้มีศักยภาพจะกลายเป็น กระบวนทัศน์การเรียนรู้ใหม่ที่ทรงพลัง
- อย่างไรก็ตาม ยังมีโจทย์ที่ต้องแก้:
- การแก้ไขข้อความนี้จะทำงานอย่างไร?
- โมเดลสามารถเรียนรู้ระบบแก้ไขนี้เองได้หรือไม่ หรือควรต้องเรียนรู้หรือไม่?
- หากต้องการ ค่อย ๆ ย้ายความรู้เชิงกลยุทธ์แบบชัดเจนไปสู่ความเคยชิน/weights ที่ฝังภายในเหมือนมนุษย์ จะต้องมีกลไกแบบใด?
- อย่างไรก็ตาม ยังมีโจทย์ที่ต้องแก้:
1 ความคิดเห็น
ถ้า LLM สามารถเปลี่ยน system prompt ได้ด้วยตัวเอง ก็คงต้องมีมนุษย์เป็นคนกำหนดกฎเกี่ยวกับนโยบายนั้นอยู่ดี สุดท้ายอาจเหลือเพียงสิ่งอย่างกฎสามข้อของหุ่นยนต์ก็เป็นได้ครับ