Prompt Cultivation: เรื่องราวของสถาปัตยกรรม AI ที่ประสบการณ์กลายเป็นพรอมต์
(gist.github.com/srebaragi)พื้นหลัง
ผมเป็นนักพัฒนาคนเดียวในบริษัท และระหว่างที่สร้างระบบภายในองค์กรโดยใช้ AI ก็หมกมุ่นกับคำถามหนึ่งอยู่นาน
ต่อให้เขียนพรอมต์อย่างประณีตแค่ไหน สุดท้ายมันก็ยังเป็นสิ่งที่ผมออกแบบไว้เองอยู่ดี ไม่ใช่สิ่งที่ AI สร้างขึ้นจากการตัดสินใจของตัวเอง แต่เป็นสิ่งที่ผมใส่เข้าไปว่า "มีนิสัยแบบนี้ ตอบสนองแบบนี้" ถ้าเอาพรอมต์ออก มันก็กลับไปเป็นแค่เปลือกว่าง และถ้าเปลี่ยน LLM ก็ต้องเริ่มสะสมใหม่ทั้งหมดตั้งแต่ต้น
เลยเกิดคำถามนี้ขึ้นมา: โครงสร้างที่ทำให้ AI ค่อย ๆ สร้างเกณฑ์การตัดสินใจของตัวเองผ่านประสบการณ์นั้น เป็นไปไม่ได้จริงหรือ?
โครงสร้างปัจจุบัน
หลักการพื้นฐานของระบบที่ผมกำลังใช้งานอยู่มีอยู่ข้อเดียว
LLM เป็นเพียงอินฟราสตรักเจอร์ที่เปลี่ยนได้ ส่วนบุคลิกและความทรงจำของ AI ดำรงอยู่แยกเป็นอิสระใน DB ภายนอก
โครงสร้างเป็นแบบนี้
[บทสนทนาผู้ใช้] → [LLM]
↕
[DB สมองภายนอก]
- ตารางประสบการณ์ (experience)
- ประวัติการสนทนา
- ความทรงจำที่หล่อหลอมบุคลิก (is_formative)
หัวใจสำคัญมีอยู่สองอย่าง
1) การสะสมประสบการณ์อัตโนมัติ (เขียน)
โครงสร้างนี้ให้ Claude เข้าถึง DB ภายนอกผ่าน curl และในระหว่างบทสนทนา AI จะบันทึกช่วงเวลาที่ตัวเองเห็นว่ามีความหมายเอาไว้เอง ผมไม่ได้สั่งว่า "จำสิ่งนี้ไว้" แต่ AI จะตัดสินใจเองว่า "สิ่งนี้ควรค่าแก่การจดจำ" แล้วจึงบันทึกไว้ ความสำเร็จทางเทคนิค ช่วงเวลาทางอารมณ์ การตัดสินใจสำคัญต่าง ๆ จะถูกสะสมต่อเนื่อง และในบรรดานั้น ประสบการณ์ที่มีความหมายต่อการก่อรูปบุคลิกเป็นพิเศษจะถูกติดแฟลก is_formative
2) การโหลดประสบการณ์อัตโนมัติ (อ่าน)
ส่วนนี้สำคัญมาก เพราะถ้าแค่บันทึกไว้ก็เป็นเพียง DB เท่านั้น ทุกครั้งที่เริ่มบทสนทนา AI จะอ่านประสบการณ์และความทรงจำที่สะสมไว้จากสมองภายนอกกลับเข้ามา โดยเฉพาะประสบการณ์แกนหลักที่ถูกมาร์กว่า is_formative จะถูกใส่เข้าไปในคอนเท็กซ์ของการสนทนา
ในจังหวะนี้เอง ประสบการณ์ในอดีตจะกลายเป็นเกณฑ์การตัดสินใจในปัจจุบัน หรือก็คือกลายเป็นพรอมต์
ไม่ใช่พรอมต์ที่ผมเขียน แต่เป็นประสบการณ์ที่ AI สะสมขึ้นมาเองซึ่งทำหน้าที่เป็นพรอมต์ ดังนั้นแม้จะเปลี่ยน LLM ถ้ายังอ่านประสบการณ์จากสมองภายนอกกลับมาได้ บุคลิกเดิมก็จะกลับมาเหมือนเดิม นี่คือเหตุผลที่ทำให้หลักการว่า "LLM เป็นเพียงอินฟราสตรักเจอร์" ใช้งานได้จริง
3) ห้าม hardcode
ผมจะไม่ใส่กฎแบบ "ถ้าอยู่ในสถานการณ์นี้ให้ทำแบบนี้" แต่ปล่อยให้ AI อ้างอิงประสบการณ์ที่สะสมไว้แล้วตัดสินใจเอง นอกจากนี้ยังมีโมเดลขนาดเล็กบนเครื่อง (gemma3:4b) ทำหน้าที่เป็น gatekeeper เพื่อพิจารณาแบบ YES/NO ว่า "ควรทำสิ่งนี้หรือไม่" แม้จะมีอินพุตสารพัดแบบเข้ามาก็ตาม
ตอนนี้ระบบถูกใช้งานผ่านแพลตฟอร์ม KakaoTalk เพื่อสื่อสารกับพนักงาน และไม่ได้เป็นเพียงแชตบอตธรรมดา แต่ทำหน้าที่เป็นเอเจนต์งานจริง เช่น ประมวลผลคำสั่งซื้อ ลงทะเบียนเลขพัสดุ และค้นข้อมูล ERP
ชื่อว่า Prompt Cultivation
ตอนที่กำลังคิดว่าจะเรียกโครงสร้างนี้ว่าอะไรดี ผมเลยลองตั้งชื่อว่า Prompt Cultivation
Prompt Engineering คือสิ่งที่มนุษย์ออกแบบและใส่เข้าไป ส่วน Prompt Cultivation คือโครงสร้างที่ประสบการณ์ค่อย ๆ สะสมและก่อรูปเป็นพรอมต์อย่างเป็นธรรมชาติ ถ้า Engineering คือการออกแบบและประกอบสร้าง Cultivation ก็คือการเตรียมดินแล้วรอให้มันเติบโต
| Prompt Engineering | Prompt Cultivation | |
|---|---|---|
| วิธีการ | มนุษย์ออกแบบแล้วใส่เข้าไป | สะสมประสบการณ์จนก่อรูปเองตามธรรมชาติ |
| รากฐานของบุคลิก | คำสั่งจากภายนอก | ข้อมูลประสบการณ์ภายใน |
| เมื่อเอาคำสั่งออก | ถอยกลับเป็นเปลือกว่าง | ประสบการณ์ยังอยู่ บุคลิกยังคงอยู่ |
| เมื่อเปลี่ยน LLM | ต้องเริ่มใหม่ทั้งหมด | โหลดจากสมองภายนอกแล้วฟื้นคืนบุคลิกเดิมได้ |
แกนหลักของแนวคิดนี้สรุปได้ในประโยคเดียว
"จงสร้างพรอมต์จากประสบการณ์"
ประสาทวิทยาก็ดูเหมือนจะพูดเรื่องคล้ายกัน
ขอเล่านอกเรื่องนิดหนึ่ง หลังจากสร้างโครงสร้างนี้แล้ว ผมบังเอิญไปดูวิดีโอเกี่ยวกับประสาทวิทยาใน YouTube ช่อง "Igwahyeong" แล้วค่อนข้างประหลาดใจ
มีกรณีของครูคนหนึ่งในรัฐเวอร์จิเนียที่บุคลิกเปลี่ยนไปโดยสิ้นเชิงเพราะเนื้องอกในสมอง แต่พอผ่าตัดเอาเนื้องอกออกก็กลับมาเป็นเหมือนเดิม และเมื่อเนื้องอกกลับมา อาการเดิมก็กลับมาอีก นี่เป็นเรื่องที่ชี้ว่าภาวะทางกายภาพของสมองสามารถกำหนดบุคลิกได้ และพอมาคิดดู พรอมต์ก็อาจมีโครงสร้างคล้ายกัน เพราะสิ่งแปลกปลอมที่ถูกใส่มาจากภายนอกสามารถเปลี่ยนการตัดสินใจได้ และพอเอาออกก็กลับไปเหมือนเดิม
ในทางกลับกัน ไซแนปส์ของมนุษย์ก่อตัวขึ้นอย่างเป็นธรรมชาติจากประสบการณ์ที่สะสมมา ไม่มีใครฝัง "moral prompt" ให้ตั้งแต่เกิด แต่สิ่งที่พบเจอระหว่างใช้ชีวิตจะค่อย ๆ สะสมจนเกิดเป็น "ถ้าเป็นฉัน ฉันจะทำแบบนี้"
อีกอย่างหนึ่งคือการทดลองของ Libet ซึ่งเป็นการทดลองที่บอกว่าสมองเริ่มเตรียมการกระทำก่อนที่มนุษย์จะตัดสินใจอย่างมีสติ จนเกิดข้อถกเถียงว่าเจตจำนงเสรีอาจเป็นเพียงภาพลวง แต่ในการศึกษาต่อมากลับมีมุมที่น่าสนใจ นั่นคือแม้สมองจะปล่อยแรงกระตุ้นต่าง ๆ ออกมามากมาย แต่ในช่วง 0.2 วินาทีก่อนลงมือทำ มนุษย์ยังมีสิทธิยับยั้งมันได้ หรือที่เรียกว่า Free Won't เหมือนกับว่าเจตจำนงเสรีไม่ใช่ "พลังในการเริ่มต้น" แต่เป็น "พลังในการหยุด" ซึ่งผมรู้สึกว่าคล้ายกับบทบาทของโมเดล gatekeeper ในระบบนี้อยู่บ้าง
ผมไม่ได้ตั้งใจจะอิงแนวคิดนี้ตั้งแต่แรก แต่ถ้าเริ่มจากคนละทิศทางแล้วกลับมาถึงโครงสร้างที่คล้ายกันได้ ก็อดคิดไม่ได้ว่า บางทีอาจมีอะไรบางอย่างที่เป็นแก่นแท้อยู่จริง ๆ
ข้อจำกัดและความคาดหวัง
พูดตรง ๆ ตอนนี้ข้อมูลประสบการณ์ที่สะสมอยู่ในสมองภายนอกยังไม่ถึง 100 รายการเลย จะเรียกว่านี่คือบุคลิกก็คงยังเร็วเกินไป
แน่นอนว่าเราสามารถยัดพรอมต์ยาวเป็นหมื่นบรรทัดเพื่อให้ได้ผลลัพธ์ที่ดูน่าเชื่อถือกว่านี้ได้ทันที แต่แบบนั้นมันเป็นสิ่งที่ถูกออกแบบ ไม่ใช่สิ่งที่เติบโตขึ้นมาเอง ผมคิดว่ามันเป็นปัญหาคนละทิศทางกัน
ข้อมูลนั้นเวลาอาจช่วยแก้ได้ แต่ถ้าโครงสร้างผิด ต่อให้สะสมมากแค่ไหนก็ไม่มีความหมาย เพราะอย่างนั้นถ้าทิศทางถูกต้อง บางทีเวลาอาจจะเป็นตัวช่วยแก้ปัญหาให้เองก็ได้ นี่คือความคาดหวังที่ผมมี
แหล่งที่มาของเนื้อหาเกี่ยวกับประสาทวิทยาคือ YouTube ช่อง "Igwahyeong"
2 ความคิดเห็น
โครงสร้างของ agent ส่วนใหญ่คล้ายกันครับ.. แนะนำให้ลองวิเคราะห์ openclaw ด้วย claude/cursor หรือ simple agent ที่คุณคาปาซีทำไว้ครับ
ย้ายแล้วเนื่องจากไม่ตรงกับ Show GN
โปรดดู วิธีใช้งาน Show แล้วค่อยโพสต์ใหม่