บทเรียนขมขื่นจากการขยายขีดความสามารถของ LLM

(sawyerhood.com)

23 คะแนน โดย GN⁺ 2025-11-28 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ในช่วง 3 ปีที่ผ่านมา วิวัฒนาการของแนวทางการขยาย LLM ได้พัฒนาไปในหลากหลายรูปแบบ ทั้งปลั๊กอิน, คำสั่งผู้ใช้, หน่วยความจำ, โปรโตคอล, สกิล ฯลฯ
ChatGPT Plugins ในยุคแรกพยายามทำให้สามารถใช้เครื่องมืออเนกประสงค์ผ่านการเรียก API ได้ แต่ล้มเหลวจาก ข้อจำกัดของโมเดลและ UX ที่ซับซ้อน
หลังจากนั้น Custom Instructions และ Custom GPTs ก็ปรากฏขึ้น โดยนำเสนอทั้งการปรับแต่งแบบง่ายด้วยพรอมป์ต์ และโครงสร้างโมเดลแบบกำหนดเองที่แชร์ต่อได้
Model Context Protocol(MCP) และ Claude Code ทำให้การผสานเครื่องมือที่ซับซ้อนแต่ทรงพลังเป็นไปได้ และล่าสุด Agent Skills ก็กลับมาอีกครั้งในรูปแบบที่เรียบง่ายกว่า
ท้ายที่สุดแล้ว สถาปัตยกรรมเอเจนต์ที่ทำงานด้วยเครื่องมืออเนกประสงค์และคำสั่งภาษาธรรมชาติ จะกลายเป็นทิศทางหลักของการขยาย LLM

ประวัติและการเปลี่ยนแปลงของการขยาย LLM

วิธีใช้งาน LLM ได้พัฒนาจากการป้อนข้อความอย่างง่ายไปสู่ เอเจนต์ที่ควบคุมโค้ดเบสและเบราว์เซอร์ได้
- ประเด็นสำคัญคือจะรองรับการปรับแต่งตามผู้ใช้ (customization) อย่างไร
- มีการทดลองหลายแนวทาง ตั้งแต่ system prompt แบบง่าย ไปจนถึงโปรโตคอล client-server ที่ซับซ้อน

ChatGPT Plugins (มีนาคม 2023)

OpenAI เปิดตัว ChatGPT Plugins โดยออกแบบให้ LLM เรียก REST endpoint ผ่านสเปก OpenAPI
- มุ่งไปสู่การใช้เครื่องมืออเนกประสงค์ในระดับ AGI
แต่ด้วย ข้อจำกัดของ GPT-3.5 และ GPT-4 รุ่นแรก จึงเกิดข้อผิดพลาดและการสูญเสียบริบทเมื่อสำรวจสเปก API ขนาดใหญ่
- UX ที่ไม่สะดวก เช่น การต้องเปิดใช้งานปลั๊กอินด้วยตนเอง ก็เป็นอีกปัญหา
ถึงอย่างนั้นปลั๊กอิน Code Interpreter(ภายหลังคือ Advanced Data Analysis) ก็แสดงให้เห็นศักยภาพของสภาพแวดล้อมการรันแบบ sandbox ที่ทรงพลัง

Custom Instructions (กรกฎาคม 2023)

เป็น ฟีเจอร์พรอมป์ต์แบบกำหนดเองอย่างง่าย ที่ลดความซับซ้อนของปลั๊กอิน
- ถูกเพิ่มเข้าไปในทุกบทสนทนาโดยอัตโนมัติ ช่วยแก้ปัญหาการตั้งค่าบริบทซ้ำ ๆ
ต่อมาทำหน้าที่เป็น ต้นแบบของไฟล์กฎในสภาพแวดล้อมการพัฒนา อย่าง .cursorrules, CLAUDE.md เป็นต้น

Custom GPTs (พฤศจิกายน 2023)

OpenAI ทำให้ prompt engineering กลายเป็นผลิตภัณฑ์ผ่าน Custom GPTs
- รวม persona, ไฟล์, และ action เข้าด้วยกันเพื่อสร้าง ลิงก์ GPT แบบกำหนดเองที่แชร์ได้
เป็นการถอยจากแนวทางแบบเปิดของปลั๊กอิน ไปสู่ รูปแบบแอปที่มีจุดประสงค์เดียว

Memory in ChatGPT (กุมภาพันธ์ 2024)

เป็นกรณีแรกของการเปลี่ยนไปสู่ ฟีเจอร์การปรับให้เหมาะกับผู้ใช้โดยอัตโนมัติ
- จดจำข้อมูลที่ถูกกล่าวถึงระหว่างบทสนทนา และนำไปใช้กับบริบทในภายหลังโดยอัตโนมัติ
- เป็นจุดเริ่มต้นของ สถาปัตยกรรมเอเจนต์แบบต่อเนื่อง ที่รักษาสถานะระยะยาวได้โดยผู้ใช้ไม่ต้องตั้งค่าเอง

Cursor Rules (เมษายน 2024)

Cursor IDE นำการจัดการคำสั่งในระดับรีโพซิทอรีผ่านไฟล์ .cursorrules มาใช้
- ตัวอย่างเช่น “ใช้แท็บ”, “ห้ามใช้เซมิโคลอน”, “ใช้ TypeScript”
ต่อมาขยายเป็นโครงสร้างโฟลเดอร์ .cursor/rules ทำให้ ใช้กฎแยกตามไฟล์และไดเรกทอรี ได้
ยังเพิ่มความสามารถให้ LLM ตัดสินใจเองว่าจะใช้กฎเมื่อใด

Model Context Protocol (MCP, พฤศจิกายน 2024)

MCP ที่ Anthropic นำเสนอ มอบ โครงสร้างที่ทำให้โมเดลใช้เครื่องมือจริงได้อย่างเสถียร
- รักษาการเชื่อมต่อแบบ client-server เพื่อแลกเปลี่ยนคำจำกัดความของเครื่องมือ, ทรัพยากร, และพรอมป์ต์
ไม่ใช่แค่การเพิ่มบริบทอย่างง่าย แต่เป็นการมอบ ความสามารถจริง(capabilities)
- เช่น การอ่านรีโพซิทอรี, การ query ฐานข้อมูล, การ deploy บน Vercel
แม้จะมีความซับซ้อนและภาระในการตั้งค่าสูง แต่ก็ถูกใช้เป็นชั้นพื้นฐานของ ChatGPT Apps(ประกาศเมื่อเดือนตุลาคม 2025)

Claude Code และกลไกการขยาย (กุมภาพันธ์ 2025)

Claude Code คือเอเจนต์ที่รวมแนวทางการขยายหลายแบบไว้ด้วยกัน
- ใช้ CLAUDE.md จัดการคำสั่งระดับรีโพซิทอรี
- ใช้ MCP เพื่อผสานเครื่องมือ
- รองรับ Slash Commands, Hooks, Sub-agents, Output Styles(เตรียมยกเลิก) เป็นต้น
แม้บางฟีเจอร์จะยังไม่แน่ชัดว่าจะคงอยู่ต่อหรือไม่ แต่ก็ถูกมองว่าเป็น โมเดลรวมเชิงทดลองของการขยายเอเจนต์

Agent Skills (ตุลาคม 2025)

เป็น รูปแบบการเกิดใหม่ของ ChatGPT Plugins โดยใช้ โครงสร้างสกิลแบบอิงโฟลเดอร์ โดยไม่ต้องมีโปรโตคอลที่ซับซ้อน
- ประกอบด้วย SKILL.md, สคริปต์, และไฟล์ตัวอย่างภายในไดเรกทอรี skills/
- อ่านเนื้อหาทั้งหมดเฉพาะเมื่อจำเป็น จึงช่วยแก้ปัญหา บริบทล้นหน้าต่าง(context bloat)
ตัวอย่าง: สกิลทดสอบเว็บแอปที่อิงกับ Playwright
- ใน SKILL.md มี metadata และคำแนะนำการใช้งาน
- สคริปต์จะถูกรันโดยตรง และ LLM ไม่จำเป็นต้องโหลดเนื้อหาโค้ดเข้าบริบทโดยไม่จำเป็น
ตั้งอยู่บนสมมติฐานว่ามี สิทธิ์เข้าถึงคอมพิวเตอร์แบบอเนกประสงค์ และมีแกนหลักคือ แนวทางที่เชื่อถือเครื่องมืออเนกประสงค์มากกว่าเครื่องมือเฉพาะทาง

แนวโน้มในอนาคต

Agent Skills ทำให้อุดมคติของปลั๊กอินยุคแรกเป็นจริงมากขึ้น
- โมเดลฉลาดพอแล้วที่จะ ทำงานได้ด้วยเครื่องมือทั่วไปและคำสั่งเพียงอย่างเดียว
เอเจนต์จะไม่ถูกมองเป็นเพียงลูปของ LLM อีกต่อไป แต่จะถูกนิยามใหม่เป็น หน่วยปฏิบัติการที่ผสานเข้ากับคอมพิวเตอร์
- เช่น Claude Code, Zo Computer ฯลฯ เป็นรูปแบบที่รวม LLM เข้ากับคอมพิวเตอร์
คาดว่าหลังปี 2026 แอปพลิเคชัน LLM จะขยายไปสู่ โครงสร้างเอเจนต์แบบฝังคอมพิวเตอร์ มากขึ้น
โดยสรุป มีความเป็นไปได้ว่า การขยายแบบภาษาธรรมชาติ จะกลับมาเป็นศูนย์กลางอีกครั้ง แทนที่ โปรโตคอลที่ซับซ้อนอย่าง MCP

1 ความคิดเห็น

GN⁺ 2025-11-28

ความคิดเห็นจาก Hacker News

ฉันคิดว่า ภาษาธรรมชาติ คลุมเครือเกินไป จึงไม่มีประสิทธิภาพหากจะขยายมันให้เป็นภาษาสำหรับการเขียนโปรแกรม
เหตุผลที่คณิตศาสตร์มี ภาษาเฉพาะโดเมน เป็นของตัวเองก็เพื่อให้ได้ความชัดเจนนั่นเอง
- ฉันเคยทำงานด้าน technical communication มาก่อน และภาษาธรรมชาติก็สามารถขัดเกลาให้แม่นยำได้มากพอสมควร หากผ่าน ลูปการอ่าน–แก้ไข–ทบทวน ซ้ำๆ
  ในภาษาอังกฤษมันน่ารำคาญ แต่พอชินแล้วก็ลดความกำกวมลงได้
- เพราะแบบนั้นจึงคิดว่าจำเป็นต้องมี progressive hardening เพื่อค่อยๆ เพิ่มความเข้มงวดของสเปก
  แนวคิดที่เกี่ยวข้องสรุปไว้ได้ดีในเอกสารนี้
มองว่า Skills คือแนวคิดที่ทำให้ความฝันของ ChatGPT Plugins กลายเป็นจริง
ตอนนี้โมเดลฉลาดพอแล้วจนดูเหมือนว่าจะใช้งานได้จริง
Simon Willison ก็โต้แย้งในบทความนี้ว่า Skills เป็นการเปลี่ยนแปลงที่ใหญ่กว่า MCP แต่ตอนนี้ดูเหมือนจะยังได้รับความสนใจน้อยกว่าเพราะแรงเฉื่อยของ MCP
- เหตุผลที่ Skills ดูน่าตื่นเต้นน้อยกว่า อาจเป็นเพราะมันแทบจะเป็นแค่ เอกสารที่โหลดแบบเลือกได้
  แต่ในแง่ที่มันตัด scaffolding ที่ซับซ้อนซึ่ง MCP ต้องการออกไป ความหมายของมันกลับใหญ่กว่ามาก
  ตัวอย่างเช่น ตอนประมวลผลทรานสคริปต์ของบัญชี Fathom ฉันแค่สร้างสคริปต์ CLI และเขียน SKILL.md ก็พอ
  การทดสอบ client API ก็แก้ด้วยวิธีเดียวกัน
  เพียงแต่วิธีแบบนี้หวือหวน้อยกว่า และเปิดพื้นที่ให้สร้าง tooling ขนาดใหญ่ได้น้อยกว่า เลยอาจถูกพูดถึงน้อย
- ช่วงนี้อาการ LLM fatigue หนักขึ้น เลยคิดว่าคนไม่ค่อยตื่นเต้นกับ Skills เท่าไร
  แถม Skills ยังตั้งอยู่บนสมมติฐานว่าต้องมีเอเจนต์ที่รันโค้ดตามอำเภอใจได้ จึงมีอุปสรรคในการเริ่มต้นสูง
- ยังไม่เข้าใจว่าไดเรกทอรี Skills มีอะไรพิเศษนัก
  ที่ผ่านมาก็สั่ง Claude Code ว่า “อ่าน X แล้วทำ Y ให้หน่อย” อยู่แล้ว เลยสงสัยว่ามันต่างจาก Skills ตรงไหน
- การ รันในแซนด์บ็อกซ์ ของ Claude Skills ไม่มีประสิทธิภาพเกินไป
  ต้องพึ่ง I/O และคำสั่ง print เพื่อติดตามงาน ทำให้หงุดหงิด
- Skills ดูเหมือนเป็น เวอร์ชันสำหรับผู้ใช้ปลายทาง ของ MCP
  MCP มีไว้สำหรับสร้างระบบ ส่วน Skills ใช้ได้เฉพาะกับ Claude จึงมี lock-in สูง
  การที่อ้างอิงหรือประกอบรวมกันระหว่างสกิลไม่ได้ก็เป็นข้อจำกัดใหญ่
  สุดท้ายพอเจอปัญหาเรื่องการขยายต่อ การนำกลับใช้ซ้ำ หรือการใช้งานระยะไกล ก็น่าจะวนกลับไปหา MCP อีก
  แต่ถ้า Skills ลงหลักปักฐานเป็นอีกมุมมองหนึ่งของ MCP ได้ ภายหลังก็อาจมีอะไรอย่าง ตัวแปลง Skill→MCP โผล่มา
ไม่เข้าใจว่าการที่โมเดลดีขึ้นเกี่ยวข้องกับ Bitter Lesson ตรงไหน
มันก็ยังเป็นโครงสร้างที่อัดความเชี่ยวชาญของมนุษย์เข้าไปเพื่อชดเชยข้อจำกัดของโมเดลอยู่ดี
ถ้าจะเป็น Bitter Lesson จริงๆ ก็ควรเป็นกรณีที่ได้ผลลัพธ์ดีขึ้นเพียงแค่ เพิ่มทรัพยากรการคำนวณ โดยไม่มีการแทรกแซงจากมนุษย์
- ฉันก็คิดว่าหัวข้อของบทความจะเป็นแบบนั้นเลยกดเข้ามา
Custom GPTs เป็นแนวคิดเก่าแล้ว แต่ช่วงนี้เพิ่งเจอการใช้งานที่ใช้ได้จริง
ฉันสร้าง Custom GPT ที่เชื่อมกับ Notion API เพื่อใช้จัดการบันทึกการประชุมและงานที่ต้องทำของภรรยา และมันก็ใช้งานได้ค่อนข้างดีภายในเวลาไม่กี่ชั่วโมง
เดิมทีพยายามเชื่อมกับแอป Reminders แต่เพราะข้อจำกัดของ API และปัญหาสิทธิ์ของ UI สุดท้ายเลยต้องสร้าง MCP server เอง
ฉันเปิด Amphetamine ไว้บน MacBook Pro เครื่องเก่า แล้วเชื่อมผ่าน Tailnet กับ Cloudflare tunnel เพื่อให้ ChatGPT เข้าถึงได้
แม้จะซับซ้อน แต่การมี AI agent เป็นศูนย์กลางเพียงจุดเดียว ก็คุ้มค่ามาก
รายละเอียดการทำไว้ในบล็อกนี้
แม้แต่ ChatGPT 5.1 ก็ยัง หลอน API ที่ไม่มีอยู่จริง แต่ถึงอย่างนั้นมันก็ดีขึ้นเรื่อยๆ
ทุกครั้งที่มนุษย์พัฒนาความสามารถในการประมวลผลข้อมูล โลกก็เปลี่ยนไป และถ้า LLM แค่เพิ่มโอกาสที่จะตอบถูกได้มากขึ้น โลกก็คงเปลี่ยนอีกครั้ง
เห็นด้วยกับประโยคที่ว่า “อยาก short MCP”
MCP จัดการยากก็จริง แต่ในโลกนี้มีงานจำนวนมากที่ต้องการ อินเทอร์เฟซที่ปลอดภัย
ที่การออกแบบช่วงแรกซับซ้อนก็เพราะมันเปิดเผยความเป็นจริงของการจัดการ streaming token ตรงๆ
แม้จะซับซ้อน แต่ก็ยังอยู่บน เส้นแบ่งของระบบง่ายๆ ที่ยังใช้งานได้จริง
มันคงไม่ถูกแทนที่ทั้งหมด และถ้าโมเดลจะจัดการสภาพแวดล้อมแบบเอเจนต์ได้อย่างเหมาะสม โครงสร้างอย่าง MCP ก็น่าจะยังจำเป็นไปอีกพักหนึ่ง
- สุดท้ายแล้ว MCP ก็เป็นแค่อีกรูปแบบหนึ่งของ ฟอร์แมต API แบบอธิบายตัวเอง
  โมเดลสมัยนี้โต้ตอบได้ดีพอด้วยแค่คำอธิบาย API แบบง่ายๆ
  ถ้ามี API อยู่แล้ว เหตุผลที่จะต้องสร้าง MCP server ก็ลดลง
- ไม่เข้าใจว่าทำไมถึงบอกว่า MCP ยาก
  การทำจริงก็อยู่ในระดับ JSON-RPC + API แบบเรียบง่าย
  ตัวอย่าง hello-world ของ Python FastMCP ก็แทบเหมือนเวอร์ชัน Flask
- ดูเหมือน MCP จะมาเร็วเกินไป
  Skills จึงโผล่มาเป็นปฏิกิริยาตอบกลับ และต่อจากนี้ก็น่าจะพัฒนาไปสู่ โครงสร้างที่ให้พื้นที่ LLM กับพื้นที่โค้ดประกอบตัวเองได้
- MCP ก็เป็นแค่ เรื่องเล่าของมิดเดิลแวร์ อีกเรื่องหนึ่ง และของแบบนี้ล้มเหลวมาตลอด
Skills.md สุดท้ายก็คงเจอปัญหา คอนเท็กซ์พองตัว แบบเดียวกับ MCP
ฉันกลับคิดว่าน่าจะวางแค่สคริปต์ไว้โดยไม่มีคำอธิบาย แล้วฝึกให้ LLM ค้นหาสิ่งที่ต้องใช้จากในโฟลเดอร์เองจะดีกว่า
- คิดว่านี่เป็นปัญหา เชิงวิศวกรรม ที่แก้ได้
  เช่น อาจมี ซับเอเจนต์ขนาดเบา ไว้คอยอ่านและเลือกสกิล
ChatGPT Apps ที่ประกาศในเดือนนี้ ให้ความรู้สึกแทบไม่ต่างจาก ChatGPT Plugin เมื่อ 3 ปีก่อน
ความต่างมีแค่วิธีเรียกใช้ปลั๊กอิน — เมื่อก่อนเลือกจากดรอปดาวน์ แต่ตอนนี้แค่ใส่ชื่อไว้ในพรอมป์ต์
จากมุมมองผู้ใช้จึงดูไม่ต่างกันมาก
ฉันมองพรอมป์ต์เป็น โปรแกรมเชิงความน่าจะเป็น และคิดว่าจำเป็นต้องมีเชลล์เฉพาะสำหรับเรียกใช้งานมัน
coding agent อย่าง Claude Code หรือ Codex คือหนึ่งในตัวอย่างนั้น
ตอนนี้กำลังศึกษาการแยกความสามารถแบบนี้ออกจาก IDE แล้วพัฒนาเป็นเชลล์อิสระอย่าง llm-do
หัวใจสำคัญที่แท้จริงของการขยาย LLM คือ การผสานรวมกับเชลล์
LLM ที่เชื่อมกับเชลล์แล้วแทบจะทำอะไรก็ได้
- คุณจะใช้ช้อนขุดสระว่ายน้ำก็ได้ แต่ฉันคิดว่าใช้ backhoe น่าจะดีกว่า

บทเรียนขมขื่นจากการขยายขีดความสามารถของ LLM

ประวัติและการเปลี่ยนแปลงของการขยาย LLM

ChatGPT Plugins (มีนาคม 2023)

Custom Instructions (กรกฎาคม 2023)

Custom GPTs (พฤศจิกายน 2023)

Memory in ChatGPT (กุมภาพันธ์ 2024)

Cursor Rules (เมษายน 2024)

Model Context Protocol (MCP, พฤศจิกายน 2024)

Claude Code และกลไกการขยาย (กุมภาพันธ์ 2025)

Agent Skills (ตุลาคม 2025)

แนวโน้มในอนาคต

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News