- ด้วยการพัฒนาอย่างก้าวกระโดดของ AI ทำให้มีนักพัฒนาจำนวนมากขึ้นที่รู้สึกซึมเศร้าทางจิตใจจากการที่ความเชี่ยวชาญของตนถูกทดแทน
- เมื่อนักพัฒนาที่รู้สึกซึมเศร้าแบบนี้มีมากขึ้น จึงเกิดชื่อเรียกว่า Claude Blue
- นอกจากนี้ คำศัพท์ใหม่ที่ถาโถมเข้ามาทุกวันยังยิ่งเพิ่ม FOMO และความกังวล ของนักพัฒนา
- แกนสำคัญของการเอาชนะความกลัวคือ การทำความเข้าใจ
- 'engineering' มากมายนั้นล้วนเป็นเพียง รูปแบบดัดแปลงของ "กระบวนการส่ง input ที่เหมาะสมไปยัง API และจัดการ response ที่ได้กลับมา" และนี่คือสิ่งที่นักพัฒนาทำได้ดีมาโดยตลอด
- อย่าปล่อยให้คอนเทนต์ที่กระตุ้น FOMO มาครอบงำ และหาก เข้าใจแก่นแท้ ก็จะสามารถนำคำศัพท์ใหม่ไปเทียบกับกรอบความรู้เดิมและตัดสินได้อย่างสุขุม แม้จะมีคำใหม่โผล่มาอีก
โครงสร้างของความกลัวและวิธีเอาชนะ
- มนุษย์รู้สึกกลัวเมื่อเผชิญกับ สิ่งที่ไม่รู้ว่ามันคืออะไร ความกลัวต่อ AI ก็ไม่ได้มาจากตัว AI เองเท่านั้น แต่เกิดจากข้อเท็จจริงที่ว่าเรา "ไม่รู้ว่ามันทำงานอย่างไร"
- เมื่อเข้าใจตัวตนของมัน เวทมนตร์ก็จะเริ่มดูเป็นเทคโนโลยี และเทคโนโลยีก็คือ สิ่งที่เรียนรู้ได้และมีข้อจำกัด
- ยังมีผลสำรวจด้วยว่า 24% ของคนทำงานมีสุขภาพจิตแย่ลงจากภาวะข้อมูลล้นเกินที่เกิดจาก AI
ตัวตนที่แท้จริงของ LLM
- LLM คือโมเดลทำนายคำถัดไปที่ "สร้าง output ที่เหมาะสมที่สุดสำหรับ input ที่ได้รับ"
- ChatGPT, Claude, Gemini ต่างทำงานบนหลักการเดียวกัน และแก่นแท้ของบริการก็คือ การเรียกใช้ HTTP API ที่ฝั่งไคลเอนต์ส่งข้อความไป แล้วโมเดลส่ง token กลับมาแบบสตรีมมิง
- ความสามารถด้านการเขียนโค้ดอันทรงพลังของ AI agent ก็เป็นเพียงสิ่งที่ครอบ API call นี้ไว้อีกชั้นหนึ่ง
กระบวนการที่ทำให้ AI agent ฉลาดขึ้น
- Prompt Engineering: การกำหนดบทบาท, Few-Shot, Chain-of-Thought ฯลฯ ท้ายที่สุดก็คือวิธีทำให้บริบทของข้อความ input มีความเฉพาะเจาะจงขึ้น เพื่อชี้นำทิศทางของ output
- การควบคุมรูปแบบ output: ใช้ JSON Schema, Function Calling ฯลฯ เพื่อทำให้ output ของโมเดลอยู่ในโครงสร้างที่โปรแกรมสามารถ parse ได้ ผ่าน Function Calling จึงทำให้เกิดโครงสร้างที่โมเดลเรียกใช้เครื่องมือและ runtime เป็นผู้รันได้ MCP และ RAG ก็เป็นรูปแบบหนึ่งของการเรียกใช้เครื่องมือเช่นกัน
- Context Engineering: ไม่ใช่การถามอย่างไร แต่เป็นการออกแบบว่า โมเดลจะได้เห็นอะไรบ้างก่อนเริ่มให้เหตุผล เมื่อ input ยาวขึ้น ความสามารถในการโฟกัสก็ลดลง ดังนั้นหัวใจสำคัญคือการใส่ข้อมูลที่เหมาะสมไว้ในตำแหน่งที่เหมาะสม
- การแยก prompt: แทนที่จะใช้ prompt ขนาดใหญ่เพียงอันเดียว ให้ แบ่งออกเป็นหลาย prompt เล็ก ๆ ที่มีจุดโฟกัสชัดเจนแล้วประมวลผลแยกกัน Sub-Agent (ซับเอเจนต์), Skill (สกิล) ฯลฯ อยู่ในหมวดนี้
- Harness Engineering: การออกแบบสภาพแวดล้อมการทำงานทั้งหมดที่ล้อมรอบโมเดล ประกอบด้วย guide (กำหนดทิศทางก่อนลงมือทำ) และ sensor (ตรวจสอบผลลัพธ์หลังลงมือทำ)
- Ralph Loop: เทคนิคที่ฉีด prompt เดิมซ้ำเมื่อยังไม่ผ่านเกณฑ์ความสำเร็จ โดยเก็บสถานะความคืบหน้าไว้ใน file system และ git เพื่อให้ทำต่อได้แม้อยู่ใน context ใหม่ทุกครั้ง นี่เป็นเพียงหนึ่งในกลยุทธ์ย่อยของ harness ไม่ใช่แนวคิดเดียวกับ harness เอง
หลุดพ้นจาก FOMO
- แม้จะมีความรู้ แต่เราก็ยังรู้สึกกังวลได้ เพราะผู้ปลุกปั่น FOMO ทำให้เรารู้สึกราวกับว่าเราไม่รู้อะไรเลย
- หนึ่งในวิธีที่ดีในการไม่รู้สึก FOMO คือดูว่าคนที่กระตุ้น FOMO นั้นแก้ปัญหาอะไรได้จริงบ้าง
- ส่วนใหญ่เป็นเพียง การบีบอัดกระบวนการ ไม่ใช่การแก้ปัญหา
- หากเข้าใจแก่นแท้ เวลาเจอข้อมูลใหม่ คุณจะสามารถ ตัดสินได้ด้วยตัวเองว่านี่คือกระบวนทัศน์ใหม่ การดัดแปลงของแนวคิดเดิม หรือเป็นแค่การพูดเกินจริง
ต่อจากนี้ควรทำอะไร
- ไม่จำเป็นว่าคุณจะต้องทำอะไรเสมอไป ถ้า AI ไม่ได้ช่วยแก้ปัญหาของคุณ ก็ใช้ชีวิตแบบที่ทำอยู่ตอนนี้ต่อไปได้ สุดท้ายมันก็เป็นแค่เครื่องมือ ถ้าจำเป็นก็ใช้ ไม่จำเป็นก็ไม่ต้องใช้
- ไม่ใช่ทุกเรื่องจะมีคำตอบที่ถูกต้องเสมอไป ดังนั้นจึงไม่จำเป็นต้องพยายามหาชุดคำตอบ
- หากมีความรู้ ต่อไปแม้จะมีคำศัพท์ใหม่เกิดขึ้น คุณก็จะมี สายตาที่มองออกว่านั่นกำลังพูดถึงอะไร
17 ความคิดเห็น
วิธีที่ดีอย่างหนึ่งในการไม่รู้สึก FOMO คือดูว่าคนที่ทำให้เกิด FOMO แก้ปัญหาอะไรได้จริงด้วย AI
คำพูดนี้โดนใจมากเลย 555
"ถ้า AI ไม่ได้ช่วยแก้ปัญหาของฉัน ก็ใช้ชีวิตต่อไปแบบที่ทำอยู่ตอนนี้ก็ได้ สุดท้ายมันก็เป็นแค่เครื่องมือ จำเป็นค่อยใช้ ไม่จำเป็นก็ไม่ต้องใช้ก็จบ" มันไม่ง่ายเลยนะ ฮือ
ฮิฮิ ตอนนี้ฉันจะทำอะไรดีนะ
ความเชี่ยวชาญทั้งหมดคงไม่ได้ถูกแทนที่ได้ทั้งหมดไม่ใช่หรือครับ? ตั้งแต่กระบวนการสร้างคำขึ้นมาเองก็ดูแปลกแล้ว
ในต้นฉบับไม่เคยอ้างว่า AI สามารถเข้ามาแทนที่ความเชี่ยวชาญทั้งหมดได้ และผมเองก็ไม่ได้คิดแบบนั้นเช่นกัน...
> LLM เป็นโมเดลทำนายคำถัดไปที่ "สร้างผลลัพธ์ที่เหมาะสมที่สุดสำหรับอินพุตที่ได้รับ"
กำลังพูดถึง GPT-3 นี่เอง
ผมเข้าใจว่าโมเดลภาษาขนาดใหญ่ที่ออกสู่ตลาดหลัง GPT แทบทั้งหมด ยกเว้นบางตัวที่ใช้ diffusion model ทำงานในรูปแบบการทำนายโทเคนถัดไป หากมีโมเดลที่ทำงานด้วยวิธีอื่น รบกวนช่วยบอกให้ทราบด้วย จะขอบคุณมากครับ
งั้นโมเดลล่าสุดเป็นอีกตัวหรือเปล่าครับ? ถ้ามีข้อมูลส่วนไหนผิด รบกวนช่วยบอกด้วยนะครับ น่าจะเป็นประโยชน์ทั้งกับผมและคนอื่น ๆ ด้วยครับ 555
ถ้าจะลดทอนความหมายของ LLM ยุคปัจจุบันว่าเป็นแค่ "การทำนายคำถัดไป" AlphaGo เองก็เป็นได้แค่ "การทำนายตาถัดไป" เหมือนกัน
ตั้งแต่ ChatGPT เป็นต้นมา การทำนายคำถัดไปก็เป็นเพียงแค่การ pre-trained อย่างง่ายเท่านั้น
มันเป็นโมเดลที่บรรลุเป้าหมายครับ
AlphaGo ก็เป็นการทำนายตาถัดไปที่คำนวณแล้วว่ามีโอกาสชนะสูงที่สุดไม่ใช่เหรอ?????
สับสนจังครับ นี่คุณกำลังล้อเล่นอยู่หรือเปล่า หรือว่ามีเทคนิคหรือเทคโนโลยีใหม่อะไรบางอย่างที่ผมไม่รู้ออกมาแล้ว??
"อัตราชนะ" คือหัวใจสำคัญ
แค่การทำนายคำถัดไปอย่างเดียว ไม่ต้องพูดถึงการเขียนประโยคที่ใช้งานได้เลย แม้แต่การเขียนโค้ดหรือทำคณิตศาสตร์ก็ทำได้ไม่ดี
เทคนิคแบบนี้มีมาตั้งแต่ยุค 60~70 แล้ว
(พูดให้เคร่งครัดแล้ว มันไม่ใช่แม้แต่คำด้วยซ้ำ)
อืม.. ผมเริ่มคิดว่าอาจเป็นไปได้ว่าข้อความถูกสื่อสารออกไปต่างจากเจตนาของผมครับ หากคุณรู้สึกว่าบทความนี้เหมือนเป็นการลดทอนคุณค่าทางเทคนิคของ LLM ผมขออภัยด้วย
อย่างไรก็ตาม เจตนาของบทความนี้คืออยากให้มองอย่างเยือกเย็น โดยตัดการโหมเกินจริงและการทำให้ดูลึกลับออกไป ดังนั้นในมุมมองส่วนตัว หากใช้คำว่า 'โมเดลที่บรรลุเป้าหมาย' ก็จะรู้สึกว่าเป็นการทำให้ดูลึกลับไปแล้ว เพราะท้ายที่สุดแล้ว ไม่ว่าจะเป็นซอฟต์แวร์ทั่วไปหรือโมเดล ก็ต่างมีไว้เพื่อบรรลุ 'เป้าหมาย' บางอย่างอยู่ดี
ดังนั้นผมจึงอยากถามอีกครั้ง โดยเพิ่มเติมจากความสงสัยส่วนตัว ว่าสำนวนที่คุณกล่าวมานั้นมีความถูกต้องทางเทคนิคมากกว่าจริงหรือไม่ครับ
gpt 3 : การทำนายคำถัดไป -> ถูกต้อง
gpt 3 เป็นต้นมา โมเดลที่อิง Transformer : การทำนายคำถัดไป -> ถูกต้อง
AlphaGo, AlphaZero, MuZero, ... : การทำนายตาถัดไป -> ถูกต้อง
โมเดลที่ทำให้บรรลุเป้าหมาย(เฉพาะ) -> ถูกต้อง
ไม่มีคำพูดไหนที่ผิดในสิ่งที่พูดมา
ก็ดูเหมือนจะเป็นแบบนั้นนะครับ
แต่ท้ายที่สุดแล้วตัวโมเดลเองก็เป็นเพียงฟังก์ชันรับเข้า-ส่งออกเท่านั้น
ภายใต้สมมติฐานว่ามีฮาร์เนสและ agent loop ที่เหมาะสม ก็เหมือนจะพูดได้ว่าโมเดลสามารถบรรลุเป้าหมายได้
สรุปได้ไหมว่า “การคาดการณ์โทเค็นถัดไป” แม้จะถูกต้องในฐานะคำอธิบายระดับการนำไปใช้จริง แต่ก็ยังไม่สมบูรณ์ในฐานะวิธีอธิบายความสามารถหรือเป้าหมายของโมเดล?
งั้นน่าจะไปเจอกันตรงกลางที่เป็นโมเดลซึ่งคาดเดาได้ดีกว่านี้นะ 😄