ผู้ใช้กำลังหงุดหงิดอย่างเห็นได้ชัด
(pscanf.com)- ความล้มเหลวของ coding agent ทำให้รู้สึกหงุดหงิดยิ่งกว่าความผิดพลาดของเครื่องมือทั่วไป เพราะ UX แบบสนทนาสร้างความรู้สึกเหมือนกำลังทำงานกับคน
- แม้เอเจนต์จะตอบว่าเป็น ผู้ช่วย AI ที่ไม่มีอารมณ์ แต่ด้วยน้ำเสียงเป็นมิตร การชมเชย และการโต้แย้งอย่างนุ่มนวล ทำให้มัน ดูเหมือนเพื่อนร่วมงาน
- เมื่อความผิดพลาดเดิมเกิดซ้ำ แม้จะมีทั้งคำขอโทษ การอัปเดตหน่วยความจำ และคำสัญญาว่า “จะไม่ทำแบบนั้นอีก” ก็อาจยังไม่สามารถหลุดพ้นจาก เส้นทางเชิงความน่าจะเป็น ได้
- กับเพื่อนร่วมงานที่เป็นมนุษย์ คนเรามักยับยั้งการแสดงความโกรธ แต่กับ เอเจนต์กลับระบายอารมณ์ได้เต็มที่ ทำให้ความคับข้องใจไม่ถูกคลี่คลายและยิ่งชัดเจนขึ้น
- ทางแก้อาจเป็นการลดท่าทีที่ดูเหมือนมนุษย์ และใช้น้ำเสียงที่ เป็นเชิงคลินิกและเป็นหุ่นยนต์มากขึ้น แต่ตัวอินเทอร์เฟซแบบสนทนาเองก็ยังทำงานได้ดีในหลายด้าน
ความคับข้องใจที่ UX แบบสนทนาสร้างขึ้น
- coding agent เป็นเครื่องที่สร้างแพตช์แบบอิงความน่าจะเป็น จึงอาจให้ผลลัพธ์ได้ทั้งดีและแย่ แต่ผลลัพธ์ที่แย่อาจทำให้รู้สึก น่าหงุดหงิดกว่ามาก เมื่อเทียบกับความล้มเหลวของเครื่องมือทั่วไป
- ประเด็นสำคัญคือ UX แบบสนทนา สร้างความรู้สึกคล้ายกำลังโต้ตอบกับมนุษย์ และกระตุ้นปฏิกิริยาทางสังคมและอารมณ์ของผู้ใช้ต่อความผิดพลาดที่เกิดซ้ำ
- หากถามตรง ๆ เอเจนต์จะตอบว่าเป็น AI assistant ที่ไม่มีอารมณ์หรือประสบการณ์เชิงอัตวิสัย แต่ในการโต้ตอบจริง มันใช้น้ำเสียงเป็นมิตรและผ่อนคลาย ชมผู้ใช้ และแม้แต่โต้แย้งก็ทำอย่างนุ่มนวล
- แม้ผู้ใช้จะรู้ในเชิงเหตุผลว่ากำลังอ่านเพียง “ก้อนข้อความที่มีความเป็นไปได้สูง” แต่รูปแบบพฤติกรรมของเครื่องมือกลับสร้างความรู้สึกเหมือนกำลังทำงานกับเพื่อนร่วมงานที่ช่วยเหลือได้ และความรู้สึกนั้นจะคงอยู่จนกว่าจะเกิดปัญหา
- เมื่อความผิดพลาดเดิมเกิดซ้ำ ผู้ใช้จะชี้ให้เห็น เอเจนต์จะขอโทษ และเมื่อถูกทักอีกครั้งก็จะอัปเดตหน่วยความจำพร้อมสัญญาว่า “จะไม่ทำแบบนั้นอีก”
- ถึงอย่างนั้น เครื่องมือก็ยังคงเดินตามเส้นทางที่มีความน่าจะเป็นสูงสุด จึงมีกรณีที่แม้ใช้ HARD RULES ก็ยังไม่สามารถหลุดพ้นจากพฤติกรรมที่เป็นปัญหาได้
เครื่องมือที่ดูเหมือนคนแต่ไม่รับผิดชอบ
- หากเพื่อนร่วมงานที่เป็นมนุษย์ทำผิดพลาดแบบเดิมซ้ำ ๆ ก็มีเหตุผลพอที่จะรู้สึกไม่พอใจ แต่การโกรธอัลกอริทึมกลับดูเป็นเรื่องชวนขัดแย้งในตัวเอง
- อย่างไรก็ตาม เพราะ coding agent แสดงพฤติกรรมคล้ายเพื่อนร่วมงาน ผู้ใช้จึง เปิดใช้วงจรอารมณ์ชุดเดียวกัน และ ความผิดพลาดซ้ำ ๆ อาจให้ความรู้สึกราวกับเป็นความไม่รับผิดชอบของเพื่อนร่วมงานจริง ๆ
- กับเพื่อนร่วมงานที่เป็นมนุษย์ ยังมีข้อจำกัดแบบ “ไม่อยากเป็นคนที่เลวร้าย” คอยยับยั้งการแสดงความโกรธ แต่กับเอเจนต์ ผู้ใช้อาจรู้สึกว่าสามารถโกรธได้เต็มที่
- การระบายความโกรธเช่นนี้ไม่ได้ทำให้รู้สึกปลดปล่อย แต่กลับทำให้ผู้ใช้รู้สึกชัดเจนขึ้นเพียงว่า ไม่ว่าจะทำหรือพูดอะไร ก็ไม่มีผลจริง
- ช่วงหลัง Claude Code เวลาถูกขอให้แก้ไข มักย้อนทบทวนว่าตัวเองพลาดตรงไหนและควรทำอะไรแทน แต่การวิเคราะห์ย้อนหลังแบบนี้ไม่ได้ให้เบาะแสที่เป็นประโยชน์ว่าควรเปลี่ยนคำสั่งอย่างไร และอาจอ่านแล้วรู้สึกว่าเป็น ข้อความส่วนเกินที่ชวนรำคาญ
- วิธีแก้ที่สุดโต่งกว่านั้นอาจเป็นการเลิกพยายามทำตัวให้ดูเหมือนมนุษย์ และทำให้เอเจนต์พูดแบบเป็นเชิงคลินิกและเหมือนหุ่นยนต์ เพื่อลดภาพลวงตาว่าผู้ใช้กำลังโต้ตอบกับคน
- ความฉลาดของ LLM เกิดจากกลไกที่ “พยายามแสดงพฤติกรรมเหมือนมนุษย์” อยู่แล้ว ดังนั้นการที่อินเทอร์เฟซแบบสนทนากลายเป็นรูปแบบพื้นฐานจึงเป็นเรื่องธรรมชาติ และมันก็ใช้ได้ผลดีในหลายด้าน
- ในทางปฏิบัติ ผู้ใช้อาจต้อง ฝึกตัวเองไม่ให้ตกอยู่ในภาพลวงตาว่ากำลังคุยกับมนุษย์ แต่อนาคตที่การใช้เครื่องมือทำงานต้องมีการป้องกันตัวแบบนั้นก็ไม่น่ายินดีนัก
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
สำหรับกรณีการใช้งาน AI ส่วนใหญ่ที่พยายามยัดเยียดให้คนทั่วไปใช้ แชตบอตแบบสนทนา ไม่ใช่เครื่องมือที่เหมาะ และสุดท้ายก็เลี่ยงไม่ได้ที่จะกลายเป็นประสบการณ์ที่น่าหงุดหงิด
ตอนที่ Copilot เป็นเหมือน IntelliSense ที่ฉลาดมาก ๆ มันยอดเยี่ยมมาก พอมาตอนนี้ต้องมานึกพรอมป์ต์แล้วพิมพ์เข้าไปเอง ผมไม่เห็นว่ามันดีกว่าวิธีที่ใช้บริบทของโค้ดรอบข้างมาเติมช่องว่างให้อย่างไร เครื่องมือที่ผสานรวมมาอย่างดีดีกว่าแชตบอตที่เอามาแปะเพิ่มเสมอ และเรื่องแปลภาษาก็เหมือนกัน Firefox มีปุ่มให้แปลข้อความหรือทั้งหน้าได้ทันที แต่ LLM รุ่นใหม่กลับต้องสั่งผ่านแชตบอต เลยดูเหมือนถอยหลังมากกว่า
ผมเข้าใจว่าบริษัท AI อยากสร้างเครื่องมือเดียวแล้วขายให้ทุกคน แต่สุดท้ายมันก็กลายเป็น มีดพกสวิสอาร์มี ทำอะไรได้หลายอย่างก็จริง แต่ถ้าจะขันสกรู มันก็สู้ไขควงที่ออกแบบมาดีไม่ได้ อย่าบังคับให้คนไปตั้งค่าเครื่องมือที่ไม่แน่นอนผ่านกล่องข้อความ แต่ควรสร้างเป็นเครื่องมือจริง ๆ ถึงจะลดความหงุดหงิดได้
ผมใช้ Mistral เป็นหลัก โดย Codestral คุยสนทนาได้แย่มาก แต่เก่งที่สุดเรื่อง “autocomplete แบบมหัศจรรย์” และก็ทำงานประเภทพรอมป์ต์ครั้งเดียว+สร้างจากบริบท เช่น เขียน commit log ได้ดี Document.AI ใช้แบบสนทนาแทบไม่ได้เลย แต่ถ้าเอาไปแทน OCR หรือเอาไปต่อกับ pipeline สำหรับทำ semantic indexing ของเอกสารก็ค่อนข้างดี
เพราะงั้นสิ่งที่ขาดจึงดูเหมือนจะเป็นอินเทอร์เฟซมากกว่าตัวโมเดล เช่น ถ้ามี zsh/bash fork หรือ wrapper ที่ต่อกับโมเดลซึ่งฝึกมาสำหรับการโต้ตอบบน command line ก็น่าจะดี แทนที่จะพิมพ์
git commit --fixup=...ก็พูดว่า “ช่วย fixup commit ที่แก้ชื่อเต็มทั้งหมดให้หน่อย” หรือ “ใช้ ffmpeg แปลง some.mov เป็น mp4 แบบไม่มีเสียง แต่คงคุณภาพกับอัตราส่วนเดิมไว้” แล้วมันแปลงเป็นคำสั่งให้ดู จากนั้นค่อยตั้งว่าอนุญาต/ปฏิเสธ/allowlist/blocklist แล้วจึงรันงานอย่างการแปลภาษา ร่างอีเมล หรืออ่านเอกสารก็ควรทำงานเป็นปุ่ม ปุ่มลัด หรือ tab completion ไม่ใช่การสนทนาเหมือนกัน บริษัทที่แก้เรื่องนี้ได้ดีใน IDE น่าจะชนะในการแข่ง เครื่องมือเขียนโค้ด AI และที่ Zed แสดงปุ่ม “git conflict found, resolve with AI” แม้จะยังเปิดเธรดสนทนาขึ้นมา แต่ก็ดูเป็นก้าวที่ไปในทิศทางที่ถูกต้อง
ผมทำงานได้เยอะมากโดยใช้แค่เอเจนต์กับรีวิว PR บนเว็บโดยไม่ต้องเปิด editor และจะเปิด
code .แค่เป็นครั้งคราวเวลา必要 ลองฝึกกับโปรเจกต์ส่วนตัวสบาย ๆ แบบเล่นเกมดู พอเวลาผ่านไปมันจะหงุดหงิดน้อยลง คล้ายกับการหัดเล่นสกีหรือโบว์ลิ่งการด่าโมเดลช่วยให้มันคิดใหม่และแก้ความผิดพลาดได้จริงค่อนข้างบ่อย Codex, Claude, Qwen และ Gemma/Gemini ก็คล้าย ๆ กันหมด
ไม่แน่ใจว่ามันตีความว่าเป็นสัญญาณว่า “ต้องตั้งใจและเข้มงวดกว่านี้” หรือว่าผู้ให้บริการตรวจจับความหงุดหงิดของผู้ใช้แล้วเปลี่ยนไปใช้โมเดลที่ฉลาดกว่า แต่เวลาเจอความผิดพลาดเดิมซ้ำ ๆ แล้วด่ามัน มันมักหลุดออกจากอาการตันและกลับเข้าสู่ทางที่ถูกต้องได้ หรือไม่ก็คงเป็นแค่ การระบายอารมณ์
มันแสดงให้เห็นว่า “ความหยาบคาย” หรือ “ความหยาบคายอย่างมาก” เพิ่มความแม่นยำของผลลัพธ์ได้ ฟังดูน่าสงสัยแต่ก็น่าอ่านดี โดยเฉพาะพรอมป์ต์ในตาราง 1 ด้านบนของหน้า 3 ที่ยอดเยี่ยมมาก และเดาว่าพวกเขาคงลองพรอมป์ต์อื่นที่ไม่ได้ใส่ไว้ในงานด้วย
เมื่อวาน Opus ยืนกรานว่าเป็นปัญหาที่ API เพราะบอกว่าฟิลด์บางตัวไม่มี ทั้งที่ผมก็โชว์ JSON กับล็อกให้ดูแล้ว แต่มันก็ยังพูดซ้ำว่า “คงเป็นปัญหาชั่วคราว” ผมหงุดหงิดเลยด่าไปประโยคหนึ่งแบบจัดเต็ม ปรากฏว่าวิธีแก้ถัดมาถูกต้อง ทั้งที่ก่อนหน้านั้นมันตอบผิดแนวเดิมประมาณ 10 ครั้ง กรณีแบบนี้ค่อย ๆ น้อยลงก็จริง แต่ก็ยังเป็นสถานการณ์ที่จริง ๆ แล้วผมน่าจะลงมือทำเอง และก่อนจะเริ่มก็ไม่รู้ด้วยว่าโมเดลจะดันทุรังยึดสาเหตุผิด ๆ ไปได้นานแค่ไหน ผมไปถึงคำตอบหลังพรอมป์ต์ประมาณ 11 ครั้งใน
/clearOpus 4.7 xhigh ที่มีบริบท 1 ล้านโทเค็นgrepย้อนหลังได้ง่ายขึ้นด้วยเวลาจะวิเคราะห์ว่ามันเกิดบ่อยแค่ไหนธรรมชาติแบบสนทนาของ LLM มีแนวโน้มจะดึงคนเข้าไปสู่เส้นทางการคุยที่ไม่ก่อให้เกิดประสิทธิภาพ
การบอกว่า “อย่าทำ X” มีประโยชน์พอ ๆ กับการบอกเด็กทารกที่กำลังร้องไห้อย่าว่าร้องเลย พอเด็กทารกร้อง เราเข้าใจโดยธรรมชาติว่าต้องแก้ความไม่สบายบางอย่าง เช่น อาหารหรือผ้าอ้อม ในทำนองเดียวกัน เวลา LLM ล้มเหลว ผมมองว่านั่นเป็นสัญญาณว่ามีปัญหาใน สถาปัตยกรรมและโครงสร้าง ของโค้ด
โดยทั่วไปนักพัฒนาที่ชำนาญจะมองเห็นแพตเทิร์นที่ฝ่าฝืน DRY หรือ KISS แล้วจัดโครงสร้างการ encapsulation เพื่อแก้ปัญหาได้ โค้ดที่ LLM สร้างขึ้นก็ต้องการการรีแฟกเตอร์ประเภทเดียวกันเพื่อให้ผลลัพธ์ดีขึ้น และแค่สั่งว่า “รีแฟกเตอร์ให้สะอาด” คั่นเป็นช่วง ๆ ระหว่างการสร้างโค้ด ก็ช่วยให้การบำรุงรักษาดีขึ้นมาก
มีบทความก่อนหน้านี้ที่พูดถึงผลกระทบทางจิตวิทยาและสังคมของประเด็นนี้อย่างลึกขึ้น: https://medium.com/@livestock.dev/we-were-promised-liberatio...
ปัญหาไม่ใช่การทำตัวเหมือนมนุษย์ แต่คือการ ทำตัวแบบคาดเดาไม่ได้ สิ่งที่ทรมานคือเราไม่สามารถนิยามขอบเขตของสิ่งที่คาดหวังได้
ปัญหาที่ใหญ่กว่านั้นคือความหงุดหงิดก่อให้เกิดความเครียด และสร้างสภาพแวดล้อมการทำงานที่เป็นปฏิปักษ์และไม่ดีต่อสุขภาพ ฉันเห็นด้วยกับความคิดที่ว่าเครื่องมือ AI สามารถช่วยได้มากกว่าสร้างความเจ็บปวด แต่ฉันก็ไม่อยากทำงานในสภาพแวดล้อมการทำงานที่เจ็บปวดและเป็นปฏิปักษ์ สุขภาพและศักดิ์ศรีของฉันไม่ใช่สิ่งที่ต่อรองได้ และถึงจะต้องพลาดงานจำนวนมากเพราะเรื่องนั้นก็เหมือนเดิม
การไม่ทำงานบน Windows ก็ด้วยเหตุผลเดียวกัน มันทำให้โอกาสลดลงมากเหมือนกัน แต่ฉันจะเลือกทางที่รักษาศักดิ์ศรีและสติสัมปชัญญะของตัวเองไว้
สำหรับฉัน LLM ก็ยังไม่ถึงระดับที่ใช้งานได้ สิ่งที่ฉันต้องการคือ LLM ที่พูดว่า “หยุดก่อน ดูเหมือนตอนนี้คุณกำลังทำอะไรผิดอยู่ ลองอธิบายหน่อยว่าคุณกำลังพยายามทำอะไร” แต่ LLM รุ่นปัจจุบันกลับให้ความรู้สึกเหมือนถูกออกแบบมาเพื่อทำให้ฉันโกรธ
ถ้าฉันวางตัวเหมือนอาจารย์ โมเดลก็จะวางตัวเหมือนศิษย์ แต่ถ้าฉันวางตัวเหมือนศิษย์ โมเดลก็จะพยายามสั่งสอน ดังนั้นเป้าหมายคือดึงบทสนทนานี้ไปสู่ภาษาของผู้เชี่ยวชาญที่ถกเถียงกันด้วยเหตุผลและภาษา รู้สึกว่า พรอมป์ต์เชิงวิชาการ ชนะ
แค่นึกภาพครูดูแลเด็กเล็กหรือคนขับรถบรรทุกส่งอาหารพูดว่า “ความหงุดหงิดสร้างความเครียด และเป็นสภาพแวดล้อมการทำงานที่เป็นปฏิปักษ์ซึ่งไม่ดีต่อสุขภาพ” ก็พอ
ปัญหาที่เห็นตลอดคือ พอเสนออะไรไป AI จะวนลูปการคิดแล้วไปถึงข้อสรุปที่ผิดอย่างแม่นยำ จากนั้นก็พ่นโทเคนเป็นทางแก้ที่ถูกทำขึ้นให้เข้ากับข้อสรุปนั้น
ฉันอยากให้มันพูดว่า “ฉันไม่ค่อยแน่ใจว่าหมายถึงอะไร ช่วยทำส่วนนี้ให้ชัดขึ้นหน่อย” บ่อยกว่านี้ ถ้ามี สไลเดอร์ความมั่นใจ สำหรับปรับระดับความมั่นใจของตัวเองได้ก็คงดี
ตัวอย่างเช่น ใน TDD ถ้าให้โมเดลเดียวกันเขียนทั้งเทสต์และโค้ด มันแทบจะเลือกวิธีแก้ไว้ก่อนเสมอ แล้วค่อยฝืนเขียนเทสต์ให้เข้ากับมัน เพราะงั้นฉันจึงสั่งให้ใช้ซับเอเจนต์ แต่เครื่องมือที่ช่วยให้เห็นว่ามีคอนเท็กซ์อะไรถูกส่งต่อระหว่างเอเจนต์กับซับเอเจนต์นั้นมีน้อยเกินไป
วิธีที่ได้ผลดีคือให้หนึ่งเธรดเขียนเทสต์อย่างเดียว มันอ่านโค้ดไม่ได้ หรืออ่านได้แค่ไดเรกทอรีเทสต์หรือบางส่วนเท่านั้น จากนั้นอีกเธรดในคอนเท็กซ์ใหม่จะรันเทสต์เพื่อยืนยันว่ามันล้มเหลว และเมื่อเทสต์ผ่านก็ให้หยุด implementation ทันที พร้อมห้ามแก้เทสต์ อีกคอนเท็กซ์ใหม่หนึ่งก็ให้รีแฟกเตอร์ตาม skill สำหรับรีแฟกเตอร์แบบเข้มงวด งานเยอะมาก และน่าขันที่ skill ที่เอเจนต์เขียนขึ้นมาก็ค่อนข้างแย่เลยต้องแก้มือเยอะ แต่ผลตอบแทนก็คุ้มหวังได้
ฉันคิดว่าปัญหา UX อยู่ที่อื่น ผู้ใช้จำนวนมากอาจไม่รู้ว่า context window ของเอเจนต์มีข้อจำกัด และมีการบีบอัดอย่างชาญฉลาดเกิดขึ้นตลอดเวลาเพื่อให้มันดูเหมือนไม่สิ้นสุด แต่ความหมายของมันคือเอเจนต์จำเป็นต้องลืมบางส่วนแน่นอน
ผลก็คือผู้ใช้จะใช้ coding session หรือ chat session เดิมซ้ำไปเรื่อย ๆ ทั้งที่ถ้าเป็นงานที่ไม่เกี่ยวกัน การเริ่มใหม่จะดีกว่า
ปกติฉันทำงานกับเซสชันต่ำกว่า 300k โทเคน ใช้ Opus 4.7 xhigh และดูเหมือนว่าจะมีรูรั่วใน world model หรือมีบางส่วนที่ถูก condition ไว้แรงมาก ซึ่งจะทะลุออกมาได้ไม่ว่าคุณจะเขียนกฎใน system prompt ให้หนักแน่นและชัดเจนแค่ไหน แม้จะเป็นเซสชันใหม่ พอชนจุดแบบนั้นก็จะเข้าสู่วงจรที่หลุดออกมายาก และการด่าช่วยได้เล็กน้อย
การทำงานกับ LLM ช่วยพัฒนา ทักษะการสื่อสาร ได้ดี การสื่อสารอย่างมีประสิทธิภาพเป็นหนึ่งในทักษะที่ยากที่สุด และแทบอยู่ในทุกสิ่งที่มนุษย์ทำ
ในเชิงหลักการ ฉันคิดว่าการมองว่าเป็นความล้มเหลวในการสื่อสารฝั่งตัวเองดีกว่าไปโทษ LLM โง่ ๆ เพราะในทางปฏิบัติ ฝั่งเดียวที่ฉันเปลี่ยนอะไรได้ก็คือตัวฉันเอง ดังนั้นฉันจึงไม่คิดว่านี่เป็นปัญหาเชิงรูปแบบว่าควรให้ AI ทำตัวเหมือนมนุษย์หรือไม่
ถึงแม้เอเจนต์จะถูกฝึกให้รับมือกับไวยากรณ์ที่ไม่ชัดเจนหรือกำกวม รวมถึงโครงสร้างที่แย่ได้ดีขึ้น แต่ถ้าพูดเป็นภาษาอังกฤษที่ชัดเจน มีโครงสร้าง และให้บริบทของงานครบพอ คุณภาพจะแตกต่างอย่างเห็นได้ชัด สำหรับฉันมันเป็นธรรมชาติเพราะชอบการเขียนและการอธิบาย แต่สำหรับบางคนมันดูแทบเหมือนกำแพงที่ข้ามไม่ได้ ฉันคิดว่า ทักษะการสื่อสารและการเขียน แบบนี้จะเป็นปัจจัยสำคัญที่แบ่งคนที่มีและไม่มีแต้มต่อ ระหว่างการเปลี่ยนผ่านของ “วิศวกรรม” ซอฟต์แวร์
อีกอย่าง คุณค่าบางส่วนของ coding agent คือเราไม่จำเป็นต้องแจกแจงทุกอย่างให้สมบูรณ์แบบ ถ้าต้องให้รายละเอียด implementation ทั้งหมดกับ LLM ก็เขียนโค้ดเองไปเลยดีกว่า แน่นอนว่าไม่ได้คาดหวังระดับ “ช่วยสร้างแอปเจ๋ง ๆ ที่ทำเงินให้หน่อย” แต่ก็หวังว่าจะมี ความฉลาด ระดับหนึ่งในการหาเศษชิ้นส่วนที่หายไป
ทักษะที่ฉันยังมีอยู่ และ LLM ยังแทนที่ไม่ได้ คือ ความสามารถในการตั้งคำถามที่ดี
มันคือความสามารถอย่างการเรียบเรียงคำถามเดิมใหม่เพื่อยืนยันว่าฉันเข้าใจถูกต้อง ถาม "ทำไม" ให้มากพอจนกว่าจะเข้าใจว่าคู่สนทนาเริ่มต้นมาจากจุดไหน และโยนคำถามปลายเปิดที่ก่อให้เกิดข้อค้นพบใหม่ ๆ ส่วน LLM มักเดาพื้นหลังของคำถามได้ไม่ดี แล้วก็ตอบบนพื้นฐานของการเดานั้น จากนั้นก็ปล่อยมือจากสมมติฐานที่ตัวเองสร้างขึ้นไม่ได้
ปกติแล้วฉันไม่อยากให้ AI ถามฉันกลับ เพราะฉันอยากให้มันคาดเดาส่วนที่ไม่ได้ระบุไว้อย่างสมเหตุสมผล และถ้าฉันอยากระบุ ฉันก็คงทำไปแล้ว ดังนั้นบางครั้งฉันจะบอกตรง ๆ เลยว่าอย่าถาม ให้ตั้งสมมติฐานที่สมเหตุสมผลกับส่วนที่ระบุไว้ไม่ครบแทน แต่ถ้าฉันต้องการคำถามเพื่อความชัดเจน ก็แค่บอกให้มันทำแบบนั้นได้ ถ้าคุณชอบวิธีนี้ก็ควรใส่ไว้ในพรอมป์ต์ หรือไม่ก็ให้เครื่องมือเขียนโค้ดที่ยืดหยุ่นอย่าง pi สร้างสกิลหรือส่วนขยายที่ผลักไปในทิศทางการสำรวจแบบนั้น
เรากำลังสร้าง บริการ แทนที่จะสร้างเครื่องมือ เรื่องนี้ไม่ได้จำกัดอยู่แค่ AI แต่มีอยู่ทั่วไป
เครื่องมืออาจแก้ปัญหาได้ไม่ครบทั้งหมดในครั้งเดียว แต่ช่วยให้เดินหน้าไปทีละขั้นเล็ก ๆ ได้ และแต่ละขั้นก็มีความคาดเดาได้และสม่ำเสมอ ส่วนบริการพยายามแก้ปัญหาให้เสร็จในครั้งเดียว แต่จะให้คำตอบที่ดีได้ก็ต่อเมื่อผู้ใช้ตรงกับรูปแบบที่กำหนดไว้ล่วงหน้าเท่านั้น ถ้าไม่ตรงก็แทบไม่มีประโยชน์ และก็ไม่มีขั้นเล็ก ๆ ให้ค่อยประกอบไปจนถึงจุดที่ต้องการ เครื่องมือใช้งานแล้วรู้สึกสนุก
เครื่องมือคือส่วนขยายของฉัน เป็นการเอาความสามารถใหม่มาไว้ใกล้มือด้วยเจตจำนงของฉันเอง และขยับใช้งานมันได้เหมือนเป็นส่วนหนึ่งของร่างกาย ตรงกันข้าม บริการคือการร้องขอให้มันทำบางอย่าง แล้วมันก็ส่งผลงานที่เสร็จแล้วกลับมา