- ทำไมการจองเที่ยวบินจึงกลายเป็น "Hello World" ของเดโม AI เอเจนต์?
- ผู้ใช้ชอบ UX ที่เสร็จสมบูรณ์อยู่แล้ว (เช่น Google Flights) มากกว่าการให้ AI จองเที่ยวบินให้
- ความผิดพลาดเพียงครั้งเดียวอาจนำไปสู่นรกของงานบริการลูกค้าที่ซับซ้อน
- ระบบที่ใช้งานได้อย่างเป็นธรรมชาติและคาดการณ์ได้ กลับมีความล้ำสมัยมากกว่า
- AI ยังอยู่ในระยะเริ่มต้น และ ผู้ใช้ทั่วไปคาดหวังความสม่ำเสมอและความสามารถในการคาดการณ์ได้
- ตัวอย่าง: แม้จะมี ความแม่นยำ 80% แต่ให้ผลลัพธ์สม่ำเสมอ ก็ยังยอมรับได้
ในทางกลับกัน ความแม่นยำ 90% ที่ไม่สม่ำเสมอ จะบ่อนทำลายความเชื่อถือ
- โปรเจกต์ AI จำนวนมากมองข้ามเรื่องนี้และไล่ตาม เดโมหวือหวาและฟีเจอร์ที่เกินตัว → สุดท้ายสูญเสียความไว้วางใจ
- IDE จำนวนมากขึ้นเรื่อย ๆ กำลังสูญเสียความโปร่งใส
- ผู้ใช้ ไม่สามารถรู้ได้ว่า AI กำลังทำอะไรอยู่
- ตัวอย่าง: เหตุการณ์ Cursor ลบงานทั้งหมด ที่เป็นประเด็นดังบน Reddit
- แม้จะมีปัญหาเรื่องความไม่ชำนาญในการใช้ version control ของผู้ใช้ด้วย แต่ สาเหตุที่แท้จริงคือการออกแบบ UI/UX
- การออกแบบที่ดีต้องป้องกันความผิดพลาด และ อธิบายการทำงานของ AI ให้ชัดเจน พร้อมทั้ง มีฟังก์ชันยกเลิกการทำงาน
- ในช่วงแรก Cursor:
- มอบ ปฏิสัมพันธ์ที่โปร่งใสและเบาด้วยอินเทอร์เฟซแบบ tab-completion
- ได้รับความนิยมจาก แนวทางที่ค่อย ๆ สร้างความเชื่อมั่นของผู้ใช้
- ดีไซน์ที่เรียบง่ายและย้อนกลับได้ มีประสิทธิภาพในการลดความไม่ไว้วางใจต่อ AI
- Devin ซึ่งได้รับ เงินลงทุน $200 ล้าน มุ่งสู่การเป็น "เอเจนต์อัตโนมัติเต็มรูปแบบ"
- ระบบที่ซับซ้อน การตอบสนองที่ช้า และผลลัพธ์ที่คาดเดาไม่ได้ ทำลายความเชื่อถือ
- แนวทางที่ ทะเยอทะยานเกินไป กลับยิ่งสร้างความสับสนให้ผู้ใช้
ความรวดเร็ว vs. ความน่าเชื่อถือ: ภาวะกลืนไม่เข้าคายไม่ออกของทีมพัฒนา AI
- ทีมพัฒนา AI ต้องเลือกอย่างใดอย่างหนึ่งต่อไปนี้:
- จะ เดินหน้าอย่างรวดเร็วโดยยอมรับความผิดพลาด หรือไม่
- หรือจะ ให้ความสำคัญกับความน่าเชื่อถือและเสถียรภาพก่อน
- คำตอบคือการโฟกัสที่ฟีเจอร์ซึ่งสามารถ ทำผลงานได้ยอดเยี่ยมในขอบเขตเล็ก ๆ และ ปรับปรุงซ้ำอย่างต่อเนื่อง
หลักการสำคัญ: ความสามารถในการคาดการณ์สำคัญกว่าความซับซ้อน
- ควรโฟกัสที่งานที่เข้าใจได้ดี มากกว่าระบบที่ซับซ้อน
- AI เอเจนต์ยังคงมีศักยภาพในการเปลี่ยนแปลงอย่างมาก แต่ทั้งสามข้อต่อไปนี้ต้องเป็นแกนกลาง:
- ความน่าเชื่อถือ
- ความโปร่งใส
- ความสามารถในการคาดการณ์
Workflow vs. เอเจนต์
- กรอบคิดของ Anthropic: "หากงานหนึ่งสามารถอธิบายเป็น workflow ได้ ก็ควรสร้างเป็น workflow ไม่ใช่เอเจนต์"
- workflow มี ความคาดการณ์ได้ ควบคุมได้ และเรียบง่าย
- เอเจนต์นั้น ซับซ้อนและควบคุมได้ยาก จึงควรใช้เฉพาะในสถานการณ์ที่มีความไดนามิกจริง ๆ
1 ความคิดเห็น
ความเห็นจาก Hacker News
เอเจนต์สำหรับ "จองตั๋วเครื่องบิน" ตอนนี้กลายเป็นมุกตลกไปแล้ว และยังถูกพูดถึงในคีย์โน้ตงานอีเวนต์ AI Engineer ล่าสุดของ Swyx ด้วย
นักวิจัยของ Google Deepmind กำลังทำวิจัยเพื่อเพิ่มความน่าเชื่อถือของเอเจนต์
การจองตั๋วเครื่องบินเป็นงานที่ไม่สามารถปล่อยให้ AI จัดการได้
หลายกรณีผู้คนมีแนวโน้มจะพยายามยัด AI เข้าไปในเวิร์กโฟลว์เดิม
จากประสบการณ์ใช้งาน Cursor ได้ข้อสรุปว่าความน่าเชื่อถือสำคัญมาก
จากพัฒนาการทางเทคโนโลยีในช่วง 20 ปีที่ผ่านมา คิดว่าความน่าเชื่อถือสำคัญกว่า
คอมเมนต์ในเธรด Reddit เกี่ยวกับสถานะปัจจุบันของ AI สำหรับการเขียนโปรแกรม สรุปความรู้สึกของฉันได้ดี
มีหลักการอยู่ว่าอย่างน้อยเวลาที่ AI เขียนโค้ด เราควรต้องเข้าใจโค้ดนั้นได้
คิดว่าเวิร์กโฟลว์สำคัญกว่าเอเจนต์
Google Flights มอบ UX ที่สมบูรณ์แบบอยู่แล้ว