5 คะแนน โดย GN⁺ 2025-04-01 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • ทำไมการจองเที่ยวบินจึงกลายเป็น "Hello World" ของเดโม AI เอเจนต์?
    • ผู้ใช้ชอบ UX ที่เสร็จสมบูรณ์อยู่แล้ว (เช่น Google Flights) มากกว่าการให้ AI จองเที่ยวบินให้
    • ความผิดพลาดเพียงครั้งเดียวอาจนำไปสู่นรกของงานบริการลูกค้าที่ซับซ้อน
    • ระบบที่ใช้งานได้อย่างเป็นธรรมชาติและคาดการณ์ได้ กลับมีความล้ำสมัยมากกว่า
  • AI ยังอยู่ในระยะเริ่มต้น และ ผู้ใช้ทั่วไปคาดหวังความสม่ำเสมอและความสามารถในการคาดการณ์ได้
    • ตัวอย่าง: แม้จะมี ความแม่นยำ 80% แต่ให้ผลลัพธ์สม่ำเสมอ ก็ยังยอมรับได้
      ในทางกลับกัน ความแม่นยำ 90% ที่ไม่สม่ำเสมอ จะบ่อนทำลายความเชื่อถือ
    • โปรเจกต์ AI จำนวนมากมองข้ามเรื่องนี้และไล่ตาม เดโมหวือหวาและฟีเจอร์ที่เกินตัว → สุดท้ายสูญเสียความไว้วางใจ
  • IDE จำนวนมากขึ้นเรื่อย ๆ กำลังสูญเสียความโปร่งใส
    • ผู้ใช้ ไม่สามารถรู้ได้ว่า AI กำลังทำอะไรอยู่
    • ตัวอย่าง: เหตุการณ์ Cursor ลบงานทั้งหมด ที่เป็นประเด็นดังบน Reddit
      • แม้จะมีปัญหาเรื่องความไม่ชำนาญในการใช้ version control ของผู้ใช้ด้วย แต่ สาเหตุที่แท้จริงคือการออกแบบ UI/UX
      • การออกแบบที่ดีต้องป้องกันความผิดพลาด และ อธิบายการทำงานของ AI ให้ชัดเจน พร้อมทั้ง มีฟังก์ชันยกเลิกการทำงาน
  • ในช่วงแรก Cursor:
    • มอบ ปฏิสัมพันธ์ที่โปร่งใสและเบาด้วยอินเทอร์เฟซแบบ tab-completion
    • ได้รับความนิยมจาก แนวทางที่ค่อย ๆ สร้างความเชื่อมั่นของผู้ใช้
    • ดีไซน์ที่เรียบง่ายและย้อนกลับได้ มีประสิทธิภาพในการลดความไม่ไว้วางใจต่อ AI
  • Devin ซึ่งได้รับ เงินลงทุน $200 ล้าน มุ่งสู่การเป็น "เอเจนต์อัตโนมัติเต็มรูปแบบ"
    • ระบบที่ซับซ้อน การตอบสนองที่ช้า และผลลัพธ์ที่คาดเดาไม่ได้ ทำลายความเชื่อถือ
    • แนวทางที่ ทะเยอทะยานเกินไป กลับยิ่งสร้างความสับสนให้ผู้ใช้

ความรวดเร็ว vs. ความน่าเชื่อถือ: ภาวะกลืนไม่เข้าคายไม่ออกของทีมพัฒนา AI

  • ทีมพัฒนา AI ต้องเลือกอย่างใดอย่างหนึ่งต่อไปนี้:
    • จะ เดินหน้าอย่างรวดเร็วโดยยอมรับความผิดพลาด หรือไม่
    • หรือจะ ให้ความสำคัญกับความน่าเชื่อถือและเสถียรภาพก่อน
  • คำตอบคือการโฟกัสที่ฟีเจอร์ซึ่งสามารถ ทำผลงานได้ยอดเยี่ยมในขอบเขตเล็ก ๆ และ ปรับปรุงซ้ำอย่างต่อเนื่อง

หลักการสำคัญ: ความสามารถในการคาดการณ์สำคัญกว่าความซับซ้อน

  • ควรโฟกัสที่งานที่เข้าใจได้ดี มากกว่าระบบที่ซับซ้อน
  • AI เอเจนต์ยังคงมีศักยภาพในการเปลี่ยนแปลงอย่างมาก แต่ทั้งสามข้อต่อไปนี้ต้องเป็นแกนกลาง:
    • ความน่าเชื่อถือ
    • ความโปร่งใส
    • ความสามารถในการคาดการณ์

Workflow vs. เอเจนต์

  • กรอบคิดของ Anthropic: "หากงานหนึ่งสามารถอธิบายเป็น workflow ได้ ก็ควรสร้างเป็น workflow ไม่ใช่เอเจนต์"
    • workflow มี ความคาดการณ์ได้ ควบคุมได้ และเรียบง่าย
    • เอเจนต์นั้น ซับซ้อนและควบคุมได้ยาก จึงควรใช้เฉพาะในสถานการณ์ที่มีความไดนามิกจริง ๆ

1 ความคิดเห็น

 
GN⁺ 2025-04-01
ความเห็นจาก Hacker News
  • เอเจนต์สำหรับ "จองตั๋วเครื่องบิน" ตอนนี้กลายเป็นมุกตลกไปแล้ว และยังถูกพูดถึงในคีย์โน้ตงานอีเวนต์ AI Engineer ล่าสุดของ Swyx ด้วย

    • คิดว่าบทความนี้ประเมินความยากของปัญหานี้ต่ำเกินไป
    • ใน UI ที่มนุษย์ต้องพิมพ์ข้อมูลหรือโต้ตอบกัน มีความเป็นไปได้ของข้อผิดพลาดได้ไม่สิ้นสุด
    • มนุษย์สื่อสารให้ชัดเจนได้ไม่เก่ง และก็ยากที่จะเข้าใจความสามารถของซอฟต์แวร์ได้อย่างแม่นยำ
  • นักวิจัยของ Google Deepmind กำลังทำวิจัยเพื่อเพิ่มความน่าเชื่อถือของเอเจนต์

    • การประเมินอย่างเข้มงวดที่เป็นตัวแทนพฤติกรรมผู้ใช้จริงมีความสำคัญ
    • ได้เผยแพร่เดโมการให้เหตุผลขั้นสูงของเอเจนต์กับเอกสารคดีลอบสังหาร JFK จำนวน 80,000 หน้า
    • แม้ใช้ไฟล์เพียงจำนวนน้อย ก็ยังมีช่องว่างด้านความน่าเชื่อถือ/ความแม่นยำกับผู้เล่น AI รายใหญ่ค่อนข้างมาก
  • การจองตั๋วเครื่องบินเป็นงานที่ไม่สามารถปล่อยให้ AI จัดการได้

    • เวลาเดินทางกับครอบครัวหรือเดินทางส่วนตัว ต้องอาศัยลูกเล่นและเทคนิคหลายอย่าง
    • มีหลายปัจจัยให้ต้องพิจารณา เช่น เว็บไซต์ทางการ การเทียบราคา การตรวจสอบวันที่ และการคิดเรื่องแต้มบัตรเครดิต
  • หลายกรณีผู้คนมีแนวโน้มจะพยายามยัด AI เข้าไปในเวิร์กโฟลว์เดิม

    • เวิร์กโฟลว์เดิมมี UX/UI ที่ถูกปรับให้เหมาะสมอยู่แล้ว
    • การใช้ AI อาจไม่ใช่คำตอบในการแก้ปัญหาเสมอไป
  • จากประสบการณ์ใช้งาน Cursor ได้ข้อสรุปว่าความน่าเชื่อถือสำคัญมาก

    • ผลลัพธ์จากโมเดลที่เร็วต้องการการแก้ไขเพิ่มเติมมากกว่า
    • การระบุให้ชัดเจนว่าจะใช้ไลบรารีใดมีความสำคัญ
  • จากพัฒนาการทางเทคโนโลยีในช่วง 20 ปีที่ผ่านมา คิดว่าความน่าเชื่อถือสำคัญกว่า

    • เราต้องการฟีเจอร์ใหม่จริง ๆ เพียงไม่กี่อย่าง เช่น สมาร์ตโฟน เส้นทางการขับขี่ และที่เก็บข้อมูลบนคลาวด์
    • ตอนนี้สิ่งสำคัญคืออายุแบตเตอรี่และฟีเจอร์ควบคุมโดยผู้ปกครองบนอุปกรณ์ของลูก
  • คอมเมนต์ในเธรด Reddit เกี่ยวกับสถานะปัจจุบันของ AI สำหรับการเขียนโปรแกรม สรุปความรู้สึกของฉันได้ดี

    • วิศวกรหน้าใหม่ที่เริ่มเข้าสู่วงการโปรแกรมมิ่งเพราะ AI กำลังมองข้ามพื้นฐานที่จำเป็น
    • แต่ก็ยังรู้สึกโล่งใจที่อย่างน้อยตำแหน่งของฉันยังมีที่ยืนอยู่
  • มีหลักการอยู่ว่าอย่างน้อยเวลาที่ AI เขียนโค้ด เราควรต้องเข้าใจโค้ดนั้นได้

    • ไม่อาจทำตามแนวทางของพวก "vibe coder" ที่ไม่เข้าใจโค้ดที่ AI เขียนได้
  • คิดว่าเวิร์กโฟลว์สำคัญกว่าเอเจนต์

    • เมื่อเอเจนต์พร้อมทำงานด้วยความแม่นยำสูง ก็สามารถนำมาใช้ในเวิร์กโฟลว์ได้
    • จะมองหาวิธีสร้างเวิร์กโฟลว์ที่มีประสิทธิภาพ แม่นยำ และวินิจฉัยปัญหาได้ง่าย
  • Google Flights มอบ UX ที่สมบูรณ์แบบอยู่แล้ว

    • คิดว่าการค้นหาบนเว็บเชื่อถือได้มากกว่าและเร็วกว่าเมื่อเทียบกับการใช้เอเจนต์ AI
    • ยังไม่มั่นใจว่า AI จะมีประโยชน์จริงหรือไม่ และก็สงสัยว่ามีการทดสอบอย่างเหมาะสมหรือเปล่า