• หลังจากลองใช้ Computer Use API ของ Anthropic แล้ว พบว่า
    • มันช้า ไม่น่าเชื่อถือ และยึดครองคอมพิวเตอร์ได้ง่าย แต่ก็ "น่าสนใจมากอย่างเหลือเชื่อ"
  • Claude Computer ให้ประสบการณ์แบบ 'เอเจนต์' ที่แท้จริง เพราะ Vision เป็น API ที่เชื่อมทุกอย่างเข้าด้วยกัน ทำให้มันสามารถทำอะไรบางอย่างได้เสมอ

มันทำงานอย่างไร?

  • โดยพื้นฐานแล้ว Claude Computer Use ดูเหมือนจะเป็น Claude3.5 ที่ถูก fine-tune ด้วยข้อมูลการโต้ตอบกับคอมพิวเตอร์
  • มันเข้าใจภาพหน้าจอของคอมพิวเตอร์และสิ่งที่อยู่บนหน้าจอได้ดีกว่าโมเดลอื่นอย่างมาก

[สิ่งที่ทำได้ดี]

การอ่านข้อความบนหน้าจอและการนำทาง (ค่อนข้าง)

  • แทบไม่เคยเห็น Claude อ่านเนื้อหาบนภาพหน้าจอผิดเลย
  • เมื่อเทียบกับ AI อื่น ๆ มันค่อนข้างเก่งในการระบุพิกัดอย่าง (500,250) 위치의 입력창을 클릭하세요 (แม้อาจคลาดเคลื่อนได้เล็กน้อยตามขนาดหน้าจอ)

การเรียกใช้ฟังก์ชัน

  • ปกติคุ้นเคยกับการคิดว่าการเรียกใช้ฟังก์ชันแย่กว่า structured output อย่างชัดเจน แต่ Claude Computer ใช้การเรียกใช้ฟังก์ชันได้ดี
  • ตัวอย่างเช่น หากมีฟังก์ชันเครื่องมือเบราว์เซอร์ที่พาไปยังเว็บไซต์ได้ทันที มันจะเลือกใช้ฟังก์ชันนั้นแทนการคลิกไอคอนเบราว์เซอร์

การคิดเป็นขั้นตอน

  • หากขอให้แยกงานออกเป็นขั้นตอน Claude มักจะเก่งพอสมควรในการหาว่าต้องทำอะไรบ้างและเริ่มลงมือ

[สิ่งที่ทำได้ไม่ดี]

การรู้ว่าเมื่อไรควรอ่านหน้าจอ

  • การจับภาพหน้าจอมีต้นทุนสูง ดังนั้น AI จึงมีแนวโน้มจะสมมติว่าการกระทำของตัวเองสำเร็จแล้ว
  • ตัวอย่างเช่น ถ้าพิมพ์ลงในฟิลด์แต่ไม่มีโฟกัส จะตรวจพบในภายหลังได้ยากมาก การเรียกใช้ฟังก์ชันของ OS จึงต้องอธิบายอย่างแม่นยำมากว่าผลลัพธ์ที่ตั้งใจไว้นั้นเกิดขึ้นจริงหรือไม่
  • นี่เป็นวิธีที่ Claude สะดุดบ่อยที่สุด พอถึงเวลาถ่ายภาพหน้าจอใหม่ มันก็ไม่รู้แล้วว่าตัวเองคืบหน้าไปถึงไหน

การดึงข้อมูลให้มากขึ้น

  • หากสั่งให้หาร้านชาวาร์มา 3 แห่งที่ใกล้ที่สุด Claude จะพิมพ์คำว่า 'ชาวาร์มา' ลงใน Google Maps แล้วเลือก 3 ผลลัพธ์แรก
  • หากต้องคลิก มันแทบจะไม่เลือก 'เรียงตามระยะทาง' จากเมนูก่อนเลย
  • ปัญหานี้อาจแก้ได้ด้วยโครงสร้างพรอมป์ที่ดีกว่า

การจำสถานะ

  • ใน Computer Use ส่วนของสถานะโปรแกรมจำนวนมากถูกเก็บอยู่ในภาพ ทำให้มันดูเปราะบางกว่าในการดึงกลับมานึก
  • สิ่งนี้ใช้กับงานที่เคยทำไปก่อนหน้าเช่นกัน เช่น แท็บที่เคยเปิดไว้หรือแอปพลิเคชันที่เคยเปลี่ยนไป
  • จึงควรให้ Claude แสดงสถานะที่เกี่ยวข้องออกมาเป็นข้อความให้มากที่สุด และส่งมอบสถานะระบบผ่านเครื่องมือ

การนำทางในโมดัลและป๊อปอัป

  • Claude มักสับสนกับโมดัลและป๊อปอัปบ่อยที่สุด ไม่รู้ว่าจะคลิกเพื่อออกจากสิ่งเหล่านั้นอย่างไร หรือไม่รับรู้ว่าตอนนี้ยังไม่อยู่ในสถานะที่ถูกต้อง

[ต้องมีอะไรบ้าง?]

ให้สถานะของระบบให้มากที่สุดเท่าที่ทำได้

  • ในอุดมคติแล้ว อยากให้ Claude Computer ใช้ Vision เฉพาะตอนที่จำเป็นจริง ๆ เท่านั้น
  • หากมีเครื่องมือที่ช่วยให้เข้าใจสถานะได้ง่ายโดยไม่ต้องใช้ Vision มันจะทำงานได้เร็วขึ้นและคิดได้ชัดเจนขึ้น
  • สิ่งต่อไปนี้ช่วยได้มาก:
    • รายชื่อแอปพลิเคชันที่เปิดอยู่
    • แอปพลิเคชันใดกำลังมี active focus
    • ภายในแอปนั้น ตอนนี้อะไรเป็นจุดที่มีโฟกัส
    • การเรียกใช้ฟังก์ชันให้มากที่สุดเท่าที่จะทำได้เพื่อใช้สำรวจแอปนั้นโดยเฉพาะ
      • โดยเฉพาะเครื่องมือเบราว์เซอร์มีความสำคัญมาก (เช่น เพื่อไปยัง URL ที่กำหนดหรือใช้ค้นหา)

วิธีจัดการกับความไม่แน่นอน

  • นี่คือปัญหาที่ยังไม่ถูกแก้ที่ใหญ่ที่สุดของการพัฒนาเอเจนต์
  • สิ่งสำคัญที่สุดสำหรับเอเจนต์คือความน่าเชื่อถือ และความน่าเชื่อถือต้องอาศัยอินพุตและฟีดแบ็ก
  • ระหว่างการทดสอบ มีหลายครั้งที่เห็นได้ชัดว่า Claude ไม่รู้ว่าควรทำอะไร แต่แทนที่จะหยุดหรือถาม มันกลับฝืนทำต่อ
  • ใช้เวลาค่อนข้างนานในการสร้างเครื่องมือถามคำถาม เพื่อให้ AI ถามหรือให้เหตุผลเมื่อมันติดขัด แต่กลับแทบไม่ถูกใช้เลย
  • เรื่องนี้ก็สมเหตุสมผล เพราะการเรียกใช้ฟังก์ชันเหมาะที่สุดเมื่อรู้แล้วว่าต้องการข้อมูลอะไรและแค่ต้องไปดึงมันมา
  • แต่การรู้ว่าเมื่อไรตนเองไม่แน่ใจเป็นอีกปัญหาหนึ่ง นักพัฒนาเอเจนต์ต้องสามารถเชื่อถือได้ว่า AI จะรายงานความไม่แน่นอนของตัวเอง

[เส้นทางข้างหน้า]

  • Claude Computer Use คือก้าวแรกสู่พฤติกรรมแบบเอเจนต์ที่แท้จริง
  • มีความเป็นไปได้สูงว่าเรายังใช้ความสามารถของโมเดลปัจจุบันนี้ได้ไม่เต็มที่
  • แต่ก็ชัดเจนว่าหากจะสร้างประสบการณ์เอเจนต์ที่แท้จริง เราจะต้องมีมากกว่าการเรียกใช้ฟังก์ชันของ LLM

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น