- หลังจากลองใช้ Computer Use API ของ Anthropic แล้ว พบว่า
- มันช้า ไม่น่าเชื่อถือ และยึดครองคอมพิวเตอร์ได้ง่าย แต่ก็ "น่าสนใจมากอย่างเหลือเชื่อ"
- Claude Computer ให้ประสบการณ์แบบ 'เอเจนต์' ที่แท้จริง เพราะ Vision เป็น API ที่เชื่อมทุกอย่างเข้าด้วยกัน ทำให้มันสามารถทำอะไรบางอย่างได้เสมอ
มันทำงานอย่างไร?
- โดยพื้นฐานแล้ว Claude Computer Use ดูเหมือนจะเป็น Claude3.5 ที่ถูก fine-tune ด้วยข้อมูลการโต้ตอบกับคอมพิวเตอร์
- มันเข้าใจภาพหน้าจอของคอมพิวเตอร์และสิ่งที่อยู่บนหน้าจอได้ดีกว่าโมเดลอื่นอย่างมาก
[สิ่งที่ทำได้ดี]
การอ่านข้อความบนหน้าจอและการนำทาง (ค่อนข้าง)
- แทบไม่เคยเห็น Claude อ่านเนื้อหาบนภาพหน้าจอผิดเลย
- เมื่อเทียบกับ AI อื่น ๆ มันค่อนข้างเก่งในการระบุพิกัดอย่าง
(500,250) 위치의 입력창을 클릭하세요 (แม้อาจคลาดเคลื่อนได้เล็กน้อยตามขนาดหน้าจอ)
การเรียกใช้ฟังก์ชัน
- ปกติคุ้นเคยกับการคิดว่าการเรียกใช้ฟังก์ชันแย่กว่า structured output อย่างชัดเจน แต่ Claude Computer ใช้การเรียกใช้ฟังก์ชันได้ดี
- ตัวอย่างเช่น หากมีฟังก์ชันเครื่องมือเบราว์เซอร์ที่พาไปยังเว็บไซต์ได้ทันที มันจะเลือกใช้ฟังก์ชันนั้นแทนการคลิกไอคอนเบราว์เซอร์
การคิดเป็นขั้นตอน
- หากขอให้แยกงานออกเป็นขั้นตอน Claude มักจะเก่งพอสมควรในการหาว่าต้องทำอะไรบ้างและเริ่มลงมือ
[สิ่งที่ทำได้ไม่ดี]
การรู้ว่าเมื่อไรควรอ่านหน้าจอ
- การจับภาพหน้าจอมีต้นทุนสูง ดังนั้น AI จึงมีแนวโน้มจะสมมติว่าการกระทำของตัวเองสำเร็จแล้ว
- ตัวอย่างเช่น ถ้าพิมพ์ลงในฟิลด์แต่ไม่มีโฟกัส จะตรวจพบในภายหลังได้ยากมาก การเรียกใช้ฟังก์ชันของ OS จึงต้องอธิบายอย่างแม่นยำมากว่าผลลัพธ์ที่ตั้งใจไว้นั้นเกิดขึ้นจริงหรือไม่
- นี่เป็นวิธีที่ Claude สะดุดบ่อยที่สุด พอถึงเวลาถ่ายภาพหน้าจอใหม่ มันก็ไม่รู้แล้วว่าตัวเองคืบหน้าไปถึงไหน
การดึงข้อมูลให้มากขึ้น
- หากสั่งให้หาร้านชาวาร์มา 3 แห่งที่ใกล้ที่สุด Claude จะพิมพ์คำว่า 'ชาวาร์มา' ลงใน Google Maps แล้วเลือก 3 ผลลัพธ์แรก
- หากต้องคลิก มันแทบจะไม่เลือก 'เรียงตามระยะทาง' จากเมนูก่อนเลย
- ปัญหานี้อาจแก้ได้ด้วยโครงสร้างพรอมป์ที่ดีกว่า
การจำสถานะ
- ใน Computer Use ส่วนของสถานะโปรแกรมจำนวนมากถูกเก็บอยู่ในภาพ ทำให้มันดูเปราะบางกว่าในการดึงกลับมานึก
- สิ่งนี้ใช้กับงานที่เคยทำไปก่อนหน้าเช่นกัน เช่น แท็บที่เคยเปิดไว้หรือแอปพลิเคชันที่เคยเปลี่ยนไป
- จึงควรให้ Claude แสดงสถานะที่เกี่ยวข้องออกมาเป็นข้อความให้มากที่สุด และส่งมอบสถานะระบบผ่านเครื่องมือ
การนำทางในโมดัลและป๊อปอัป
- Claude มักสับสนกับโมดัลและป๊อปอัปบ่อยที่สุด ไม่รู้ว่าจะคลิกเพื่อออกจากสิ่งเหล่านั้นอย่างไร หรือไม่รับรู้ว่าตอนนี้ยังไม่อยู่ในสถานะที่ถูกต้อง
[ต้องมีอะไรบ้าง?]
ให้สถานะของระบบให้มากที่สุดเท่าที่ทำได้
- ในอุดมคติแล้ว อยากให้ Claude Computer ใช้ Vision เฉพาะตอนที่จำเป็นจริง ๆ เท่านั้น
- หากมีเครื่องมือที่ช่วยให้เข้าใจสถานะได้ง่ายโดยไม่ต้องใช้ Vision มันจะทำงานได้เร็วขึ้นและคิดได้ชัดเจนขึ้น
- สิ่งต่อไปนี้ช่วยได้มาก:
- รายชื่อแอปพลิเคชันที่เปิดอยู่
- แอปพลิเคชันใดกำลังมี active focus
- ภายในแอปนั้น ตอนนี้อะไรเป็นจุดที่มีโฟกัส
- การเรียกใช้ฟังก์ชันให้มากที่สุดเท่าที่จะทำได้เพื่อใช้สำรวจแอปนั้นโดยเฉพาะ
- โดยเฉพาะเครื่องมือเบราว์เซอร์มีความสำคัญมาก (เช่น เพื่อไปยัง URL ที่กำหนดหรือใช้ค้นหา)
วิธีจัดการกับความไม่แน่นอน
- นี่คือปัญหาที่ยังไม่ถูกแก้ที่ใหญ่ที่สุดของการพัฒนาเอเจนต์
- สิ่งสำคัญที่สุดสำหรับเอเจนต์คือความน่าเชื่อถือ และความน่าเชื่อถือต้องอาศัยอินพุตและฟีดแบ็ก
- ระหว่างการทดสอบ มีหลายครั้งที่เห็นได้ชัดว่า Claude ไม่รู้ว่าควรทำอะไร แต่แทนที่จะหยุดหรือถาม มันกลับฝืนทำต่อ
- ใช้เวลาค่อนข้างนานในการสร้างเครื่องมือถามคำถาม เพื่อให้ AI ถามหรือให้เหตุผลเมื่อมันติดขัด แต่กลับแทบไม่ถูกใช้เลย
- เรื่องนี้ก็สมเหตุสมผล เพราะการเรียกใช้ฟังก์ชันเหมาะที่สุดเมื่อรู้แล้วว่าต้องการข้อมูลอะไรและแค่ต้องไปดึงมันมา
- แต่การรู้ว่าเมื่อไรตนเองไม่แน่ใจเป็นอีกปัญหาหนึ่ง นักพัฒนาเอเจนต์ต้องสามารถเชื่อถือได้ว่า AI จะรายงานความไม่แน่นอนของตัวเอง
[เส้นทางข้างหน้า]
- Claude Computer Use คือก้าวแรกสู่พฤติกรรมแบบเอเจนต์ที่แท้จริง
- มีความเป็นไปได้สูงว่าเรายังใช้ความสามารถของโมเดลปัจจุบันนี้ได้ไม่เต็มที่
- แต่ก็ชัดเจนว่าหากจะสร้างประสบการณ์เอเจนต์ที่แท้จริง เราจะต้องมีมากกว่าการเรียกใช้ฟังก์ชันของ LLM
ยังไม่มีความคิดเห็น