Claude Computer Use - Vision คือ API สูงสุดหรือไม่?

xguru · 2024-10-28T09:41:01+09:00

หลังจากลองใช้ Computer Use API ของ Anthropic แล้ว พบว่า มันช้า ไม่น่าเชื่อถือ และยึดครองคอมพิวเตอร์ได้ง่าย แต่ก็ "น่าสนใจมากอย่างเหลือเชื่อ" Claude Computer ให้ประสบการณ์แบบ 'เอเจนต์' ที่แท้จริง เพราะ Vision เป็น API ที่เชื่อมทุกอย่างเข้าด้วยกัน ทำให้มันสามารถทำอะไรบางอย่างได้เสมอ มันทำงานอย่างไร? โดยพื้นฐานแล้ว Claude Computer Use ดูเหมือนจะเป็น Claude3.5 ที่ถูก fine-tune ด้วยข้อมูลการโต้ตอบกับคอมพิวเตอร์ มันเข้าใจภาพหน้าจอของคอมพิวเตอร์และสิ่งที่อยู่บนหน้าจอได้ดีกว่าโมเดลอื่นอย่างมาก [สิ่งที่ทำได้ดี] การอ่านข้อความบนหน้าจอและการนำทาง (ค่อนข้าง) แทบไม่เคยเห็น Claude อ่านเนื้อหาบนภาพหน้าจอผิดเลย เมื่อเทียบกับ AI อื่น ๆ มันค่อนข้างเก่งในการระบุพิกัดอย่าง (500,250) 위치의 입력창을 클릭하세요 (แม้อาจคลาดเคลื่อนได้เล็กน้อยตามขนาดหน้าจอ) การเรียกใช้ฟังก์ชัน ปกติคุ้นเคยกับการคิดว่าการเรียกใช้ฟังก์ชันแย่กว่า structured output อย่างชัดเจน แต่ Claude Computer ใช้การเรียกใช้ฟังก์ชันได้ดี ตัวอย่างเช่น หากมีฟังก์ชันเครื่องมือเบราว์เซอร์ที่พาไปยังเว็บไซต์ได้ทันที มันจะเลือกใช้ฟังก์ชันนั้นแทนการคลิกไอคอนเบราว์เซอร์ การคิดเป็นขั้นตอน หากขอให้แยกงานออกเป็นขั้นตอน Claude มักจะเก่งพอสมควรในการหาว่าต้องทำอะไรบ้างและเริ่มลงมือ [สิ่งที่ทำได้ไม่ดี] การรู้ว่าเมื่อไรควรอ่านหน้าจอ การจับภาพหน้าจอมีต้นทุนสูง ดังนั้น AI จึงมีแนวโน้มจะสมมติว่าการกระทำของตัวเองสำเร็จแล้ว ตัวอย่างเช่น ถ้าพิมพ์ลงในฟิลด์แต่ไม่มีโฟกัส จะตรวจพบในภายหลังได้ยากมาก การเรียกใช้ฟังก์ชันของ OS จึงต้องอธิบายอย่างแม่นยำมากว่าผลลัพธ์ที่ตั้งใจไว้นั้นเกิดขึ้นจริงหรือไม่ นี่เป็นวิธีที่ Claude สะดุดบ่อยที่สุด พอถึงเวลาถ่ายภาพหน้าจอใหม่ มันก็ไม่รู้แล้วว่าตัวเองคืบหน้าไปถึงไหน การดึงข้อมูลให้มากขึ้น หากสั่งให้หาร้านชาวาร์มา 3 แห่งที่ใกล้ที่สุด Claude จะพิมพ์คำว่า 'ชาวาร์มา' ลงใน Google Maps แล้วเลือก 3 ผลลัพธ์แรก หากต้องคลิก มันแทบจะไม่เลือก 'เรียงตามระยะทาง' จากเมนูก่อนเลย ปัญหานี้อาจแก้ได้ด้วยโครงสร้างพรอมป์ที่ดีกว่า การจำสถานะ ใน Computer Use ส่วนของสถานะโปรแกรมจำนวนมากถูกเก็บอยู่ในภาพ ทำให้มันดูเปราะบางกว่าในการดึงกลับมานึก สิ่งนี้ใช้กับงานที่เคยทำไปก่อนหน้าเช่นกัน เช่น แท็บที่เคยเปิดไว้หรือแอปพลิเคชันที่เคยเปลี่ยนไป จึงควรให้ Claude แสดงสถานะที่เกี่ยวข้องออกมาเป็นข้อความให้มากที่สุด และส่งมอบสถานะระบบผ่านเครื่องมือ การนำทางในโมดัลและป๊อปอัป Claude มักสับสนกับโมดัลและป๊อปอัปบ่อยที่สุด ไม่รู้ว่าจะคลิกเพื่อออกจากสิ่งเหล่านั้นอย่างไร หรือไม่รับรู้ว่าตอนนี้ยังไม่อยู่ในสถานะที่ถูกต้อง [ต้องมีอะไรบ้าง?] ให้สถานะของระบบให้มากที่สุดเท่าที่ทำได้ ในอุดมคติแล้ว อยากให้ Claude Computer ใช้ Vision เฉพาะตอนที่จำเป็นจริง ๆ เท่านั้น หากมีเครื่องมือที่ช่วยให้เข้าใจสถานะได้ง่ายโดยไม่ต้องใช้ Vision มันจะทำงานได้เร็วขึ้นและคิดได้ชัดเจนขึ้น สิ่งต่อไปนี้ช่วยได้มาก: รายชื่อแอปพลิเคชันที่เปิดอยู่ แอปพลิเคชันใดกำลังมี active focus ภายในแอปนั้น ตอนนี้อะไรเป็นจุดที่มีโฟกัส การเรียกใช้ฟังก์ชันให้มากที่สุดเท่าที่จะทำได้เพื่อใช้สำรวจแอปนั้นโดยเฉพาะ โดยเฉพาะเครื่องมือเบราว์เซอร์มีความสำคัญมาก (เช่น เพื่อไปยัง URL ที่กำหนดหรือใช้ค้นหา) วิธีจัดการกับความไม่แน่นอน นี่คือปัญหาที่ยังไม่ถูกแก้ที่ใหญ่ที่สุดของการพัฒนาเอเจนต์ สิ่งสำคัญที่สุดสำหรับเอเจนต์คือความน่าเชื่อถือ และความน่าเชื่อถือต้องอาศัยอินพุตและฟีดแบ็ก ระหว่างการทดสอบ มีหลายครั้งที่เห็นได้ชัดว่า Claude ไม่รู้ว่าควรทำอะไร แต่แทนที่จะหยุดหรือถาม มันกลับฝืนทำต่อ ใช้เวลาค่อนข้างนานในการสร้างเครื่องมือถามคำถาม เพื่อให้ AI ถามหรือให้เหตุผลเมื่อมันติดขัด แต่กลับแทบไม่ถูกใช้เลย เรื่องนี้ก็สมเหตุสมผล เพราะการเรียกใช้ฟังก์ชันเหมาะที่สุดเมื่อรู้แล้วว่าต้องการข้อมูลอะไรและแค่ต้องไปดึงมันมา แต่การรู้ว่าเมื่อไรตนเองไม่แน่ใจเป็นอีกปัญหาหนึ่ง นักพัฒนาเอเจนต์ต้องสามารถเชื่อถือได้ว่า AI จะรายงานความไม่แน่นอนของตัวเอง [เส้นทางข้างหน้า] Claude Computer Use คือก้าวแรกสู่พฤติกรรมแบบเอเจนต์ที่แท้จริง มีความเป็นไปได้สูงว่าเรายังใช้ความสามารถของโมเดลปัจจุบันนี้ได้ไม่เต็มที่ แต่ก็ชัดเจนว่าหากจะสร้างประสบการณ์เอเจนต์ที่แท้จริง เราจะต้องมีมากกว่าการเรียกใช้ฟังก์ชันของ LLM

(thariq.io)

4 คะแนน โดย xguru 2024-10-28 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

หลังจากลองใช้ Computer Use API ของ Anthropic แล้ว พบว่า
- มันช้า ไม่น่าเชื่อถือ และยึดครองคอมพิวเตอร์ได้ง่าย แต่ก็ "น่าสนใจมากอย่างเหลือเชื่อ"
Claude Computer ให้ประสบการณ์แบบ 'เอเจนต์' ที่แท้จริง เพราะ Vision เป็น API ที่เชื่อมทุกอย่างเข้าด้วยกัน ทำให้มันสามารถทำอะไรบางอย่างได้เสมอ

มันทำงานอย่างไร?

โดยพื้นฐานแล้ว Claude Computer Use ดูเหมือนจะเป็น Claude3.5 ที่ถูก fine-tune ด้วยข้อมูลการโต้ตอบกับคอมพิวเตอร์
มันเข้าใจภาพหน้าจอของคอมพิวเตอร์และสิ่งที่อยู่บนหน้าจอได้ดีกว่าโมเดลอื่นอย่างมาก

[สิ่งที่ทำได้ดี]

การอ่านข้อความบนหน้าจอและการนำทาง (ค่อนข้าง)

แทบไม่เคยเห็น Claude อ่านเนื้อหาบนภาพหน้าจอผิดเลย
เมื่อเทียบกับ AI อื่น ๆ มันค่อนข้างเก่งในการระบุพิกัดอย่าง (500,250) 위치의 입력창을 클릭하세요 (แม้อาจคลาดเคลื่อนได้เล็กน้อยตามขนาดหน้าจอ)

การเรียกใช้ฟังก์ชัน

ปกติคุ้นเคยกับการคิดว่าการเรียกใช้ฟังก์ชันแย่กว่า structured output อย่างชัดเจน แต่ Claude Computer ใช้การเรียกใช้ฟังก์ชันได้ดี
ตัวอย่างเช่น หากมีฟังก์ชันเครื่องมือเบราว์เซอร์ที่พาไปยังเว็บไซต์ได้ทันที มันจะเลือกใช้ฟังก์ชันนั้นแทนการคลิกไอคอนเบราว์เซอร์

การคิดเป็นขั้นตอน

หากขอให้แยกงานออกเป็นขั้นตอน Claude มักจะเก่งพอสมควรในการหาว่าต้องทำอะไรบ้างและเริ่มลงมือ

[สิ่งที่ทำได้ไม่ดี]

การรู้ว่าเมื่อไรควรอ่านหน้าจอ

การจับภาพหน้าจอมีต้นทุนสูง ดังนั้น AI จึงมีแนวโน้มจะสมมติว่าการกระทำของตัวเองสำเร็จแล้ว
ตัวอย่างเช่น ถ้าพิมพ์ลงในฟิลด์แต่ไม่มีโฟกัส จะตรวจพบในภายหลังได้ยากมาก การเรียกใช้ฟังก์ชันของ OS จึงต้องอธิบายอย่างแม่นยำมากว่าผลลัพธ์ที่ตั้งใจไว้นั้นเกิดขึ้นจริงหรือไม่
นี่เป็นวิธีที่ Claude สะดุดบ่อยที่สุด พอถึงเวลาถ่ายภาพหน้าจอใหม่ มันก็ไม่รู้แล้วว่าตัวเองคืบหน้าไปถึงไหน

การดึงข้อมูลให้มากขึ้น

หากสั่งให้หาร้านชาวาร์มา 3 แห่งที่ใกล้ที่สุด Claude จะพิมพ์คำว่า 'ชาวาร์มา' ลงใน Google Maps แล้วเลือก 3 ผลลัพธ์แรก
หากต้องคลิก มันแทบจะไม่เลือก 'เรียงตามระยะทาง' จากเมนูก่อนเลย
ปัญหานี้อาจแก้ได้ด้วยโครงสร้างพรอมป์ที่ดีกว่า

การจำสถานะ

ใน Computer Use ส่วนของสถานะโปรแกรมจำนวนมากถูกเก็บอยู่ในภาพ ทำให้มันดูเปราะบางกว่าในการดึงกลับมานึก
สิ่งนี้ใช้กับงานที่เคยทำไปก่อนหน้าเช่นกัน เช่น แท็บที่เคยเปิดไว้หรือแอปพลิเคชันที่เคยเปลี่ยนไป
จึงควรให้ Claude แสดงสถานะที่เกี่ยวข้องออกมาเป็นข้อความให้มากที่สุด และส่งมอบสถานะระบบผ่านเครื่องมือ

การนำทางในโมดัลและป๊อปอัป

Claude มักสับสนกับโมดัลและป๊อปอัปบ่อยที่สุด ไม่รู้ว่าจะคลิกเพื่อออกจากสิ่งเหล่านั้นอย่างไร หรือไม่รับรู้ว่าตอนนี้ยังไม่อยู่ในสถานะที่ถูกต้อง

[ต้องมีอะไรบ้าง?]

ให้สถานะของระบบให้มากที่สุดเท่าที่ทำได้

ในอุดมคติแล้ว อยากให้ Claude Computer ใช้ Vision เฉพาะตอนที่จำเป็นจริง ๆ เท่านั้น
หากมีเครื่องมือที่ช่วยให้เข้าใจสถานะได้ง่ายโดยไม่ต้องใช้ Vision มันจะทำงานได้เร็วขึ้นและคิดได้ชัดเจนขึ้น
สิ่งต่อไปนี้ช่วยได้มาก:
- รายชื่อแอปพลิเคชันที่เปิดอยู่
- แอปพลิเคชันใดกำลังมี active focus
- ภายในแอปนั้น ตอนนี้อะไรเป็นจุดที่มีโฟกัส
- การเรียกใช้ฟังก์ชันให้มากที่สุดเท่าที่จะทำได้เพื่อใช้สำรวจแอปนั้นโดยเฉพาะ
  - โดยเฉพาะเครื่องมือเบราว์เซอร์มีความสำคัญมาก (เช่น เพื่อไปยัง URL ที่กำหนดหรือใช้ค้นหา)

วิธีจัดการกับความไม่แน่นอน

นี่คือปัญหาที่ยังไม่ถูกแก้ที่ใหญ่ที่สุดของการพัฒนาเอเจนต์
สิ่งสำคัญที่สุดสำหรับเอเจนต์คือความน่าเชื่อถือ และความน่าเชื่อถือต้องอาศัยอินพุตและฟีดแบ็ก
ระหว่างการทดสอบ มีหลายครั้งที่เห็นได้ชัดว่า Claude ไม่รู้ว่าควรทำอะไร แต่แทนที่จะหยุดหรือถาม มันกลับฝืนทำต่อ
ใช้เวลาค่อนข้างนานในการสร้างเครื่องมือถามคำถาม เพื่อให้ AI ถามหรือให้เหตุผลเมื่อมันติดขัด แต่กลับแทบไม่ถูกใช้เลย
เรื่องนี้ก็สมเหตุสมผล เพราะการเรียกใช้ฟังก์ชันเหมาะที่สุดเมื่อรู้แล้วว่าต้องการข้อมูลอะไรและแค่ต้องไปดึงมันมา
แต่การรู้ว่าเมื่อไรตนเองไม่แน่ใจเป็นอีกปัญหาหนึ่ง นักพัฒนาเอเจนต์ต้องสามารถเชื่อถือได้ว่า AI จะรายงานความไม่แน่นอนของตัวเอง

[เส้นทางข้างหน้า]

Claude Computer Use คือก้าวแรกสู่พฤติกรรมแบบเอเจนต์ที่แท้จริง
มีความเป็นไปได้สูงว่าเรายังใช้ความสามารถของโมเดลปัจจุบันนี้ได้ไม่เต็มที่
แต่ก็ชัดเจนว่าหากจะสร้างประสบการณ์เอเจนต์ที่แท้จริง เราจะต้องมีมากกว่าการเรียกใช้ฟังก์ชันของ LLM