- อยากทดสอบประสิทธิภาพของ Computer Use API ใหม่ของ Claude แต่โปรเจ็กต์ตั้งต้นดูหนักเกินไป
- Agent เป็นแอป Electron แบบเรียบง่ายที่ทำให้ Claude 3.5 Sonnet ควบคุมคอมพิวเตอร์ภายในเครื่องได้โดยตรง
- เคยพยายามเพิ่มโหมด "กึ่งอัตโนมัติ" ที่ให้ผู้ใช้ยืนยันทีละขั้น แต่พบว่าแต่ละขั้นช้าเกินไปจึงเห็นว่าไม่จำเป็น
- หากโมเดลเริ่มสับสน สามารถกดปุ่ม "หยุด" เพื่อยุติการทำงานได้
เริ่มต้นใช้งาน
git clone https://github.com/corbt/agent.exe
cd agent.exe
npm install
- เปลี่ยนชื่อ
.env.example เป็น .env แล้วเพิ่ม Anthropic API Key
npm start
- ขอให้โมเดลทำงานที่น่าสนใจบางอย่างบนคอมพิวเตอร์
ระบบที่รองรับ
- MacOS
- ในทางทฤษฎีรองรับ Windows และ Linux ได้ด้วย (dependency ทั้งหมดเป็นแบบข้ามแพลตฟอร์ม)
ข้อจำกัดที่ทราบ
- ทำงานได้เฉพาะบนจอแสดงผลหลัก
- AI สามารถควบคุมคอมพิวเตอร์ได้ทั้งหมด
- น่าจะยังมีปัญหาอื่น ๆ อีกมาก
เคล็ดลับ
- Claude ชอบ Firefox มากเป็นพิเศษ
- ใช้เบราว์เซอร์อื่นได้ แต่ถ้าติดตั้ง Firefox จะทำงานได้ดีกว่า
โรดแมป
- โปรเจ็กต์นี้เขียนขึ้นภายใน 6 ชั่วโมง จึงอาจจะไม่ได้พัฒนาต่อมากนัก
- แต่ถ้ามี PR ที่เจ๋งพอ ก็จะพิจารณาและรวมเข้ามา
สรุปโดย GN⁺
- โปรเจ็กต์นี้เป็นวิธีง่าย ๆ ในการทดสอบ Computer Use API ของ Claude
- เนื่องจาก AI สามารถควบคุมคอมพิวเตอร์ได้ทั้งหมด จึงอาจมีข้อกังวลด้านความปลอดภัย
- ทำงานร่วมกับ Firefox ได้ดีมาก และใช้งานหลักบน MacOS
- โปรเจ็กต์ที่มีความสามารถคล้ายกันได้แก่ AutoHotkey และ Sikuli
1 ความคิดเห็น
ความคิดเห็นบน Hacker News
คิดว่าไอเดียของ Kyle ยอดเยี่ยมมาก และในฐานะนักพัฒนาที่มีประสบการณ์ด้าน desktop automation และ Electron ก็รู้สึกว่าคุ้มค่าที่จะอ่านซอร์สโค้ดและลองกับงานพื้นฐานดู
สงสัยว่าจะต้องใช้เวลานานแค่ไหนกว่าจะไม่ทันสังเกตว่ามันเพิ่มเดมอนเข้าไปในระบบ
จำเรื่องในข่าวเมื่อหลายปีก่อนที่พูดว่า "Alexa, สั่งบ้านตุ๊กตาให้หน่อย" ได้
สงสัยว่าจะทำ automation กับแอป GUI ที่ไม่ใช่เบราว์เซอร์บน Wayland ของ Linux ได้อย่างไร
สงสัยว่าทำไมถึงใช้ชื่อ .exe ทั้งที่ดูเหมือนตั้งใจให้เป็นแอปข้ามแพลตฟอร์มที่รองรับ macOS เป็นหลัก
ไม่นานมานี้ได้ลอง Cursor โดยเริ่มโปรเจ็กต์ full-stack ตั้งแต่ศูนย์ในโหมด "compose" และรู้สึกทึ่งกับผลลัพธ์
มีข้อจำกัดที่เป็นที่รู้กันซึ่งทำให้ AI ยังไม่สามารถยึดคอมพิวเตอร์ได้ทั้งหมด
การทำ air gap แล้วให้มันเขียนระบบปฏิบัติการของตัวเองอาจฟังดูเท่ แต่ไม่อยากให้มันเข้าใกล้ข้อมูลจริง
ดูเหมือนจะใช้ได้แค่งานง่าย ๆ
อยากให้คอมพิวเตอร์สร้างมีมทั้งวัน ส่วนฉันจะได้ดูแลครอบครัว ทำสวน และหาเงินจากคริปโต