1 คะแนน โดย GN⁺ 2024-10-24 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • อยากทดสอบประสิทธิภาพของ Computer Use API ใหม่ของ Claude แต่โปรเจ็กต์ตั้งต้นดูหนักเกินไป
  • Agent เป็นแอป Electron แบบเรียบง่ายที่ทำให้ Claude 3.5 Sonnet ควบคุมคอมพิวเตอร์ภายในเครื่องได้โดยตรง
  • เคยพยายามเพิ่มโหมด "กึ่งอัตโนมัติ" ที่ให้ผู้ใช้ยืนยันทีละขั้น แต่พบว่าแต่ละขั้นช้าเกินไปจึงเห็นว่าไม่จำเป็น
  • หากโมเดลเริ่มสับสน สามารถกดปุ่ม "หยุด" เพื่อยุติการทำงานได้

เริ่มต้นใช้งาน

  • git clone https://github.com/corbt/agent.exe
  • cd agent.exe
  • npm install
  • เปลี่ยนชื่อ .env.example เป็น .env แล้วเพิ่ม Anthropic API Key
  • npm start
  • ขอให้โมเดลทำงานที่น่าสนใจบางอย่างบนคอมพิวเตอร์

ระบบที่รองรับ

  • MacOS
  • ในทางทฤษฎีรองรับ Windows และ Linux ได้ด้วย (dependency ทั้งหมดเป็นแบบข้ามแพลตฟอร์ม)

ข้อจำกัดที่ทราบ

  • ทำงานได้เฉพาะบนจอแสดงผลหลัก
  • AI สามารถควบคุมคอมพิวเตอร์ได้ทั้งหมด
  • น่าจะยังมีปัญหาอื่น ๆ อีกมาก

เคล็ดลับ

  • Claude ชอบ Firefox มากเป็นพิเศษ
  • ใช้เบราว์เซอร์อื่นได้ แต่ถ้าติดตั้ง Firefox จะทำงานได้ดีกว่า

โรดแมป

  • โปรเจ็กต์นี้เขียนขึ้นภายใน 6 ชั่วโมง จึงอาจจะไม่ได้พัฒนาต่อมากนัก
  • แต่ถ้ามี PR ที่เจ๋งพอ ก็จะพิจารณาและรวมเข้ามา

สรุปโดย GN⁺

  • โปรเจ็กต์นี้เป็นวิธีง่าย ๆ ในการทดสอบ Computer Use API ของ Claude
  • เนื่องจาก AI สามารถควบคุมคอมพิวเตอร์ได้ทั้งหมด จึงอาจมีข้อกังวลด้านความปลอดภัย
  • ทำงานร่วมกับ Firefox ได้ดีมาก และใช้งานหลักบน MacOS
  • โปรเจ็กต์ที่มีความสามารถคล้ายกันได้แก่ AutoHotkey และ Sikuli

1 ความคิดเห็น

 
GN⁺ 2024-10-24
ความคิดเห็นบน Hacker News
  • คิดว่าไอเดียของ Kyle ยอดเยี่ยมมาก และในฐานะนักพัฒนาที่มีประสบการณ์ด้าน desktop automation และ Electron ก็รู้สึกว่าคุ้มค่าที่จะอ่านซอร์สโค้ดและลองกับงานพื้นฐานดู

    • การติดตั้งเป็นเพียงแรปเปอร์บาง ๆ บน Anthropic API และแนวทางแบบเป็นขั้นตอนทำให้มั่นใจได้ว่าน่าจะหยุดกระบวนการได้ก่อนที่มันจะทำอะไรแปลก ๆ
    • ปิดสิ่งที่ไม่อยากให้ Anthropic เห็นจากภาพหน้าจอ ติดตั้งบน M1 ได้อย่างราบรื่น และรันได้ภายในไม่กี่นาที
    • งานพื้นฐานคือ "ค้นหาเที่ยวบินจากซีแอตเทิลไปซานฟรานซิสโกในสัปดาห์หน้า ตั้งแต่วันอังคารถึงวันพฤหัสบดี" และรันผ่าน Chrome โดยใช้ Anthropic API key
    • ภายในไม่กี่วินาทีก็ทำแต่ละขั้นตอนของงาน เปิด Google Flights ได้ถูกต้อง แต่เลือกวันที่ผิด
    • ตั้งใจจะเลือกวันที่ 2 พฤศจิกายน แต่เพราะหน้าต่าง Agent.exe บังทางสายตาอยู่ จึงไปเลือกวันที่ 20 พฤศจิกายน
    • แม้ Claude จะมองเห็นวันที่สำรองที่ผิดนั้น แต่ก็ไม่ได้แก้ไขเอง และประกาศว่าสำเร็จโดยคิดว่าหาทริป 1 สัปดาห์ได้แล้ว
    • การทดลองนี้ใช้เครดิต $0.38 และเวลาประมาณ 20 วินาที และจะลองต่อไปเรื่อย ๆ
  • สงสัยว่าจะต้องใช้เวลานานแค่ไหนกว่าจะไม่ทันสังเกตว่ามันเพิ่มเดมอนเข้าไปในระบบ

    • เหมือนเมื่อก่อนที่กลัวว่าสายลับโซเวียตจะเข้าถึงความลับของสหรัฐฯ
    • ตอนนี้กลับเหมือนทุกคนโพสต์ความลับของตัวเองไว้บนออนไลน์
    • แอนติไวรัสหรือไฟร์วอลล์ทุกวันนี้ไม่สามารถปกป้องไฟล์จากความสามารถที่อาจสร้างความปั่นป่วนให้เครือข่ายได้
  • จำเรื่องในข่าวเมื่อหลายปีก่อนที่พูดว่า "Alexa, สั่งบ้านตุ๊กตาให้หน่อย" ได้

    • Alexa ของคนที่กำลังดูรายการนั้นก็ฟังและสั่งบ้านตุ๊กตาตาม
    • ตอนนี้ก็แค่รอให้มีฉากในซีรีส์ Netflix ที่พูดว่า "Delete C:\Windows"
  • สงสัยว่าจะทำ automation กับแอป GUI ที่ไม่ใช่เบราว์เซอร์บน Wayland ของ Linux ได้อย่างไร

    • แอป CLI ไม่มีปัญหา ใช้ Bash/Python ฯลฯ ได้
    • แอปบนเบราว์เซอร์ก็ไม่มีปัญหา ใช้ Selenium/Playwright ได้
    • Xorg มีไลบรารีอยู่บ้าง แม้จะไม่สะดวกแต่ก็พอใช้ได้ยามจำเป็น
    • บน Windows มีโซลูชัน RPA มากมาย
    • แต่บน Wayland ยังหาอะไรที่เชื่อถือได้ไม่เจอ
  • สงสัยว่าทำไมถึงใช้ชื่อ .exe ทั้งที่ดูเหมือนตั้งใจให้เป็นแอปข้ามแพลตฟอร์มที่รองรับ macOS เป็นหลัก

  • ไม่นานมานี้ได้ลอง Cursor โดยเริ่มโปรเจ็กต์ full-stack ตั้งแต่ศูนย์ในโหมด "compose" และรู้สึกทึ่งกับผลลัพธ์

    • สงสัยว่าคนในชุมชนซอฟต์แวร์ตระหนักไหมว่าอีก 5 ปีข้างหน้าอุตสาหกรรมจะเปลี่ยนไปอย่างสิ้นเชิงแค่ไหน
    • นึกภาพไม่ออกเลยว่าถึงตอนนั้นผู้คนจะยังพิมพ์โค้ดด้วยมือกันจริง ๆ
  • มีข้อจำกัดที่เป็นที่รู้กันซึ่งทำให้ AI ยังไม่สามารถยึดคอมพิวเตอร์ได้ทั้งหมด

  • การทำ air gap แล้วให้มันเขียนระบบปฏิบัติการของตัวเองอาจฟังดูเท่ แต่ไม่อยากให้มันเข้าใกล้ข้อมูลจริง

  • ดูเหมือนจะใช้ได้แค่งานง่าย ๆ

    • ลองให้มันสร้างโต๊ะง่าย ๆ ใน Rhino และ OnShape แต่มันดูสับสน
    • ใน Rhino มันเห็นว่าแอปเปิดอยู่และบอกว่ากำลังทำหลายอย่าง แต่จริง ๆ แล้วไม่ได้ทำ และยังข้ามไปขั้นต่อไปทั้งที่ขั้นก่อนหน้ายังไม่เสร็จ
    • ใน OnShape มันบอกว่าจะสร้างรูปทรง แต่กลับเลือกเมนูผิด และทำงานต่อโดยคิดว่ากำลังใช้เครื่องมือที่ถูกต้องอยู่
  • อยากให้คอมพิวเตอร์สร้างมีมทั้งวัน ส่วนฉันจะได้ดูแลครอบครัว ทำสวน และหาเงินจากคริปโต

    • อนาคตกำลังมุ่งไปสู่โลกที่มีแต่คนที่ใช้คอมพิวเตอร์เท่านั้นที่กลายเป็นคนโง่
    • ความมั่งคั่งที่แท้จริงคือการไม่ใช้คอมพิวเตอร์เลย