4 คะแนน โดย GN⁺ 2024-10-25 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • เครื่องมือที่ใช้ LLM และคอมพิวเตอร์วิทัศน์เพื่อทำให้เวิร์กโฟลว์บนเบราว์เซอร์เป็นอัตโนมัติ
  • โซลูชันอัตโนมัติแบบเดิมพึ่งพาการแยกวิเคราะห์ DOM และการโต้ตอบแบบอิง XPath ซึ่งอาจพังได้ง่ายเมื่อเลย์เอาต์ของเว็บไซต์เปลี่ยนแปลง แต่ Skyvern จะวิเคราะห์รายการต่างๆ ใน viewport แบบเรียลไทม์และวางแผนการโต้ตอบเพื่อดำเนินงานดังกล่าว
  • ข้อดี:
    • สามารถทำงานได้แม้กับเว็บไซต์ใหม่ และแมปองค์ประกอบภาพเข้ากับการกระทำที่จำเป็นต่องานได้โดยไม่ต้องมีโค้ดเฉพาะทาง
    • ทนทานต่อการเปลี่ยนแปลงเลย์เอาต์ของเว็บไซต์ และไม่ใช้ XPath หรือ selector ที่กำหนดไว้ล่วงหน้า
    • สามารถนำเวิร์กโฟลว์เดียวไปใช้กับหลายเว็บไซต์ได้ และยังแก้ปัญหาผ่านการโต้ตอบได้แม้ในสถานการณ์ที่ซับซ้อน

วิธีการทำงาน

  • ระบบเอเจนต์: Skyvern ใช้หลายเอเจนต์เพื่อทำความเข้าใจเว็บไซต์ วางแผนงาน และดำเนินการ
    • เอเจนต์องค์ประกอบที่โต้ตอบได้: วิเคราะห์ HTML ของเว็บไซต์และดึงองค์ประกอบที่สามารถโต้ตอบได้ออกมา
    • เอเจนต์นำทาง: วางแผนการนำทางเพื่อให้งานเสร็จสมบูรณ์
    • เอเจนต์ดึงข้อมูล: ดึงข้อมูลจากเว็บไซต์
    • เอเจนต์รหัสผ่าน: กรอกแบบฟอร์มรหัสผ่าน
    • เอเจนต์ 2FA: กรอกแบบฟอร์ม 2FA
    • เอเจนต์กรอกอัตโนมัติแบบไดนามิก: กรอกแบบฟอร์มเติมข้อความอัตโนมัติแบบไดนามิก

Skyvern Cloud

  • เวอร์ชันคลาวด์: เวอร์ชันคลาวด์แบบมีการจัดการของ Skyvern สามารถรันอินสแตนซ์ Skyvern หลายตัวแบบขนานเพื่อทำให้เวิร์กโฟลว์เป็นอัตโนมัติในระดับใหญ่ได้โดยไม่ต้องดูแลโครงสร้างพื้นฐาน นอกจากนี้ยังมีระบบป้องกันการตรวจจับบอท เครือข่ายพร็อกซี และความสามารถในการแก้ CAPTCHA รวมอยู่ด้วย

งานและเวิร์กโฟลว์ของ Skyvern

  • งาน: หน่วยประกอบพื้นฐานของ Skyvern ที่สั่งให้สำรวจเว็บไซต์เพื่อบรรลุเป้าหมายเฉพาะ
  • เวิร์กโฟลว์: เชื่อมต่องานหลายงานเข้าด้วยกันเป็นหน่วยงานเดียว ตัวอย่างเช่น สามารถทำให้กระบวนการซื้อสินค้าในร้านค้าอีคอมเมิร์ซเป็นอัตโนมัติได้

1 ความคิดเห็น

 
GN⁺ 2024-10-25
ความคิดเห็นจาก Hacker News
  • มีความสนใจต่อการประกาศฟีเจอร์ "การใช้คอมพิวเตอร์" ของ Claude จาก Anthropic และมีคำถามเกี่ยวกับจุดแตกต่างของ Skyvern

    • สงสัยว่าเมื่อเทียบกับฟีเจอร์ใหม่ของ Claude แล้ว Skyvern แตกต่างอย่างไร
  • กล่าวถึงว่าช่วงหลังมี AI wrapper ที่ใช้ Playwright ปรากฏขึ้นมากมาย

    • มองว่าการใช้งานใน BPA (Business Process Automation) น่าสนใจกว่าการทำ test automation
    • สำหรับ test automation ความแม่นยำและความสามารถในการทำซ้ำมีความสำคัญ แต่ BPA สนใจเพียงผลลัพธ์เท่านั้น
  • แสดงความกังวลเกี่ยวกับการเขียนพรอมป์ต์จำนวนมากและการใช้ข้อมูลแบบ plain text ในวิดีโอตัวอย่างของ Skyvern

    • อ้างว่าแม้จะดูไม่ต้องใช้ทักษะทางเทคนิคเท่ากับการ generate โค้ดของ Playwright แต่ก็คิดว่าไม่ได้มีคนมากนักที่สามารถจัดการสิ่งนี้ได้
    • มีความกังวลด้านความปลอดภัยจากการส่งข้อมูลล็อกอินเว็บไซต์และข้อมูลบัตรเครดิตในรูปแบบ plain text
  • มองว่าความถี่ของการ redesign เว็บไซต์ถูกพูดเกินจริง

    • ใน Playwright automation เมื่อกระบวนการเปลี่ยนแปลง ก็สามารถรู้ได้ว่าจำเป็นต้องอัปเดตผ่านการตรวจสอบยืนยัน แต่ใน Skyvern มองไม่เห็นตัวเลือกนั้น
  • กล่าวถึงความเสี่ยงของสตาร์ตอัปที่ตั้งอยู่บน LLM ของบุคคลที่สาม

    • การแข่งขันจะดุเดือดขึ้นจากการเข้ามาของบริษัทใหญ่ เช่น Anthropic, OpenAI และ Google
  • แสดงความยินดีกับการเปิดซอร์สแบบ AGPL ของ Skyvern และถามถึงแผนการผสานรวมกับ LangChain

    • อยากรู้เกี่ยวกับเทคนิคที่ใช้สร้างตรรกะการคิด/การกระทำของ Skyvern
  • อธิบายแนวคิดของ "browser automation"

    • คือการสร้างโปรแกรมที่ควบคุมเว็บไซต์ คล้ายกับ Selenium
  • ตั้งคำถามเกี่ยวกับ use case และผลลัพธ์ระยะยาวของเครื่องมือ workflow automation สำหรับ LLM

    • ตั้งคำถามว่ามันช่วยแก้ปัญหาการขาด interoperability ระหว่างเครื่องมือหรือไม่, ใช้เพื่อเลี่ยงมาตรการความปลอดภัยหรือไม่, หรือใช้เพื่อเลื่อนการบำรุงรักษาเครื่องมือภายในออกไปหรือไม่ เป็นต้น
  • แสดงความกังวลว่า Skyvern เป็นการเพิ่มความซับซ้อนอีกชั้นบนกระบวนการที่ซับซ้อนอยู่แล้วหรือไม่

    • คิดว่าโปรเจกต์นี้น่าจะมีประโยชน์ แต่ยังสงสัยต่อผลกระทบระยะยาว
  • มีคำถามว่าเคยลองรัน Skyvern บน modal.com หรือไม่

  • มีคำถามเกี่ยวกับประสิทธิภาพบน WebArena และ VisualWebArena

  • มีคำถามว่า Cloudflare อาจบล็อก Skyvern หรือไม่

  • มีคำถามว่าเคยลองรัน Skyvern บนเว็บไซต์สายการบินหรือไม่

    • เว็บไซต์สายการบินมีการเปลี่ยนแปลงบ่อยและมีมาตรการป้องกันการสแครปที่เข้มงวด