- เครื่องมือที่ใช้ LLM และคอมพิวเตอร์วิทัศน์เพื่อทำให้เวิร์กโฟลว์บนเบราว์เซอร์เป็นอัตโนมัติ
- โซลูชันอัตโนมัติแบบเดิมพึ่งพาการแยกวิเคราะห์ DOM และการโต้ตอบแบบอิง XPath ซึ่งอาจพังได้ง่ายเมื่อเลย์เอาต์ของเว็บไซต์เปลี่ยนแปลง แต่ Skyvern จะวิเคราะห์รายการต่างๆ ใน viewport แบบเรียลไทม์และวางแผนการโต้ตอบเพื่อดำเนินงานดังกล่าว
- ข้อดี:
- สามารถทำงานได้แม้กับเว็บไซต์ใหม่ และแมปองค์ประกอบภาพเข้ากับการกระทำที่จำเป็นต่องานได้โดยไม่ต้องมีโค้ดเฉพาะทาง
- ทนทานต่อการเปลี่ยนแปลงเลย์เอาต์ของเว็บไซต์ และไม่ใช้ XPath หรือ selector ที่กำหนดไว้ล่วงหน้า
- สามารถนำเวิร์กโฟลว์เดียวไปใช้กับหลายเว็บไซต์ได้ และยังแก้ปัญหาผ่านการโต้ตอบได้แม้ในสถานการณ์ที่ซับซ้อน
วิธีการทำงาน
- ระบบเอเจนต์: Skyvern ใช้หลายเอเจนต์เพื่อทำความเข้าใจเว็บไซต์ วางแผนงาน และดำเนินการ
- เอเจนต์องค์ประกอบที่โต้ตอบได้: วิเคราะห์ HTML ของเว็บไซต์และดึงองค์ประกอบที่สามารถโต้ตอบได้ออกมา
- เอเจนต์นำทาง: วางแผนการนำทางเพื่อให้งานเสร็จสมบูรณ์
- เอเจนต์ดึงข้อมูล: ดึงข้อมูลจากเว็บไซต์
- เอเจนต์รหัสผ่าน: กรอกแบบฟอร์มรหัสผ่าน
- เอเจนต์ 2FA: กรอกแบบฟอร์ม 2FA
- เอเจนต์กรอกอัตโนมัติแบบไดนามิก: กรอกแบบฟอร์มเติมข้อความอัตโนมัติแบบไดนามิก
Skyvern Cloud
- เวอร์ชันคลาวด์: เวอร์ชันคลาวด์แบบมีการจัดการของ Skyvern สามารถรันอินสแตนซ์ Skyvern หลายตัวแบบขนานเพื่อทำให้เวิร์กโฟลว์เป็นอัตโนมัติในระดับใหญ่ได้โดยไม่ต้องดูแลโครงสร้างพื้นฐาน นอกจากนี้ยังมีระบบป้องกันการตรวจจับบอท เครือข่ายพร็อกซี และความสามารถในการแก้ CAPTCHA รวมอยู่ด้วย
งานและเวิร์กโฟลว์ของ Skyvern
- งาน: หน่วยประกอบพื้นฐานของ Skyvern ที่สั่งให้สำรวจเว็บไซต์เพื่อบรรลุเป้าหมายเฉพาะ
- เวิร์กโฟลว์: เชื่อมต่องานหลายงานเข้าด้วยกันเป็นหน่วยงานเดียว ตัวอย่างเช่น สามารถทำให้กระบวนการซื้อสินค้าในร้านค้าอีคอมเมิร์ซเป็นอัตโนมัติได้
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
มีความสนใจต่อการประกาศฟีเจอร์ "การใช้คอมพิวเตอร์" ของ Claude จาก Anthropic และมีคำถามเกี่ยวกับจุดแตกต่างของ Skyvern
กล่าวถึงว่าช่วงหลังมี AI wrapper ที่ใช้ Playwright ปรากฏขึ้นมากมาย
แสดงความกังวลเกี่ยวกับการเขียนพรอมป์ต์จำนวนมากและการใช้ข้อมูลแบบ plain text ในวิดีโอตัวอย่างของ Skyvern
มองว่าความถี่ของการ redesign เว็บไซต์ถูกพูดเกินจริง
กล่าวถึงความเสี่ยงของสตาร์ตอัปที่ตั้งอยู่บน LLM ของบุคคลที่สาม
แสดงความยินดีกับการเปิดซอร์สแบบ AGPL ของ Skyvern และถามถึงแผนการผสานรวมกับ LangChain
อธิบายแนวคิดของ "browser automation"
ตั้งคำถามเกี่ยวกับ use case และผลลัพธ์ระยะยาวของเครื่องมือ workflow automation สำหรับ LLM
แสดงความกังวลว่า Skyvern เป็นการเพิ่มความซับซ้อนอีกชั้นบนกระบวนการที่ซับซ้อนอยู่แล้วหรือไม่
มีคำถามว่าเคยลองรัน Skyvern บน modal.com หรือไม่
มีคำถามเกี่ยวกับประสิทธิภาพบน WebArena และ VisualWebArena
มีคำถามว่า Cloudflare อาจบล็อก Skyvern หรือไม่
มีคำถามว่าเคยลองรัน Skyvern บนเว็บไซต์สายการบินหรือไม่