- ทำงานอัตโนมัติบนเบราว์เซอร์โดยแปลงคำสั่งภาษาธรรมชาติเป็นการโต้ตอบกับเบราว์เซอร์ (โค้ด Selenium)
- มีเป้าหมายเพื่อทำงานง่าย ๆ แทนผู้ใช้ที่มีลักษณะซ้ำ ๆ ใช้เวลามาก และแทบไม่ต้องใช้ความพยายามด้านการรับรู้
- ออกแบบมาเพื่อให้ทำเว็บเวิร์กโฟลว์อัตโนมัติได้ง่ายขึ้นและรันบนเบราว์เซอร์ได้ โดยมีเอนจินสำหรับแปลงคำถามภาษาธรรมชาติเป็นโค้ด Selenium
ฟีเจอร์หลัก
- การประมวลผลภาษาธรรมชาติ: เข้าใจคำสั่งที่เป็นภาษาธรรมชาติและดำเนินการโต้ตอบบนเบราว์เซอร์
- การผสานรวมกับ Selenium: ผสานรวมกับ Selenium ได้อย่างราบรื่นเพื่อทำเบราว์เซอร์อัตโนมัติ
- โอเพนซอร์ส: สร้างขึ้นบนพื้นฐานของโปรเจ็กต์โอเพนซอร์สอย่าง transformers และ llama-index และใช้โมเดลโอเพนซอร์สที่รับประกันความโปร่งใสให้สอดคล้องกับประโยชน์ของผู้ใช้
- รองรับโมเดลโลคัลเพื่อความเป็นส่วนตัวและการควบคุม: รองรับโมเดลโลคัลอย่าง
Gemma-7b เพื่อให้ผู้ใช้ควบคุมผู้ช่วย AI ได้อย่างเต็มที่และมั่นใจในความเป็นส่วนตัว
- เทคโนโลยี AI ขั้นสูง: ใช้ local embedding (
bge-small-en-v1.5) เพื่อทำ RAG และดึงส่วนของ HTML ที่เกี่ยวข้องมากที่สุด จากนั้นใช้ Few-shot learning และ Chain of Thought เพื่อหาโค้ด Selenium ที่เกี่ยวข้องที่สุดสำหรับทำงานนั้นโดยไม่ต้อง fine-tune LLM(Nous-Hermes-2-Mixtral-8x7B-DPO) เพื่อการสร้างโค้ด
เริ่มต้นใช้งาน
- สามารถลองใช้ LaVague ได้บนโน้ตบุ๊ก Colab
โรดแมป
- แม้จะยังเป็นโปรเจ็กต์ระยะเริ่มต้น แต่มีศักยภาพที่จะเติบโตจนช่วยทำให้ AI model ที่โปร่งใสและสอดคล้องกันซึ่งสามารถลงมือทำสิ่งต่าง ๆ บนอินเทอร์เน็ตแทนผู้ใช้แพร่หลายมากขึ้น
- มองว่าพื้นที่สำรวจหลักคือการ fine-tune โมเดลโลคัลให้เชี่ยวชาญด้าน Text2Action, ปรับปรุงการค้นหาให้ใช้เฉพาะส่วนของโค้ดที่เกี่ยวข้องสำหรับการสร้างโค้ด, และรองรับเอนจินเบราว์เซอร์อื่น ๆ (เช่น playwright) หรือเฟรมเวิร์กอัตโนมัติอื่น ๆ
ความเห็นของ GN⁺
- LaVague มีศักยภาพในการช่วยประหยัดเวลาและเพิ่มประสิทธิภาพการทำงานด้วยการทำงานซ้ำ ๆ ของผู้ใช้ให้เป็นอัตโนมัติ ซึ่งอาจมีประโยชน์เป็นพิเศษกับงานอย่างการกรอกข้อมูลซ้ำ ๆ หรือการกรอกฟอร์ม
- เนื่องจากพัฒนาบนพื้นฐานโอเพนซอร์ส จึงมอบทั้งความโปร่งใสและความสามารถในการปรับแก้ให้กับทั้งผู้ใช้และนักพัฒนา ซึ่งอาจช่วยส่งเสริมนวัตกรรมที่ขับเคลื่อนโดยชุมชนและสร้างความเชื่อมั่นให้ผู้ใช้
- เทคโนโลยีอัตโนมัติที่ LaVague ใช้นั้นผสานรวมกับเครื่องมือที่หลายบริษัทและนักพัฒนาคุ้นเคยอยู่แล้วอย่าง Selenium จึงสามารถนำไปรวมเข้ากับเวิร์กโฟลว์เดิมได้ไม่ยาก
- ระบบอัตโนมัติที่ใช้เทคโนโลยี AI ต้องการทั้งความแม่นยำและประสิทธิภาพสูง เทคโนโลยีอย่าง Few-shot learning และ Chain of Thought ที่ LaVague ใช้อาจช่วยลดข้อผิดพลาดที่อาจเกิดขึ้นเมื่อต้องจัดการงานที่ซับซ้อน
- การนำเทคโนโลยีลักษณะนี้มาใช้จำเป็นต้องคำนึงถึงความเป็นส่วนตัวของผู้ใช้และความปลอดภัยของข้อมูล การรองรับโมเดลโลคัลอาจเป็นวิธีหนึ่งในการบรรเทาความกังวลเหล่านี้ แต่ผู้ใช้ก็ยังควรติดตามอย่างรอบคอบว่าข้อมูลของตนถูกประมวลผลอย่างไร
2 ความคิดเห็น
ดูดีมากที่สามารถลองทดสอบได้ในสภาพแวดล้อมโน้ตบุ๊ก โชคดีที่มีการผสานรวมกับ playwright อยู่ในมิลสโตนด้วย,,
ความคิดเห็นจาก Hacker News
ความเห็นเกี่ยวกับการลองใช้เครื่องมือใหม่
ประสบการณ์เกี่ยวกับการล้าง Google Photos
ความเห็นเกี่ยวกับเครื่องมืออัตโนมัติบนเบราว์เซอร์อย่าง TaxyAI
ประสบการณ์เกี่ยวกับการทดสอบ Selenium
ความกังวลเกี่ยวกับการเพิกเฉยต่อคำสั่งอัตโนมัติบนเว็บไซต์
ความเห็นเกี่ยวกับผลกระทบที่อาจเกิดขึ้นของระบบอัตโนมัติ
ความสนใจเกี่ยวกับความเข้ากันได้ของโมเดล
ผลกระทบต่อการโหวตออนไลน์
ความสำคัญของเบนช์มาร์กที่แสดงอัตราความสำเร็จ
ความสนใจต่อโปรเจกต์