Tarsier - ยูทิลิตีด้านวิชันสำหรับเอเจนต์เว็บอินเทอร์แอ็กชัน

xguru · 2023-11-16T10:03:01+09:00

คำถามที่เกิดขึ้นเมื่อทำให้เว็บอินเทอร์แอ็กชันเป็นอัตโนมัติด้วย GPT-4(V) จะจับคู่คำตอบของ LLM กับเว็บเอลิเมนต์ได้อย่างไร? ควรมาร์กอัปหน้าอย่างไรเพื่อให้ LLM เข้าใจพื้นที่ทำงานของตัวเองได้ดียิ่งขึ้น? จะส่งมอบ 'ภาพหน้าจอ' ให้กับ LLM แบบข้อความล้วนได้อย่างไร? Tarsier คือยูทิลิตีด้านวิชันสำหรับมัลติโหมดเว็บเอเจนต์ ทำงานโดยติด 'แท็ก' ให้กับองค์ประกอบที่โต้ตอบได้บนหน้าในเชิงภาพ ผ่านไอดีอย่างเช่น [1] ด้วยวิธีนี้จึงให้การแมประหว่างองค์ประกอบกับ ID เพื่อให้ GPT-4(V) สามารถทำงานได้ องค์ประกอบที่โต้ตอบได้หมายถึงปุ่ม ลิงก์ หรือช่องกรอกข้อมูลที่แสดงอยู่บนหน้า สามารถให้ตัวแทนข้อความของหน้าได้ กล่าวคือ แม้แต่ LLM ที่ไม่ใช่มัลติโหมดก็สามารถโต้ตอบได้ลึกขึ้น นี่เป็นจุดสำคัญเมื่อพิจารณาถึงปัญหาด้านประสิทธิภาพของโมเดลวิชันภาษาในปัจจุบัน นอกจากนี้ยังมียูทิลิตี OCR ที่แปลงภาพหน้าจอของหน้าเป็นสตริงที่มีโครงสร้างช่องว่าง ซึ่ง LLM ที่ไม่มีวิชันสามารถเข้าใจได้ บริการ OCR ที่รองรับ ปัจจุบันรองรับเฉพาะ Google Cloud Vision และมีแผนจะรองรับ Amazon Textract และ Microsoft Azure Computer Vision

(github.com/reworkd)

6 คะแนน โดย xguru 2023-11-16 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

คำถามที่เกิดขึ้นเมื่อทำให้เว็บอินเทอร์แอ็กชันเป็นอัตโนมัติด้วย GPT-4(V)
- จะจับคู่คำตอบของ LLM กับเว็บเอลิเมนต์ได้อย่างไร?
- ควรมาร์กอัปหน้าอย่างไรเพื่อให้ LLM เข้าใจพื้นที่ทำงานของตัวเองได้ดียิ่งขึ้น?
- จะส่งมอบ 'ภาพหน้าจอ' ให้กับ LLM แบบข้อความล้วนได้อย่างไร?
Tarsier คือยูทิลิตีด้านวิชันสำหรับมัลติโหมดเว็บเอเจนต์
- ทำงานโดยติด 'แท็ก' ให้กับองค์ประกอบที่โต้ตอบได้บนหน้าในเชิงภาพ ผ่านไอดีอย่างเช่น [1]
- ด้วยวิธีนี้จึงให้การแมประหว่างองค์ประกอบกับ ID เพื่อให้ GPT-4(V) สามารถทำงานได้
- องค์ประกอบที่โต้ตอบได้หมายถึงปุ่ม ลิงก์ หรือช่องกรอกข้อมูลที่แสดงอยู่บนหน้า
- สามารถให้ตัวแทนข้อความของหน้าได้
  - กล่าวคือ แม้แต่ LLM ที่ไม่ใช่มัลติโหมดก็สามารถโต้ตอบได้ลึกขึ้น
  - นี่เป็นจุดสำคัญเมื่อพิจารณาถึงปัญหาด้านประสิทธิภาพของโมเดลวิชันภาษาในปัจจุบัน
- นอกจากนี้ยังมียูทิลิตี OCR ที่แปลงภาพหน้าจอของหน้าเป็นสตริงที่มีโครงสร้างช่องว่าง ซึ่ง LLM ที่ไม่มีวิชันสามารถเข้าใจได้
บริการ OCR ที่รองรับ
- ปัจจุบันรองรับเฉพาะ Google Cloud Vision และมีแผนจะรองรับ Amazon Textract และ Microsoft Azure Computer Vision

Tarsier - ยูทิลิตีด้านวิชันสำหรับเอเจนต์เว็บอินเทอร์แอ็กชัน

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น