- คำถามที่เกิดขึ้นเมื่อทำให้เว็บอินเทอร์แอ็กชันเป็นอัตโนมัติด้วย GPT-4(V)
- จะจับคู่คำตอบของ LLM กับเว็บเอลิเมนต์ได้อย่างไร?
- ควรมาร์กอัปหน้าอย่างไรเพื่อให้ LLM เข้าใจพื้นที่ทำงานของตัวเองได้ดียิ่งขึ้น?
- จะส่งมอบ 'ภาพหน้าจอ' ให้กับ LLM แบบข้อความล้วนได้อย่างไร?
- Tarsier คือยูทิลิตีด้านวิชันสำหรับมัลติโหมดเว็บเอเจนต์
- ทำงานโดยติด 'แท็ก' ให้กับองค์ประกอบที่โต้ตอบได้บนหน้าในเชิงภาพ ผ่านไอดีอย่างเช่น [1]
- ด้วยวิธีนี้จึงให้การแมประหว่างองค์ประกอบกับ ID เพื่อให้ GPT-4(V) สามารถทำงานได้
- องค์ประกอบที่โต้ตอบได้หมายถึงปุ่ม ลิงก์ หรือช่องกรอกข้อมูลที่แสดงอยู่บนหน้า
- สามารถให้ตัวแทนข้อความของหน้าได้
- กล่าวคือ แม้แต่ LLM ที่ไม่ใช่มัลติโหมดก็สามารถโต้ตอบได้ลึกขึ้น
- นี่เป็นจุดสำคัญเมื่อพิจารณาถึงปัญหาด้านประสิทธิภาพของโมเดลวิชันภาษาในปัจจุบัน
- นอกจากนี้ยังมียูทิลิตี OCR ที่แปลงภาพหน้าจอของหน้าเป็นสตริงที่มีโครงสร้างช่องว่าง ซึ่ง LLM ที่ไม่มีวิชันสามารถเข้าใจได้
- บริการ OCR ที่รองรับ
- ปัจจุบันรองรับเฉพาะ Google Cloud Vision และมีแผนจะรองรับ Amazon Textract และ Microsoft Azure Computer Vision
ยังไม่มีความคิดเห็น