• คำถามที่เกิดขึ้นเมื่อทำให้เว็บอินเทอร์แอ็กชันเป็นอัตโนมัติด้วย GPT-4(V)
    • จะจับคู่คำตอบของ LLM กับเว็บเอลิเมนต์ได้อย่างไร?
    • ควรมาร์กอัปหน้าอย่างไรเพื่อให้ LLM เข้าใจพื้นที่ทำงานของตัวเองได้ดียิ่งขึ้น?
    • จะส่งมอบ 'ภาพหน้าจอ' ให้กับ LLM แบบข้อความล้วนได้อย่างไร?
  • Tarsier คือยูทิลิตีด้านวิชันสำหรับมัลติโหมดเว็บเอเจนต์
    • ทำงานโดยติด 'แท็ก' ให้กับองค์ประกอบที่โต้ตอบได้บนหน้าในเชิงภาพ ผ่านไอดีอย่างเช่น [1]
    • ด้วยวิธีนี้จึงให้การแมประหว่างองค์ประกอบกับ ID เพื่อให้ GPT-4(V) สามารถทำงานได้
    • องค์ประกอบที่โต้ตอบได้หมายถึงปุ่ม ลิงก์ หรือช่องกรอกข้อมูลที่แสดงอยู่บนหน้า
    • สามารถให้ตัวแทนข้อความของหน้าได้
      • กล่าวคือ แม้แต่ LLM ที่ไม่ใช่มัลติโหมดก็สามารถโต้ตอบได้ลึกขึ้น
      • นี่เป็นจุดสำคัญเมื่อพิจารณาถึงปัญหาด้านประสิทธิภาพของโมเดลวิชันภาษาในปัจจุบัน
    • นอกจากนี้ยังมียูทิลิตี OCR ที่แปลงภาพหน้าจอของหน้าเป็นสตริงที่มีโครงสร้างช่องว่าง ซึ่ง LLM ที่ไม่มีวิชันสามารถเข้าใจได้
  • บริการ OCR ที่รองรับ
    • ปัจจุบันรองรับเฉพาะ Google Cloud Vision และมีแผนจะรองรับ Amazon Textract และ Microsoft Azure Computer Vision

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น