การท่องเว็บด้วย GPT-4 Vision และ Vimium
(github.com/ishan0102)vimGPT: มอบสนามเด็กเล่นให้โมเดลหลายรูปแบบ
ภาพรวม
- มีการสำรวจการใช้งานโมเดลภาษาขนาดใหญ่ (LLMs) สำหรับการท่องเว็บทั้งในหลายสตาร์ตอัปและโครงการโอเพนซอร์ส
- สนใจโครงการทดลองว่าการท่องเว็บจะเป็นไปได้หรือไม่โดยใช้เพียงความสามารถด้านการมองเห็นของ GPT-4V
- โมเดลมีความยากในการระบุเป้าหมายที่ต้องการคลิกหากไม่มี DOM ของเบราว์เซอร์ในรูปแบบข้อความ
การตั้งค่า
- ติดตั้งข้อกำหนดของ Python:
pip install -r requirements.txt - ต้องดาวน์โหลด Vimium มาไว้ในเครื่อง และโหลดส่วนขยายด้วยตนเองตอนรัน Playwright:
./setup.sh
ไอเดีย
- กำลังพิจารณาใช้ Assistant API เมื่อเปิดตัวแล้วสำหรับการค้นหาคอนเท็กซ์อัตโนมัติ
- มีความเป็นไปได้ที่จะพัฒนา Vimium เวอร์ชันพิเศษที่ซ้อนทับองค์ประกอบแบบเลือกได้ตามคอนเท็กซ์
- ปัญหาที่โมเดลไม่สามารถรับรู้ได้ในความละเอียดต่ำอาจแก้ได้ด้วยการใช้ภาพความละเอียดสูง
- สามารถปรับจูน LLaVa หรือ CogVLM เพื่อให้ทำงานได้เร็วขึ้นและมีต้นทุนต่ำลง
- มีแผนจะใช้ Vision API หากรองรับโหมด JSON แต่ในตอนนี้ยังต้องพึ่งวิธีพรอมป์ตที่เป็นพื้นฐานมากกว่า
- กำลังพิจารณาวิธีให้ Vision API ส่งกลับคำสั่งทั่วไป แล้วนำไปจัดรูปเป็น API โหมด JSON
- กำลังพิจารณาเพิ่มการแปลงเสียงเป็นข้อความด้วย Whisper หรือโมเดลอื่น เพื่อตัดการป้อนข้อความออกและเพิ่มการเข้าถึง
- ต้องการให้มันทำงานบนเบราว์เซอร์ของผู้ใช้เอง ไม่ใช่บนเบราว์เซอร์จำลอง
- เตรียมเฟรมตามการเปิดใช้งาน Vimium เผื่อกรณีที่โมเดลมองไม่เห็นใต้กรอบสี่เหลี่ยมสีเหลือง
- นอกจากอินพุตภาพแล้ว ยังให้ Chrome accessibility tree เป็นอินพุตเพื่อแสดงเลย์เอาต์ขององค์ประกอบที่โต้ตอบได้ซึ่งสามารถแมปกับ Vimium bindings ได้
แหล่งอ้างอิง
ความเห็นของ GN⁺
ประเด็นสำคัญที่สุดของบทความนี้คือความพยายามในการปฏิวัติประสบการณ์การท่องเว็บด้วยการใช้โมเดลภาษาขนาดใหญ่ เช่น GPT-4V การเปิดทางให้โมเดลสามารถโต้ตอบกับเว็บผ่านส่วนขยาย Vimium เป็นแนวทางที่น่าสนใจ และมีศักยภาพในการยกระดับทั้งการเข้าถึงเว็บและความสามารถในการโต้ตอบ สำหรับผู้ที่ชื่นชอบเทคโนโลยีและนักพัฒนาซอฟต์แวร์ การทดลองลักษณะนี้มอบมุมมองต่ออนาคตของปัญญาประดิษฐ์และวิวัฒนาการของเว็บอินเทอร์เฟซ จึงเป็นหัวข้อที่น่าติดตามอย่างมาก
1 ความคิดเห็น
ความเห็นจาก Hacker News
น่าเหลือเชื่อว่าเดี๋ยวนี้สิ่งแบบนี้ทำได้แล้ว:
ที่ทำงานของฉันมี technical debt สูงมากจนยังมีคนจำนวนมากที่ต้องคัดลอกข้อมูลด้วยมือ:
คำทักทายจากผู้สร้าง:
มีความเห็นว่า vim เป็น "implementation" ที่เหมาะกับ ChatGPT:
การพูดคุยเกี่ยวกับการใช้ GPT-4 Vision กับงานสกรีนช็อตและการท่องเว็บ:
แชร์ประสบการณ์จากการทดลองผ่านอินเทอร์เฟซ ChatGPT:
คำถามว่าเครื่องมือแบบนี้จะส่งผลต่อการติดตามบนเว็บหรือโฆษณาอย่างไร:
สามารถสร้างระบบขับเคลื่อนอัตโนมัติสำหรับเบราว์เซอร์ได้:
มีความเห็นเชิงบวกว่า GPT-4V ได้นำเสนอมุมมองใหม่ต่อ web scraping:
แชร์ประสบการณ์จากการใช้งานจริง: