2 คะแนน โดย GN⁺ 2023-11-10 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

vimGPT: มอบสนามเด็กเล่นให้โมเดลหลายรูปแบบ

ภาพรวม

  • มีการสำรวจการใช้งานโมเดลภาษาขนาดใหญ่ (LLMs) สำหรับการท่องเว็บทั้งในหลายสตาร์ตอัปและโครงการโอเพนซอร์ส
  • สนใจโครงการทดลองว่าการท่องเว็บจะเป็นไปได้หรือไม่โดยใช้เพียงความสามารถด้านการมองเห็นของ GPT-4V
  • โมเดลมีความยากในการระบุเป้าหมายที่ต้องการคลิกหากไม่มี DOM ของเบราว์เซอร์ในรูปแบบข้อความ

การตั้งค่า

  • ติดตั้งข้อกำหนดของ Python: pip install -r requirements.txt
  • ต้องดาวน์โหลด Vimium มาไว้ในเครื่อง และโหลดส่วนขยายด้วยตนเองตอนรัน Playwright: ./setup.sh

ไอเดีย

  • กำลังพิจารณาใช้ Assistant API เมื่อเปิดตัวแล้วสำหรับการค้นหาคอนเท็กซ์อัตโนมัติ
  • มีความเป็นไปได้ที่จะพัฒนา Vimium เวอร์ชันพิเศษที่ซ้อนทับองค์ประกอบแบบเลือกได้ตามคอนเท็กซ์
  • ปัญหาที่โมเดลไม่สามารถรับรู้ได้ในความละเอียดต่ำอาจแก้ได้ด้วยการใช้ภาพความละเอียดสูง
  • สามารถปรับจูน LLaVa หรือ CogVLM เพื่อให้ทำงานได้เร็วขึ้นและมีต้นทุนต่ำลง
  • มีแผนจะใช้ Vision API หากรองรับโหมด JSON แต่ในตอนนี้ยังต้องพึ่งวิธีพรอมป์ตที่เป็นพื้นฐานมากกว่า
  • กำลังพิจารณาวิธีให้ Vision API ส่งกลับคำสั่งทั่วไป แล้วนำไปจัดรูปเป็น API โหมด JSON
  • กำลังพิจารณาเพิ่มการแปลงเสียงเป็นข้อความด้วย Whisper หรือโมเดลอื่น เพื่อตัดการป้อนข้อความออกและเพิ่มการเข้าถึง
  • ต้องการให้มันทำงานบนเบราว์เซอร์ของผู้ใช้เอง ไม่ใช่บนเบราว์เซอร์จำลอง
  • เตรียมเฟรมตามการเปิดใช้งาน Vimium เผื่อกรณีที่โมเดลมองไม่เห็นใต้กรอบสี่เหลี่ยมสีเหลือง
  • นอกจากอินพุตภาพแล้ว ยังให้ Chrome accessibility tree เป็นอินพุตเพื่อแสดงเลย์เอาต์ขององค์ประกอบที่โต้ตอบได้ซึ่งสามารถแมปกับ Vimium bindings ได้

แหล่งอ้างอิง

ความเห็นของ GN⁺

ประเด็นสำคัญที่สุดของบทความนี้คือความพยายามในการปฏิวัติประสบการณ์การท่องเว็บด้วยการใช้โมเดลภาษาขนาดใหญ่ เช่น GPT-4V การเปิดทางให้โมเดลสามารถโต้ตอบกับเว็บผ่านส่วนขยาย Vimium เป็นแนวทางที่น่าสนใจ และมีศักยภาพในการยกระดับทั้งการเข้าถึงเว็บและความสามารถในการโต้ตอบ สำหรับผู้ที่ชื่นชอบเทคโนโลยีและนักพัฒนาซอฟต์แวร์ การทดลองลักษณะนี้มอบมุมมองต่ออนาคตของปัญญาประดิษฐ์และวิวัฒนาการของเว็บอินเทอร์เฟซ จึงเป็นหัวข้อที่น่าติดตามอย่างมาก

1 ความคิดเห็น

 
GN⁺ 2023-11-10
ความเห็นจาก Hacker News
  • น่าเหลือเชื่อว่าเดี๋ยวนี้สิ่งแบบนี้ทำได้แล้ว:

    • มีตัวเลือกที่ผู้ใช้เลือกได้เพื่อช่วยทำงานเฉพาะอย่าง ได้แก่ 'navigate', 'type', 'click', 'done'
    • 'navigate' ต้องย้ายไปยัง URL ที่ระบุ ส่วน 'type' และ 'click' จะรับสตริงไปดำเนินการ
    • ตอนคลิกต้องคืนค่าลำดับตัวอักษรสีเหลือง และตอนพิมพ์ต้องคืนข้อความเป็นสตริง
    • ถ้าหน้าเว็บเป็นที่น่าพอใจแล้ว ให้คืนค่า 'done' เป็นคีย์ และต้องตอบกลับในรูปแบบ JSON เท่านั้น
  • ที่ทำงานของฉันมี technical debt สูงมากจนยังมีคนจำนวนมากที่ต้องคัดลอกข้อมูลด้วยมือ:

    • แสดงความคาดหวังว่าเครื่องมือแบบนี้จะทำหน้าที่เป็นชั้นที่ช่วยแก้ปัญหาเดิม ๆ ได้
  • คำทักทายจากผู้สร้าง:

    • ขอบคุณที่แชร์โปรเจ็กต์ และขอให้ถามมาได้หากมีคำถาม
    • ใน README มีไอเดียเกี่ยวกับขั้นต่อไปอยู่ และยินดีรับการมีส่วนร่วม
  • มีความเห็นว่า vim เป็น "implementation" ที่เหมาะกับ ChatGPT:

    • สามารถทำทุกอย่างได้ผ่าน text stream และบนอินเทอร์เน็ตก็มี vimscript อยู่มากมายแล้ว
    • กล่าวว่าตนเริ่มทดลองคล้าย ๆ กัน และแชร์ลิงก์โปรเจ็กต์ที่เกี่ยวข้อง
  • การพูดคุยเกี่ยวกับการใช้ GPT-4 Vision กับงานสกรีนช็อตและการท่องเว็บ:

    • หลังจากล้มเหลวในการ overlay ข้อมูลลงบนสกรีนช็อต วิธีที่ดึง accessibility tree จาก playwright มาเป็นข้อความแล้วบอกตัวเลือกการโต้ตอบให้โมเดลรู้ กลับให้ผลลัพธ์ที่ดีกว่า
    • เสนอให้ผู้สร้างเพิ่มไอเดียนี้เข้าไปในรายการไอเดียสำหรับอนาคต
  • แชร์ประสบการณ์จากการทดลองผ่านอินเทอร์เฟซ ChatGPT:

    • แนะนำให้อัปเดต CSS เพื่อลบ gradient และมุมโค้งมนออก
    • การใช้พื้นหลังสีแดงกับตัวอักษรสีขาวแบบหนาให้ผลลัพธ์ที่สม่ำเสมอที่สุด
    • แนะนำให้เพิ่มขนาดฟอนต์ และถ้าป้ายกำกับซ้อนกันให้แยกออกพร้อมเพิ่มลูกศร
    • แนะนำให้ส่งทั้งภาพที่ใส่คำอธิบายประกอบแล้วและภาพที่ยังไม่ใส่คำอธิบายประกอบไปยัง API
  • คำถามว่าเครื่องมือแบบนี้จะส่งผลต่อการติดตามบนเว็บหรือโฆษณาอย่างไร:

    • มีศักยภาพที่จะเป็น "ad blocker" ที่เอเจนต์ค้นหาสิ่งที่ผู้ใช้ต้องการแทน โดยไม่ต้องเจอโฆษณาหรือป๊อปอัป
    • จินตนาการได้ว่าอาจลดความสำคัญของ SEO และยกระดับคุณภาพของอินเทอร์เน็ต
    • ขณะเดียวกันก็แสดงความกังวลถึงผลกระทบด้านลบที่โฆษณาอาจนำมา
  • สามารถสร้างระบบขับเคลื่อนอัตโนมัติสำหรับเบราว์เซอร์ได้:

    • หากเทคโนโลยีนี้ถูกนำไปใช้งานในวงกว้าง จะยากมากในการแยกแยะ bot traffic
    • ตั้งข้อสังเกตว่าในระยะสั้นมันอาจยังไม่ถูกพอหรือเข้าถึงได้ง่ายพอ
  • มีความเห็นเชิงบวกว่า GPT-4V ได้นำเสนอมุมมองใหม่ต่อ web scraping:

    • คาดว่าโค้ดนี้หรือโค้ดลักษณะคล้ายกันจะถูกนำไปใช้ในหลายโปรเจ็กต์
    • ตัวอย่างเช่น ใช้ scrape เว็บไซต์อย่าง LinkedIn หรือ Twitter, ใช้วิเคราะห์คู่แข่ง, ทำความเข้าใจอุตสาหกรรม, หรือดึงข่าวสาร
  • แชร์ประสบการณ์จากการใช้งานจริง:

    • มีปัญหาที่คำอธิบายประกอบขนาดเล็กสำหรับตัวเลือกที่คลิกได้มักไม่ปรากฏบนหน้าจอ ทำให้ติดลูป
    • ล็อกอินเข้า Twitter ได้สำเร็จ แต่ก็ใช้โควตา API สำหรับรูปภาพ 100 ภาพหมดอย่างรวดเร็ว
    • เสนอว่าในเวอร์ชันถัดไปควรใช้ text-based browser เป็นหลัก และใช้ vision เฉพาะในสถานการณ์ที่ซับซ้อน