การท่องเว็บด้วย GPT-4 Vision และ Vimium

(github.com/ishan0102)

2 คะแนน โดย GN⁺ 2023-11-10 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

เป็นโปรเจกต์ทดลองว่าเราสามารถท่องเว็บได้ด้วยความสามารถด้านการมองเห็นของ GPT-4V เพียงอย่างเดียวหรือไม่ โดยมอบอินเทอร์เฟซสำหรับโต้ตอบกับเว็บให้กับโมเดลแบบมัลติโหมด
กล่าวถึงปัญหาที่ว่าหากไม่ส่ง DOM ของเบราว์เซอร์ในรูปแบบข้อความให้ โมเดลจะตัดสินใจได้ยากว่าควรคลิกอะไร
ใช้ส่วนขยาย Chrome Vimium เพื่อให้สามารถท่องเว็บได้ด้วยคีย์บอร์ดเพียงอย่างเดียว และใช้สิ่งนี้เพื่อทดลองวิธีที่โมเดลโต้ตอบกับเว็บ
ลำดับการรันประกอบด้วยการติดตั้งความต้องการของ Python, ดาวน์โหลด Vimium แบบโลคัล, โหลดส่วนขยายด้วยตนเองเมื่อรัน Playwright และรัน python main.py
สามารถรัน Voice Mode ด้วย python main.py --voice เพื่อพูดคำสั่งเป้าหมายด้วยเสียงและให้เบราว์เซอร์ดำเนินการแบบเรียลไทม์ได้
ปัจจุบัน Vision API ยังไม่รองรับ JSON mode หรือ function calling จึงมีข้อจำกัดที่ต้องพึ่งพาวิธีพรอมป์ต์แบบดิบมากกว่า
ในความละเอียดต่ำ โมเดลอาจตรวจจับอะไรไม่ได้เลย และแม้การใช้ภาพความละเอียดสูงขึ้นอาจช่วยได้ แต่ก็ต้องใช้โทเคนมากขึ้น

1 ความคิดเห็น

GN⁺ 2023-11-10

ความคิดเห็นบน Hacker News

น่าทึ่งจริง ๆ ที่ตอนนี้เรื่องแบบนี้ทำได้แล้ว: https://github.com/ishan0102/vimGPT/blob/682b5e539541cd6d710...
พรอมป์ต์กำลังสั่งให้ควบคุมเบราว์เซอร์ในทำนองว่า “เพื่อช่วยให้ผู้ใช้บรรลุเป้าหมาย ให้เลือกว่าจะทำ action ใดระหว่าง navigate, type, click, done ระบุเป้าหมายที่จะคลิกด้วยลำดับตัวอักษรสีเหลือง และส่งกลับเป็น JSON เท่านั้น”
- ความเร็วที่วงการนี้ขยับไปทำเอามึนไปหมด อาจกลายเป็นกระแสที่บ้าคลั่งยิ่งกว่ายุคดอตคอมบูมก็ได้
ในที่ทำงานมีคนจำนวนไม่น้อยที่ทำแค่ คัดลอกข้อมูลด้วยมือ ระหว่างโปรแกรม legacy หลายตัว เนื่องจากเป็นฝั่งรัฐบาล technical debt ใหญ่มากจนหาวิธีเชื่อมระบบเข้าด้วยกันไม่ได้
ถ้าเครื่องมือแบบนี้สักวันหนึ่งกลายเป็นชั้นที่ทำงานอยู่เหนือปัญหาเหล่านี้ได้ก็น่าคาดหวังอยู่ แม้ในแง่ทรัพยากรคอมพิวต์จะเป็นวิธีแก้ที่แปลกประหลาดก็ตาม
- นานมากแล้ว เคยทำโปรเจกต์เล็ก ๆ ให้เครือร้านขายของชำข้ามชาติรายใหญ่ ทำเครื่องมือที่ parse ไฟล์ Excel โครงสร้างเฉพาะ แล้วเรียก endpoint ของระบบภายในเพื่อส่งข้อมูล
  พอถามว่าก่อนหน้านี้ทำกันอย่างไร เขาพาไปที่คอมพิวเตอร์ด้านหลังสำนักงาน วอลล์เปเปอร์มีสี่เหลี่ยมสองอันเขียนว่า MS EXCEL กับ INTERNET EXPLORER ผู้รับผิดชอบเปิดสองแอปนั้น จัดหน้าต่างให้ตรงกับสี่เหลี่ยมพอดี แล้วรันตัวคลิกอัตโนมัติแบบที่พวกโกง RuneScape น่าจะใช้ เพื่อคัดลอกค่าจาก Excel ลงในฟอร์มบนเว็บไซต์ต่าง ๆ สุดยอดมาก
- ตรงนี้โทษว่าเป็นเพราะ “ซอฟต์แวร์เก่า” แต่จริง ๆ แล้วแทบทุกคนที่ใช้อินเทอร์เน็ตก็เจอ ปัญหาการป้อนข้อมูล แบบเดียวกันตลอดเวลา คือคัดลอกข้อมูลในฟอร์มจากด้านหนึ่งของหน้าจอไปยังเว็บฟอร์มอีกอัน หรือแย่กว่านั้นคือต้องพิมพ์ใหม่
  ทั้งชื่อผู้ใช้ รหัสผ่าน ที่อยู่อีเมล ที่อยู่จริง ข้อมูลบัตรเครดิต ล้วนเป็นแบบนี้ทั้งหมด และถึงจะมีส่วนขยายที่พยายามช่วยกรอกข้อมูล แต่ไม่มีอะไรที่ทำงานได้ดีอย่างสม่ำเสมอ แม้แต่การกรอกชื่อผู้ใช้กับรหัสผ่านให้สม่ำเสมอยังหวังได้ยาก ในการใช้อินเทอร์เน็ต นี่เป็นความรำคาญอันดับ 1 ที่หนักกว่าโฆษณาเสียอีก และน่าทึ่งที่ไม่ว่าจะมี LLM หรือไม่ เรื่องนี้ก็ยังไม่ถูกแก้ หากมีซอฟต์แวร์ที่แก้เรื่องนี้ได้อย่างสมบูรณ์ ผมยินดีจ่ายค่าสมัครรายเดือน
- ในศัพท์อุตสาหกรรมเรียกว่า Robotic Process Automation และกลุ่มผลิตภัณฑ์นี้นอกจาก screen scraping แบบดั้งเดิมแล้ว ยังมุ่งเน้นการใช้ machine learning/AI หลายรูปแบบมาเชื่อมสิ่งเหล่านี้เข้าด้วยกันในวิธีที่เป็นมาตรฐานและมีโครงสร้าง
  จนถึงตอนนี้ผลิตภัณฑ์พวกนี้ค่อนข้างเปราะ แต่การระเบิดของเทคโนโลยี AI ล่าสุดดูเหมือนเป็นข่าวดีมากสำหรับพื้นที่นี้
- ทุกครั้งที่ได้ยินว่ามีคนดึงข้อมูลจากระบบ legacy ด้วยมือ ก็อดสงสัยไม่ได้ว่าเขาเคยขอใบเสนอราคาสำหรับวิธีแก้แบบ “ถูกต้อง” แล้วตัดสินใจว่าจ้างคนหลายคนมาพิมพ์เอาถูกกว่าหรือเปล่า
  ต่อให้ผสานอะไรอย่าง ChatGPT เข้าไป ก็ยังต้องมีคนที่รู้จริงมาตรวจทานอยู่ดี และคงไม่แปลกถ้าคำแนะนำแรกจากคนเหล่านั้นคือ “อย่าใช้ ChatGPT กับตรงนั้น”
- เมื่อก่อนเคยคิดว่าฉากใน Ghost in the Shell ที่หุ่นยนต์มีนิ้วอีกชุดอยู่บนปลายนิ้วเพื่อพิมพ์ให้เร็ว ๆ นั้นดูแปลก ๆ แม้คงไม่เป็นแบบนั้นตรง ๆ เพราะเสียบ USB ได้โดยตรง แต่ถึงอย่างนั้นบางครั้งก็น่าจะยังต้องใช้ หน้าจอและการป้อนผ่านคีย์บอร์ด อยู่ดี
vim ดูเหมือนจะกลายเป็น ร่างกายที่ถูกนำไปใช้งานจริง ชั้นดีให้ ChatGPT โดยไม่ได้ตั้งใจ แทบไม่มีอะไรที่ทำผ่าน text stream ไม่ได้ และบนอินเทอร์เน็ตก็มี vimscript อยู่เต็มไปหมดแล้ว
ผมเริ่มทดลองอะไรคล้าย ๆ กันไว้ เผื่อมีคนคิดไปในทิศทางเดียวกันจะได้ใช้อ้างอิง: https://github.com/LachlanGray/vim-agent
ผมเป็นคนทำเอง ถ้ามีข้อสงสัยก็ถามได้ และยินดีรับ contribution ด้วย ผมทิ้ง ขั้นตอนถัดไป ที่เป็นไปได้ไว้ใน README หลายอย่าง
- วันนี้ก่อนหน้านี้เพิ่งปล่อยสิ่งที่แทบจะเหมือนกันออกมา: https://github.com/Jiayi-Pan/GPT-V-on-Web แต่แทบไม่ได้รับความสนใจ
- Open Interpreter ก็กำลังพยายาม automate Selenium ด้วยการควบคุมด้วยภาษาธรรมชาติ และช่วงนี้ก็มีโปรเจกต์คล้าย ๆ กันขึ้น HN อยู่ไม่น้อย แนวทางของ Vimium ดูเบากว่ามาก เลยน่าจับตา
  ไม่ทางใดก็ทางหนึ่ง เวิลด์ไวด์เว็บสาธารณะกำลังค่อย ๆ กลายเป็นเซิร์ฟเวอร์ overlay ของ dynamic API ของตัวมันเอง
- ต่างจากวิธีที่ ChatGPT ท่องเว็บอยู่ตอนนี้อย่างไร?
- ใช้สร้าง บอท ที่เข้าเว็บไซต์แล้วดึงและวิเคราะห์ข้อมูลที่เกี่ยวข้อง โดยไม่ต้องเขียน parser เฉพาะแต่ละเว็บได้ไหม?
ผมเคยลองเล่นไอเดียคล้าย ๆ กัน คือใช้ GPT-4 Vision ท่องเว็บด้วยสกรีนช็อตและ action หลังจากพยายามซ้อนข้อมูลทับบนสกรีนช็อตแล้วล้มเหลว สุดท้ายก็ไปดึง accessibility tree จาก Playwright แล้วส่งไปพร้อมกันเป็นข้อความ
แบบนั้นทำให้โมเดลรู้ว่ามีตัวเลือกใดที่โต้ตอบได้ และในกรณีของผมทำงานได้ดีกว่า คนทำอยู่ที่นี่และมีรายการไอเดียในอนาคตด้วย ถ้าโอเคก็อาจเพิ่มสิ่งนี้เข้าไปในรายการได้
- ไอเดียดี เดิมทีตั้งใจจะใช้แค่ข้อมูลภาพ แต่แบบนี้น่าจะทำให้ agent ทรงพลังขึ้นมาก จะลองเร็ว ๆ นี้
- น่าจะดีกว่าถ้าจับ คอนเทนต์ทั้งหมด ไม่ใช่แค่สิ่งที่อยู่ในหนึ่งหน้าจอ ด้วย context window ที่ขยายขึ้นใหม่ หน้าเว็บส่วนใหญ่คงใส่เข้าไปเป็นข้อความหรือ HTML ได้
ช่วงสองสามสัปดาห์ที่ผ่านมาได้ลองเล่นสิ่งนี้ผ่านอินเทอร์เฟซ ChatGPT มีเคล็ดลับอยู่บ้าง
เปลี่ยน CSS เพื่อตัด gradient กับมุมโค้งออก และตัวอักษรสีขาวหนาบนพื้นสีแดงดูสม่ำเสมอที่สุด ควรเพิ่มขนาดฟอนต์ และถ้าป้ายสองอันทับกัน ให้ดันออกจากกันแล้วเพิ่มลูกศรชี้ไปยังองค์ประกอบนั้น ส่งทั้งภาพที่มี annotation และภาพที่ไม่มี annotation ไปยัง API จะดีกว่า
สามารถสร้าง autopilot สำหรับเบราว์เซอร์ได้
ถ้าสิ่งนี้ถูก deploy ในวงกว้าง ต่อไปการแยก bot traffic จะยากมหาศาล อย่างไรก็ตาม ในระยะสั้นดูมีปัญหาว่าต้นทุนคงยังไม่ถูกหรืออยู่ในระดับที่รับไหว
- ถ้า fine-tune โมเดลโอเพนซอร์ส อย่าง llava หรือ cogvlm ก็น่าจะลดต้นทุนได้ เดโมนี้ก็ประมาณ 6 เซนต์ ไม่ได้แพงบ้าคลั่ง และถ้าเขียนพรอมป์ต์ให้ฉลาดขึ้นก็น่าจะดีขึ้นได้
เครื่องมือแบบนี้จะส่งผลอย่างไรต่อการติดตามบนเว็บหรือโฆษณาอินเทอร์เน็ตโดยรวม? ถ้าเอเจนต์สามารถท่องเว็บแทนเรา ไม่ต้องเห็นโฆษณาหรือป๊อปอัป เลี่ยงการติดตาม และดึงมาเฉพาะสิ่งที่ต้องการหาได้อย่างแม่นยำ ก็อาจกลายเป็น ตัวบล็อกโฆษณา ที่ยอดเยี่ยมได้
บางทีอาจทำให้ SEO ไร้ประโยชน์และยกระดับคุณภาพของอินเทอร์เน็ตได้ด้วย ในทางกลับกันก็สงสัยว่าอาจเกิดผลข้างเคียงที่โฆษณา “ปะปน” เข้าไปในคอนเทนต์ที่ถูกดึงมาไม่ทางใดก็ทางหนึ่งหรือไม่
- ถ้าเป็นวิธีส่งสกรีนช็อตของหน้าเว็บไปให้ GPT แบบนี้ ก็เท่ากับว่า เห็นโฆษณาไปด้วย ไม่ใช่หรือ?
บริษัทจำนวนมากในเนเธอร์แลนด์จ่ายเงินเดือนกันแบบนี้: 1) รับสลิปเงินเดือนจากนักบัญชี, 2) เริ่มโอนเงินผ่านธนาคารให้พนักงานแต่ละคนด้วยตนเองตามยอดในสลิปนั้น, และ 3) เริ่มโอนเงินผ่านธนาคารด้วยตนเองเพื่อส่งภาษีเงินเดือนที่หัก ณ ที่จ่ายไปยังหน่วยงานภาษี
เป็นงานทำมือที่ไร้ประโยชน์โดยสิ้นเชิง และไม่มีเหตุผลที่ต้องเป็นขั้นตอนแบบแมนนวล แต่แทบจะทำให้เป็นอัตโนมัติไม่ได้เลย พอร์ทัลบัญชีไม่มี API หรือถ้ามีก็ให้ดาวน์โหลดข้อมูลเป็น PDF หรือคิดค่าใช้ API ค่อนข้างแพง ธนาคารก็ไม่มี API หรือทั้งที่แค่ต้องการทำให้ขั้นตอนภายในเป็นอัตโนมัติ กลับบังคับให้สมัครบัญชีนักพัฒนาเหมือนจะออกแอปสาธารณะ ดังนั้นวิธีที่ง่ายที่สุดในการจ่ายเงินเดือนและภาษียังเป็นการจ้างคนมาทำด้วยมืออยู่ดี ผมคงยังไม่ไว้ใจให้ AI เริ่มโอนเงินผ่านธนาคารจริง ๆ แต่บางทีอาจให้มันเตรียมรายการธุรกรรมไว้ แล้วให้คนอนุมัติส่งรายการเท่านั้นได้
- เรื่องนี้ดูไม่ค่อยเกี่ยวกับ AI เท่าไร ในสหราชอาณาจักรมีโซลูชันอย่าง Pento อยู่แล้ว และใช้ open banking ทำให้การจ่ายเงินให้ผู้ใช้กับหน่วยงานภาษีเป็นอัตโนมัติ รวมถึงส่งแบบภาษีอัตโนมัติด้วย: https://www.pento.io/la/payroll-software
- นั่นเป็นแค่ ปัญหาของธนาคาร เงินเดือนของบริษัทใหญ่ ๆ ไม่ได้เดินแบบนั้น ธนาคารมักอนุญาตให้อัปโหลดไฟล์ XML ที่กำหนดชุดการจ่ายเงินแบบ SWIFT และบริษัทเล็ก ๆ ก็จ่ายเงินเดือนแบบนั้นได้ นักบัญชีก็มีไฟล์ XML ให้ด้วย ซึ่งน่าจะมีแอปสำหรับสร้างไฟล์อยู่
- ในประเทศของเราก็คล้ายกัน โดยข้อมูลบางส่วนต้องอัปโหลดไปยังเว็บไซต์ของหน่วยงานรัฐ จำได้ว่าเมื่อต้นปีนี้มีประกาศว่าคนที่ใช้ซอฟต์แวร์ทำงานบนเว็บไซต์อาจ ถูกบล็อกได้
- การทำงาน GUI ซ้ำ ๆ ให้เป็นอัตโนมัติคือเป้าหมายของ https://github.com/OpenAdaptAI/OpenAdapt
คล้ายกับคอนเซ็ปต์ของ Adept มากหรือเปล่า? เพียงแต่ดูเหมือนผลิตภัณฑ์ยังไม่พร้อม: https://www.adept.ai/
- ค่อนข้างบ้าเหมือนกันที่สิ่งซึ่ง Adept ได้รับเงินลงทุนมากกว่า 300 ล้านดอลลาร์และมีข่าวว่าพัฒนามาหลายปี ตอนนี้สามารถสร้างได้ภายในวันเดียวด้วย OpenAI API
  ถึงแม้ดูเหมือน Adept จะเปลี่ยนทิศทางไประหว่างทาง แต่คอนเซ็ปต์เดิมก็คล้ายกับสิ่งนี้มาก
- https://www.adept.ai/blog/experiments :)
- ใช่ ได้แรงบันดาลใจจาก Adept และสตาร์ทอัปอื่น ๆ อีกสองสามแห่ง
- นี่แหละคือเดโมที่ผมนึกถึงพอดี

การท่องเว็บด้วย GPT-4 Vision และ Vimium

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นบน Hacker News