- Google เปิดตัว โมเดล Computer Use ที่ใช้ Gemini 2.5 Pro เป็นพื้นฐาน เพื่อช่วยให้นักพัฒนาสร้าง เอเจนต์ที่ควบคุมส่วนติดต่อผู้ใช้ได้โดยตรง
- บนเบนช์มาร์กการควบคุมเว็บและมือถือ โมเดลนี้แสดง ประสิทธิภาพที่เร็วและแม่นยำกว่ารุ่นคู่แข่ง และพร้อมใช้งานแบบพรีวิวบน Google AI Studio และ Vertex AI
- โมเดลรับ ภาพหน้าจอ คำขอของผู้ใช้ และประวัติการกระทำ เป็นอินพุต แล้ว สร้างคำสั่งควบคุม UI เช่น คลิก พิมพ์ และเลื่อนโดยอัตโนมัติ
- เพื่อความปลอดภัย มี Per-step Safety Service และ ขั้นตอนยืนยันจากผู้ใช้ เพื่อป้องกันการใช้งานผิดวัตถุประสงค์และภัยคุกคามด้านความปลอดภัย
- ถูกนำไปใช้แล้วใน Project Mariner, Firebase Testing Agent, AI Mode in Search เป็นต้น และพิสูจน์แล้วว่าช่วยยกระดับระบบอัตโนมัติและเพิ่มประสิทธิภาพการทดสอบในงานจริง
ภาพรวม
- Google DeepMind เปิดตัว โมเดล Gemini 2.5 Computer Use
- เป็นโมเดลสำหรับเอเจนต์ที่สามารถควบคุม UI ของเว็บและมือถือได้โดยตรง โดยอาศัย ความสามารถด้านการเข้าใจภาพและการให้เหตุผล ของ Gemini 2.5 Pro
- ก้าวไปไกลกว่าระบบอัตโนมัติแบบ API เดิม ด้วยการทำ ปฏิสัมพันธ์กับอินเทอร์เฟซแบบกราฟิก เช่น กรอกฟอร์ม เลื่อนหน้าจอ และจัดการการล็อกอิน
- ให้บริการในรูปแบบพรีวิวผ่าน Google AI Studio และ Vertex AI
วิธีการทำงาน
- ทำงานผ่านเครื่องมือ
computer_use ใหม่ใน โครงสร้างลูปแบบวนซ้ำ
- อินพุต: คำขอของผู้ใช้, ภาพหน้าจอของ UI ปัจจุบัน, ประวัติการกระทำล่าสุด
- เอาต์พุต: การเรียกใช้ฟังก์ชันแอ็กชัน UI เช่น คลิก พิมพ์ และลาก
- งานที่มีความเสี่ยงสูงบางประเภท (เช่น การชำระเงิน) ต้องมีขั้นตอนยืนยันจากผู้ใช้
- หลังจากแต่ละแอ็กชัน ภาพหน้าจอใหม่และ URL จะถูกส่งกลับเข้าโมเดลอีกครั้งเพื่อดำเนินขั้นตอนถัดไป
- แม้จะ ปรับให้เหมาะกับสภาพแวดล้อมเว็บเบราว์เซอร์เป็นหลัก แต่ก็ยังแสดงประสิทธิภาพสูงในการควบคุม UI บนมือถือ
ประสิทธิภาพ
- ในการประเมินของ Browserbase และ Google เอง โมเดลทำสถิติด้านความแม่นยำและค่าหน่วงเวลาในระดับแนวหน้าของอุตสาหกรรม
- บนเบนช์มาร์กอย่าง Online-Mind2Web แสดง การตอบสนองที่เร็วขึ้นมากกว่า 50% เมื่อเทียบกับโมเดลคู่แข่ง
- ความแม่นยำในการทำความเข้าใจบริบทบนหน้าจอที่ซับซ้อนก็ดีขึ้น โดยมีรายงานว่า ประสิทธิภาพเพิ่มขึ้น 18%
- ยังมีความสามารถในการกู้คืนอัตโนมัติเมื่อเกิดความล้มเหลวระหว่างงานควบคุม UI ซึ่งมีประโยชน์ต่อการทดสอบอัตโนมัติ
การออกแบบด้านความปลอดภัย
- มี ฟังก์ชันความปลอดภัยในตัว เพื่อป้องกันการใช้งานเอเจนต์ผิดวัตถุประสงค์
- Per-step Safety Service: ตรวจสอบแอ็กชันที่โมเดลเสนอ ก่อนนำไปปฏิบัติจริง
- System Instructions: สามารถกำหนดกฎให้ ยืนยันกับผู้ใช้หรือปฏิเสธ สำหรับงานบางประเภท (เช่น ความปลอดภัย การแพทย์ หรือ CAPTCHA)
- ในคู่มือสำหรับนักพัฒนา ยังมี คำแนะนำด้านความปลอดภัยเพิ่มเติม และแนะนำให้ทดสอบอย่างเข้มงวดก่อนนำไปใช้ในบริการจริง
กรณีการใช้งานช่วงแรก
- ทีมภายในของ Google นำไปใช้กับ การทดสอบ UI แบบอัตโนมัติ และลดอัตราความล้มเหลวลงได้ 25%
- ใช้งานอยู่แล้วในสภาพแวดล้อมโปรดักชันจริง เช่น Project Mariner, Firebase Testing Agent, AI Mode in Search
- การประเมินจากผู้ใช้ภายนอกช่วงแรกยังรายงานผลเรื่อง ความน่าเชื่อถือของการแยกวิเคราะห์ข้อมูลที่ดีขึ้นและความเร็วในการทำงานที่เพิ่มขึ้น
- ตัวอย่าง: Autotab ปรับปรุงความแม่นยำในการจัดการบริบทที่ซับซ้อนได้ 18%
- แพลตฟอร์มการชำระเงินของ Google กู้คืนการทดสอบที่ล้มเหลวโดยอัตโนมัติได้ 60%
เริ่มต้นใช้งาน
- โมเดลเปิดให้ใช้งานแบบ public preview แล้ว และเข้าถึงได้ผ่านช่องทางต่อไปนี้
- นักพัฒนาสามารถดู GitHub reference และเอกสาร เพื่อ ประกอบ agent loop บน Playwright หรือสภาพแวดล้อมคลาวด์ VM ได้
- ขณะนี้เปิดรับฟีดแบ็กผ่าน Developer Forum
2 ความคิดเห็น
ความคิดเห็นใน Hacker News
เมื่อก่อนตอนผมรออยู่บนถนนสองเลนที่มีไฟจราจร ผมเคยคิดว่าถ้าถนนสายหลักไม่มีรถ ก็น่าจะใช้ระบบกล้องคอมพิวเตอร์วิทัศน์เปลี่ยนสัญญาณไฟให้เร็วขึ้นได้
แต่ในตอนนั้นคอมพิวเตอร์วิทัศน์ยังไม่สุกงอมพอ และผมก็ได้รู้ว่าเราสามารถใช้เซ็นเซอร์แม่เหล็กตรวจจับรถได้แทน
มันเป็นปัญหาที่แก้ได้ง่ายกว่ามากด้วยฮาร์ดแวร์และซอฟต์แวร์ที่เรียบง่ายกว่า และวิธีที่ผมคิดไว้นั้นซับซ้อนและแพงเกินไป
ตอนใช้คอมพิวเตอร์ ผมก็เคยเชื่อว่า ML/AI ควรถูกทำให้เหมาะกับข้อมูลที่มีโครงสร้าง
แต่โลกมันซับซ้อนขึ้นและคอมพิวเตอร์ก็เร็วขึ้น จนตอนนี้การให้ AI มองหน้าจอ ขยับเมาส์ และคลิก กลายเป็นสถานการณ์ที่สมจริงมากกว่าแล้ว
ตอนนี้กล้องคอมพิวเตอร์วิทัศน์ถูกใช้งานกันอย่างแพร่หลายแล้ว
เซ็นเซอร์แม่เหล็กตรวจจับผู้ใช้จักรยานได้ไม่ดี จึงทำให้ทุกวันนี้กล้องเป็นตัวเลือกที่นิยมมากกว่า
ในมุมของเจ้าหน้าที่จราจรของเมือง กล้องยังสามารถใช้เป็นเครื่องมือติดตามความหนาแน่นของการจราจรได้ด้วย จึงยิ่งได้รับความนิยมมากขึ้น
แถวบ้านผมมีการติดตั้งระบบที่เอาเซ็นเซอร์แสงแบบง่ายๆ ไปไว้ที่ไฟจราจรตอนกลางคืน ถ้าคุณเปิดไฟสูงขณะเข้าใกล้ ไฟก็จะเปลี่ยน
ไม่อย่างนั้นไฟเขียวจะค้างอยู่ที่ถนนสายหลักตลอดทั้งคืน
พอรถมาถึงทางแยก สัญญาณจะเปลี่ยนก็ต่อเมื่อมีสัญญาณไฟสูงหรือฟลักซ์แม่เหล็กเท่านั้น
ผมปั่นจักรยานบ่อยมาก และตอนอยู่กลางแจ้ง ฟีเจอร์ที่ผมฟังพอดแคสต์แล้วพูดว่า "Hey Google, ย้อนกลับไป 30 วินาที" เพื่อฟังซ้ำหรือข้ามโฆษณานั้นมีประโยชน์มาก
ตอนอยู่ในบ้าน ผมมักจะแคสต์รายการทีวีหรือวิดีโอ YouTube มาดู
บางครั้งผมอยากเปลี่ยนวิดีโอ YouTube แต่คำสั่งเสียงกับ YouTube ใช้งานได้แบบพอถูไถและผลลัพธ์ก็ไม่ค่อยดี
บริการอื่นแทบใช้คำสั่งเสียงไม่ได้เลย
ในโลกอุดมคติ ผมอยากให้ Google มี API ที่ยอดเยี่ยมสำหรับการเชื่อมรวมแบบนี้ และทุกแอปก็รองรับมันได้ดี
ถ้าข้ามขั้นตอนนั้นไปได้แล้วยังให้ผลลัพธ์ที่ยอดเยี่ยม ก็ถือว่าเป็นประสบการณ์ที่มีคุณค่ามากสำหรับผม
อาจเป็นแค่กรณีใช้งานเฉพาะของผมเอง แต่เป็นส่วนที่น่าตื่นเต้นมากจริงๆ
การใช้งานคอมพิวเตอร์คือเบนช์มาร์กที่สำคัญที่สุดในการคาดการณ์ว่า AI จะส่งผลต่อตลาดแรงงานอย่างไร
มีวิธีที่ดีกว่ามากมายในการทำให้ ML/AI ทำงานหลากหลายบนคอมพิวเตอร์ได้อย่างมีประสิทธิภาพ
แต่ทุกวิธีเหล่านั้นต้องออกแบบแยกให้เหมาะกับงานแต่ละอย่าง
แนวทางที่ทำให้เป็นแบบทั่วไปได้นี่แหละคือทิศทางที่ขยายต่อได้มากกว่า
อ้างอิงไว้หน่อยว่ากล้องจราจรประเภทนี้ถูกใช้งานทั่วไปอยู่แล้ว
https://www.milesight.com/company/blog/types-of-traffic-cameras
ผมใช้เวลานานมากไปกับการพยายามทำงานซ้ำๆ ด้วยมือให้เป็นอัตโนมัติ โดยยึดแนวคิดว่า "ทำทุกอย่างในโลกให้เป็นอ็อบเจ็กต์ในฐานข้อมูล"
ผมมองว่าคอมพิวเตอร์สามารถทำสิ่งต่างๆ ได้มากมายด้วยการแทรกแซงจากมนุษย์ให้น้อยที่สุด
ผมก็ทุ่มเทกับแมชชีนเลิร์นนิงไปมากเช่นกัน
แต่ที่จริงแล้วผมไม่เคยนึกถึงแนวคิดที่ว่าคอมพิวเตอร์สามารถใช้ข้อมูลโลกของมนุษย์ที่มีโครงสร้างกึ่งสำเร็จรูปอย่าง screen buffer ได้โดยตรง แล้วทำงานผ่านเมาส์กับคีย์บอร์ดเหมือนมนุษย์
แน่นอนว่าผมสนับสนุนไอเดียนี้อย่างเต็มที่
ผมคิดว่าภายใน 10 ปี เราอาจได้เห็นยุคที่คอมพิวเตอร์เปิด Chrome เอง คุยในวิดีโอคอล และทำงานต่างๆ โดยที่อีกฝ่ายไม่ทันรู้เลยว่าคู่สนทนาเป็นคอมพิวเตอร์
เหตุผลที่ AI ประสบความสำเร็จมากกว่าแนวทางที่ 'ดีกว่าในทางทฤษฎี' เป็นเพราะมันแก้ปัญหา 'ทางสังคม' ที่เป็นรากฐาน
ระบบนิเวศของคอมพิวติ้งเป็นสภาพแวดล้อมที่แข่งขันและตั้งรับ มากกว่าจะร่วมมือกัน
โครงสร้างที่ออกแบบมาไม่ให้ทำงานน่าเบื่อด้วยมือส่วนใหญ่เป็นอัตโนมัติได้ คือหัวใจของการทำเงินบนอินเทอร์เน็ต
เพราะถ้าผู้ใช้เลี่ยงการชักจูงให้ซื้อหรือเลี่ยงการเห็นโฆษณาด้วยระบบอัตโนมัติได้ รายได้ก็จะลดลง
ในวงการหุ่นยนต์ก็เคยมีข้อถกเถียงคล้ายกัน
มีคนสงสัยว่า "ทำไมต้องทำหุ่นยนต์ให้มีรูปร่างเหมือนมนุษย์ ในเมื่ออาจมีรูปทรงที่มีประสิทธิภาพกว่านี้"
แต่ท้ายที่สุด ถ้าจะให้เครื่องมือถูกยอมรับในวงกว้าง มันก็ต้องถูกออกแบบให้เข้ากับสภาพแวดล้อมที่ยึดมนุษย์เป็นศูนย์กลาง แม้จะไม่มีประสิทธิภาพที่สุดก็ตาม
แอปพลิเคชันที่เน้นประสิทธิภาพจำเป็นต้องมีการออกแบบเฉพาะและปรับจูนให้เหมาะสม แต่ถ้าจะให้แพร่หลายสู่มวลชน ก็ต้องใช้วิธีที่ปรับให้เข้ากับมนุษย์
เมื่อเช้าผมนึกถึงแอปหาคู่ แล้วก็นึกถึงประเด็นสุดท้ายนี้ขึ้นมา
ถ้า "chatgpt ของผม" สามารถเป็นตัวแทนผมได้ดีพอ ผมคิดว่ามันน่าจะจับคู่กันได้ด้วยการให้ chatgpt ของอีกฝ่ายมาคุยกันล่วงหน้าเหมือนนัดพบก่อนเดตในแอปหาคู่
ผมเพิ่งได้ยินคำว่า "digital twin" ในคีย์โน้ตฝั่งองค์กรไม่นานนี้ และมันก็ดูเหมือนจะเข้ากับแนวคิดนี้
ยังเร็วเกินไปที่จะตัดสินเรื่องนี้ แต่ผมก็อยากรู้ว่ามันจะไปได้ไกลแค่ไหน
ผมสงสัยจริงๆ ว่าการที่คอมพิวเตอร์เปิด Chrome เอง คุยวิดีโอคอล และทำงานต่างๆ เหมือนคนจนอีกฝ่ายไม่รู้ว่าเป็นคอมพิวเตอร์นั้น ถือเป็นผลลัพธ์ที่ดีจริงหรือเปล่า
ในเชิงเทคนิคมันเป็นความสำเร็จที่ยิ่งใหญ่และน่าประทับใจมาก แต่ก็ให้ความรู้สึกแปลกๆ อยู่เหมือนกัน
ผมลองทำ browser automation จาก Gemini CLI ด้วย Chrome devtools MCP(https://github.com/ChromeDevTools/chrome-devtools-mcp) ได้สำเร็จ
ดังนั้นผมเลยคิดว่าโมเดลนี้น่าจะทำผลงานได้ดีกว่าอีก
อยากรู้ว่าคุณใช้ MCP ทำงานอัตโนมัติแบบไหนได้สำเร็จบ้าง
วิธีนี้ไม่เกี่ยวอะไรกับโมเดลที่จำเป็นสำหรับการใช้งานคอมพิวเตอร์เลย
มันแค่ใช้เครื่องมือที่ Google นิยามไว้ล่วงหน้าบน MCP server เท่านั้น ไม่ใช่โมเดลอเนกประสงค์ที่ใช้ได้กับซอฟต์แวร์ทุกชนิด
ถ้าใครมีกรณีใช้งานจริงที่เร็วกว่าหรือชัดเจนกว่าเรื่อง UX ช่วยบอกที
ผมยังนึกภาพไม่ค่อยออกว่าจะเอาสิ่งนี้ไปใช้อย่างไร
พอเห็นว่ามีการลงทุนกันมากขนาดนี้ ก็รู้สึกว่าต้องมีอะไรบางอย่างที่ผมยังไม่เข้าใจแน่ๆ
ตัวเทคโนโลยีและความสามารถมันน่าประทับใจ แต่ผมอยากเห็นตัวอย่างการใช้งานที่เป็นรูปธรรม
ถ้าสั่งให้บอตเบราว์เซอร์ไปเล่น Wordle ของวันนี้ มันจะเกิดสถานการณ์ที่ตอบไม่ได้ เพราะมองไม่เห็นฟีดแบ็กสีของตัวอักษร (เขียว เหลือง เทา)
มันพิมพ์คำได้ แต่ตีความฟีดแบ็กไม่ออก
Gemini ผ่าน captcha จาก https://www.google.com/recaptcha/api2/demo ได้สำเร็จ
แก้ไขโพสต์: จริงๆ แล้วผมดูผิด การแก้ Google CAPTCHA ไม่ได้เกิดจาก Gemini แต่เกิดจาก Browserbase
รายละเอียดอยู่ ที่นี่
ระบบอัตโนมัติทำงานอยู่บน Browserbase และ Browserbase มีตัวแก้ captcha ติดมาด้วย
ยังไม่แน่ใจว่าเป็นอัตโนมัติหรือใช้มนุษย์ช่วย
เป็นไปได้ว่าอาจผ่านได้เพราะลองจาก IP ในเครือข่ายของ Google เอง
(ผมลองแค่เดโมของ Browserbase)
การรู้ว่ามันเป็นไปได้ในทางทฤษฎีกับการได้เห็นมันล็อกอินเข้าเว็บจริง เลื่อนหน้าจอ และโพสต์ข้อความจากคำสั่งสั้นๆ ด้วยตาตัวเอง เป็นคนละประสบการณ์กันเลย
วันนี้ผมก็พลาดแบบเดียวกันใน Wordle ตอนเดาครั้งที่สอง เลยจบเสมอ
น่าเสียดายนิดหน่อยที่คุยโต้ตอบระหว่างงานไม่ได้
ฟีเจอร์แบบนี้จำเป็นต้องมีอะไรอย่าง hook/callback สำหรับ governance ในระบบองค์กร
บนระบบที่อิง UI การจัดการ hook/agent event ทำได้ยากกว่ามาก
ลิงก์ที่เกี่ยวข้องคือ เอกสาร hook ของ claude code, เอกสาร callback ของ google adk
ผมรู้ดีว่า Claude Code เพิกเฉยต่อ hook บ่อยแค่ไหน แล้วก็จบการคำนวณไปเองโดยไม่ใช้ผลลัพธ์ ทำให้ผมมองว่าแนวคิดเรื่อง 'governance' แทบเป็นไปไม่ได้
LLM คาดเดาไม่ได้มากกว่าที่คนส่วนใหญ่คิด และควบคุมได้ยากกว่ามาก
ผมเคยเห็นมันเดินหน้าต่อทั้งที่มีข้อความชัดเจนจากการทดสอบว่่า "ห้ามดำเนินการต่อ"
สุดท้าย สิ่งเดียวที่หยุดมันได้แน่ๆ ก็คือ hook เชิงทฤษฎีแบบ 'claude-killing' ที่ตัดการทำงานจริงๆ เท่านั้น
ผมดูแลผลิตภัณฑ์ด้าน identity ที่ Browserbase
ช่วงนี้กำลังคิดเรื่องวิธีนำ RBAC (role-based access control) ไปใช้กับทั้งเว็บ
เลยสงสัยว่า callback จะช่วยกับแนวทางนี้ได้ไหม
พอเห็นคำว่า "การควบคุมระดับ OS ยังไม่ได้รับการปรับให้เหมาะสม" ก็ยิ่งรู้สึกว่า AGI ยังมาไม่ถึง
ถ้าทำการควบคุมระดับ OS ได้ถึงขั้นนี้ แล้วต้นทุนการใช้ LLM ก็เหมาะสม ผมคิดว่าเราอาจเริ่มเข้าใกล้อะไรบางอย่างที่ใกล้เคียง AGI ได้
ที่น่าสนใจคือ คนส่วนใหญ่เองก็ใช้งานคอมพิวเตอร์ไม่ค่อยเป็นเหมือนกัน
ยิ่งทำให้รู้สึกว่าคำจำกัดความของ 'สติปัญญา' นั้นแทบเป็นไปไม่ได้เลย
อยากรู้ว่าทำไมคุณถึงคิดว่าการควบคุมทั้งระบบปฏิบัติการจะเป็นจุดเปลี่ยนไปสู่ AGI (ปัญญาประดิษฐ์ทั่วไป)
ที่น่าขันคือบริษัทเทคส่วนใหญ่ทำเงินจากการบังคับให้ผู้ใช้ต้องผ่านข้อมูลที่ไม่จำเป็น
ตัวอย่างเช่น ถ้าเราท่องอินเทอร์เน็ตได้อย่างอิสระโดยไม่มีโฆษณา หรือถ้าบน Twitter เราดูได้เฉพาะคอนเทนต์ที่อยากดูโดยไม่มีอัลกอริทึมไร้ประโยชน์คั่นอยู่ ใครบ้างจะไม่ใช้