เปิดตัวโมเดล Gemini 2.5 Computer Use - AI สำหรับเอเจนต์ที่ควบคุม UI ได้โดยตรง

(blog.google)

4 คะแนน โดย GN⁺ 2025-10-08 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

Google เปิดตัว โมเดล Computer Use ที่ใช้ Gemini 2.5 Pro เป็นพื้นฐาน เพื่อช่วยให้นักพัฒนาสร้าง เอเจนต์ที่ควบคุมส่วนติดต่อผู้ใช้ได้โดยตรง
บนเบนช์มาร์กการควบคุมเว็บและมือถือ โมเดลนี้แสดง ประสิทธิภาพที่เร็วและแม่นยำกว่ารุ่นคู่แข่ง และพร้อมใช้งานแบบพรีวิวบน Google AI Studio และ Vertex AI
โมเดลรับ ภาพหน้าจอ คำขอของผู้ใช้ และประวัติการกระทำ เป็นอินพุต แล้ว สร้างคำสั่งควบคุม UI เช่น คลิก พิมพ์ และเลื่อนโดยอัตโนมัติ
เพื่อความปลอดภัย มี Per-step Safety Service และ ขั้นตอนยืนยันจากผู้ใช้ เพื่อป้องกันการใช้งานผิดวัตถุประสงค์และภัยคุกคามด้านความปลอดภัย
ถูกนำไปใช้แล้วใน Project Mariner, Firebase Testing Agent, AI Mode in Search เป็นต้น และพิสูจน์แล้วว่าช่วยยกระดับระบบอัตโนมัติและเพิ่มประสิทธิภาพการทดสอบในงานจริง

ภาพรวม

Google DeepMind เปิดตัว โมเดล Gemini 2.5 Computer Use
- เป็นโมเดลสำหรับเอเจนต์ที่สามารถควบคุม UI ของเว็บและมือถือได้โดยตรง โดยอาศัย ความสามารถด้านการเข้าใจภาพและการให้เหตุผล ของ Gemini 2.5 Pro
- ก้าวไปไกลกว่าระบบอัตโนมัติแบบ API เดิม ด้วยการทำ ปฏิสัมพันธ์กับอินเทอร์เฟซแบบกราฟิก เช่น กรอกฟอร์ม เลื่อนหน้าจอ และจัดการการล็อกอิน
- ให้บริการในรูปแบบพรีวิวผ่าน Google AI Studio และ Vertex AI

วิธีการทำงาน

ทำงานผ่านเครื่องมือ computer_use ใหม่ใน โครงสร้างลูปแบบวนซ้ำ
- อินพุต: คำขอของผู้ใช้, ภาพหน้าจอของ UI ปัจจุบัน, ประวัติการกระทำล่าสุด
- เอาต์พุต: การเรียกใช้ฟังก์ชันแอ็กชัน UI เช่น คลิก พิมพ์ และลาก
- งานที่มีความเสี่ยงสูงบางประเภท (เช่น การชำระเงิน) ต้องมีขั้นตอนยืนยันจากผู้ใช้
หลังจากแต่ละแอ็กชัน ภาพหน้าจอใหม่และ URL จะถูกส่งกลับเข้าโมเดลอีกครั้งเพื่อดำเนินขั้นตอนถัดไป
แม้จะ ปรับให้เหมาะกับสภาพแวดล้อมเว็บเบราว์เซอร์เป็นหลัก แต่ก็ยังแสดงประสิทธิภาพสูงในการควบคุม UI บนมือถือ

ประสิทธิภาพ

ในการประเมินของ Browserbase และ Google เอง โมเดลทำสถิติด้านความแม่นยำและค่าหน่วงเวลาในระดับแนวหน้าของอุตสาหกรรม
- บนเบนช์มาร์กอย่าง Online-Mind2Web แสดง การตอบสนองที่เร็วขึ้นมากกว่า 50% เมื่อเทียบกับโมเดลคู่แข่ง
- ความแม่นยำในการทำความเข้าใจบริบทบนหน้าจอที่ซับซ้อนก็ดีขึ้น โดยมีรายงานว่า ประสิทธิภาพเพิ่มขึ้น 18%
ยังมีความสามารถในการกู้คืนอัตโนมัติเมื่อเกิดความล้มเหลวระหว่างงานควบคุม UI ซึ่งมีประโยชน์ต่อการทดสอบอัตโนมัติ

การออกแบบด้านความปลอดภัย

มี ฟังก์ชันความปลอดภัยในตัว เพื่อป้องกันการใช้งานเอเจนต์ผิดวัตถุประสงค์
- Per-step Safety Service: ตรวจสอบแอ็กชันที่โมเดลเสนอ ก่อนนำไปปฏิบัติจริง
- System Instructions: สามารถกำหนดกฎให้ ยืนยันกับผู้ใช้หรือปฏิเสธ สำหรับงานบางประเภท (เช่น ความปลอดภัย การแพทย์ หรือ CAPTCHA)
ในคู่มือสำหรับนักพัฒนา ยังมี คำแนะนำด้านความปลอดภัยเพิ่มเติม และแนะนำให้ทดสอบอย่างเข้มงวดก่อนนำไปใช้ในบริการจริง

กรณีการใช้งานช่วงแรก

ทีมภายในของ Google นำไปใช้กับ การทดสอบ UI แบบอัตโนมัติ และลดอัตราความล้มเหลวลงได้ 25%
ใช้งานอยู่แล้วในสภาพแวดล้อมโปรดักชันจริง เช่น Project Mariner, Firebase Testing Agent, AI Mode in Search
การประเมินจากผู้ใช้ภายนอกช่วงแรกยังรายงานผลเรื่อง ความน่าเชื่อถือของการแยกวิเคราะห์ข้อมูลที่ดีขึ้นและความเร็วในการทำงานที่เพิ่มขึ้น
- ตัวอย่าง: Autotab ปรับปรุงความแม่นยำในการจัดการบริบทที่ซับซ้อนได้ 18%
- แพลตฟอร์มการชำระเงินของ Google กู้คืนการทดสอบที่ล้มเหลวโดยอัตโนมัติได้ 60%

เริ่มต้นใช้งาน

โมเดลเปิดให้ใช้งานแบบ public preview แล้ว และเข้าถึงได้ผ่านช่องทางต่อไปนี้
- Google AI Studio
- Vertex AI
- ทดสอบแบบเรียลไทม์ได้ใน สภาพแวดล้อมเดโมของ Browserbase
นักพัฒนาสามารถดู GitHub reference และเอกสาร เพื่อ ประกอบ agent loop บน Playwright หรือสภาพแวดล้อมคลาวด์ VM ได้
ขณะนี้เปิดรับฟีดแบ็กผ่าน Developer Forum

2 ความคิดเห็น

GN⁺ 2025-10-08

ความคิดเห็นใน Hacker News

เมื่อก่อนตอนผมรออยู่บนถนนสองเลนที่มีไฟจราจร ผมเคยคิดว่าถ้าถนนสายหลักไม่มีรถ ก็น่าจะใช้ระบบกล้องคอมพิวเตอร์วิทัศน์เปลี่ยนสัญญาณไฟให้เร็วขึ้นได้
แต่ในตอนนั้นคอมพิวเตอร์วิทัศน์ยังไม่สุกงอมพอ และผมก็ได้รู้ว่าเราสามารถใช้เซ็นเซอร์แม่เหล็กตรวจจับรถได้แทน
มันเป็นปัญหาที่แก้ได้ง่ายกว่ามากด้วยฮาร์ดแวร์และซอฟต์แวร์ที่เรียบง่ายกว่า และวิธีที่ผมคิดไว้นั้นซับซ้อนและแพงเกินไป
ตอนใช้คอมพิวเตอร์ ผมก็เคยเชื่อว่า ML/AI ควรถูกทำให้เหมาะกับข้อมูลที่มีโครงสร้าง
แต่โลกมันซับซ้อนขึ้นและคอมพิวเตอร์ก็เร็วขึ้น จนตอนนี้การให้ AI มองหน้าจอ ขยับเมาส์ และคลิก กลายเป็นสถานการณ์ที่สมจริงมากกว่าแล้ว
- ตอนนี้กล้องคอมพิวเตอร์วิทัศน์ถูกใช้งานกันอย่างแพร่หลายแล้ว
  เซ็นเซอร์แม่เหล็กตรวจจับผู้ใช้จักรยานได้ไม่ดี จึงทำให้ทุกวันนี้กล้องเป็นตัวเลือกที่นิยมมากกว่า
  ในมุมของเจ้าหน้าที่จราจรของเมือง กล้องยังสามารถใช้เป็นเครื่องมือติดตามความหนาแน่นของการจราจรได้ด้วย จึงยิ่งได้รับความนิยมมากขึ้น
- แถวบ้านผมมีการติดตั้งระบบที่เอาเซ็นเซอร์แสงแบบง่ายๆ ไปไว้ที่ไฟจราจรตอนกลางคืน ถ้าคุณเปิดไฟสูงขณะเข้าใกล้ ไฟก็จะเปลี่ยน
  ไม่อย่างนั้นไฟเขียวจะค้างอยู่ที่ถนนสายหลักตลอดทั้งคืน
  พอรถมาถึงทางแยก สัญญาณจะเปลี่ยนก็ต่อเมื่อมีสัญญาณไฟสูงหรือฟลักซ์แม่เหล็กเท่านั้น
- ผมปั่นจักรยานบ่อยมาก และตอนอยู่กลางแจ้ง ฟีเจอร์ที่ผมฟังพอดแคสต์แล้วพูดว่า "Hey Google, ย้อนกลับไป 30 วินาที" เพื่อฟังซ้ำหรือข้ามโฆษณานั้นมีประโยชน์มาก
  ตอนอยู่ในบ้าน ผมมักจะแคสต์รายการทีวีหรือวิดีโอ YouTube มาดู
  บางครั้งผมอยากเปลี่ยนวิดีโอ YouTube แต่คำสั่งเสียงกับ YouTube ใช้งานได้แบบพอถูไถและผลลัพธ์ก็ไม่ค่อยดี
  บริการอื่นแทบใช้คำสั่งเสียงไม่ได้เลย
  ในโลกอุดมคติ ผมอยากให้ Google มี API ที่ยอดเยี่ยมสำหรับการเชื่อมรวมแบบนี้ และทุกแอปก็รองรับมันได้ดี
  ถ้าข้ามขั้นตอนนั้นไปได้แล้วยังให้ผลลัพธ์ที่ยอดเยี่ยม ก็ถือว่าเป็นประสบการณ์ที่มีคุณค่ามากสำหรับผม
  อาจเป็นแค่กรณีใช้งานเฉพาะของผมเอง แต่เป็นส่วนที่น่าตื่นเต้นมากจริงๆ
- การใช้งานคอมพิวเตอร์คือเบนช์มาร์กที่สำคัญที่สุดในการคาดการณ์ว่า AI จะส่งผลต่อตลาดแรงงานอย่างไร
  มีวิธีที่ดีกว่ามากมายในการทำให้ ML/AI ทำงานหลากหลายบนคอมพิวเตอร์ได้อย่างมีประสิทธิภาพ
  แต่ทุกวิธีเหล่านั้นต้องออกแบบแยกให้เหมาะกับงานแต่ละอย่าง
  แนวทางที่ทำให้เป็นแบบทั่วไปได้นี่แหละคือทิศทางที่ขยายต่อได้มากกว่า
- อ้างอิงไว้หน่อยว่ากล้องจราจรประเภทนี้ถูกใช้งานทั่วไปอยู่แล้ว
  https://www.milesight.com/company/blog/types-of-traffic-cameras
ผมใช้เวลานานมากไปกับการพยายามทำงานซ้ำๆ ด้วยมือให้เป็นอัตโนมัติ โดยยึดแนวคิดว่า "ทำทุกอย่างในโลกให้เป็นอ็อบเจ็กต์ในฐานข้อมูล"
ผมมองว่าคอมพิวเตอร์สามารถทำสิ่งต่างๆ ได้มากมายด้วยการแทรกแซงจากมนุษย์ให้น้อยที่สุด
ผมก็ทุ่มเทกับแมชชีนเลิร์นนิงไปมากเช่นกัน
แต่ที่จริงแล้วผมไม่เคยนึกถึงแนวคิดที่ว่าคอมพิวเตอร์สามารถใช้ข้อมูลโลกของมนุษย์ที่มีโครงสร้างกึ่งสำเร็จรูปอย่าง screen buffer ได้โดยตรง แล้วทำงานผ่านเมาส์กับคีย์บอร์ดเหมือนมนุษย์
แน่นอนว่าผมสนับสนุนไอเดียนี้อย่างเต็มที่
ผมคิดว่าภายใน 10 ปี เราอาจได้เห็นยุคที่คอมพิวเตอร์เปิด Chrome เอง คุยในวิดีโอคอล และทำงานต่างๆ โดยที่อีกฝ่ายไม่ทันรู้เลยว่าคู่สนทนาเป็นคอมพิวเตอร์
- เหตุผลที่ AI ประสบความสำเร็จมากกว่าแนวทางที่ 'ดีกว่าในทางทฤษฎี' เป็นเพราะมันแก้ปัญหา 'ทางสังคม' ที่เป็นรากฐาน
  ระบบนิเวศของคอมพิวติ้งเป็นสภาพแวดล้อมที่แข่งขันและตั้งรับ มากกว่าจะร่วมมือกัน
  โครงสร้างที่ออกแบบมาไม่ให้ทำงานน่าเบื่อด้วยมือส่วนใหญ่เป็นอัตโนมัติได้ คือหัวใจของการทำเงินบนอินเทอร์เน็ต
  เพราะถ้าผู้ใช้เลี่ยงการชักจูงให้ซื้อหรือเลี่ยงการเห็นโฆษณาด้วยระบบอัตโนมัติได้ รายได้ก็จะลดลง
- ในวงการหุ่นยนต์ก็เคยมีข้อถกเถียงคล้ายกัน
  มีคนสงสัยว่า "ทำไมต้องทำหุ่นยนต์ให้มีรูปร่างเหมือนมนุษย์ ในเมื่ออาจมีรูปทรงที่มีประสิทธิภาพกว่านี้"
  แต่ท้ายที่สุด ถ้าจะให้เครื่องมือถูกยอมรับในวงกว้าง มันก็ต้องถูกออกแบบให้เข้ากับสภาพแวดล้อมที่ยึดมนุษย์เป็นศูนย์กลาง แม้จะไม่มีประสิทธิภาพที่สุดก็ตาม
  แอปพลิเคชันที่เน้นประสิทธิภาพจำเป็นต้องมีการออกแบบเฉพาะและปรับจูนให้เหมาะสม แต่ถ้าจะให้แพร่หลายสู่มวลชน ก็ต้องใช้วิธีที่ปรับให้เข้ากับมนุษย์
- เมื่อเช้าผมนึกถึงแอปหาคู่ แล้วก็นึกถึงประเด็นสุดท้ายนี้ขึ้นมา
  ถ้า "chatgpt ของผม" สามารถเป็นตัวแทนผมได้ดีพอ ผมคิดว่ามันน่าจะจับคู่กันได้ด้วยการให้ chatgpt ของอีกฝ่ายมาคุยกันล่วงหน้าเหมือนนัดพบก่อนเดตในแอปหาคู่
  ผมเพิ่งได้ยินคำว่า "digital twin" ในคีย์โน้ตฝั่งองค์กรไม่นานนี้ และมันก็ดูเหมือนจะเข้ากับแนวคิดนี้
  ยังเร็วเกินไปที่จะตัดสินเรื่องนี้ แต่ผมก็อยากรู้ว่ามันจะไปได้ไกลแค่ไหน
- ผมสงสัยจริงๆ ว่าการที่คอมพิวเตอร์เปิด Chrome เอง คุยวิดีโอคอล และทำงานต่างๆ เหมือนคนจนอีกฝ่ายไม่รู้ว่าเป็นคอมพิวเตอร์นั้น ถือเป็นผลลัพธ์ที่ดีจริงหรือเปล่า
  ในเชิงเทคนิคมันเป็นความสำเร็จที่ยิ่งใหญ่และน่าประทับใจมาก แต่ก็ให้ความรู้สึกแปลกๆ อยู่เหมือนกัน
ผมลองทำ browser automation จาก Gemini CLI ด้วย Chrome devtools MCP(https://github.com/ChromeDevTools/chrome-devtools-mcp) ได้สำเร็จ
ดังนั้นผมเลยคิดว่าโมเดลนี้น่าจะทำผลงานได้ดีกว่าอีก
- อยากรู้ว่าคุณใช้ MCP ทำงานอัตโนมัติแบบไหนได้สำเร็จบ้าง
- วิธีนี้ไม่เกี่ยวอะไรกับโมเดลที่จำเป็นสำหรับการใช้งานคอมพิวเตอร์เลย
  มันแค่ใช้เครื่องมือที่ Google นิยามไว้ล่วงหน้าบน MCP server เท่านั้น ไม่ใช่โมเดลอเนกประสงค์ที่ใช้ได้กับซอฟต์แวร์ทุกชนิด
ถ้าใครมีกรณีใช้งานจริงที่เร็วกว่าหรือชัดเจนกว่าเรื่อง UX ช่วยบอกที
ผมยังนึกภาพไม่ค่อยออกว่าจะเอาสิ่งนี้ไปใช้อย่างไร
พอเห็นว่ามีการลงทุนกันมากขนาดนี้ ก็รู้สึกว่าต้องมีอะไรบางอย่างที่ผมยังไม่เข้าใจแน่ๆ
ตัวเทคโนโลยีและความสามารถมันน่าประทับใจ แต่ผมอยากเห็นตัวอย่างการใช้งานที่เป็นรูปธรรม
ถ้าสั่งให้บอตเบราว์เซอร์ไปเล่น Wordle ของวันนี้ มันจะเกิดสถานการณ์ที่ตอบไม่ได้ เพราะมองไม่เห็นฟีดแบ็กสีของตัวอักษร (เขียว เหลือง เทา)
มันพิมพ์คำได้ แต่ตีความฟีดแบ็กไม่ออก
- สงสัยว่ามันท่องเว็บอยู่บนหน้าจอขาวดำหรือเปล่า
Gemini ผ่าน captcha จาก https://www.google.com/recaptcha/api2/demo ได้สำเร็จ
- แก้ไขโพสต์: จริงๆ แล้วผมดูผิด การแก้ Google CAPTCHA ไม่ได้เกิดจาก Gemini แต่เกิดจาก Browserbase
  รายละเอียดอยู่ ที่นี่
- ระบบอัตโนมัติทำงานอยู่บน Browserbase และ Browserbase มีตัวแก้ captcha ติดมาด้วย
  ยังไม่แน่ใจว่าเป็นอัตโนมัติหรือใช้มนุษย์ช่วย
- เป็นไปได้ว่าอาจผ่านได้เพราะลองจาก IP ในเครือข่ายของ Google เอง
(ผมลองแค่เดโมของ Browserbase)
การรู้ว่ามันเป็นไปได้ในทางทฤษฎีกับการได้เห็นมันล็อกอินเข้าเว็บจริง เลื่อนหน้าจอ และโพสต์ข้อความจากคำสั่งสั้นๆ ด้วยตาตัวเอง เป็นคนละประสบการณ์กันเลย
วันนี้ผมก็พลาดแบบเดียวกันใน Wordle ตอนเดาครั้งที่สอง เลยจบเสมอ
น่าเสียดายนิดหน่อยที่คุยโต้ตอบระหว่างงานไม่ได้
ฟีเจอร์แบบนี้จำเป็นต้องมีอะไรอย่าง hook/callback สำหรับ governance ในระบบองค์กร
บนระบบที่อิง UI การจัดการ hook/agent event ทำได้ยากกว่ามาก
ลิงก์ที่เกี่ยวข้องคือ เอกสาร hook ของ claude code, เอกสาร callback ของ google adk
- ผมรู้ดีว่า Claude Code เพิกเฉยต่อ hook บ่อยแค่ไหน แล้วก็จบการคำนวณไปเองโดยไม่ใช้ผลลัพธ์ ทำให้ผมมองว่าแนวคิดเรื่อง 'governance' แทบเป็นไปไม่ได้
  LLM คาดเดาไม่ได้มากกว่าที่คนส่วนใหญ่คิด และควบคุมได้ยากกว่ามาก
  ผมเคยเห็นมันเดินหน้าต่อทั้งที่มีข้อความชัดเจนจากการทดสอบว่่า "ห้ามดำเนินการต่อ"
  สุดท้าย สิ่งเดียวที่หยุดมันได้แน่ๆ ก็คือ hook เชิงทฤษฎีแบบ 'claude-killing' ที่ตัดการทำงานจริงๆ เท่านั้น
- ผมดูแลผลิตภัณฑ์ด้าน identity ที่ Browserbase
  ช่วงนี้กำลังคิดเรื่องวิธีนำ RBAC (role-based access control) ไปใช้กับทั้งเว็บ
  เลยสงสัยว่า callback จะช่วยกับแนวทางนี้ได้ไหม
พอเห็นคำว่า "การควบคุมระดับ OS ยังไม่ได้รับการปรับให้เหมาะสม" ก็ยิ่งรู้สึกว่า AGI ยังมาไม่ถึง
ถ้าทำการควบคุมระดับ OS ได้ถึงขั้นนี้ แล้วต้นทุนการใช้ LLM ก็เหมาะสม ผมคิดว่าเราอาจเริ่มเข้าใกล้อะไรบางอย่างที่ใกล้เคียง AGI ได้
- ที่น่าสนใจคือ คนส่วนใหญ่เองก็ใช้งานคอมพิวเตอร์ไม่ค่อยเป็นเหมือนกัน
  ยิ่งทำให้รู้สึกว่าคำจำกัดความของ 'สติปัญญา' นั้นแทบเป็นไปไม่ได้เลย
- อยากรู้ว่าทำไมคุณถึงคิดว่าการควบคุมทั้งระบบปฏิบัติการจะเป็นจุดเปลี่ยนไปสู่ AGI (ปัญญาประดิษฐ์ทั่วไป)
ที่น่าขันคือบริษัทเทคส่วนใหญ่ทำเงินจากการบังคับให้ผู้ใช้ต้องผ่านข้อมูลที่ไม่จำเป็น
ตัวอย่างเช่น ถ้าเราท่องอินเทอร์เน็ตได้อย่างอิสระโดยไม่มีโฆษณา หรือถ้าบน Twitter เราดูได้เฉพาะคอนเทนต์ที่อยากดูโดยไม่มีอัลกอริทึมไร้ประโยชน์คั่นอยู่ ใครบ้างจะไม่ใช้

2025-10-09

[ความคิดเห็นนี้ถูกซ่อน]

เปิดตัวโมเดล Gemini 2.5 Computer Use - AI สำหรับเอเจนต์ที่ควบคุม UI ได้โดยตรง

ภาพรวม

วิธีการทำงาน

ประสิทธิภาพ

การออกแบบด้านความปลอดภัย

กรณีการใช้งานช่วงแรก

เริ่มต้นใช้งาน

บทความที่เกี่ยวข้อง

2 ความคิดเห็น

ความคิดเห็นใน Hacker News