4 คะแนน โดย GN⁺ 2025-10-08 | 2 ความคิดเห็น | แชร์ทาง WhatsApp
  • Google เปิดตัว โมเดล Computer Use ที่ใช้ Gemini 2.5 Pro เป็นพื้นฐาน เพื่อช่วยให้นักพัฒนาสร้าง เอเจนต์ที่ควบคุมส่วนติดต่อผู้ใช้ได้โดยตรง
  • บนเบนช์มาร์กการควบคุมเว็บและมือถือ โมเดลนี้แสดง ประสิทธิภาพที่เร็วและแม่นยำกว่ารุ่นคู่แข่ง และพร้อมใช้งานแบบพรีวิวบน Google AI Studio และ Vertex AI
  • โมเดลรับ ภาพหน้าจอ คำขอของผู้ใช้ และประวัติการกระทำ เป็นอินพุต แล้ว สร้างคำสั่งควบคุม UI เช่น คลิก พิมพ์ และเลื่อนโดยอัตโนมัติ
  • เพื่อความปลอดภัย มี Per-step Safety Service และ ขั้นตอนยืนยันจากผู้ใช้ เพื่อป้องกันการใช้งานผิดวัตถุประสงค์และภัยคุกคามด้านความปลอดภัย
  • ถูกนำไปใช้แล้วใน Project Mariner, Firebase Testing Agent, AI Mode in Search เป็นต้น และพิสูจน์แล้วว่าช่วยยกระดับระบบอัตโนมัติและเพิ่มประสิทธิภาพการทดสอบในงานจริง

ภาพรวม

  • Google DeepMind เปิดตัว โมเดล Gemini 2.5 Computer Use
    • เป็นโมเดลสำหรับเอเจนต์ที่สามารถควบคุม UI ของเว็บและมือถือได้โดยตรง โดยอาศัย ความสามารถด้านการเข้าใจภาพและการให้เหตุผล ของ Gemini 2.5 Pro
    • ก้าวไปไกลกว่าระบบอัตโนมัติแบบ API เดิม ด้วยการทำ ปฏิสัมพันธ์กับอินเทอร์เฟซแบบกราฟิก เช่น กรอกฟอร์ม เลื่อนหน้าจอ และจัดการการล็อกอิน
    • ให้บริการในรูปแบบพรีวิวผ่าน Google AI Studio และ Vertex AI

วิธีการทำงาน

  • ทำงานผ่านเครื่องมือ computer_use ใหม่ใน โครงสร้างลูปแบบวนซ้ำ
    • อินพุต: คำขอของผู้ใช้, ภาพหน้าจอของ UI ปัจจุบัน, ประวัติการกระทำล่าสุด
    • เอาต์พุต: การเรียกใช้ฟังก์ชันแอ็กชัน UI เช่น คลิก พิมพ์ และลาก
    • งานที่มีความเสี่ยงสูงบางประเภท (เช่น การชำระเงิน) ต้องมีขั้นตอนยืนยันจากผู้ใช้
  • หลังจากแต่ละแอ็กชัน ภาพหน้าจอใหม่และ URL จะถูกส่งกลับเข้าโมเดลอีกครั้งเพื่อดำเนินขั้นตอนถัดไป
  • แม้จะ ปรับให้เหมาะกับสภาพแวดล้อมเว็บเบราว์เซอร์เป็นหลัก แต่ก็ยังแสดงประสิทธิภาพสูงในการควบคุม UI บนมือถือ

ประสิทธิภาพ

  • ในการประเมินของ Browserbase และ Google เอง โมเดลทำสถิติด้านความแม่นยำและค่าหน่วงเวลาในระดับแนวหน้าของอุตสาหกรรม
    • บนเบนช์มาร์กอย่าง Online-Mind2Web แสดง การตอบสนองที่เร็วขึ้นมากกว่า 50% เมื่อเทียบกับโมเดลคู่แข่ง
    • ความแม่นยำในการทำความเข้าใจบริบทบนหน้าจอที่ซับซ้อนก็ดีขึ้น โดยมีรายงานว่า ประสิทธิภาพเพิ่มขึ้น 18%
  • ยังมีความสามารถในการกู้คืนอัตโนมัติเมื่อเกิดความล้มเหลวระหว่างงานควบคุม UI ซึ่งมีประโยชน์ต่อการทดสอบอัตโนมัติ

การออกแบบด้านความปลอดภัย

  • มี ฟังก์ชันความปลอดภัยในตัว เพื่อป้องกันการใช้งานเอเจนต์ผิดวัตถุประสงค์
    • Per-step Safety Service: ตรวจสอบแอ็กชันที่โมเดลเสนอ ก่อนนำไปปฏิบัติจริง
    • System Instructions: สามารถกำหนดกฎให้ ยืนยันกับผู้ใช้หรือปฏิเสธ สำหรับงานบางประเภท (เช่น ความปลอดภัย การแพทย์ หรือ CAPTCHA)
  • ในคู่มือสำหรับนักพัฒนา ยังมี คำแนะนำด้านความปลอดภัยเพิ่มเติม และแนะนำให้ทดสอบอย่างเข้มงวดก่อนนำไปใช้ในบริการจริง

กรณีการใช้งานช่วงแรก

  • ทีมภายในของ Google นำไปใช้กับ การทดสอบ UI แบบอัตโนมัติ และลดอัตราความล้มเหลวลงได้ 25%
  • ใช้งานอยู่แล้วในสภาพแวดล้อมโปรดักชันจริง เช่น Project Mariner, Firebase Testing Agent, AI Mode in Search
  • การประเมินจากผู้ใช้ภายนอกช่วงแรกยังรายงานผลเรื่อง ความน่าเชื่อถือของการแยกวิเคราะห์ข้อมูลที่ดีขึ้นและความเร็วในการทำงานที่เพิ่มขึ้น
    • ตัวอย่าง: Autotab ปรับปรุงความแม่นยำในการจัดการบริบทที่ซับซ้อนได้ 18%
    • แพลตฟอร์มการชำระเงินของ Google กู้คืนการทดสอบที่ล้มเหลวโดยอัตโนมัติได้ 60%

เริ่มต้นใช้งาน

  • โมเดลเปิดให้ใช้งานแบบ public preview แล้ว และเข้าถึงได้ผ่านช่องทางต่อไปนี้
  • นักพัฒนาสามารถดู GitHub reference และเอกสาร เพื่อ ประกอบ agent loop บน Playwright หรือสภาพแวดล้อมคลาวด์ VM ได้
  • ขณะนี้เปิดรับฟีดแบ็กผ่าน Developer Forum

2 ความคิดเห็น

 
GN⁺ 2025-10-08
ความคิดเห็นใน Hacker News
  • เมื่อก่อนตอนผมรออยู่บนถนนสองเลนที่มีไฟจราจร ผมเคยคิดว่าถ้าถนนสายหลักไม่มีรถ ก็น่าจะใช้ระบบกล้องคอมพิวเตอร์วิทัศน์เปลี่ยนสัญญาณไฟให้เร็วขึ้นได้
    แต่ในตอนนั้นคอมพิวเตอร์วิทัศน์ยังไม่สุกงอมพอ และผมก็ได้รู้ว่าเราสามารถใช้เซ็นเซอร์แม่เหล็กตรวจจับรถได้แทน
    มันเป็นปัญหาที่แก้ได้ง่ายกว่ามากด้วยฮาร์ดแวร์และซอฟต์แวร์ที่เรียบง่ายกว่า และวิธีที่ผมคิดไว้นั้นซับซ้อนและแพงเกินไป
    ตอนใช้คอมพิวเตอร์ ผมก็เคยเชื่อว่า ML/AI ควรถูกทำให้เหมาะกับข้อมูลที่มีโครงสร้าง
    แต่โลกมันซับซ้อนขึ้นและคอมพิวเตอร์ก็เร็วขึ้น จนตอนนี้การให้ AI มองหน้าจอ ขยับเมาส์ และคลิก กลายเป็นสถานการณ์ที่สมจริงมากกว่าแล้ว

    • ตอนนี้กล้องคอมพิวเตอร์วิทัศน์ถูกใช้งานกันอย่างแพร่หลายแล้ว
      เซ็นเซอร์แม่เหล็กตรวจจับผู้ใช้จักรยานได้ไม่ดี จึงทำให้ทุกวันนี้กล้องเป็นตัวเลือกที่นิยมมากกว่า
      ในมุมของเจ้าหน้าที่จราจรของเมือง กล้องยังสามารถใช้เป็นเครื่องมือติดตามความหนาแน่นของการจราจรได้ด้วย จึงยิ่งได้รับความนิยมมากขึ้น

    • แถวบ้านผมมีการติดตั้งระบบที่เอาเซ็นเซอร์แสงแบบง่ายๆ ไปไว้ที่ไฟจราจรตอนกลางคืน ถ้าคุณเปิดไฟสูงขณะเข้าใกล้ ไฟก็จะเปลี่ยน
      ไม่อย่างนั้นไฟเขียวจะค้างอยู่ที่ถนนสายหลักตลอดทั้งคืน
      พอรถมาถึงทางแยก สัญญาณจะเปลี่ยนก็ต่อเมื่อมีสัญญาณไฟสูงหรือฟลักซ์แม่เหล็กเท่านั้น

    • ผมปั่นจักรยานบ่อยมาก และตอนอยู่กลางแจ้ง ฟีเจอร์ที่ผมฟังพอดแคสต์แล้วพูดว่า "Hey Google, ย้อนกลับไป 30 วินาที" เพื่อฟังซ้ำหรือข้ามโฆษณานั้นมีประโยชน์มาก
      ตอนอยู่ในบ้าน ผมมักจะแคสต์รายการทีวีหรือวิดีโอ YouTube มาดู
      บางครั้งผมอยากเปลี่ยนวิดีโอ YouTube แต่คำสั่งเสียงกับ YouTube ใช้งานได้แบบพอถูไถและผลลัพธ์ก็ไม่ค่อยดี
      บริการอื่นแทบใช้คำสั่งเสียงไม่ได้เลย
      ในโลกอุดมคติ ผมอยากให้ Google มี API ที่ยอดเยี่ยมสำหรับการเชื่อมรวมแบบนี้ และทุกแอปก็รองรับมันได้ดี
      ถ้าข้ามขั้นตอนนั้นไปได้แล้วยังให้ผลลัพธ์ที่ยอดเยี่ยม ก็ถือว่าเป็นประสบการณ์ที่มีคุณค่ามากสำหรับผม
      อาจเป็นแค่กรณีใช้งานเฉพาะของผมเอง แต่เป็นส่วนที่น่าตื่นเต้นมากจริงๆ

    • การใช้งานคอมพิวเตอร์คือเบนช์มาร์กที่สำคัญที่สุดในการคาดการณ์ว่า AI จะส่งผลต่อตลาดแรงงานอย่างไร
      มีวิธีที่ดีกว่ามากมายในการทำให้ ML/AI ทำงานหลากหลายบนคอมพิวเตอร์ได้อย่างมีประสิทธิภาพ
      แต่ทุกวิธีเหล่านั้นต้องออกแบบแยกให้เหมาะกับงานแต่ละอย่าง
      แนวทางที่ทำให้เป็นแบบทั่วไปได้นี่แหละคือทิศทางที่ขยายต่อได้มากกว่า

    • อ้างอิงไว้หน่อยว่ากล้องจราจรประเภทนี้ถูกใช้งานทั่วไปอยู่แล้ว
      https://www.milesight.com/company/blog/types-of-traffic-cameras

  • ผมใช้เวลานานมากไปกับการพยายามทำงานซ้ำๆ ด้วยมือให้เป็นอัตโนมัติ โดยยึดแนวคิดว่า "ทำทุกอย่างในโลกให้เป็นอ็อบเจ็กต์ในฐานข้อมูล"
    ผมมองว่าคอมพิวเตอร์สามารถทำสิ่งต่างๆ ได้มากมายด้วยการแทรกแซงจากมนุษย์ให้น้อยที่สุด
    ผมก็ทุ่มเทกับแมชชีนเลิร์นนิงไปมากเช่นกัน
    แต่ที่จริงแล้วผมไม่เคยนึกถึงแนวคิดที่ว่าคอมพิวเตอร์สามารถใช้ข้อมูลโลกของมนุษย์ที่มีโครงสร้างกึ่งสำเร็จรูปอย่าง screen buffer ได้โดยตรง แล้วทำงานผ่านเมาส์กับคีย์บอร์ดเหมือนมนุษย์
    แน่นอนว่าผมสนับสนุนไอเดียนี้อย่างเต็มที่
    ผมคิดว่าภายใน 10 ปี เราอาจได้เห็นยุคที่คอมพิวเตอร์เปิด Chrome เอง คุยในวิดีโอคอล และทำงานต่างๆ โดยที่อีกฝ่ายไม่ทันรู้เลยว่าคู่สนทนาเป็นคอมพิวเตอร์

    • เหตุผลที่ AI ประสบความสำเร็จมากกว่าแนวทางที่ 'ดีกว่าในทางทฤษฎี' เป็นเพราะมันแก้ปัญหา 'ทางสังคม' ที่เป็นรากฐาน
      ระบบนิเวศของคอมพิวติ้งเป็นสภาพแวดล้อมที่แข่งขันและตั้งรับ มากกว่าจะร่วมมือกัน
      โครงสร้างที่ออกแบบมาไม่ให้ทำงานน่าเบื่อด้วยมือส่วนใหญ่เป็นอัตโนมัติได้ คือหัวใจของการทำเงินบนอินเทอร์เน็ต
      เพราะถ้าผู้ใช้เลี่ยงการชักจูงให้ซื้อหรือเลี่ยงการเห็นโฆษณาด้วยระบบอัตโนมัติได้ รายได้ก็จะลดลง

    • ในวงการหุ่นยนต์ก็เคยมีข้อถกเถียงคล้ายกัน
      มีคนสงสัยว่า "ทำไมต้องทำหุ่นยนต์ให้มีรูปร่างเหมือนมนุษย์ ในเมื่ออาจมีรูปทรงที่มีประสิทธิภาพกว่านี้"
      แต่ท้ายที่สุด ถ้าจะให้เครื่องมือถูกยอมรับในวงกว้าง มันก็ต้องถูกออกแบบให้เข้ากับสภาพแวดล้อมที่ยึดมนุษย์เป็นศูนย์กลาง แม้จะไม่มีประสิทธิภาพที่สุดก็ตาม
      แอปพลิเคชันที่เน้นประสิทธิภาพจำเป็นต้องมีการออกแบบเฉพาะและปรับจูนให้เหมาะสม แต่ถ้าจะให้แพร่หลายสู่มวลชน ก็ต้องใช้วิธีที่ปรับให้เข้ากับมนุษย์

    • เมื่อเช้าผมนึกถึงแอปหาคู่ แล้วก็นึกถึงประเด็นสุดท้ายนี้ขึ้นมา
      ถ้า "chatgpt ของผม" สามารถเป็นตัวแทนผมได้ดีพอ ผมคิดว่ามันน่าจะจับคู่กันได้ด้วยการให้ chatgpt ของอีกฝ่ายมาคุยกันล่วงหน้าเหมือนนัดพบก่อนเดตในแอปหาคู่
      ผมเพิ่งได้ยินคำว่า "digital twin" ในคีย์โน้ตฝั่งองค์กรไม่นานนี้ และมันก็ดูเหมือนจะเข้ากับแนวคิดนี้
      ยังเร็วเกินไปที่จะตัดสินเรื่องนี้ แต่ผมก็อยากรู้ว่ามันจะไปได้ไกลแค่ไหน

    • ผมสงสัยจริงๆ ว่าการที่คอมพิวเตอร์เปิด Chrome เอง คุยวิดีโอคอล และทำงานต่างๆ เหมือนคนจนอีกฝ่ายไม่รู้ว่าเป็นคอมพิวเตอร์นั้น ถือเป็นผลลัพธ์ที่ดีจริงหรือเปล่า
      ในเชิงเทคนิคมันเป็นความสำเร็จที่ยิ่งใหญ่และน่าประทับใจมาก แต่ก็ให้ความรู้สึกแปลกๆ อยู่เหมือนกัน

  • ผมลองทำ browser automation จาก Gemini CLI ด้วย Chrome devtools MCP(https://github.com/ChromeDevTools/chrome-devtools-mcp) ได้สำเร็จ
    ดังนั้นผมเลยคิดว่าโมเดลนี้น่าจะทำผลงานได้ดีกว่าอีก

    • อยากรู้ว่าคุณใช้ MCP ทำงานอัตโนมัติแบบไหนได้สำเร็จบ้าง

    • วิธีนี้ไม่เกี่ยวอะไรกับโมเดลที่จำเป็นสำหรับการใช้งานคอมพิวเตอร์เลย
      มันแค่ใช้เครื่องมือที่ Google นิยามไว้ล่วงหน้าบน MCP server เท่านั้น ไม่ใช่โมเดลอเนกประสงค์ที่ใช้ได้กับซอฟต์แวร์ทุกชนิด

  • ถ้าใครมีกรณีใช้งานจริงที่เร็วกว่าหรือชัดเจนกว่าเรื่อง UX ช่วยบอกที
    ผมยังนึกภาพไม่ค่อยออกว่าจะเอาสิ่งนี้ไปใช้อย่างไร
    พอเห็นว่ามีการลงทุนกันมากขนาดนี้ ก็รู้สึกว่าต้องมีอะไรบางอย่างที่ผมยังไม่เข้าใจแน่ๆ
    ตัวเทคโนโลยีและความสามารถมันน่าประทับใจ แต่ผมอยากเห็นตัวอย่างการใช้งานที่เป็นรูปธรรม

  • ถ้าสั่งให้บอตเบราว์เซอร์ไปเล่น Wordle ของวันนี้ มันจะเกิดสถานการณ์ที่ตอบไม่ได้ เพราะมองไม่เห็นฟีดแบ็กสีของตัวอักษร (เขียว เหลือง เทา)
    มันพิมพ์คำได้ แต่ตีความฟีดแบ็กไม่ออก

    • สงสัยว่ามันท่องเว็บอยู่บนหน้าจอขาวดำหรือเปล่า
  • Gemini ผ่าน captcha จาก https://www.google.com/recaptcha/api2/demo ได้สำเร็จ

    • แก้ไขโพสต์: จริงๆ แล้วผมดูผิด การแก้ Google CAPTCHA ไม่ได้เกิดจาก Gemini แต่เกิดจาก Browserbase
      รายละเอียดอยู่ ที่นี่

    • ระบบอัตโนมัติทำงานอยู่บน Browserbase และ Browserbase มีตัวแก้ captcha ติดมาด้วย
      ยังไม่แน่ใจว่าเป็นอัตโนมัติหรือใช้มนุษย์ช่วย

    • เป็นไปได้ว่าอาจผ่านได้เพราะลองจาก IP ในเครือข่ายของ Google เอง

  • (ผมลองแค่เดโมของ Browserbase)
    การรู้ว่ามันเป็นไปได้ในทางทฤษฎีกับการได้เห็นมันล็อกอินเข้าเว็บจริง เลื่อนหน้าจอ และโพสต์ข้อความจากคำสั่งสั้นๆ ด้วยตาตัวเอง เป็นคนละประสบการณ์กันเลย
    วันนี้ผมก็พลาดแบบเดียวกันใน Wordle ตอนเดาครั้งที่สอง เลยจบเสมอ
    น่าเสียดายนิดหน่อยที่คุยโต้ตอบระหว่างงานไม่ได้

  • ฟีเจอร์แบบนี้จำเป็นต้องมีอะไรอย่าง hook/callback สำหรับ governance ในระบบองค์กร
    บนระบบที่อิง UI การจัดการ hook/agent event ทำได้ยากกว่ามาก
    ลิงก์ที่เกี่ยวข้องคือ เอกสาร hook ของ claude code, เอกสาร callback ของ google adk

    • ผมรู้ดีว่า Claude Code เพิกเฉยต่อ hook บ่อยแค่ไหน แล้วก็จบการคำนวณไปเองโดยไม่ใช้ผลลัพธ์ ทำให้ผมมองว่าแนวคิดเรื่อง 'governance' แทบเป็นไปไม่ได้
      LLM คาดเดาไม่ได้มากกว่าที่คนส่วนใหญ่คิด และควบคุมได้ยากกว่ามาก
      ผมเคยเห็นมันเดินหน้าต่อทั้งที่มีข้อความชัดเจนจากการทดสอบว่่า "ห้ามดำเนินการต่อ"
      สุดท้าย สิ่งเดียวที่หยุดมันได้แน่ๆ ก็คือ hook เชิงทฤษฎีแบบ 'claude-killing' ที่ตัดการทำงานจริงๆ เท่านั้น

    • ผมดูแลผลิตภัณฑ์ด้าน identity ที่ Browserbase
      ช่วงนี้กำลังคิดเรื่องวิธีนำ RBAC (role-based access control) ไปใช้กับทั้งเว็บ
      เลยสงสัยว่า callback จะช่วยกับแนวทางนี้ได้ไหม

  • พอเห็นคำว่า "การควบคุมระดับ OS ยังไม่ได้รับการปรับให้เหมาะสม" ก็ยิ่งรู้สึกว่า AGI ยังมาไม่ถึง
    ถ้าทำการควบคุมระดับ OS ได้ถึงขั้นนี้ แล้วต้นทุนการใช้ LLM ก็เหมาะสม ผมคิดว่าเราอาจเริ่มเข้าใกล้อะไรบางอย่างที่ใกล้เคียง AGI ได้

    • ที่น่าสนใจคือ คนส่วนใหญ่เองก็ใช้งานคอมพิวเตอร์ไม่ค่อยเป็นเหมือนกัน
      ยิ่งทำให้รู้สึกว่าคำจำกัดความของ 'สติปัญญา' นั้นแทบเป็นไปไม่ได้เลย

    • อยากรู้ว่าทำไมคุณถึงคิดว่าการควบคุมทั้งระบบปฏิบัติการจะเป็นจุดเปลี่ยนไปสู่ AGI (ปัญญาประดิษฐ์ทั่วไป)

  • ที่น่าขันคือบริษัทเทคส่วนใหญ่ทำเงินจากการบังคับให้ผู้ใช้ต้องผ่านข้อมูลที่ไม่จำเป็น
    ตัวอย่างเช่น ถ้าเราท่องอินเทอร์เน็ตได้อย่างอิสระโดยไม่มีโฆษณา หรือถ้าบน Twitter เราดูได้เฉพาะคอนเทนต์ที่อยากดูโดยไม่มีอัลกอริทึมไร้ประโยชน์คั่นอยู่ ใครบ้างจะไม่ใช้

 
[ความคิดเห็นนี้ถูกซ่อน]