2 คะแนน โดย GN⁺ 2025-04-08 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • เครื่องมือที่เชื่อมแอป AI เข้ากับเบราว์เซอร์ผ่าน MCP เพื่อให้สามารถทำงานอัตโนมัติบนเว็บไซต์ได้
    • ตัวอย่างเช่น ทำงานอย่าง การกรอกแบบฟอร์มซ้ำๆ บนเว็บไซต์ให้เป็นอัตโนมัติ
  • การทำงานอัตโนมัติของเวิร์กโฟลว์: เพิ่มความเร็วในการทำงานและทำให้เป็นอัตโนมัติเพื่อยกระดับประสิทธิภาพ
  • การทดสอบอัตโนมัติ: ใช้ AI editor เพื่อรันทดสอบ end-to-end ของโค้ดโดยอัตโนมัติ ทดสอบ user flow ตรวจสอบองค์ประกอบ UI และยืนยันว่าแอปพลิเคชันทำงานได้ตามคาดในสถานการณ์ที่หลากหลาย
  • งานอัตโนมัติ: ทำงานบนเว็บที่ทำซ้ำได้ง่าย เช่น การเก็บข้อมูล การกรอกแบบฟอร์ม และการทำเวิร์กโฟลว์อัตโนมัติ เพื่อประหยัดเวลาและลดข้อผิดพลาด

ข้อดีของ Browser MCP

  • ความเร็ว: ระบบอัตโนมัติทำงานในเครื่อง จึงมีประสิทธิภาพดีขึ้นโดยไม่มีความหน่วงจากเครือข่าย
  • ความเป็นส่วนตัว: เนื่องจากระบบอัตโนมัติทำงานในเครื่อง กิจกรรมบนเบราว์เซอร์จึงอยู่บนอุปกรณ์และไม่ถูกส่งไปยังเซิร์ฟเวอร์ระยะไกล
  • คงสถานะการเข้าสู่ระบบ: ใช้โปรไฟล์เบราว์เซอร์เดิม ทำให้ยังคงล็อกอินกับทุกบริการไว้ได้
  • ความแนบเนียน: ใช้ browser fingerprint จริงเพื่อหลีกเลี่ยงการตรวจจับบอตและ CAPTCHA

วิธีใช้งาน

  1. ติดตั้งส่วนขยาย Browser MCP: เพิ่มส่วนขยาย Browser MCP ลงในเบราว์เซอร์
  2. ตั้งค่า MCP server: เพิ่ม Browser MCP server ลงในแอป AI เพื่อเชื่อมต่อกับส่วนขยายของเบราว์เซอร์
  3. เริ่มทำงานอัตโนมัติ: สร้างเวิร์กโฟลว์อัตโนมัติและให้ผู้ช่วย AI จัดการงานที่ทำซ้ำบนเบราว์เซอร์

เครื่องมือสำหรับความสามารถด้านระบบอัตโนมัติบนเบราว์เซอร์

  • นำทาง: ไปยัง URL
  • ย้อนกลับ: ไปยังหน้าก่อนหน้า
  • ไปข้างหน้า: ไปยังหน้าถัดไป
  • รอ: รอตามเวลาที่กำหนด (วินาที)
  • กดปุ่ม: กดปุ่มบนคีย์บอร์ด
  • สแนปช็อต: จับภาพ accessibility snapshot ของหน้าปัจจุบัน
  • คลิก: คลิกบนหน้าเว็บ
  • ลากและวาง: ลากและวางระหว่างสององค์ประกอบ
  • โฮเวอร์: เลื่อนเมาส์ไปวางเหนือองค์ประกอบบนหน้า
  • ป้อนข้อความ: ป้อนข้อความในองค์ประกอบที่แก้ไขได้
  • เลือกตัวเลือก: เลือกตัวเลือกจากดรอปดาวน์
  • ดึง console log: ดึง console log ของเบราว์เซอร์

แอปพลิเคชัน MCP AI ที่รองรับ

  • Cursor
  • Claude
  • Windsurf
  • VSCode

1 ความคิดเห็น

 
GN⁺ 2025-04-08
ความคิดเห็นบน Hacker News
  • เว็บไซต์อ้างว่า "ใช้ลายนิ้วมือเบราว์เซอร์จริงเพื่อหลบการตรวจจับบอตและ CAPTCHA"

    • เคยลองใช้ระบบคล้ายกัน แต่พอ AI ควบคุมเบราว์เซอร์ก็มี CAPTCHA โผล่ขึ้นมา และถูกบล็อกจากหลายเว็บไซต์
    • พอเลิกใช้เซสชันเบราว์เซอร์ การบล็อกก็ถูกยกเลิก แต่แนวทางแบบนี้ไม่ใช่ทางแก้สารพัดนึก
  • ระบบนี้ดูเหมือนสำเนาแบบเก่าของ Playwright-MCP ของ Microsoft

  • ถ้ามีเบราว์เซอร์ที่สามารถกรองสินค้าในเว็บไซต์ช้อปปิ้งตามเงื่อนไขที่ต้องการได้ก็น่าจะมีประโยชน์

  • ไม่รู้ว่า MCP คืออะไร และตอนนี้ก็เริ่มกลัวที่จะถามแล้ว

  • งานค้นหาข้อมูลบนเว็บแล้วใส่ผลลัพธ์ลงใน Google Sheets ตอนแรกทำงานได้เกือบสมบูรณ์แบบ แต่พอลองครั้งถัดไปกลับล้มเหลว

    • สงสัยว่ามีปัญหาเรื่องความหน่วงระหว่างเบราว์เซอร์กับแอป MCP หรือไม่
    • ตอนลองครั้งแรก คลิกสิทธิ์ "อนุญาตแชทนี้" ได้อย่างรวดเร็ว แต่ครั้งถัดมา LLM รายงานว่าคลิกไม่ได้
    • การคลิกชื่อของ Google สเปรดชีตเพื่อพิมพ์ชื่อ ตอนแรกสำเร็จ แต่ครั้งถัดไปกลับล้มเหลว
    • การระบุเซลล์ A1, B1 ฯลฯ และแทรกข้อมูลลงในแถว ตอนแรกทำได้ แต่ครั้งถัดไปกลับล้มเหลว
    • ครั้งแรกเกือบสมบูรณ์แบบ แต่หลังจากนั้นไม่สามารถทำซ้ำให้ได้ผล 100% เลย
    • ประสบการณ์ใช้งานลื่นไหล และการตั้งค่ากับการรันทำออกมาได้ดีมาก
  • ตอนทดสอบบน Claude Desktop มันทำงานได้ลื่นไหล และยุ่งยากน้อยกว่า Playwright

    • ถ้ามีฟีเจอร์ที่ตรวจจับ CAPTCHA บนหน้าเว็บแล้วหยุดการทำงานอัตโนมัติพร้อมแจ้งผู้ใช้ก็น่าจะดี
    • Playwright จะพยายามกับ CAPTCHA ต่อไปเรื่อย ๆ
  • ถ้าสามารถใช้ accessibility tree ของ Chrome Developer Tools ในการนำทางหน้าเว็บได้ก็น่าจะดี

  • รู้สึกมีความหวังกับงานที่ต้องทำด้วยมือ โดยเฉพาะงานอย่างการยื่นขอคืนเงิน

    • ทุกเดือนต้องล็อกอินเข้าเว็บผู้ให้บริการ ดาวน์โหลดใบแจ้งยอด สร้างเอกสาร Google เขียนอีเมล และอัปโหลดไฟล์ ซึ่งค่อนข้างน่ารำคาญ
    • ระบบอัตโนมัติทำสิ่งนี้ได้อยู่แล้ว และแอปติดตามค่าใช้จ่ายจริง ๆ ก็น่าจะลดงานนี้ไปได้ครึ่งหนึ่ง
    • เครื่องมือ AI มีศักยภาพที่จะลดความจำเป็นของสเปกที่ละเอียดมาก
    • เวิร์กโฟลว์แบบนี้มักได้รับผลกระทบจากการเปลี่ยนแปลงเล็กน้อย
  • สงสัยว่า MCP คือ RPA (Robotic Process Automation) แบบใหม่หรือเปล่า

  • ทำงานลักษณะคล้ายกันโดยควบคุมฮาร์ดแวร์ซินธ์ เพื่อออกแบบเสียงโดยไม่ต้องไปหมุนปุ่มจริงบนอุปกรณ์