Gemma Gem - ส่วนขยาย Chrome ที่รันโมเดล Google Gemma 4 แบบออนดีไวซ์เต็มรูปแบบในเบราว์เซอร์

xguru · 2026-04-18T09:31:02+09:00

รัน โมเดล Gemma 4 ของ Google แบบออนดีไวซ์เต็มรูปแบบด้วย WebGPU เพื่อใช้เป็น ผู้ช่วย AI ส่วนตัว ที่ทำงานอยู่ภายในเบราว์เซอร์ ไม่มี API key·คลาวด์·การส่งข้อมูลออกไปภายนอก - การอนุมานทั้งหมดประมวลผลในเครื่องและข้อมูลไม่ออกจากอุปกรณ์ รองรับ การทำงานแบบเอเจนต์ ที่สามารถอ่านหน้าที่กำลังเปิดอยู่, คลิกปุ่ม, กรอกฟอร์ม, รัน JavaScript และทำถาม-ตอบเกี่ยวกับเว็บไซต์ได้ เลือกได้ระหว่างสองโมเดล Gemma 4 E2B(~500MB) / E4B(~1.5GB) และจะถูกแคชไว้เพื่อนำกลับมาใช้ซ้ำหลังการรันครั้งแรก รองรับ การควอนไทซ์ q4f16, คอนเท็กซ์ 128K (onnx-community/gemma-4-E2B-it-ONNX, onnx-community/gemma-4-E4B-it-ONNX) มีเครื่องมือในตัว 6 อย่าง read_page_content: อ่านข้อความ/HTML ของหน้า หรืออ่านตาม CSS selector take_screenshot: จับภาพหน้าที่มองเห็นเป็น PNG click_element / type_text / scroll_page: จัดการ DOM ตาม CSS selector run_javascript: รัน JS ที่เข้าถึง DOM ทั้งหมดได้ ในคอนเท็กซ์ของหน้า โครงสร้าง 3 ชั้นแบบ Offscreen Document + Service Worker + Content Script Offscreen document โฮสต์โมเดลด้วย @huggingface/transformers + WebGPU และรัน agent loop Service worker ดูแลงาน routing ข้อความและการจับภาพหน้าจอ·การรัน JS Content script แทรกไอคอน gem และแชตโอเวอร์เลย์แบบ shadow DOM ในการตั้งค่ารองรับ การสลับโมเดล, สลับ Thinking, ขีดจำกัดสูงสุดของลูปการเรียกใช้เครื่องมือ, ล้างประวัติการสนทนา, ปิดใช้งานแยกตามเว็บไซต์ ไดเรกทอรี agent/ ไม่มี dependency, และสามารถแยกเป็นไลบรารีอิสระได้โดยอิงอินเทอร์เฟซ ModelBackend·ToolExecutor ต้องใช้ Chrome ที่รองรับ WebGPU / ไลเซนส์ Apache-2.0 / พัฒนาด้วย TypeScript

(github.com/kessler)

18 คะแนน โดย xguru 2026-04-18 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

รัน โมเดล Gemma 4 ของ Google แบบออนดีไวซ์เต็มรูปแบบด้วย WebGPU เพื่อใช้เป็น ผู้ช่วย AI ส่วนตัว ที่ทำงานอยู่ภายในเบราว์เซอร์
ไม่มี API key·คลาวด์·การส่งข้อมูลออกไปภายนอก - การอนุมานทั้งหมดประมวลผลในเครื่องและข้อมูลไม่ออกจากอุปกรณ์
รองรับ การทำงานแบบเอเจนต์ ที่สามารถอ่านหน้าที่กำลังเปิดอยู่, คลิกปุ่ม, กรอกฟอร์ม, รัน JavaScript และทำถาม-ตอบเกี่ยวกับเว็บไซต์ได้
เลือกได้ระหว่างสองโมเดล Gemma 4 E2B(~500MB) / E4B(~1.5GB) และจะถูกแคชไว้เพื่อนำกลับมาใช้ซ้ำหลังการรันครั้งแรก
รองรับ การควอนไทซ์ q4f16, คอนเท็กซ์ 128K (onnx-community/gemma-4-E2B-it-ONNX, onnx-community/gemma-4-E4B-it-ONNX)
มีเครื่องมือในตัว 6 อย่าง
- read_page_content: อ่านข้อความ/HTML ของหน้า หรืออ่านตาม CSS selector
- take_screenshot: จับภาพหน้าที่มองเห็นเป็น PNG
- click_element / type_text / scroll_page: จัดการ DOM ตาม CSS selector
- run_javascript: รัน JS ที่เข้าถึง DOM ทั้งหมดได้ ในคอนเท็กซ์ของหน้า
โครงสร้าง 3 ชั้นแบบ Offscreen Document + Service Worker + Content Script
- Offscreen document โฮสต์โมเดลด้วย @huggingface/transformers + WebGPU และรัน agent loop
- Service worker ดูแลงาน routing ข้อความและการจับภาพหน้าจอ·การรัน JS
- Content script แทรกไอคอน gem และแชตโอเวอร์เลย์แบบ shadow DOM
ในการตั้งค่ารองรับ การสลับโมเดล, สลับ Thinking, ขีดจำกัดสูงสุดของลูปการเรียกใช้เครื่องมือ, ล้างประวัติการสนทนา, ปิดใช้งานแยกตามเว็บไซต์
ไดเรกทอรี agent/ ไม่มี dependency, และสามารถแยกเป็นไลบรารีอิสระได้โดยอิงอินเทอร์เฟซ ModelBackend·ToolExecutor
ต้องใช้ Chrome ที่รองรับ WebGPU / ไลเซนส์ Apache-2.0 / พัฒนาด้วย TypeScript

Gemma Gem - ส่วนขยาย Chrome ที่รันโมเดล Google Gemma 4 แบบออนดีไวซ์เต็มรูปแบบในเบราว์เซอร์

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น