9 คะแนน โดย GN⁺ 2025-07-14 | 2 ความคิดเห็น | แชร์ทาง WhatsApp
  • BrowserOS เป็นทางเลือกโอเพนซอร์สที่เน้นความเป็นส่วนตัวแทน Perplexity Comet โดยเป็น เบราว์เซอร์เชิงเอเจนต์ ที่รัน AI agent ได้ในเครื่องแบบโลคัล
  • สร้างจากการฟอร์ก Chromium จึงรองรับส่วนขยาย Chrome ที่มีอยู่ทั้งหมด และมีจุดเด่นคือ ข้อมูลผู้ใช้ถูกเก็บไว้ในเครื่องเท่านั้น
  • เชื่อมต่อกับผู้ให้บริการ AI ได้หลากหลาย เช่น OpenAI, Anthropic, Ollama และสามารถใช้ API key ส่วนตัว หรือ โมเดลโลคัล ได้
  • มาพร้อมเครื่องมือเพิ่มประสิทธิภาพการทำงานสมัยใหม่ เช่น ไฮไลต์เตอร์แบบเนทีฟ, บุ๊กมาร์กที่ใช้ ChatGPT, การค้นหาเชิงความหมาย และเร็ว ๆ นี้ยังเตรียมรองรับ ระบบบล็อกโฆษณาที่ขับเคลื่อนด้วย AI
  • ต่างจากเบราว์เซอร์แบบเดิมตรงที่ ข้อมูลจะไม่ถูกส่งไปยังบริษัทเสิร์ช/โฆษณา และ AI จะทำเวิร์กโฟลว์อัตโนมัติในเครื่องแบบโลคัล

ภาพรวมของ BrowserOS

  • BrowserOS คือ เบราว์เซอร์เอเจนต์ แบบโอเพนซอร์ส ที่มอบสภาพแวดล้อมให้ AI agent ทำงานได้โดยตรงบนคอมพิวเตอร์ของผู้ใช้
  • ด้วยแนวคิด ให้ความสำคัญกับความเป็นส่วนตัวเป็นอันดับแรก จึงใช้ API key หรือ โมเดลโลคัล อย่าง Ollama เพื่อไม่ให้ข้อมูลรั่วไหลออกสู่ภายนอก
  • เนื่องจากพัฒนาบนพื้นฐานการฟอร์ก Chromium จึงมี อินเทอร์เฟซผู้ใช้เหมือน Chrome และใช้งานส่วนขยาย Chrome ได้ทั้งหมด

ฟีเจอร์หลัก

  • AI agent และการรันแบบโลคัล

    • ภายในเบราว์เซอร์ AI agent จะรันแบบโลคัลโดยตรง เพื่อจัดการงานซ้ำ ๆ และเวิร์กโฟลว์อัตโนมัติ
    • ผสานรวมกับ Ollama เพื่อให้รัน large language model บนคอมพิวเตอร์ของตนเองแทนคลาวด์ พร้อม รับประกันความเป็นส่วนตัวของข้อมูล
  • เครื่องมือเพิ่มประสิทธิภาพการทำงาน

    • รองรับเครื่องมือเสริมประสิทธิภาพที่มีมาในเบราว์เซอร์ เช่น ไฮไลต์เตอร์, บุ๊กมาร์ก ChatGPT
    • ใช้ การค้นหาเชิงความหมาย เพื่อค้นหาข้อมูลเบราว์เซอร์ เช่น ประวัติ/บุ๊กมาร์ก ได้อย่างรวดเร็ว
  • การบล็อกโฆษณาและ MCP Store (เร็ว ๆ นี้)

    • การบล็อกโฆษณาด้วย AI (เร็ว ๆ นี้) เตรียมเป็นทางเลือกหลัง Chrome ปิดกั้น uBlock Origin
    • ใน MCP (Multi Command Package) Store (เร็ว ๆ นี้) สามารถติดตั้ง MCP ยอดนิยมได้ในคลิกเดียวและใช้งานได้ทันทีจากแถบเบราว์เซอร์
  • โอเพนซอร์สและขับเคลื่อนโดยชุมชน

    • ใช้สัญญาอนุญาต AGPL-3.0 เป็นโอเพนซอร์ส 100% รับประกันความโปร่งใสของโค้ดและการทำงาน
    • ส่งเสริมการมีส่วนร่วมและการร่วมพัฒนาอย่างจริงจังจากชุมชน

ตัวอย่างการใช้งานเด่น

  • ทำงานซ้ำ ๆ ที่น่าเบื่อให้เป็นอัตโนมัติ: AI จัดการจองประชุม กรอกฟอร์ม และงานที่ต้องทำซ้ำให้โดยอัตโนมัติ
  • Deep Research: สำรวจเว็บและสร้างรายงานสรุป ช่วยรวบรวมข้อมูลได้อย่างมีประสิทธิภาพโดยไม่ต้องจัดการแท็บด้วยมือ
  • สแกนคอนเทนต์โซเชียล: คัดกรองและจัดระเบียบโพสต์ที่มีความหมายจาก LinkedIn, Twitter ฯลฯ ได้โดยอัตโนมัติ

เปรียบเทียบกับเบราว์เซอร์อื่น

  • Chrome: แทบไม่มีการเปลี่ยนแปลงใหญ่ในรอบ 10 ปี และยังไม่มีฟีเจอร์ AI/ระบบอัตโนมัติ/MCP
  • Brave: ใช้กลยุทธ์แบบกระจายไปยังคริปโต เสิร์ช และ VPN จึงไม่ได้โฟกัสที่ AI browser
  • Arc/Dia: เป็นระบบปิด ไม่ใช่โอเพนซอร์ส และไม่มีทางเลือกหากเลิกให้บริการ
  • Perplexity Comet: มีศูนย์กลางอยู่ที่บริษัทเสิร์ช/โฆษณา และ ส่งข้อมูลผู้ใช้ไปยังเซิร์ฟเวอร์ ขณะที่ BrowserOS เก็บข้อมูลทั้งหมดไว้ในเครื่องเท่านั้น

การติดตั้งและเริ่มต้นใช้งาน

  • รองรับการดาวน์โหลดสำหรับ macOS และ Windows
  • นำเข้าข้อมูลจาก Chrome ได้ (ไม่บังคับ)
  • เชื่อมต่อผู้ให้บริการ AI (OpenAI, Anthropic, Ollama ฯลฯ)
  • เริ่มใช้งานระบบอัตโนมัติของเอเจนต์ได้ทันที

สัญญาอนุญาต

  • ใช้ สัญญาอนุญาตโอเพนซอร์ส AGPL-3.0

2 ความคิดเห็น

 
luiseok 2025-07-14

https://th.news.hada.io/topic?id=21581
รู้สึกคุ้น ๆ อยู่ พอไปดูแล้วก็พบว่าเป็น Nxtscape ที่แค่เปลี่ยนชื่อเท่านั้นเอง

 
GN⁺ 2025-07-14
ความคิดเห็นจาก Hacker News
  • ตัวอย่างการซื้อยาสีฟันที่แสดงในเดโมสะท้อนให้เห็นว่างานพวกนี้ยากแค่ไหน เพราะคำว่า "ยาสีฟัน" เองก็คลุมเครือมาก สุดท้ายก็เหมือนสุ่มเลือกจากรายการขนาดมหาศาล บางงานอาจใช้การกระทำก่อนหน้าเป็นแนวทางได้ แต่บางกรณีก็ทำไม่ได้ เช่น ถ้ายาสีฟันที่เคยซื้อหมด ก็ไม่รู้ว่าควรทำอย่างไรต่อ เลยสงสัยว่าตัวอย่างแบบนี้ช่วยประหยัดเวลาได้จริงหรือไม่ เพราะยังไงก็ต้องมาตรวจผลลัพธ์อยู่ดี เท่ากับทำงานซ้ำสองรอบ คิดว่านี่จึงเป็นเหตุผลว่าทำไมระบบอย่าง Alexa ถึงไม่สามารถมอบประสบการณ์การซื้อของตามที่ Amazon คาดหวังไว้ในตอนแรกได้ น่าจะแสดงตัวอย่างที่ซับซ้อนกว่านี้ซึ่งเห็นชัดว่าประหยัดเวลาและมีกรณีล้มเหลวน้อย หรือไม่ก็ควรเน้นว่าระบบจะกู้คืนจากกรณีล้มเหลวอย่างไร จะมี UI ที่ออกแบบมาสำหรับปัญหาเฉพาะหรือแก้ด้วยแชต สรุปคือผมคิดว่าโลกนี้ทั้งหมดไม่ใช่เรื่องง่ายเลย ขอให้ทุกคนโชคดี
    • เห็นด้วยเลย วงการ agentic browser โดยรวมยังอยู่ในช่วงตั้งไข่ พวกเราก็เพิ่งเริ่มต้นและกำลังพยายามหา use-case เฉพาะทางที่มีคุณค่าอยู่ มีงานที่ทำซ้ำและน่าเบื่อบางแบบที่เห็นผลเรื่องการประหยัดเวลาได้ชัดเจน เช่น ผู้ขายบุคคลที่สามบน Walmart ที่ต้องเช็กราคาคู่แข่งหลายครั้งต่อวันแล้วปรับราคาสินค้าของตัวเอง งานแบบนี้ทำอัตโนมัติด้วย agentic browser ได้ไม่ยาก
    • ผมคิดว่ามันควรทำงานให้สอดคล้องกับรสนิยมด้านความสวยงามของผู้ใช้แต่ละคนได้ด้วย แต่ถ้าทำแบบนั้นก็น่าจะกลายเป็นฝันร้ายด้านความปลอดภัย
  • ผมติดตั้ง Nxtscape ไว้อยู่แล้ว แต่ไม่รู้ว่าเปลี่ยนชื่อสินค้า พอรัน BrowserOS ก็ถึงกับงง เพราะ UI เดิมกับหน้าต่างแชตที่มีอีโมจิจิ้งจอกก็ยังเหมือนเดิมเป๊ะ พูดตามตรงผมชอบชื่อเก่ามากกว่า เดาว่าเปลี่ยนเพราะเหตุผลทางกฎหมาย<br>ผมลองสั่งให้มันสรุปคอมเมนต์ของบทความใน Arstechnica แต่ตอนแรกได้แค่คำตอบว่า "ไม่สามารถสรุปได้เพราะไม่มีคอมเมนต์รวมอยู่ด้วย" ต้องสั่งให้มันกดลิงก์ "comments" เองก่อน มันถึงจะเริ่มอ่านคอมเมนต์จริง ๆ แล้วหน้าคอมเมนต์มีทั้งหมด 3 หน้า มันใช้เวลาเกิน 20 นาที ทำแอ็กชันไปราว 100 ครั้ง (ในนั้นมีการเลื่อนหน้าจอทีละ 1074 พิกเซลแบบเจาะจงมากหลายครั้ง) และจนถึงตอนนี้ก็ยังค้างอยู่ที่สถานะ "Validating task completion..." ระหว่างรอสรุปอยู่<br>ในเชิงความสามารถมันดูทรงพลัง แต่ต้องคอยช่วยเยอะเกินไปและช้ามากจนรู้สึกว่าใช้งานจริงไม่ได้<br>อนึ่ง ผมมี Nxtscape ติดตั้งอยู่ด้วย เลยลองการทดลองเดียวกัน พบว่ามันทำงานเสร็จเร็วกว่าและใช้แอ็กชันน้อยกว่า แต่ไม่แน่ใจว่าเป็นเรื่องบังเอิญหรือเพราะตรรกะภายในต่างกัน<br>แล้วก็มี Chrome extension ที่ทำให้ใช้รหัสผ่าน iCloud ใน Chrome ได้ แต่ใช้กับ Nxtscape และ BrowserOS ไม่ได้ ถ้ายังต้องเปิดตัวจัดการรหัสผ่านเองตลอด ผมคงไม่ใช้เบราว์เซอร์แบบนี้ และก็ไม่ได้มีแผนจะเปลี่ยนตัวจัดการรหัสผ่านด้วย
    • เราเปลี่ยนชื่อเพื่อป้องกันปัญหาที่อาจเกิดขึ้น และชื่อเดิมก็ออกเสียงยากด้วย ขอบคุณสำหรับฟีดแบ็ก ถ้าไปคุยกันต่อใน Discord(https://discord.gg/YKwjt5vuKr) จะดีมาก! ทีมเราปล่อยอัปเดตทุกวันและกำลังปรับปรุงอย่างรวดเร็วมาก และ agent ก็น่าจะดีขึ้นอย่างมากภายในไม่กี่วัน เราจะตรวจสอบเรื่องส่วนขยายรหัสผ่าน iCloud ด้วย เป้าหมายคือทำให้ onboarding และการจัดการรหัสผ่านง่ายขึ้นมาก
  • ถ้านี่คือ privacy first browser ก็สงสัยว่าทำไมถึงไม่ใช้ Firefox เพราะ Firefox เหมาะกับจุดประสงค์นี้มากกว่าและเป็นตัวเลือกที่ดีกว่าโดยพื้นฐานอยู่แล้ว เบราว์เซอร์ที่เน้นความปลอดภัย/ความเป็นส่วนตัวอย่าง Tor Browser, Mullvad Browser, LibreWolf ล้วนใช้เอนจิน Firefox ทั้งหมด<br>และผมคิดว่าเราจำเป็นต้องมี "เอนจินเว็บเบราว์เซอร์" ที่หลากหลายจริง ๆ ถ้าสุดท้ายเหลือใช้แค่เอนจินของบริษัทเทคยักษ์ใหญ่ ฝั่งผู้บริโภคจะเสียประโยชน์มากและนวัตกรรมก็จะถูกขัดขวาง<br>เราควรสนับสนุนเบราว์เซอร์อิสระอย่าง Firefox ให้มากกว่านี้
    • เป็นการตัดสินใจที่ยากมากจริง ๆ เราได้คุยกับคนที่เคยสร้างเบราว์เซอร์บน webkit แล้ว เขาบอกว่าแค่การแก้บั๊กสุ่ม ๆ และจัดการปัญหาความเข้ากันได้กับเว็บไซต์ก็ใช้เวลาเกือบ 2 ปีแล้ว firefox/gecko อาจจะดีกว่า webkit แต่สรุปคือถ้าใช้เอนจินที่ไม่ใช่ chromium ก็จะมีงานเพิ่มมหาศาล ทั้งเรื่องความเข้ากันได้ของเว็บไซต์และการรองรับส่วนขยาย พวกเราเป็นสตาร์ตอัปที่มีแค่ 2 คน และ codebase ของ chromium ก็เป็นจุดเริ่มต้นที่ build ได้ง่ายกว่ามาก เลยเลือกทางนี้ อีกอย่างคือ คุณก็สามารถทำเบราว์เซอร์ที่เน้นความเป็นส่วนตัวได้มากพอบนฐาน chromium แบบ Brave เช่นกัน โดยเฉพาะในยุค agentic browser ยังมีเรื่องความเป็นส่วนตัวที่ปรับปรุงได้ทันทีอีกมาก——เช่น การส่งข้อมูลอ่อนไปให้ Perplexity Comet เพื่อหารายได้จากโฆษณาเป็นอะไรที่แย่มาก การรองรับ local LLM หรือเปิดให้ผู้ใช้ใช้ API key ของตัวเองสำคัญกว่ามาก
    • ผมก็มีคำถามเดียวกันเป๊ะ สงสัยว่าถ้าบอกว่าเน้นความเป็นส่วนตัว แล้วทำไมถึงใช้ chromium
  • ผมเห็นข้อความว่า "แพตช์ซอร์สโค้ด C++ ของ Chrome โดยตรง เพื่อให้ได้ความปลอดภัยแบบเดียวกับ Google Chrome" ถ้าอย่างนั้นก็สงสัยว่าทุกครั้งที่ Chromium อัปเดต พวกคุณต้อง build ใหม่เองทุกครั้งหรือเปล่า เพราะบางทีแพตช์ที่ดูเหมือนมี commit message ธรรมดา ๆ แท้จริงแล้วเกี่ยวกับช่องโหว่ร้ายแรง และจะถูกเปิดเผยเป็น CVE หลังผ่านไป 90 วันบ่อยมาก
    • เป็นคำถามที่ดี ตอนนี้เรายังคง build ต่อเนื่องโดยอิงจากเวอร์ชันรีลีสของ Chromium ที่ Google Chrome ใช้อยู่
  • ผมว่าน่าจะดีกว่าถ้าให้สิ่งนี้มาในรูปแบบส่วนขยายเบราว์เซอร์ ไม่ใช่เบราว์เซอร์แยกต่างหาก
    • เดิมทีเราก็อยากทำเป็นส่วนขยายเบราว์เซอร์เหมือนกัน<br>แต่เราคิดว่าถ้าจะสร้าง agent copilot ที่ดีจริง จำเป็นต้องมีการเปลี่ยนแปลงหลายอย่างในระดับ Chromium C++ เช่น Chromium มี accessibility tree ของทุกเว็บไซต์อยู่แล้ว แต่ดึงสิ่งนั้นผ่าน chrome extension API ไม่ได้ การเข้าถึง accessibility tree โดยตรงช่วยเพิ่มประสิทธิภาพของ agent ได้มาก นอกจากนี้เรายังเพิ่มความสามารถหลายอย่างให้ agent โต้ตอบกับเว็บไซต์ได้ เช่น การคลิกหรือดัชนีของ element ในระดับ C++ ถ้าทำสิ่งเหล่านี้ด้วย JS จะช้ากว่า 20-40 เท่า
    • เราก็คิดเหมือนกันทุกประการ เราไม่คิดว่าการทำฟีเจอร์แบบ agentic จำเป็นต้องใช้ทั้งเบราว์เซอร์เสมอไป ภายใต้สิทธิ์ที่จำกัด ส่วนขยายเบราว์เซอร์ก็เพียงพอที่จะทำได้ Google ปล่อยแพตช์ zero day โดยตรงอยู่บ่อย และยังมีฟีเจอร์บางอย่างที่ Google ไม่ได้นำเข้า Chromium ดังนั้นในฐานะเบราว์เซอร์หลักของผม ผมจึงเชื่อถือโอเพนซอร์สฟอร์กสุ่ม ๆ ไม่ได้ ขอแนะนำ AI Web Agent browser extension อย่าง rtrvr.ai(https://rtrvr.ai) ซึ่งทำมาให้เข้ากับเวิร์กโฟลว์ของผู้ใช้อยู่แล้ว
    • ตอนที่เห็นมีการพูดถึง nanobrowser ที่นี่ ผมก็คิดแบบเดียวกัน
    • https://github.com/nanobrowser/nanobrowser น่าลอง
  • นี่เป็นโปรเจกต์คล้ายกับ nanobrowser ที่เป็น chrome extension https://github.com/nanobrowser/nanobrowser
    • ผมกวาดดูหน้าโปรเจกต์อย่างรวดเร็วแล้ว ดูเหมือนว่าจะใช้ external LLM API key ขณะที่โปรเจกต์นี้ที่แนะนำในโพสต์ต้นฉบับดูเหมือนจะใช้ transformer.js เพื่อให้รัน LLM แบบ local
    • ถ้าฟีเจอร์แบบนี้ทำเป็นส่วนขยายได้อยู่แล้ว ก็สงสัยว่าทำไมต้องฟอร์กซอฟต์แวร์เดิมมาสร้างด้วย ผมอยากรู้ว่าระหว่าง nanobrowser กับ browserOS มีความสามารถไหนที่ browserOS ทำได้ชัดเจนแต่ nanobrowser ไม่มี หรือมีความต่างสำคัญอะไรที่ควรชี้ให้ชัด
    • ขอบคุณที่ช่วยพูดถึง
  • มีข้อความว่า "<i>หลังจากที่ Chrome บล็อก uBlock Origin เราก็กำลังสร้างตัวบล็อกโฆษณาแบบใช้ LLM ด้วย</i>" แต่ถ้ายังไงก็เป็น Chromium fork อยู่แล้ว ก็สงสัยว่าเอา uBlock Origin กลับมาใช้ไม่ได้หรือ
    • Chromium กำลังจะถอด Manifest V2 API ออก และดูเหมือนจะไม่มีฟอร์กไหนอยากแบกสิ่งนี้ไว้ต่อ แม้แต่ Brave เองก็ยังทำตัวบล็อกโฆษณาในตัวขึ้นมาแยกต่างหาก<br>คำถามจริง ๆ คือ "ทำไมไม่ฟอร์ก Firefox แต่กลับเลือก Chromium ทั้งที่ Firefox จัดการเรื่องนี้ได้อยู่แล้ว"
  • อยากรู้โรดแมปสำหรับ Linux เพราะผมไม่มี Mac หรือ Windows
    • เรารับทราบเรื่องนี้อยู่ และน่าจะรองรับได้ภายในต้นสัปดาห์หน้า เรายังเป็นทีม 2 คนอยู่ เลยมีงานให้ทำเยอะมากจริง ๆ
  • ผมอยากเห็น AI ขยับเคอร์เซอร์เมาส์เอง คลิกเอง และแสดงการพิมพ์บนหน้าจอแบบเรียลไทม์ เหมือนซอฟต์แวร์สอนใช้งาน ให้รู้สึกเหมือนมีคนจริงกำลังใช้อยู่<br>ตอนนี้เวลา AI เปลี่ยนหน้าและทำให้ UI กระโดดไปมา มันให้ความรู้สึกกระตุกจนตามลำดับเหตุการณ์ได้ยาก<br>มีคำใบ้น้อยเกินไปว่าจะต้องโฟกัสดูอะไร เลยให้ความรู้สึกเหมือนกำลังดู screen recording เฉย ๆ<br>ถึงอย่างนั้นก็คิดว่าน่าจะมี use-case ที่มีประโยชน์ในสายอย่าง mcp/browser automation และคาดหวังว่าจะพัฒนาต่อไปได้มากในอนาคต
    • เป็นฟีดแบ็กที่มีประโยชน์มาก ขอบคุณ!<br>เราจะดูว่าสามารถเพิ่มการเคลื่อนไหวของเคอร์เซอร์ได้หรือไม่ ส่วนการพิมพ์ตอนนี้ก็แสดงให้ดูเหมือนคนจริงอยู่แล้ว แต่คิดว่าน่าจะปรับให้ดูช้าลงอีกนิดได้
    • ผมคิดว่าสิ่งที่ต้องการจริง ๆ คือ caretaker ai
  • ยินดีด้วย!<br>สงสัยว่าโปรเจกต์นี้วางแผนจะทำให้ยั่งยืนอย่างไรในแง่การเงิน การพัฒนา และการบำรุงรักษา
    • ขอบคุณ!<br>โดยหลักแล้วเราจะเดินแนวเดียวกับโปรเจกต์โอเพนซอร์สอื่น ๆ คือขายไลเซนส์สำหรับเวอร์ชัน Enterprise ของเบราว์เซอร์
    • ผมเดาว่ามันน่าจะเป็นแค่แอป electron หรือ chromium wrapper ที่เอา ollama wrapper มาประกบกัน (ก็มีไลบรารีโอเพนซอร์สฟรีมากมายที่ควบคุมเบราว์เซอร์ได้อยู่แล้ว)