BrowserOS – ทางเลือกโอเพนซอร์สแทน Perplexity Comet

(browseros.com)

9 คะแนน โดย GN⁺ 2025-07-14 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

BrowserOS เป็นทางเลือกโอเพนซอร์สที่เน้นความเป็นส่วนตัวแทน Perplexity Comet โดยเป็น เบราว์เซอร์เชิงเอเจนต์ ที่รัน AI agent ได้ในเครื่องแบบโลคัล
สร้างจากการฟอร์ก Chromium จึงรองรับส่วนขยาย Chrome ที่มีอยู่ทั้งหมด และมีจุดเด่นคือ ข้อมูลผู้ใช้ถูกเก็บไว้ในเครื่องเท่านั้น
เชื่อมต่อกับผู้ให้บริการ AI ได้หลากหลาย เช่น OpenAI, Anthropic, Ollama และสามารถใช้ API key ส่วนตัว หรือ โมเดลโลคัล ได้
มาพร้อมเครื่องมือเพิ่มประสิทธิภาพการทำงานสมัยใหม่ เช่น ไฮไลต์เตอร์แบบเนทีฟ, บุ๊กมาร์กที่ใช้ ChatGPT, การค้นหาเชิงความหมาย และเร็ว ๆ นี้ยังเตรียมรองรับ ระบบบล็อกโฆษณาที่ขับเคลื่อนด้วย AI
ต่างจากเบราว์เซอร์แบบเดิมตรงที่ ข้อมูลจะไม่ถูกส่งไปยังบริษัทเสิร์ช/โฆษณา และ AI จะทำเวิร์กโฟลว์อัตโนมัติในเครื่องแบบโลคัล

ภาพรวมของ BrowserOS

BrowserOS คือ เบราว์เซอร์เอเจนต์ แบบโอเพนซอร์ส ที่มอบสภาพแวดล้อมให้ AI agent ทำงานได้โดยตรงบนคอมพิวเตอร์ของผู้ใช้
ด้วยแนวคิด ให้ความสำคัญกับความเป็นส่วนตัวเป็นอันดับแรก จึงใช้ API key หรือ โมเดลโลคัล อย่าง Ollama เพื่อไม่ให้ข้อมูลรั่วไหลออกสู่ภายนอก
เนื่องจากพัฒนาบนพื้นฐานการฟอร์ก Chromium จึงมี อินเทอร์เฟซผู้ใช้เหมือน Chrome และใช้งานส่วนขยาย Chrome ได้ทั้งหมด

ฟีเจอร์หลัก

AI agent และการรันแบบโลคัล
- ภายในเบราว์เซอร์ AI agent จะรันแบบโลคัลโดยตรง เพื่อจัดการงานซ้ำ ๆ และเวิร์กโฟลว์อัตโนมัติ
- ผสานรวมกับ Ollama เพื่อให้รัน large language model บนคอมพิวเตอร์ของตนเองแทนคลาวด์ พร้อม รับประกันความเป็นส่วนตัวของข้อมูล
เครื่องมือเพิ่มประสิทธิภาพการทำงาน
- รองรับเครื่องมือเสริมประสิทธิภาพที่มีมาในเบราว์เซอร์ เช่น ไฮไลต์เตอร์, บุ๊กมาร์ก ChatGPT
- ใช้ การค้นหาเชิงความหมาย เพื่อค้นหาข้อมูลเบราว์เซอร์ เช่น ประวัติ/บุ๊กมาร์ก ได้อย่างรวดเร็ว
การบล็อกโฆษณาและ MCP Store (เร็ว ๆ นี้)
- การบล็อกโฆษณาด้วย AI (เร็ว ๆ นี้) เตรียมเป็นทางเลือกหลัง Chrome ปิดกั้น uBlock Origin
- ใน MCP (Multi Command Package) Store (เร็ว ๆ นี้) สามารถติดตั้ง MCP ยอดนิยมได้ในคลิกเดียวและใช้งานได้ทันทีจากแถบเบราว์เซอร์
โอเพนซอร์สและขับเคลื่อนโดยชุมชน
- ใช้สัญญาอนุญาต AGPL-3.0 เป็นโอเพนซอร์ส 100% รับประกันความโปร่งใสของโค้ดและการทำงาน
- ส่งเสริมการมีส่วนร่วมและการร่วมพัฒนาอย่างจริงจังจากชุมชน

ตัวอย่างการใช้งานเด่น

ทำงานซ้ำ ๆ ที่น่าเบื่อให้เป็นอัตโนมัติ: AI จัดการจองประชุม กรอกฟอร์ม และงานที่ต้องทำซ้ำให้โดยอัตโนมัติ
Deep Research: สำรวจเว็บและสร้างรายงานสรุป ช่วยรวบรวมข้อมูลได้อย่างมีประสิทธิภาพโดยไม่ต้องจัดการแท็บด้วยมือ
สแกนคอนเทนต์โซเชียล: คัดกรองและจัดระเบียบโพสต์ที่มีความหมายจาก LinkedIn, Twitter ฯลฯ ได้โดยอัตโนมัติ

เปรียบเทียบกับเบราว์เซอร์อื่น

Chrome: แทบไม่มีการเปลี่ยนแปลงใหญ่ในรอบ 10 ปี และยังไม่มีฟีเจอร์ AI/ระบบอัตโนมัติ/MCP
Brave: ใช้กลยุทธ์แบบกระจายไปยังคริปโต เสิร์ช และ VPN จึงไม่ได้โฟกัสที่ AI browser
Arc/Dia: เป็นระบบปิด ไม่ใช่โอเพนซอร์ส และไม่มีทางเลือกหากเลิกให้บริการ
Perplexity Comet: มีศูนย์กลางอยู่ที่บริษัทเสิร์ช/โฆษณา และ ส่งข้อมูลผู้ใช้ไปยังเซิร์ฟเวอร์ ขณะที่ BrowserOS เก็บข้อมูลทั้งหมดไว้ในเครื่องเท่านั้น

การติดตั้งและเริ่มต้นใช้งาน

รองรับการดาวน์โหลดสำหรับ macOS และ Windows
นำเข้าข้อมูลจาก Chrome ได้ (ไม่บังคับ)
เชื่อมต่อผู้ให้บริการ AI (OpenAI, Anthropic, Ollama ฯลฯ)
เริ่มใช้งานระบบอัตโนมัติของเอเจนต์ได้ทันที

สัญญาอนุญาต

ใช้ สัญญาอนุญาตโอเพนซอร์ส AGPL-3.0

2 ความคิดเห็น

luiseok 2025-07-14

https://th.news.hada.io/topic?id=21581
รู้สึกคุ้น ๆ อยู่ พอไปดูแล้วก็พบว่าเป็น Nxtscape ที่แค่เปลี่ยนชื่อเท่านั้นเอง

GN⁺ 2025-07-14

ความคิดเห็นจาก Hacker News

ตัวอย่างการซื้อยาสีฟันที่แสดงในเดโมสะท้อนให้เห็นว่างานพวกนี้ยากแค่ไหน เพราะคำว่า "ยาสีฟัน" เองก็คลุมเครือมาก สุดท้ายก็เหมือนสุ่มเลือกจากรายการขนาดมหาศาล บางงานอาจใช้การกระทำก่อนหน้าเป็นแนวทางได้ แต่บางกรณีก็ทำไม่ได้ เช่น ถ้ายาสีฟันที่เคยซื้อหมด ก็ไม่รู้ว่าควรทำอย่างไรต่อ เลยสงสัยว่าตัวอย่างแบบนี้ช่วยประหยัดเวลาได้จริงหรือไม่ เพราะยังไงก็ต้องมาตรวจผลลัพธ์อยู่ดี เท่ากับทำงานซ้ำสองรอบ คิดว่านี่จึงเป็นเหตุผลว่าทำไมระบบอย่าง Alexa ถึงไม่สามารถมอบประสบการณ์การซื้อของตามที่ Amazon คาดหวังไว้ในตอนแรกได้ น่าจะแสดงตัวอย่างที่ซับซ้อนกว่านี้ซึ่งเห็นชัดว่าประหยัดเวลาและมีกรณีล้มเหลวน้อย หรือไม่ก็ควรเน้นว่าระบบจะกู้คืนจากกรณีล้มเหลวอย่างไร จะมี UI ที่ออกแบบมาสำหรับปัญหาเฉพาะหรือแก้ด้วยแชต สรุปคือผมคิดว่าโลกนี้ทั้งหมดไม่ใช่เรื่องง่ายเลย ขอให้ทุกคนโชคดี
- เห็นด้วยเลย วงการ agentic browser โดยรวมยังอยู่ในช่วงตั้งไข่ พวกเราก็เพิ่งเริ่มต้นและกำลังพยายามหา use-case เฉพาะทางที่มีคุณค่าอยู่ มีงานที่ทำซ้ำและน่าเบื่อบางแบบที่เห็นผลเรื่องการประหยัดเวลาได้ชัดเจน เช่น ผู้ขายบุคคลที่สามบน Walmart ที่ต้องเช็กราคาคู่แข่งหลายครั้งต่อวันแล้วปรับราคาสินค้าของตัวเอง งานแบบนี้ทำอัตโนมัติด้วย agentic browser ได้ไม่ยาก
- ผมคิดว่ามันควรทำงานให้สอดคล้องกับรสนิยมด้านความสวยงามของผู้ใช้แต่ละคนได้ด้วย แต่ถ้าทำแบบนั้นก็น่าจะกลายเป็นฝันร้ายด้านความปลอดภัย
ผมติดตั้ง Nxtscape ไว้อยู่แล้ว แต่ไม่รู้ว่าเปลี่ยนชื่อสินค้า พอรัน BrowserOS ก็ถึงกับงง เพราะ UI เดิมกับหน้าต่างแชตที่มีอีโมจิจิ้งจอกก็ยังเหมือนเดิมเป๊ะ พูดตามตรงผมชอบชื่อเก่ามากกว่า เดาว่าเปลี่ยนเพราะเหตุผลทางกฎหมาย ผมลองสั่งให้มันสรุปคอมเมนต์ของบทความใน Arstechnica แต่ตอนแรกได้แค่คำตอบว่า "ไม่สามารถสรุปได้เพราะไม่มีคอมเมนต์รวมอยู่ด้วย" ต้องสั่งให้มันกดลิงก์ "comments" เองก่อน มันถึงจะเริ่มอ่านคอมเมนต์จริง ๆ แล้วหน้าคอมเมนต์มีทั้งหมด 3 หน้า มันใช้เวลาเกิน 20 นาที ทำแอ็กชันไปราว 100 ครั้ง (ในนั้นมีการเลื่อนหน้าจอทีละ 1074 พิกเซลแบบเจาะจงมากหลายครั้ง) และจนถึงตอนนี้ก็ยังค้างอยู่ที่สถานะ "Validating task completion..." ระหว่างรอสรุปอยู่ ในเชิงความสามารถมันดูทรงพลัง แต่ต้องคอยช่วยเยอะเกินไปและช้ามากจนรู้สึกว่าใช้งานจริงไม่ได้ อนึ่ง ผมมี Nxtscape ติดตั้งอยู่ด้วย เลยลองการทดลองเดียวกัน พบว่ามันทำงานเสร็จเร็วกว่าและใช้แอ็กชันน้อยกว่า แต่ไม่แน่ใจว่าเป็นเรื่องบังเอิญหรือเพราะตรรกะภายในต่างกัน แล้วก็มี Chrome extension ที่ทำให้ใช้รหัสผ่าน iCloud ใน Chrome ได้ แต่ใช้กับ Nxtscape และ BrowserOS ไม่ได้ ถ้ายังต้องเปิดตัวจัดการรหัสผ่านเองตลอด ผมคงไม่ใช้เบราว์เซอร์แบบนี้ และก็ไม่ได้มีแผนจะเปลี่ยนตัวจัดการรหัสผ่านด้วย
- เราเปลี่ยนชื่อเพื่อป้องกันปัญหาที่อาจเกิดขึ้น และชื่อเดิมก็ออกเสียงยากด้วย ขอบคุณสำหรับฟีดแบ็ก ถ้าไปคุยกันต่อใน Discord(https://discord.gg/YKwjt5vuKr) จะดีมาก! ทีมเราปล่อยอัปเดตทุกวันและกำลังปรับปรุงอย่างรวดเร็วมาก และ agent ก็น่าจะดีขึ้นอย่างมากภายในไม่กี่วัน เราจะตรวจสอบเรื่องส่วนขยายรหัสผ่าน iCloud ด้วย เป้าหมายคือทำให้ onboarding และการจัดการรหัสผ่านง่ายขึ้นมาก
ถ้านี่คือ privacy first browser ก็สงสัยว่าทำไมถึงไม่ใช้ Firefox เพราะ Firefox เหมาะกับจุดประสงค์นี้มากกว่าและเป็นตัวเลือกที่ดีกว่าโดยพื้นฐานอยู่แล้ว เบราว์เซอร์ที่เน้นความปลอดภัย/ความเป็นส่วนตัวอย่าง Tor Browser, Mullvad Browser, LibreWolf ล้วนใช้เอนจิน Firefox ทั้งหมด และผมคิดว่าเราจำเป็นต้องมี "เอนจินเว็บเบราว์เซอร์" ที่หลากหลายจริง ๆ ถ้าสุดท้ายเหลือใช้แค่เอนจินของบริษัทเทคยักษ์ใหญ่ ฝั่งผู้บริโภคจะเสียประโยชน์มากและนวัตกรรมก็จะถูกขัดขวาง เราควรสนับสนุนเบราว์เซอร์อิสระอย่าง Firefox ให้มากกว่านี้
- เป็นการตัดสินใจที่ยากมากจริง ๆ เราได้คุยกับคนที่เคยสร้างเบราว์เซอร์บน webkit แล้ว เขาบอกว่าแค่การแก้บั๊กสุ่ม ๆ และจัดการปัญหาความเข้ากันได้กับเว็บไซต์ก็ใช้เวลาเกือบ 2 ปีแล้ว firefox/gecko อาจจะดีกว่า webkit แต่สรุปคือถ้าใช้เอนจินที่ไม่ใช่ chromium ก็จะมีงานเพิ่มมหาศาล ทั้งเรื่องความเข้ากันได้ของเว็บไซต์และการรองรับส่วนขยาย พวกเราเป็นสตาร์ตอัปที่มีแค่ 2 คน และ codebase ของ chromium ก็เป็นจุดเริ่มต้นที่ build ได้ง่ายกว่ามาก เลยเลือกทางนี้ อีกอย่างคือ คุณก็สามารถทำเบราว์เซอร์ที่เน้นความเป็นส่วนตัวได้มากพอบนฐาน chromium แบบ Brave เช่นกัน โดยเฉพาะในยุค agentic browser ยังมีเรื่องความเป็นส่วนตัวที่ปรับปรุงได้ทันทีอีกมาก——เช่น การส่งข้อมูลอ่อนไปให้ Perplexity Comet เพื่อหารายได้จากโฆษณาเป็นอะไรที่แย่มาก การรองรับ local LLM หรือเปิดให้ผู้ใช้ใช้ API key ของตัวเองสำคัญกว่ามาก
- ผมก็มีคำถามเดียวกันเป๊ะ สงสัยว่าถ้าบอกว่าเน้นความเป็นส่วนตัว แล้วทำไมถึงใช้ chromium
ผมเห็นข้อความว่า "แพตช์ซอร์สโค้ด C++ ของ Chrome โดยตรง เพื่อให้ได้ความปลอดภัยแบบเดียวกับ Google Chrome" ถ้าอย่างนั้นก็สงสัยว่าทุกครั้งที่ Chromium อัปเดต พวกคุณต้อง build ใหม่เองทุกครั้งหรือเปล่า เพราะบางทีแพตช์ที่ดูเหมือนมี commit message ธรรมดา ๆ แท้จริงแล้วเกี่ยวกับช่องโหว่ร้ายแรง และจะถูกเปิดเผยเป็น CVE หลังผ่านไป 90 วันบ่อยมาก
- เป็นคำถามที่ดี ตอนนี้เรายังคง build ต่อเนื่องโดยอิงจากเวอร์ชันรีลีสของ Chromium ที่ Google Chrome ใช้อยู่
ผมว่าน่าจะดีกว่าถ้าให้สิ่งนี้มาในรูปแบบส่วนขยายเบราว์เซอร์ ไม่ใช่เบราว์เซอร์แยกต่างหาก
- เดิมทีเราก็อยากทำเป็นส่วนขยายเบราว์เซอร์เหมือนกัน แต่เราคิดว่าถ้าจะสร้าง agent copilot ที่ดีจริง จำเป็นต้องมีการเปลี่ยนแปลงหลายอย่างในระดับ Chromium C++ เช่น Chromium มี accessibility tree ของทุกเว็บไซต์อยู่แล้ว แต่ดึงสิ่งนั้นผ่าน chrome extension API ไม่ได้ การเข้าถึง accessibility tree โดยตรงช่วยเพิ่มประสิทธิภาพของ agent ได้มาก นอกจากนี้เรายังเพิ่มความสามารถหลายอย่างให้ agent โต้ตอบกับเว็บไซต์ได้ เช่น การคลิกหรือดัชนีของ element ในระดับ C++ ถ้าทำสิ่งเหล่านี้ด้วย JS จะช้ากว่า 20-40 เท่า
- เราก็คิดเหมือนกันทุกประการ เราไม่คิดว่าการทำฟีเจอร์แบบ agentic จำเป็นต้องใช้ทั้งเบราว์เซอร์เสมอไป ภายใต้สิทธิ์ที่จำกัด ส่วนขยายเบราว์เซอร์ก็เพียงพอที่จะทำได้ Google ปล่อยแพตช์ zero day โดยตรงอยู่บ่อย และยังมีฟีเจอร์บางอย่างที่ Google ไม่ได้นำเข้า Chromium ดังนั้นในฐานะเบราว์เซอร์หลักของผม ผมจึงเชื่อถือโอเพนซอร์สฟอร์กสุ่ม ๆ ไม่ได้ ขอแนะนำ AI Web Agent browser extension อย่าง rtrvr.ai(https://rtrvr.ai) ซึ่งทำมาให้เข้ากับเวิร์กโฟลว์ของผู้ใช้อยู่แล้ว
- ตอนที่เห็นมีการพูดถึง nanobrowser ที่นี่ ผมก็คิดแบบเดียวกัน
- https://github.com/nanobrowser/nanobrowser น่าลอง
นี่เป็นโปรเจกต์คล้ายกับ nanobrowser ที่เป็น chrome extension https://github.com/nanobrowser/nanobrowser
- ผมกวาดดูหน้าโปรเจกต์อย่างรวดเร็วแล้ว ดูเหมือนว่าจะใช้ external LLM API key ขณะที่โปรเจกต์นี้ที่แนะนำในโพสต์ต้นฉบับดูเหมือนจะใช้ transformer.js เพื่อให้รัน LLM แบบ local
- ถ้าฟีเจอร์แบบนี้ทำเป็นส่วนขยายได้อยู่แล้ว ก็สงสัยว่าทำไมต้องฟอร์กซอฟต์แวร์เดิมมาสร้างด้วย ผมอยากรู้ว่าระหว่าง nanobrowser กับ browserOS มีความสามารถไหนที่ browserOS ทำได้ชัดเจนแต่ nanobrowser ไม่มี หรือมีความต่างสำคัญอะไรที่ควรชี้ให้ชัด
- ขอบคุณที่ช่วยพูดถึง
มีข้อความว่า "หลังจากที่ Chrome บล็อก uBlock Origin เราก็กำลังสร้างตัวบล็อกโฆษณาแบบใช้ LLM ด้วย" แต่ถ้ายังไงก็เป็น Chromium fork อยู่แล้ว ก็สงสัยว่าเอา uBlock Origin กลับมาใช้ไม่ได้หรือ
- Chromium กำลังจะถอด Manifest V2 API ออก และดูเหมือนจะไม่มีฟอร์กไหนอยากแบกสิ่งนี้ไว้ต่อ แม้แต่ Brave เองก็ยังทำตัวบล็อกโฆษณาในตัวขึ้นมาแยกต่างหาก คำถามจริง ๆ คือ "ทำไมไม่ฟอร์ก Firefox แต่กลับเลือก Chromium ทั้งที่ Firefox จัดการเรื่องนี้ได้อยู่แล้ว"
อยากรู้โรดแมปสำหรับ Linux เพราะผมไม่มี Mac หรือ Windows
- เรารับทราบเรื่องนี้อยู่ และน่าจะรองรับได้ภายในต้นสัปดาห์หน้า เรายังเป็นทีม 2 คนอยู่ เลยมีงานให้ทำเยอะมากจริง ๆ
ผมอยากเห็น AI ขยับเคอร์เซอร์เมาส์เอง คลิกเอง และแสดงการพิมพ์บนหน้าจอแบบเรียลไทม์ เหมือนซอฟต์แวร์สอนใช้งาน ให้รู้สึกเหมือนมีคนจริงกำลังใช้อยู่ ตอนนี้เวลา AI เปลี่ยนหน้าและทำให้ UI กระโดดไปมา มันให้ความรู้สึกกระตุกจนตามลำดับเหตุการณ์ได้ยาก มีคำใบ้น้อยเกินไปว่าจะต้องโฟกัสดูอะไร เลยให้ความรู้สึกเหมือนกำลังดู screen recording เฉย ๆ ถึงอย่างนั้นก็คิดว่าน่าจะมี use-case ที่มีประโยชน์ในสายอย่าง mcp/browser automation และคาดหวังว่าจะพัฒนาต่อไปได้มากในอนาคต
- เป็นฟีดแบ็กที่มีประโยชน์มาก ขอบคุณ! เราจะดูว่าสามารถเพิ่มการเคลื่อนไหวของเคอร์เซอร์ได้หรือไม่ ส่วนการพิมพ์ตอนนี้ก็แสดงให้ดูเหมือนคนจริงอยู่แล้ว แต่คิดว่าน่าจะปรับให้ดูช้าลงอีกนิดได้
- ผมคิดว่าสิ่งที่ต้องการจริง ๆ คือ caretaker ai
ยินดีด้วย! สงสัยว่าโปรเจกต์นี้วางแผนจะทำให้ยั่งยืนอย่างไรในแง่การเงิน การพัฒนา และการบำรุงรักษา
- ขอบคุณ! โดยหลักแล้วเราจะเดินแนวเดียวกับโปรเจกต์โอเพนซอร์สอื่น ๆ คือขายไลเซนส์สำหรับเวอร์ชัน Enterprise ของเบราว์เซอร์
- ผมเดาว่ามันน่าจะเป็นแค่แอป electron หรือ chromium wrapper ที่เอา ollama wrapper มาประกบกัน (ก็มีไลบรารีโอเพนซอร์สฟรีมากมายที่ควบคุมเบราว์เซอร์ได้อยู่แล้ว)

BrowserOS – ทางเลือกโอเพนซอร์สแทน Perplexity Comet

ภาพรวมของ BrowserOS

ฟีเจอร์หลัก

AI agent และการรันแบบโลคัล

เครื่องมือเพิ่มประสิทธิภาพการทำงาน

การบล็อกโฆษณาและ MCP Store (เร็ว ๆ นี้)

โอเพนซอร์สและขับเคลื่อนโดยชุมชน