- ChatGPT Atlas เป็น เว็บเบราว์เซอร์ที่ใช้ AI ตัวใหม่ที่มี ChatGPT เป็นแกนหลัก โดยมีเป้าหมายในการผสานบริบทของผู้ใช้ เครื่องมือ และงานเข้าด้วยกันเพื่อพัฒนาไปสู่ “ซูเปอร์แอสซิสแตนต์”
- Atlas ให้ความสามารถที่ ChatGPT จะร่วมอยู่กับผู้ใช้ในทุกจุดที่สำรวจบนเว็บและช่วยให้สามารถทำงาน โดยไม่ต้องออกจากหน้า พร้อมทั้งสนับสนุนการเข้าใจบริบทได้ดีขึ้น
- ด้วย Browser Memory (ความจำของเบราว์เซอร์) ทำให้จำบริบทของเว็บไซต์ที่ผู้ใช้เข้าเยี่ยมชม และรองรับการตอบคำถาม การสรุปผล หรือการวางแผนงานต่างๆ จากฐานข้อมูลนั้น
- ผ่าน Agent Mode (โหมดเอเจนต์) ChatGPT สามารถดำเนินการเชิงปฏิบัติจริงภายในสภาพแวดล้อมการท่องเว็บของผู้ใช้ได้ เช่น เปิดแท็บ ค้นหาข้อมูล สำรองที่นั่ง/จอง และสั่งซื้อ
- เปิดให้ใช้งานทั่วโลกบน macOS แล้ว และมีแผนจัดทำเวอร์ชัน Windows, iOS และ Android ในอนาคต ถือเป็น ขั้นตอนใหม่ ของการท่องเว็บด้วย AI
- ChatGPT Atlas คือเครื่องมือ เว็บเบราว์เซอร์ที่ผสาน ChatGPT และเว็บเบราว์เซอร์ เข้าด้วยกัน
- มีเป้าหมายเป็นสภาพแวดล้อมเบราว์เซอร์อัจฉริยะที่ไม่ได้จำกัดแค่การค้นหา แต่สามารถเข้าใจบริบทของผู้ใช้และลงมือปฏิบัติได้ด้วย
- หลังจากที่ฟีเจอร์ การค้นหาเว็บ ของ ChatGPT ในเวอร์ชันก่อนหน้าขยายตัวอย่างรวดเร็ว OpenAI ได้ออกแบบใหม่ให้ตัวเบราว์เซอร์เองขับเคลื่อนด้วย AI เพื่อรองรับ การทำงานอัตโนมัติ การวิจัย และการวางแผนตารางเวลา
- ผู้ใช้สามารถรับความช่วยเหลือจาก ChatGPT โดยตรงภายในหน้าต่างของ Atlas โดยไม่ต้องคัดลอกและวางข้อความไปมา
ฟังก์ชันความจำของเบราว์เซอร์
- Atlas เก็บ Browser Memory จากข้อมูลเว็บไซต์ที่ผู้ใช้เยี่ยมชมเพื่อให้การสนทนาแบบอิงบริบทและการช่วยเหลือแบบปรับแต่งได้เหมาะสมมากขึ้น
- ตัวอย่าง: คำสั่งอย่าง “สรุปประกาศรับสมัครงานที่เคยดูเมื่อสัปดาห์ที่แล้ว” จะถูกประมวลผลอัตโนมัติ
- ความจำถูกจัดการโดย การควบคุมของผู้ใช้แบบเต็มที่ โดยผู้ใช้สามารถ ดู / เก็บถาวร / ลบ ได้ทุกเมื่อ
- หากลบประวัติการท่องเว็บ ความจำที่เกี่ยวข้องก็จะถูกลบไปด้วย และสามารถปรับช่วงการจดจำให้เป็นระดับเว็บไซต์ได้
- โดยค่าเริ่มต้น เนื้อหาการท่องเว็บจะไม่ถูกนำไปใช้ในการฝึกโมเดล และจะถูกนำเข้าเป็นข้อมูลการฝึกก็ต่อเมื่อผู้ใช้เลือก opt-in อย่างชัดแจ้งเท่านั้น
โหมดเอเจนต์ (Agent Mode)
- Agent Mode ที่ฝังอยู่ใน Atlas คือความสามารถที่ทำให้ ChatGPT ทำงานในเบราว์เซอร์ของผู้ใช้จริง
- ตัวอย่างเช่น เพิ่มวัตถุดิบลงตะกร้าและสั่งซื้อจากสูตรอาหารหรืออ่านเอกสารแล้วทำการวิเคราะห์คู่แข่ง
- เอเจนต์จะดำเนินงานโดยได้รับอนุญาตจากผู้ใช้ เปิดแท็บและคลิกเพื่อทำงานต่อไป
- ให้บริการเป็น รุ่นตัวอย่าง (preview) สำหรับผู้ใช้ Plus, Pro และ Business โดยมีเป้าหมายในการพัฒนาอย่างต่อเนื่องให้เร็วขึ้นและมีความน่าเชื่อถือสูงขึ้น
ความปลอดภัยและความเป็นส่วนตัว
- Atlas ออกแบบด้วยหลักการ ความปลอดภัยสูงสุดเป็นอันดับแรก และมีข้อจำกัดต่อไปนี้
- ไม่รองรับการรันโค้ดในเบราว์เซอร์ การดาวน์โหลดไฟล์ และการติดตั้งส่วนขยาย
- ไม่สามารถเข้าถึงไฟล์ในเครื่องหรือแอปพลิเคชันอื่น
- เว็บไซต์ที่ละเอียดอ่อน เช่น สถาบันการเงิน จะถูกหยุดชั่วคราวโดยอัตโนมัติ
- สามารถใช้เอเจนต์ได้แม้ใน โหมดออกจากระบบ เพื่อลดความเสี่ยงการรั่วไหลของข้อมูลส่วนบุคคล
- ได้ดำเนินการ การทดสอบ red team หลายพันชั่วโมง เพื่อป้องกันการโจมตีโดยคำสั่งแอบแฝงจากหน้าเว็บหรืออีเมลที่เป็นอันตราย และมีการจัดการระบบแพตช์อย่างรวดเร็วเพื่อรับมือกับรูปแบบการโจมตีใหม่ๆ
- OpenAI แนะนำให้ผู้ใช้เฝ้าติดตามการทำงานและใช้ โหมดออกจากระบบ เพื่อคำนึงถึงความเสี่ยงการเปิดเผยข้อมูลเมื่อใช้งาน Atlas
ข้อมูลและการควบคุม
- ผู้ใช้สามารถควบคุม การมองเห็นเว็บไซต์ ที่ ChatGPT เข้าถึงได้ผ่านตัวสวิตช์ในแถบที่อยู่
- เมื่อปิดใช้งาน จะบล็อกการเข้าถึงเนื้อหาในหน้าและหยุดการสร้างความจำ
- หากต้องการให้ข้อมูลถูกนำไปใช้ฝึกฝน เพิ่มข้อมูลในการตั้งค่าด้วยตัวเลือก “include web browsing”
- การควบคุมโดยผู้ปกครอง ได้รับการเสริมความแข็งแกร่งให้ผู้ปกครองสามารถปิดใช้งาน Browser Memory หรือ Agent Mode ได้
แพลตฟอร์มที่รองรับและการวางจำหน่าย
- ChatGPT Atlas เปิดตัวทันทีบน macOS และพร้อมใช้งานสำหรับผู้ใช้ Free, Plus, Pro และ Go ทุกคน
- ผู้ใช้แผน Business, Enterprise, Edu ก็สามารถใช้งานได้ด้วย หากผู้ดูแลระบบเปิดใช้งาน
- เวอร์ชันสำหรับ Windows, iOS, Android จะเปิดตัว ในเร็วๆ นี้
- ผู้ใช้สามารถนำเข้าข้อมูลเครื่องหมายสำคัญ (bookmark), รหัสผ่าน และประวัติการใช้งานจากเบราว์เซอร์เดิมเพื่อเปลี่ยนผ่านได้ง่ายขึ้น
แผนในอนาคต
- OpenAI วางแผนพัฒนา Atlas ไปยังขั้นต่อไปด้วยการรองรับ หลายโปรไฟล์, ปรับปรุง เครื่องมือนักพัฒนา, และเพิ่มความยืดหยุ่นผ่านการรวม Apps SDK
- ผู้ดูแลเว็บไซต์สามารถเพิ่ม ARIA tags เพื่อให้ ChatGPT Agent ทำงานบนเว็บไซต์ของตนได้แม่นยำมากขึ้น
- การเปิดตัวครั้งนี้ได้รับการประเมินว่าเป็นก้าวแรกที่ทำให้ ประสบการณ์เว็บแบบโต้ตอบ ของ AI เข้าสู่การใช้งานจริงภายในเบราว์เซอร์
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
ส่วนตัวแล้วฉันคิดว่าการโฟกัสเฉพาะเรื่องความเป็นส่วนตัวอย่างเดียวเป็นมุมมองที่แคบเกินไป สิ่งที่สำคัญจริง ๆ คือเทคโนโลยีนี้มีศักยภาพในการเปลี่ยนวิธีการท่องเว็บแบบเดิมอย่างแท้จริงหรือไม่ และจะมีผลต่อวิธีการทำรายได้จากทราฟฟิกบนเว็บอย่างไร โดยเฉพาะว่าเป็น V0.1 ของประสบการณ์ใหม่หรือ V1.0 นั้นแตกต่างกันมาก หากอยู่ในระดับ V1.0 การเปลี่ยนผ่านจากเว็บแบบดั้งเดิมอาจเกิดขึ้นเร็ว และอาจส่งผลทางเศรษฐกิจค่อนข้างมาก ในกรณีนั้นการลงทุน AI ในศูนย์ข้อมูลจึงดูชอบธรรมมากขึ้น
ฉันสรุปหน้าจอหลักของตัวติดตั้ง DMG ของ ChatGPT Atlas (ภาพหน้าจอการติดตั้ง) ได้ดังนี้:
คำตอบของ OpenAI ทำให้ฉันนึกถึง Comet ของ Perplexity และกังวลว่าอาจกลายเป็นมาตรฐานอนาคตได้ ในความเป็นจริง AI browser แบบนี้ให้คุณค่าบางอย่าง แต่ท้ายที่สุดเหมือนจะเกิด Big Tech ตัวเดียวที่คุมทุกอย่าง ในทางไกลผมอยากให้เบราว์เซอร์โอเพ่นซอร์ส (เช่น Firefox) ก็มีฟังก์ชันทางเลือกด้วย LLM ของตัวเองเร็ว ๆ นี้ บางทีการประมวลผลบนอุปกรณ์แทนคลาวด์น่าจะเหมาะสมที่สุด แต่ว่าปัญหาคือเกือบวิศวกร ML ทุกคนดี ๆ ออกไปอยู่บิ๊กเทคหมดแล้ว
ผมลองทดสอบโหมด agent ของ Atlas เพื่อดูว่าในคอมเมนต์ HN มีข้อไหนที่ฉันน่าจะเพิ่ม insight จากประสบการณ์และความสนใจได้ บอกผลออกมา 7 เรื่องที่ฉันค่อนข้างรู้ (สตาร์ทอัปและคลาวด์) และ 3 เรื่องที่ยังไม่ค่อยรู้ (Fine-tuning LLM) คอมเมนต์แนะนำมีเนื้อหาที่แทบตรงกับสิ่งที่ฉันพูด แต่สไตล์ที่มันสื่อสารห่างไกลจากสไตล์ผมมาก จนหลังทดสอบแล้วรู้สึกว่าถ้าหยอดใช้ไปมากขึ้น กิจกรรมที่ก่อนหน้านี้ทำอย่างสนุกอาจกลายเป็นงานที่ไร้ชีวิตชีวา เครื่องมือมีความน่าลอง แต่ยังไม่ชัดว่าควรเอาไปใช้ทำอะไร
ทำไม Atlas Browser ถึงรองรับเฉพาะ macOS? ถ้ามี Linux หรือ Windows มาก็คงรู้สึกเหมือนเป็นการเปิดตัวจริงมากขึ้น
ผมเห็นว่ามี Use-case จริง แต่ความรู้สึกโดยรวมคือมันทำให้ชีวิตประจำวันถูกมอบให้ AI company มากเกินไป ถ้ามีคำถามอะไร ก็กะว่าจะเปิดแอป ChatGPT ถามตรง ๆ ก็เพียงพอ ส่วนตัวผมมองว่าอยู่หมวดเดียวกับ browser extension ของ Honey แต่ด้านความเสี่ยงข้อมูลรุนแรงกว่าอย่างมาก และผมไม่เชื่อว่าข้อมูลจะ private จริง ๆ ได้แม้แต่นาทีเดียว
Atlas ใช้ Chromium เป็นฐานชัดเจน แต่แทบไม่เจอคำกล่าวถึง Chromium, ลิขสิทธิ์ หรือต้นทางเครดิตใด ๆ ทั้งสิ้น หน้า chrome:// ก็ถูกปิดหมด สำหรับโปรเจกต์โอเพ่นซอร์สขนาดนี้ ควรเปิดเผยที่มาและฐานอย่างโปร่งใสอย่างน้อยสุด อย่างที่อาจขาดช่วงแรกได้ แต่มาตรฐานพื้นฐานไม่ควรถูกละเลย ไม่แน่ใจว่าผมรู้สึกแปลกใจเกินไปหรือไม่
OpenAI ดูเหมือนกำลังไปชนส่วนที่ Apple Intelligence ทำไม่ไหว ผมคิดว่าถ้าฟีเจอร์เหล่านี้รวมอยู่กับ macOS โดยตรงแบบ built-in จะดีกว่า ตอนนี้ผมอยากให้ FoundationLLM ใช้คำนวณบนเครื่องให้มากที่สุด และเรียกเซิร์ฟเวอร์โมเดลขนาดใหญ่เฉพาะกรณีที่จำเป็นจริง ๆ เพื่อปกป้องความเป็นส่วนตัวสูงสุด ผมเชื่อว่าควรมีการ integration ระดับลึกใน OS มากขึ้น Apple Intelligence แม้เริ่มต้นดี แต่กำลังทรงพลังของ local model ยังไม่พอ จนฟีเจอร์สำคัญหลายตัวเหมือนซ่อนอยู่ในซิกเจ็ต
สาเหตุที่ยังไม่ใช้ปลั๊กอิน LLM บน Chrome ส่วนใหญ่เพราะกังวลเรื่องการเก็บข้อมูลเกินควรเหมือนเดิม แต่ครั้งนี้กังวลเพราะมันเป็นองค์กรชั้นนำที่มีภาพลักษณ์ความน่าเชื่อถือสูงกว่าอย่างเดียว ผมเองก็ไม่แน่ใจว่าดีกว่าหรือไม่
ถ้าบริษัทที่เน้น privacy อย่าง Private Internet Access หรือ NordVPN ปล่อยปลั๊กอิน LLM ของตัวเองหรือเบราว์เซอร์ของตัวเองจริง ๆ น่าจะมีคุณค่ามหาศาล โดยเฉพาะถ้ามีการทำให้ทราฟฟิกเป็นนิรนามและรันหลายโมเดล LLM พร้อมกัน อาจดึงผู้ใช้จาก OpenAI/Perplexity ออกจำนวนมากได้
เคยมีกรณี ChatGPT บน macOS ใช้การ pin certificate ทำให้การสอดส่องข้อมูลยากขึ้น
ฉันคิดว่าความเชื่อว่า LLM plugin เข้าถึงข้อมูลมากกว่า plugin ทั่วไปเป็นความเข้าใจผิด เป็นเหมือนเข้าใจ manifest ของ Chrome ผิด
ผมเห็นด้วยว่าในบริบทที่เหมาะสม LLM ใช้ได้ทรงพลัง แต่รู้สึกสบายใจกว่าถ้าใช้แบบระยะห่าง เมื่อจำเป็นค่อยไปคุยกับระบบเองดีกว่า อยากไม่ให้ AI คอยมองหลังและเฝ้าดูฉันตลอดเวลา
ถ้าฟีเจอร์นี้มีประโยชน์จริง ๆ ควรนึกถึงว่าระบอบเผด็จการทั่วโลกจะอยากได้มันแค่ไหน หากเคยรู้สึกหนาวใจจากโฆษณาบางแบบมาก่อน Atlas ก็เท่ากับ keylogger ระดับระบบ และไม่เข้าใจว่าทำไมจึงต้องให้อำนาจ AI company ในการเก็บ/บันทึกปฏิสัมพันธ์เบราว์เซอร์ทุกจุดของฉัน Google ก็ทำระดับนี้ผ่าน Chrome อยู่แล้ว แต่แคมเปญเพิ่มประสิทธิภาพโฆษณาและการล่าข้อมูลกระบวนการคิดมนุษย์เพื่อใช้ฝึก AI ทั่วไปนั้นไม่เหมือนกันแทบทั้งหมด
พอเปิดหน้าโปรดักต์แล้วก็ไม่ค่อยมีหลักฐานแน่นอนเลยว่าสิ่งที่ Atlas เก็บเพิ่มกว่าส่วนอื่นอย่าง Chrome+Gemini อย่างไร ฟังก์ชันส่วนใหญ่เหมือนกันอยู่แล้ว และถ้าบันทึกทุกการกดพิมพ์ Google ก็ทำได้เช่นกัน สรุปแล้วจุดประสงค์สร้างโมเดลคาดการณ์ผู้ใช้ของทั้งสองเหมือนกัน ทำให้ Chrome กับ Atlas ไม่รู้สึกต่างกันมาก
มีบางส่วนที่คล้าย Recall ของ Microsoft แต่ Atlas ต่างตรงที่ผู้ใช้อนุญาตให้ใช้ฟีเจอร์นี้เอง ซึ่งทำให้ OpenAI ได้โอกาสโฆษณาแบบใหม่แน่นอน
โมเดลข้อมูลเป้าหมายสำหรับโฆษณาจากประชากรศาสตร์ การชำระเงิน ที่อยู่ และรายได้ กับการวัดรูปแบบความคิดของผู้ใช้เพื่อฝึก AI ทั่วไปคือคนละหมวดกันอย่างสิ้นเชิง หาก Atlas สำเร็จ Google ก็ย่อมทำซ้ำได้แน่นอน ตอนนี้มี Chrome และ Gemini อยู่แล้ว แค่ผนวก TPU ลงไปก็แทบจะเป็น Atlas เลย
เว็บเบราว์เซอร์ของฉันรันเป็น root จริงหรือเปล่า? Atlas รันด้วยสิทธิ์ root ใช่ไหม? Atlas เป็น keylogger ที่จับทุกการพิมพ์จริง ๆ หรือ? สุดท้ายอยากรู้ว่าข้อสงสัยพวกนี้มีจริงเพียงใด