Comet - Web Agent และเบราว์เซอร์ของ Perplexity
(perplexity.ai)Comet: เบราว์เซอร์ใหม่ที่สร้างโดย Perplexity
แม้จะเปิดตัวมาสักพักแล้ว แต่ผมได้ลองใช้หลังผ่านรายชื่อรอแล้วจึงเขียนโพสต์นี้ขึ้นมา
ภาพรวมสำคัญ
Comet เป็นเบราว์เซอร์ AI ที่พัฒนาโดย Perplexity ซึ่งออกแบบมาเพื่อยกระดับสมาธิและเวิร์กโฟลว์ของผู้ใช้ให้สูงสุด และเปลี่ยนความอยากรู้อยากเห็นให้กลายเป็นการลงมือทำ
ฟีเจอร์และจุดเด่นหลัก
-
การค้นหาแบบ AI ที่ผสานรวม, คอนเท็กซ์แบบทันที, และการทำงานอัตโนมัติบนเว็บไซต์
- สรุปข้อมูล ช้อปปิ้ง จัดตาราง และรีเสิร์ชได้โดยตรงจากในเบราว์เซอร์
-
Comet Assistant
- จัดการงานซ้ำ ๆ แบบอัตโนมัติ เช่น คลิก พิมพ์ ส่งฟอร์ม และเติมข้อมูลอัตโนมัติ
-
ทำงานที่ซับซ้อนให้เป็นอัตโนมัติได้ด้วย
- รองรับทั้งกระบวนการช้อปปิ้งตั้งแต่การเปรียบเทียบสินค้าไปจนถึงการชำระเงิน
-
การจัดการแบบรวมศูนย์
- เชื่อมต่ออีเมลและปฏิทิน (Gmail, Google Calendar)
- ดูสรุปตารางนัดหมาย รวมถึงจองอีเมล/กำหนดการได้จากในเบราว์เซอร์
-
ประสบการณ์ที่ปรับให้เหมาะกับแต่ละบุคคล
- เรียนรู้รูปแบบการใช้งานเพื่อจัดระเบียบแท็บและอินไซต์ให้อัตโนมัติ
-
ค้นหาคำตอบได้ทันทีจากกิจกรรมของฉัน
- รองรับการค้นหาในประวัติ วิดีโอ เอกสาร และข้อมูลส่วนตัวอื่น ๆ
-
Smart Action และฟีเจอร์โฟกัสตามแท็บ
- ฟีเจอร์ @tab ให้คำตอบแบบเรียลไทม์ที่สอดคล้องกับแท็บที่เปิดอยู่
กรณีการใช้งาน
Perplexity ได้โพสต์กรณีการใช้งานเพิ่มเติมไว้บน Linkedin
https://www.linkedin.com/company/perplexity-ai/posts/?feedView=all
ความเห็นส่วนตัวหลังใช้งานบริการ
เทคโนโลยี
- อยู่ในรูปแบบ Chromium browser + Perplexity + Web Agent
- natural language query -> การดึง Intent/slot -> Symantic DOM mapping -> การแปลงเป็น action -> การรัน event (web Tool) -> การพาร์สผลลัพธ์และ preprocess -> คาดว่าเป็นโครงสร้างแบบ ReAct
- Comet ถ่ายภาพหน้าจอให้ ทำให้สามารถเข้าใจสถานะงานปัจจุบันได้ แต่ยังต้องตรวจสอบเพิ่มเติมว่าใช้ vision model ในการวิเคราะห์หรือไม่
กรณีทดสอบ
(1) การเขียนอีเมล
- ใช้เว็บไซต์อีเมลของ Google ในการเขียนอีเมลได้อย่างเหมาะสม
- Agent เลือกบันทึกเป็นฉบับร่างแทนการส่งจริง
(2) ค้นหาเส้นทางใน Naver Map + แนะนำร้านอาหารใกล้เคียง
- หลังจากเข้าไปที่หน้าเว็บ Naver Map แล้ว ผมถามให้หาเส้นทางจาก Seoul Station ไป Jamsil และมันก็ใช้บริการ Naver Map ได้อย่างเหมาะสม (เหมือนคนใช้งาน) เพื่อหาเส้นทาง
- ส่วนการหาร้านอาหารใกล้เคียง ไม่ได้ใช้ Naver Map แต่ใช้ Search Tool เดิมของ Perplexity
(3) ครอว์ลข้อมูล Open AI Platform Pricing
- เท่าที่ทราบ Open AI Platform ใช้ Remix และราคาของ API บางส่วนถูกซ่อนไว้ในรูปแบบ toggle
- ผมสั่ง Comet อย่างชัดเจนให้เปิด toggle และตรวจสอบราคาของ API ทั้งหมด แล้วสรุปผลเป็น Markdown ซึ่งมันก็ทำได้เหมาะสม
- อย่างไรก็ตาม ยังจำเป็นต้องทำ prompt engineering เพื่อให้ดึงข้อมูลได้อย่างแม่นยำ
- ผมให้ลองตรวจสอบหน้า API ของ Anthropic ด้วย แต่เนื่องจาก layout ของหน้าเว็บ (divider) ไม่ชัดเจน จึงไม่สามารถพาร์สนโยบาย API ที่ซับซ้อนได้อย่างแม่นยำ อย่างไรก็ดี ราคาพื้นฐานของ API ดึงออกมาได้ถูกต้อง
ความเห็นส่วนตัว
- ระหว่างพัฒนา browsing agent น่าจะมีจุดที่ต้องคำนึงถึงหลายอย่าง เช่น คอนเท็กซ์ การเรนเดอร์ ฯลฯ เลยอยากรู้ว่าเขาแก้ปัญหาเหล่านั้นอย่างไร
- ในเชิงเทคนิคมีความ wow อยู่ แต่ในมุมมองของโปรดักต์ยังดูคลุมเครืออยู่บ้าง
- แต่ละคนอาจมองต่างกัน สำหรับผมยังไม่ชัดว่าเหตุใดผมต้องใช้โปรดักต์นี้ เหตุใดจึงควรจ่ายเงินเพื่อใช้ Comet และมันจะแก้ปัญหาอะไรของผมในฐานะลูกค้าได้บ้าง กล่าวคือ value proposition ยังไม่ชัดเจนสำหรับผม ตอนนี้ความรู้สึกคือ 'โอ้! น่าสนใจ ทำได้จริงแฮะ เดี๋ยวค่อยนึกออกแล้วลองใช้อีกสักสองสามครั้ง'
- แน่นอนว่า Perplexity กำลังนำเสนอกรณีการใช้งานอยู่ แต่ผมก็ยังรู้สึกว่า 'จำเป็นต้องใช้ Agent เพื่อแก้ปัญหานี้จริงหรือ? (ถ้าทำเองอาจเร็วกกว่า)' และ 'มันแก้ปัญหาจริงได้ครบถ้วนแล้วหรือยัง?'
- ผมเดาอย่างระมัดระวังว่าความรู้สึกนี้อาจเกิดจากการที่เบราว์เซอร์เป็นสิ่งที่ใกล้เคียงกับโครงสร้างพื้นฐาน
- เพราะเบราว์เซอร์ที่ขับเคลื่อนด้วย AI Agent ถือเป็นฟอร์แมตใหม่ในมุมหนึ่ง ผมจึงคิดว่าถ้าสามารถสื่อสารกับลูกค้าได้ชัดว่า 'คุณมีปัญหาแบบไหน และ Comet แก้ปัญหานั้นให้คุณได้อย่างสมบูรณ์จริง ๆ' ก็น่าจะดี
- คงต้องจับตาดูและลองใช้เพิ่มอีกหน่อย ผมเองก็คิดอยู่เหมือนกันว่าจะจัดการปัญหาด้านโปรดักต์นี้อย่างไร
UI
นี่เป็นสิ่งที่ผมลองวิเคราะห์ด้วยตัวเอง (กำลังทำงานเพื่อสร้างขึ้นใหม่ในลักษณะ reverse planning อยู่...,)
https://www.figma.com/deck/Gky9ZDEqZKdJfG4RWoNYdf
4 ความคิดเห็น
ตอนที่คุณลองใช้งาน มีการจำกัดการใช้คิวรีของเอเจนต์ Comet ไหมครับ? หรือว่าเหมือนกับเครื่องมืออื่น ๆ ที่อยู่ในช่วงทดสอบเลยยังไม่ค่อยมีข้อจำกัดเรื่องคิวรี? พอดีจำได้เหมือนเคยเห็นว่ามี pro-max อะไรประมาณนี้ เลยอยากถามดูครับ
ตอนนี้ผมสมัครใช้งาน Pro อยู่ อาจเป็นเพราะผมใช้งานไม่มากนักด้วยก็ได้ แต่รวมถึง Comet แล้ว ใน Perplexity ผมยังไม่เคยชนลิมิตเลยจนถึงตอนนี้ รู้สึกว่าเผื่อไว้ค่อนข้างเยอะกว่าที่คิดเหมือนกัน
ผมไม่แน่ใจแบบชัดเจน เพราะในแพลนสมัครสมาชิกไม่ได้ระบุ rate limit ไว้
ดูเหมือนว่าอย่างน้อย beta release จะให้มาไม่เหมือนกับ pro-max
https://perplexity.ai/help-center/en/…
อันนี้เป็นความรู้สึกส่วนตัวนะครับ แต่เหมือนอย่างที่คุณบอกว่าเพราะยังเป็นช่วงทดสอบอยู่ จำนวนคิวรี่น่าจะไม่ค่อยมีผล ผมลองเปิด virtual browser พร้อมกัน 12 ตัวแบบขนานในครั้งเดียวแล้วก็ยังทำงานได้ ตรงนี้น่าทึ่งทีเดียวครับ
อ่านจบแล้วครับ
ค่อนข้างน่าเสียดายนิดหน่อยเพราะเป็นไปตามที่คาดไว้..
ผมเห็นด้วยกับประโยคนี้ครับ
เช่น) ตอนให้มันอ่านหน้าข่าวของ Naver แล้วขอให้สรุปน้ำเสียงของแต่ละหนังสือพิมพ์ต่อการเจรจาภาษี มันกลับแต่งคำตอบเกี่ยวกับน้ำเสียงของหนังสือพิมพ์ที่ไม่ได้อ่านขึ้นมา โดยอาศัย "อคติที่เรียนรู้ไว้ล่วงหน้าเกี่ยวกับแนวโน้มของแต่ละสำนักพิมพ์"