บทความนี้กล่าวถึงภาวะกลืนไม่เข้าคายไม่ออกว่าเบราว์เซอร์ที่ขับเคลื่อนด้วย AI ควรตีความข้อความที่ผู้ใช้พิมพ์ลงในแถบที่อยู่อย่างไร
ตัวอย่างเช่น เมื่อผู้ใช้พิมพ์ "Who Framed Roger Rabbit" (ชื่อภาพยนตร์) เบราว์เซอร์แบบดั้งเดิมจะมองว่านี่เป็นคำค้นหาและแสดงผลลัพธ์ที่เกี่ยวกับภาพยนตร์ แต่เบราว์เซอร์ AI บางตัวกลับเข้าใจผิดว่าเป็นคำถามว่า "ใครใส่ร้าย Roger Rabbit?" และตอบตรงแบบแชต ซึ่งสร้างความไม่สะดวกเพราะไม่ใช่ผลการค้นหาที่ผู้ใช้ต้องการ
การเปรียบเทียบแนวทางของเบราว์เซอร์ AI หลัก ๆ:
- Dia (ถูก Atlassian เข้าซื้อกิจการ): ใช้โมเดลจัดหมวดหมู่ภายในเครื่อง (อิง DistilBERT ขนาดประมาณ 160MB) เพื่อตรวจจับอินพุตที่ "ดูเหมือนคำถาม" ตัวอย่าง: "Atlassian เข้าซื้อบริษัทเบราว์เซอร์ด้วยมูลค่าเท่าไร?" → ตอบตรงว่า "610 ล้านดอลลาร์" แต่ก็มีข้อผิดพลาดอยู่มาก
- ChatGPT Atlas: ใช้กฎง่าย ๆ — ถ้าน้อยกว่า 10 คำให้ค้นหา ถ้าเกินให้แชต และสามารถบังคับให้แชตได้ด้วยคีย์ลัด (⌘+Return)
- Perplexity Comet & Google Chrome: ส่งทุกคิวรีไปยังเครื่องมือค้นหา แล้วให้โมเดลขนาดใหญ่ฝั่งเซิร์ฟเวอร์ตัดสินใจว่าจะให้ผลการค้นหาหรือคำตอบจาก AI
ที่น่าสนใจคือ ในการตีความ "who framed roger rabbit" เป็นคำถามนั้น มีเพียง Dia เท่านั้น ส่วนที่เหลือจะจัดการเป็นการค้นหา
ปัญหานี้ไม่ได้เกิดขึ้นเฉพาะกับเบราว์เซอร์ แต่เป็นความท้าทายร่วมของช่องป้อนข้อมูลสไตล์ "omnibox" ทุกแบบ ซึ่งเป็นอินเทอร์เฟซที่ต้องตีความเจตนาของผู้ใช้ให้ได้อย่างรวดเร็วและแม่นยำ แม้ AI จะฉลาดขึ้นเรื่อย ๆ ความแม่นยำในการตีความอินพุตก็ยังคงเป็นโจทย์สำคัญต่อไป
1 ความคิดเห็น
ถ้าจะให้แม่นยำ 100% ก็คงเป็นขอบเขตของการอ่านใจ
แต่ถ้าจะให้แม่นยำ 99% อาจจะเป็นขอบเขตของสถิติหรือเปล่า
เป็นโจทย์ใหญ่เลยนะ