- ในวงการเทคโนโลยี ทุกๆ ไม่กี่ปีเมื่อมีเทคโนโลยี AI แบบใหม่เกิดขึ้น ก็มักจะมีภาพฝันซ้ำๆ ว่า “ครั้งนี้อินเทอร์เฟซภาษาธรรมชาติจะเปลี่ยนทุกสิ่ง”
- ตั้งแต่ Siri, Alexa, แชตบอต, แพลตฟอร์ม AirPods และล่าสุดคือโมเดลภาษาขนาดใหญ่ (LLM) ก็ล้วนอยู่ในกระแสนี้
- แต่ในความเป็นจริง วิธีที่เราใช้งานคอมพิวเตอร์แทบไม่ได้เปลี่ยนไปเลย
- ผู้คนมักมีแนวโน้มจะเชื่อว่าภาษาธรรมชาติ “เป็นธรรมชาติอยู่แล้ว จึงน่าจะเป็นรูปแบบสุดท้าย”
- ข้อโต้แย้งของบทความนี้คือ อินเทอร์เฟซภาษาธรรมชาติไม่ใช่อุดมคติ และในความเป็นจริงก็ไม่ใช่วิธีที่มีประสิทธิภาพ
ภาษาธรรมชาติเป็นวิธีส่งข้อมูลที่ช้าและสูญเสียข้อมูลสูง
- ภาษาธรรมชาติคือกลไกการส่งข้อมูลสำหรับแลกเปลี่ยนความคิดและความรู้ระหว่างมนุษย์
- ในการส่งข้อมูล องค์ประกอบสำคัญสองอย่างคือ ความเร็ว และ อัตราการสูญเสียข้อมูล (lossiness)
- เราคิดได้รวดเร็วในระดับ 1,000~3,000 คำต่อนาที แต่ความเร็วในการพูดหรือเขียนเพื่อถ่ายทอดกลับช้ากว่ามาก
- ตัวอย่างเช่น การอ่าน/การฟัง (รับข้อมูล) เร็ว แต่การเขียน/การพูด (ส่งข้อมูล) ช้า → ภาษาธรรมชาติจึงเป็นคอขวด
- แทนที่จะใช้คำพูด ผู้คนกลับใช้ท่าทาง (เช่น ชูนิ้วโป้ง พยักหน้า ฯลฯ) เพื่อสื่อสารได้เร็วและกระชับกว่า
- วิธีเช่นนี้คล้ายกับ การบีบอัดข้อมูล → แม้จะมีการสูญเสีย แต่โดดเด่นในแง่ความเร็วและความสะดวก
- ตัวอย่างที่มีประสิทธิภาพที่สุดคือช่วงเวลาที่คู่สามีภรรยาซึ่งอยู่กันมานานรู้ใจความต้องการของกันและกันได้โดยไม่ต้องพูดอะไร
วิวัฒนาการของปฏิสัมพันธ์ระหว่างมนุษย์กับคอมพิวเตอร์
- คอมพิวเตอร์ยุคแรกใช้อินเทอร์เฟซข้อความแบบคำสั่ง แต่เมื่อมี GUI ก็ทำให้ทำงานผ่านองค์ประกอบภาพได้ง่ายขึ้น
- ปัจจุบันเราอยู่ใน ภาวะสมดุลด้านประสิทธิภาพการทำงาน ที่ผสาน GUI เข้ากับคีย์ลัดบนคีย์บอร์ด
- คีย์ลัดอย่าง ⌘b, ⌘t, ⌘c/v ไม่ใช่ภาษาธรรมชาติ แต่เป็นรูปแบบการบีบอัดข้อมูลที่เร็วและมีประสิทธิภาพกว่ามาก
- เครื่องมืออย่าง Linear, Raycast, Superhuman ขยายศักยภาพของอินพุตแบบบีบอัดนี้ให้ถึงขีดสุด → เมื่อชำนาญแล้วแทบจะทำงานได้พร้อมกับความคิด
- อินเทอร์เฟซแบบสัมผัสได้กลายเป็นฟังก์ชันเสริม แต่การทำงานเชิงประสิทธิภาพอย่างจริงจังก็ยังคงเกิดขึ้นบนเดสก์ท็อป
- บนมือถือ การพิมพ์ข้อความช้าและไม่สะดวก (เฉลี่ย 36WPM) → และก็ไม่มีทางเลือกแบบคีย์ลัดที่เหมาะกับมือถือ
- ด้วยเหตุนี้ เครื่องมือเพิ่มประสิทธิภาพบนมือถือจึงพัฒนาไปได้ไม่เท่ากับบนเดสก์ท็อป
อินเทอร์เฟซแบบสนทนาเสียเปรียบในด้านความเร็วของอินพุต
- เสียงพูดเป็นวิธีป้อนข้อมูลที่เร็วกว่าการพิมพ์ (150WPM vs 60WPM) แต่ในการใช้งานจริงกลับไม่มีประสิทธิภาพ
- ตัวอย่าง: การพูดว่า “Hey Google, บอกสภาพอากาศหน่อย” ช้ากว่าการกดไอคอนแอปถึง 10 เท่า
- เหตุผลที่ Siri และ Alexa ล้มเหลวไม่ใช่เพราะคุณภาพผลลัพธ์จาก AI แต่เป็นเพราะ ความยุ่งยากของวิธีป้อนข้อมูล
- LLM เองก็ยังแก้ปัญหาความไม่มีประสิทธิภาพของวิธีป้อนข้อมูลนี้ไม่ได้
- การอธิบายสิ่งที่ทำได้ด้วยปุ่มเดียวออกมาเป็นประโยคนั้น กลับเป็นการถอยหลังเสียมากกว่า
ควรใช้อินเทอร์เฟซแบบสนทนาเป็นเครื่องมือเสริม
- LLM มีประโยชน์มาก ไม่ใช่ในฐานะสิ่งที่จะมาแทนที่อินเทอร์เฟซเดิม แต่ในรูปแบบของ เครื่องมือเสริม
- ผู้เขียนใช้การสนทนาด้วยเสียงกับ ChatGPT ระหว่างเดินเล่นเพื่อร่างบทความนี้จริงๆ → ใช้ LLM เป็นคู่คิด
- นี่เป็นงานที่เน้นการคิด ไม่ใช่ความเร็ว และไม่ได้แทนที่เวิร์กโฟลว์เดิม แต่เป็น กรณีการใช้งานใหม่โดยสิ้นเชิง
- ตัวอย่างที่เหมาะที่สุดคือกรณีแฮกกาธอนที่ใช้ Alexa เป็นอินพุตเสริมใน StarCraft II
- ไม่ได้แทนที่เมาส์/คีย์บอร์ด แต่ใช้เสียงเป็นวิธีป้อนข้อมูลเพิ่มเติมเพื่อขยายแบนด์วิดท์การส่งข้อมูล
- เครื่องมืออย่าง Figma, Notion, Excel คงจะไม่ถูกแทนที่ด้วยแชต UI
- แต่ LLM ควรเข้ามาอยู่ในฐานะ เลเยอร์เมตาที่ทำงานตลอดเวลา เพื่อเชื่อมต่อเครื่องมือต่างๆ เข้าด้วยกัน
- ตัวอย่าง: แม้ผู้ใช้จะกำลังทำงานด้วยเมาส์หรือคีย์บอร์ดอยู่ ก็ควรสั่งงานสั้นๆ ด้วยเสียงได้
- เพื่อให้เป็นเช่นนั้น AI ไม่ควรเป็นแอปเดี่ยว แต่ต้อง ทำงานในระดับระบบปฏิบัติการ
- พร้อมกันนั้น ก็จำเป็นต้องมีวิธีทำให้การป้อนข้อมูลด้วยเสียงเร็วขึ้นด้วย (เช่น การผิวปาก การจดจำอารมณ์ ฯลฯ)
- แม้จะเป็นอินเทอร์เฟซแบบสนทนา สุดท้ายแล้ว ความเร็วและความสะดวก ก็ยังเป็นหัวใจสำคัญ
บทสรุป: ควรมองในฐานะการเสริม ไม่ใช่การแทนที่
- ชื่อบทความนี้เป็นการตั้งชื่อแบบเกินจริงเพื่อดึงความสนใจ
- ข้อโต้แย้งที่แท้จริงไม่ใช่ “คัดค้านอินเทอร์เฟซแบบสนทนา” แต่คือ คัดค้านวิธีคิดแบบศูนย์รวมผลประโยชน์เป็นศูนย์ (zero-sum)
- AI ไม่ได้มาแทนที่อินเทอร์เฟซเดิม แต่เป็น องค์ประกอบเสริมที่เปิดความเป็นไปได้ใหม่ๆ
- อนาคตในอุดมคติคือ มนุษย์กับคอมพิวเตอร์มี ปฏิสัมพันธ์ที่เป็นธรรมชาติและเกิดขึ้นโดยไม่รู้ตัว
- เหมือนกับบนโต๊ะอาหารเช้า ที่แม้ไม่ต้องพูด เนยก็ถูกส่งมาให้โดยอัตโนมัติ
5 ความคิดเห็น
ผมก็เคยกังวลคล้ายกันในแง่ของอินเทอร์เฟซเหมือนกัน แต่ก็ยังนึกอินเทอร์เฟซใหม่ที่เหมาะสมไม่ออกครับ
บทความ https://upsidelab.io/blog/design-voice-user-interface-starcraft ที่แนะนำไว้ในเนื้อหาน่าสนใจดีนะ แม้จะเป็นบทความตั้งแต่ปี 2018 แล้วก็ตาม
สงสัยว่าในอนาคตจะถูกเลือกและใช้งานในรูปแบบไหนนะ
มนุษย์ไม่ชอบความไม่แน่นอนในการสนทนา จึงยากที่จะละทิ้งความต้องการใช้คำให้แม่นยำ แต่ ChatAI หรือ LLM มีความไม่แน่นอนเป็นส่วนหนึ่งของธรรมชาติโดยแท้ หากข้อมูลเชิงความน่าจะเป็นมีอยู่แค่ฝั่งฉันก็ยังพอรับได้ แต่ถ้าคู่สนทนาก็ต้องพึ่งพาความน่าจะเป็นด้วยก็จะทำให้เครียด บางครั้งวิธีการแบบกำหนดผลลัพธ์ได้แน่นอนก็อาจทำให้สบายใจกว่า
ความเห็นจาก Hacker News
เป็นเนื้อหาที่อธิบายได้ชัดเจนถึงหลายสิ่งที่อยากอธิบายให้คนที่สนใจการ "สนทนา" กับคอมพิวเตอร์เข้าใจ
จุดที่บทความพูดผิด
Star Trek แสดงให้เห็นการใช้งานอินเทอร์เฟซแบบสนทนาได้อย่างเหมาะสม
Voice UI มีประสิทธิภาพสูงสุดเมื่อใช้ร่วมกับคีย์บอร์ด/เมาส์
จำเป็นต้องหาวิธีส่งข้อมูลจากเสียงให้เร็วขึ้น
ชื่อบทความอาจทำให้เข้าใจผิดได้
คนที่มีนิสัยเปิดเผยและชอบการจัดการมักชอบโยนคำพูดออกไปเพื่อแก้ปัญหา
จนถึงเมื่อ 20-30 ปีก่อน มนุษย์ยังไม่ได้ถูกทำให้เป็นคอมพิวเตอร์
เครื่องมือ AI แบบ text-to-CAD ยังเข้าใจความต้องการของผู้ใช้ได้ไม่ดีพอ
อยากให้ความสัมพันธ์กับคอมพิวเตอร์เป็นเหมือนโทรจิต