- วิธีการใช้งานคอมพิวเตอร์เคยหยุดอยู่กับ ปฏิสัมพันธ์เชิงกลที่เน้นการคลิกและการพิมพ์ มาอย่างยาวนาน แต่ได้ขยายไปสู่ปฏิสัมพันธ์ที่เป็นธรรมชาติมากขึ้นจากการมาของมือถือและผู้ช่วยเสียง
- ขณะนี้ อวตาร/เรพลิกา AI ที่ผสาน มัลติโมดัล·ความฉลาดทางอารมณ์·การปรับให้เหมาะกับแต่ละบุคคล ได้ถือกำเนิดขึ้น โดยมุ่งสู่บทบาทที่ใกล้เคียงเพื่อนร่วมงานหรือผู้ร่วมมือ มากกว่าจะเป็นเพียงเครื่องมือ
- ความก้าวหน้าของโครงสร้างพื้นฐานวิดีโอแบบเรียลไทม์ การสร้างใบหน้า 3 มิติ ระบบการรับรู้ เทคโนโลยีเสียง และ LLM ทำให้ การสร้างอวตารที่สมจริงและชาญฉลาด เป็นไปได้
- สิ่งเหล่านี้กำลังเสริมความสัมพันธ์กับมนุษย์ผ่าน หน่วยความจำต่อเนื่อง, ความเห็นอกเห็นใจทางอารมณ์, ความเข้าใจเชิงปัญญา, และ การปรับให้เหมาะกับแต่ละบุคคลอย่างลึกซึ้ง และถูกนำไปใช้ในหลากหลายอุตสาหกรรม
- อินเทอร์เฟซในอนาคตจะก้าวข้ามหน้าจอแบบเรียบง่ายไปสู่ระบบที่มี ความเข้าใจบริบท·การปรับตัวต่อการกระทำ·ความฉลาดทางอารมณ์ ซึ่งมีแนวโน้มจะเปลี่ยนแก่นแท้ของความสัมพันธ์ระหว่างมนุษย์กับคอมพิวเตอร์
ทำไมต้องตอนนี้: ยุคใหม่ของปฏิสัมพันธ์ระหว่างมนุษย์กับเครื่องจักร
- ปฏิสัมพันธ์ระหว่างมนุษย์กับเครื่องจักรกำลังพัฒนาจากวิธีเดิมอย่างการคลิก การพิมพ์ และการสำรวจหน้าจอ ไปสู่แนวทางที่เน้น มัลติโมดัล และ ความฉลาดทางอารมณ์
- การแพร่หลายของอุปกรณ์พกพาทำให้เกิดปฏิสัมพันธ์ที่อิงเสียง และผู้ช่วยอย่าง Siri ก็แสดงให้เห็นถึงความเป็นไปได้ของการสนทนาอย่างเป็นธรรมชาติ
- ปัจจุบัน อวตาร AI และ ร่างจำลอง AI กำลังพัฒนาจากเครื่องมือไปสู่การเป็น อวตารที่ทำหน้าที่เป็นเพื่อนร่วมงาน ผู้ร่วมมือ และเพื่อนคู่คิด
- อวตาร AI สามารถสบตา ยิ้ม จดจำความชอบของผู้ใช้ และตอบสนองต่อ อารมณ์ ได้แบบเรียลไทม์
- กำลังพัฒนาจากอวตารแบบนิ่งไปเป็นสิ่งมีอยู่ที่มี ชีวิตชีวา เคลื่อนไหวได้และแสดงออกได้มากขึ้น
- ถูกใช้งานในหลายอุตสาหกรรม เช่น การโค้ช การแพทย์ การดูแลผู้สูงอายุ และการสนับสนุนลูกค้า
การผสานกันอย่างลงตัวของเทคโนโลยีและการเปลี่ยนแปลงทางพฤติกรรม
- การพัฒนาของ แชตบอตแบบข้อความ และผู้ช่วยเสียง ทำให้เกิดการสนับสนุนแบบเรียลไทม์ที่ปรับให้เหมาะกับแต่ละบุคคล และการโต้ตอบแบบแฮนด์ฟรี
- อวตาร AI ทำงานเกินกว่าการช่วยเหลือพื้นฐาน โดยเป็นผู้ร่วมมือที่มีทั้ง ความเห็นอกเห็นใจ บริบท และบุคลิก
- มนุษย์แสวงหา การเชื่อมต่อและความสัมพันธ์ โดยธรรมชาติ จึงคาดหวังให้เครื่องมือดิจิทัลพัฒนาจากปฏิสัมพันธ์เชิงธุรกรรมไปสู่ ปฏิสัมพันธ์ที่มุ่งเน้นความสัมพันธ์
- การเปลี่ยนแปลงด้านเทคโนโลยีและพฤติกรรมที่หลอมรวมกัน ทำให้อวตารและร่างจำลอง AI ทั้งเป็นไปได้และเป็นที่ต้องการ
- เมื่อนวัตกรรมทางเทคโนโลยีและการยอมรับทางสังคมมาบรรจบกัน ความต้องการอวตาร AI จึงเพิ่มขึ้นอย่างระเบิด
นวัตกรรมในเทคโนโลยีสแตก
- โครงสร้างพื้นฐานวิดีโอแบบเรียลไทม์: เทคโนโลยีอย่าง WebRTC รองรับการประชุมวิดีโอที่มีความหน่วงต่ำ ทำให้เกิดปฏิสัมพันธ์ทางภาพที่ราบรื่นในสภาพแวดล้อมแบบกระจายตัว
- การสร้างใบหน้า 3 มิติ: Tavus, HeyGen เป็นต้น สามารถสร้างโคลนใบหน้าคุณภาพสูงและลิปซิงก์ที่แม่นยำจากวิดีโอสั้น
- ระบบการรับรู้: ติดตามท่าทาง สีหน้าเล็กน้อย การสบตา และการเคลื่อนไหวแบบเรียลไทม์เพื่อตอบสนองต่อ สัญญาณทางภาพ เข้าใจ สภาพแวดล้อมรอบตัว และตอบสนอง ได้สอดคล้องกับบริบท
- เทคโนโลยีเสียง: TTS/STT จาก Deepgram, ElevenLabs เป็นต้น รองรับการสนทนาที่เป็นธรรมชาติและเกิดขึ้นได้ทันที
- เทคโนโลยีเสียงแบบเรียลไทม์ที่แทบไม่มีความหน่วง ทำให้การสนทนายืดหยุ่นและแสดงออกได้ดี
- โมเดลภาษา: LLM ช่วยให้เข้าใจบริบทได้ลึกซึ้งและตอบสนองอย่างชาญฉลาด รวมถึงสนทนาเฉพาะทางในแต่ละสาขาได้
- ก้าวพ้นจากความรู้แบบจำกัดที่ถูกตั้งโปรแกรมไว้ ไปสู่ การตอบสนองอย่างรอบคอบ
หน่วยความจำต่อเนื่อง
- มีความสามารถในการติดตามบทสนทนายาว ภายในเซสชัน และรักษาบริบทไว้
- แม้ ข้ามเซสชัน ก็ยังจดจำเป้าหมายและความชอบในอดีต เพื่อมอบบทสนทนาที่ปรับให้เหมาะกับแต่ละบุคคล
- กำลังพัฒนาจากการตอบสนองแบบครั้งต่อครั้ง ไปสู่ AI คู่หูระยะยาว
บุคลิกภาพและความฉลาดทางอารมณ์
- เพื่อสร้าง ประสบการณ์ที่เน้นความสัมพันธ์ จึงแสดงอารมณ์เชิงบวกอย่างความอบอุ่น ความเห็นอกเห็นใจ และการให้กำลังใจ
- ถ่ายทอดสภาวะอารมณ์ที่ละเอียดอ่อนผ่าน น้ำเสียง·จังหวะเวลา·สีหน้า เพื่อสร้างความไว้วางใจแบบมนุษย์
ความเข้าใจเชิงปัญญา
- สามารถ จับบริบทและให้เหตุผลได้ทันที คล้ายมนุษย์
- ตอบสนองต่อข้อมูลล่าสุด และสะท้อน ความรู้เฉพาะทาง ในสาขาอย่างเฮลท์แคร์ การเงิน และการศึกษา
การปรับให้เหมาะกับแต่ละบุคคลอย่างลึกซึ้ง
- ก้าวข้ามการปรับแต่ง UI แบบพื้นฐาน ไปสู่การเพิ่มประสิทธิภาพตามแต่ละบุคคลแม้กระทั่ง เสียง รูปลักษณ์ และวิธีการตอบสนอง
- เชื่อมโยงกับบทสนทนาในอดีต รวมถึงเครื่องมือภายนอกและระบบความรู้ เพื่อมอบปฏิสัมพันธ์ที่ชาญฉลาดและปรับแต่งเฉพาะบุคคล
- ผู้ใช้หลายสิบล้านคนได้สัมผัสสิ่งนี้แล้วผ่าน Character.AI, Delphi เป็นต้น
ชั้นโครงสร้างพื้นฐาน: สแตกแห่งการมีตัวตนแบบใหม่
- Tavus:
- มุ่งเน้นนักพัฒนา รองรับการสื่อสารผ่านวิดีโอแบบปรับแต่งตามต้องการและเรียลไทม์บนพื้นฐาน API
- ผสานวิดีโอเชิงสนทนาเข้ากับเวิร์กโฟลว์ เช่น การออนบอร์ด การแพทย์ทางไกล และการขายแบบอะซิงโครนัส
- Synthesia:
- แปลงข้อความเป็นวิดีโอคุณภาพระดับสตูดิโอในมากกว่า 140 ภาษา เพื่อสร้างวิดีโออวตาร AI
- องค์กรขนาดใหญ่อย่าง Zoom, Reuters, Heineken ใช้งานในด้านการขาย การตลาด การโลคัลไลซ์เซชัน การเรียนรู้ และการพัฒนา
- อื่น ๆ: มีเครื่องมือโครงสร้างพื้นฐานวิดีโอ AI หลากหลายเกิดขึ้น เช่น Sieve, Descript, TwelveLabs, และ Sora ของ OpenAI
- ในช่วง 2 ปีที่ผ่านมาเกิดการเติบโตแบบก้าวกระโดด จนก่อให้เกิด ระบบนิเวศที่ทั้งครีเอเตอร์ นักพัฒนา และองค์กรสามารถนำไปใช้ได้
แนวโน้มข้างหน้า: โลกดิจิทัลที่มีความเป็นมนุษย์มากขึ้น
- อินเทอร์เฟซกำลังเคลื่อนจากหน้าจอที่อิงพิกเซล ไปสู่ ระบบปรับตัวได้ที่อิงความเข้าใจบริบท ความฉลาดทางอารมณ์ และความทรงจำ
- AI ที่ยอดเยี่ยมจะไม่ใช่แค่การตอบคำถาม แต่เป็น การตอบสนองอย่างเป็นธรรมชาติและเหมาะสมตามสถานการณ์
- ผ่านอุปกรณ์สวมใส่อย่าง Meta Glasses จะทำให้เกิด ปฏิสัมพันธ์แบบต่อเนื่องและปรับให้เหมาะกับแต่ละบุคคล ได้แม้ในโลกจริง
- HCI รุ่นถัดไปมีแนวโน้มจะนิยามความสัมพันธ์ระหว่างมนุษย์กับเครื่องจักรขึ้นใหม่ โดยยึดประสบการณ์ที่ ดื่มด่ำ ฝังตัว และเป็นส่วนตัว เป็นศูนย์กลาง
1 ความคิดเห็น
ก็กลายเป็นแบบนั้นไปพอสมควรแล้ว
แต่ยิ่งเทคโนโลยีแบบนี้พัฒนาไปมากเท่าไร ระยะห่างระหว่างผู้คนก็คงยิ่งมากขึ้นเท่านั้นนะครับ