- ผู้ช่วยเสียง AI กำลังเปลี่ยนวิธีโต้ตอบกับเทคโนโลยีอย่างพลิกโฉม แต่การสนทนากับผู้ช่วยเสียงแบบเดิมอาจให้ความรู้สึกเป็นกลไกและไม่เป็นธรรมชาติ
- ยังมีความยากในการเข้าใจและปรับตัวต่อความละเอียดอ่อนและมิติทางอารมณ์ของบทสนทนาระหว่างมนุษย์
- ถ้าผู้ช่วยเสียงแบบโอเพนเต็มรูปแบบถูกสร้างขึ้นมาในลักษณะนี้จะเป็นอย่างไร?
- ตอบสนองต่อคำขอของผู้ใช้แบบเรียลไทม์ พร้อมน้ำเสียงที่เป็นธรรมชาติ ความเห็นอกเห็นใจ และความฉลาดทางอารมณ์
- เข้าใจบริบทยาวต่อเนื่องจากบทสนทนาก่อนหน้า และรองรับการสนทนาหลายคน การขัดจังหวะ การยืนยัน และการหยุดคิดระหว่างพูด
- ทำงานแบบโลคัลทั้งหมดบนฮาร์ดแวร์สำหรับผู้บริโภค
การพัฒนา BUD-E (Buddy for Understanding and Digital Empathy)
- LAION พัฒนา BUD-E ร่วมกับ ELLIS Institute Tübingen, Collabora และ Tübingen AI Center
- เริ่มจากการพัฒนาผู้ช่วยเสียงพื้นฐานที่มีค่าหน่วงต่ำ และ ณ เดือนมกราคม 2024 สามารถทำค่าหน่วงได้ที่ 300~500ms
- คาดว่าจะทำเวลาในการตอบสนองต่ำกว่า 300ms ได้เมื่อใช้โมเดลที่ใหญ่ขึ้น
โรดแมปการพัฒนา BUD-E
- แม้การสนทนากับโมเดลพื้นฐานก็ยังเป็นธรรมชาติกว่าสิ่งที่เคยเห็นมาจนถึงตอนนี้มาก
- แต่ก็ยังมีปัญหาและฟีเจอร์อีกมากที่ต้องแก้และพัฒนา
- ลดค่าหน่วงและทำให้ความต้องการของระบบต่ำที่สุด
- เพิ่มความเป็นธรรมชาติของบทสนทนาและการตอบสนอง
- ติดตามบทสนทนาที่ต่อเนื่องข้ามหลายวัน หลายเดือน และหลายปี
- ปรับปรุงฟังก์ชันและความสามารถของผู้ช่วยเสียง
- เพิ่มความเข้าใจบริบทแบบมัลติโหมดและบริบททางอารมณ์
- สร้างโครงสร้างพื้นฐานสำหรับส่วนติดต่อผู้ใช้ การผสานรวมอย่างต่อเนื่อง และการแพ็กเกจที่ทำได้ง่าย
- ขยายไปสู่หลายภาษาและผู้พูดหลายคน
ความร่วมมือเพื่อสร้างอนาคตของปัญญาประดิษฐ์เชิงสนทนา
- การพัฒนา BUD-E เป็นกระบวนการต่อเนื่องที่ต้องอาศัยความพยายามร่วมกันจากหลายชุมชน
- เชิญชวนนักพัฒนาโอเพนซอร์ส นักวิจัย และผู้ที่มีความสนใจเข้ามาปรับปรุงโมดูลแต่ละส่วนของ BUD-E และมีส่วนร่วมต่อการเติบโต
- หวังว่าจะสามารถร่วมกันสร้างผู้ช่วยเสียง AI ที่สนทนาได้อย่างเป็นธรรมชาติ ใช้งานได้อย่างเป็นสัญชาตญาณ และมีความเห็นอกเห็นใจ
ยังไม่มีความคิดเห็น