- OpenAI เปิดตัวฟีเจอร์เสียงและภาพใหม่ใน ChatGPT
- ฟีเจอร์ใหม่เหล่านี้มอบอินเทอร์เฟซที่ใช้งานได้อย่างเป็นธรรมชาติมากขึ้น เช่น ให้ผู้ใช้สนทนาด้วยเสียงหรือแสดงภาพให้ ChatGPT ดู
- ผู้ใช้สามารถนำฟีเจอร์เหล่านี้ไปใช้ได้หลากหลายรูปแบบ เช่น ถ่ายภาพสถานที่สำคัญแล้วสนทนาแบบเรียลไทม์ หรือถ่ายภาพตู้เย็นและตู้เก็บอาหารเพื่อช่วยตัดสินใจเลือกเมนูอาหารเย็น
- มีกำหนดทยอยเปิดให้ผู้ใช้ Plus และ Enterprise ภายในสองสัปดาห์ถัดไป โดยฟีเจอร์เสียงจะใช้งานได้บน iOS และ Android ส่วนฟีเจอร์ภาพจะใช้งานได้บนทุกแพลตฟอร์ม
- ฟีเจอร์เสียงใหม่นี้ขับเคลื่อนด้วยโมเดล text-to-speech ที่สามารถสร้างเสียงคล้ายมนุษย์ได้จากข้อความและตัวอย่างเสียงเพียงไม่กี่วินาที
- ฟีเจอร์เสียงได้รับการพัฒนาร่วมกับนักพากย์เสียงมืออาชีพ และใช้ Whisper ซึ่งเป็นระบบรู้จำเสียงพูดแบบโอเพนซอร์สของ OpenAI เพื่อแปลงคำพูดเป็นข้อความ
- ความสามารถในการทำความเข้าใจภาพขับเคลื่อนโดย GPT-3.5 และ GPT-4 ซึ่งนำความสามารถด้านการให้เหตุผลทางภาษามาใช้กับภาพหลากหลายประเภท
- OpenAI ระบุว่าจะทยอยปล่อยฟีเจอร์เหล่านี้อย่างค่อยเป็นค่อยไป เพื่อให้มั่นใจถึงการใช้งานที่ปลอดภัยและเป็นประโยชน์ พร้อมเตรียมผู้ใช้สำหรับระบบที่ทรงพลังยิ่งขึ้นในอนาคต
- เทคโนโลยีเสียงใหม่นี้มีความเสี่ยงที่ผู้ไม่หวังดีอาจนำไปใช้แอบอ้างเป็นบุคคลสาธารณะหรือใช้ในการฉ้อโกง
- โมเดลที่อิงกับวิชันก็สร้างความท้าทายใหม่เช่นกัน เช่น การหลอนข้อมูลเกี่ยวกับผู้คน หรือปัญหาจากการพึ่งพาการตีความภาพของโมเดลในบริบทที่มีความเสี่ยงสูง
- OpenAI ได้ดำเนินมาตรการจำกัดความสามารถของ ChatGPT ในการวิเคราะห์และแสดงความเห็นโดยตรงเกี่ยวกับบุคคล เพื่อเคารพความเป็นส่วนตัวของแต่ละคน
- OpenAI เปิดเผยข้อจำกัดของโมเดลอย่างโปร่งใส โดยเน้นย้ำเป็นพิเศษถึงข้อจำกัดในงานวิจัยและในภาษาที่ใช้สคริปต์ที่ไม่ใช่อักษรโรมัน
- ผู้ใช้ Plus และ Enterprise จะได้ทดลองใช้ฟีเจอร์เสียงและภาพภายในสองสัปดาห์ข้างหน้า ส่วนกลุ่มผู้ใช้อื่นรวมถึงนักพัฒนาจะได้ใช้งานตามมาในไม่ช้า
1 ความคิดเห็น
ความคิดเห็นบน Hacker News