- เปิดตัวความสามารถด้านเสียงและรูปภาพใหม่สำหรับ ChatGPT
- สามารถสนทนาได้อย่างเป็นธรรมชาติผ่านเสียง และแนบรูปภาพเพื่อถามคำถามได้
- เสียงจะถูกแปลงเป็นข้อความผ่าน Whisper และคำตอบจะถูกแปลงเป็นเสียงของนักพากย์มืออาชีพโดยอิงจากโมเดล TTS ใหม่
- โมเดล TTS ใหม่นี้สามารถจำลองเสียงของบุคคลนั้นได้อย่างสมจริงโดยใช้เพียงตัวอย่างเสียงไม่กี่วินาที
- โมเดลนี้ยังถูกใช้ในฟีเจอร์แปลพอดแคสต์ของ Spotify โดยแปลเป็นหลายภาษาโดยคงเสียงของพอดแคสเตอร์คนเดิมไว้
- สามารถแนบรูปภาพได้หลายภาพพร้อมกัน และไม่เพียงอ่านข้อความในภาพได้เท่านั้น แต่ยังจดจำวัตถุได้อย่างละเอียดด้วย
- สามารถถามวิธีใช้งานเครื่องมือหรืออุปกรณ์ หรือพูดคุยเรื่องสูตรอาหารจากวัตถุดิบในตู้เย็นได้
- นอกจากนี้ยังสามารถวิเคราะห์กราฟหรือแก้โจทย์คณิตศาสตร์ได้ด้วย
- ในแอปมือถือ สามารถใช้เครื่องมือวาดเพื่อเน้นให้โฟกัสที่ส่วนใดส่วนหนึ่งของภาพได้
- เพื่อความปลอดภัยและการคุ้มครองความเป็นส่วนตัว ความสามารถในการวิเคราะห์หรือพูดถึงบุคคลถูกจำกัดไว้เป็นอย่างมาก
- คาดว่าจะเริ่มเปิดให้ผู้ใช้ Plus และ Enterprise ใช้งานก่อนภายใน 2 สัปดาห์ข้างหน้า
- ฟีเจอร์เสียงใช้งานได้เฉพาะบน iOS และ Android ส่วนความสามารถในการแนบรูปภาพใช้งานได้บนทุกแพลตฟอร์ม
4 ความคิดเห็น
สกายเน็ตกำลังมา...
คงจะเป็นไปได้ที่จะมี OS แบบในหนังเรื่อง her เลยนะ
ตอนที่ GPT-4 เปิดตัวครั้งแรก ฟีเจอร์นี้โผล่มาให้เห็นแวบหนึ่ง แต่ความน่าทึ่งคือมันไม่ได้แค่จดจำภาพได้ แต่ยังเข้าใจภาพได้ด้วย
ในตัวอย่างจะมีช่วงที่ถามวิธีปรับอานจักรยาน
มันดูไม่ใช่แค่การรู้จำภาพธรรมดา แต่เหมือนกับว่ามันดูคู่มือแล้วช่วยหาเครื่องมือที่เหมาะสมให้ได้ด้วย...
เดิมทีผมก็สงสัยว่าจำเป็นต้องสมัคร Plus ไหม แต่ถ้าเป็นแบบนี้ เรื่องก็ต่างออกไปหน่อยนะ... อยากลองมากเลยครับ
สรุป AI ของเธรด HN