ตอนนี้ ChatGPT สามารถมองเห็น ฟัง และพูดได้แล้ว

kuroneko · 2023-09-26T10:09:40+09:00

เปิดตัวความสามารถด้านเสียงและรูปภาพใหม่สำหรับ ChatGPT สามารถสนทนาได้อย่างเป็นธรรมชาติผ่านเสียง และแนบรูปภาพเพื่อถามคำถามได้ เสียงจะถูกแปลงเป็นข้อความผ่าน Whisper และคำตอบจะถูกแปลงเป็นเสียงของนักพากย์มืออาชีพโดยอิงจากโมเดล TTS ใหม่ โมเดล TTS ใหม่นี้สามารถจำลองเสียงของบุคคลนั้นได้อย่างสมจริงโดยใช้เพียงตัวอย่างเสียงไม่กี่วินาที โมเดลนี้ยังถูกใช้ในฟีเจอร์แปลพอดแคสต์ของ Spotify โดยแปลเป็นหลายภาษาโดยคงเสียงของพอดแคสเตอร์คนเดิมไว้ สามารถแนบรูปภาพได้หลายภาพพร้อมกัน และไม่เพียงอ่านข้อความในภาพได้เท่านั้น แต่ยังจดจำวัตถุได้อย่างละเอียดด้วย สามารถถามวิธีใช้งานเครื่องมือหรืออุปกรณ์ หรือพูดคุยเรื่องสูตรอาหารจากวัตถุดิบในตู้เย็นได้ นอกจากนี้ยังสามารถวิเคราะห์กราฟหรือแก้โจทย์คณิตศาสตร์ได้ด้วย ในแอปมือถือ สามารถใช้เครื่องมือวาดเพื่อเน้นให้โฟกัสที่ส่วนใดส่วนหนึ่งของภาพได้ เพื่อความปลอดภัยและการคุ้มครองความเป็นส่วนตัว ความสามารถในการวิเคราะห์หรือพูดถึงบุคคลถูกจำกัดไว้เป็นอย่างมาก คาดว่าจะเริ่มเปิดให้ผู้ใช้ Plus และ Enterprise ใช้งานก่อนภายใน 2 สัปดาห์ข้างหน้า ฟีเจอร์เสียงใช้งานได้เฉพาะบน iOS และ Android ส่วนความสามารถในการแนบรูปภาพใช้งานได้บนทุกแพลตฟอร์ม

(openai.com)

22 คะแนน โดย kuroneko 2023-09-26 | 4 ความคิดเห็น | แชร์ทาง WhatsApp

เปิดตัวความสามารถด้านเสียงและรูปภาพใหม่สำหรับ ChatGPT
สามารถสนทนาได้อย่างเป็นธรรมชาติผ่านเสียง และแนบรูปภาพเพื่อถามคำถามได้
เสียงจะถูกแปลงเป็นข้อความผ่าน Whisper และคำตอบจะถูกแปลงเป็นเสียงของนักพากย์มืออาชีพโดยอิงจากโมเดล TTS ใหม่
- โมเดล TTS ใหม่นี้สามารถจำลองเสียงของบุคคลนั้นได้อย่างสมจริงโดยใช้เพียงตัวอย่างเสียงไม่กี่วินาที
- โมเดลนี้ยังถูกใช้ในฟีเจอร์แปลพอดแคสต์ของ Spotify โดยแปลเป็นหลายภาษาโดยคงเสียงของพอดแคสเตอร์คนเดิมไว้
สามารถแนบรูปภาพได้หลายภาพพร้อมกัน และไม่เพียงอ่านข้อความในภาพได้เท่านั้น แต่ยังจดจำวัตถุได้อย่างละเอียดด้วย
- สามารถถามวิธีใช้งานเครื่องมือหรืออุปกรณ์ หรือพูดคุยเรื่องสูตรอาหารจากวัตถุดิบในตู้เย็นได้
- นอกจากนี้ยังสามารถวิเคราะห์กราฟหรือแก้โจทย์คณิตศาสตร์ได้ด้วย
- ในแอปมือถือ สามารถใช้เครื่องมือวาดเพื่อเน้นให้โฟกัสที่ส่วนใดส่วนหนึ่งของภาพได้
- เพื่อความปลอดภัยและการคุ้มครองความเป็นส่วนตัว ความสามารถในการวิเคราะห์หรือพูดถึงบุคคลถูกจำกัดไว้เป็นอย่างมาก
คาดว่าจะเริ่มเปิดให้ผู้ใช้ Plus และ Enterprise ใช้งานก่อนภายใน 2 สัปดาห์ข้างหน้า
ฟีเจอร์เสียงใช้งานได้เฉพาะบน iOS และ Android ส่วนความสามารถในการแนบรูปภาพใช้งานได้บนทุกแพลตฟอร์ม

4 ความคิดเห็น

alstjr7375 2023-09-26

สกายเน็ตกำลังมา...

ciber27 2023-09-26

คงจะเป็นไปได้ที่จะมี OS แบบในหนังเรื่อง her เลยนะ

kuroneko 2023-09-26

ตอนที่ GPT-4 เปิดตัวครั้งแรก ฟีเจอร์นี้โผล่มาให้เห็นแวบหนึ่ง แต่ความน่าทึ่งคือมันไม่ได้แค่จดจำภาพได้ แต่ยังเข้าใจภาพได้ด้วย

ในตัวอย่างจะมีช่วงที่ถามวิธีปรับอานจักรยาน
มันดูไม่ใช่แค่การรู้จำภาพธรรมดา แต่เหมือนกับว่ามันดูคู่มือแล้วช่วยหาเครื่องมือที่เหมาะสมให้ได้ด้วย...

เดิมทีผมก็สงสัยว่าจำเป็นต้องสมัคร Plus ไหม แต่ถ้าเป็นแบบนี้ เรื่องก็ต่างออกไปหน่อยนะ... อยากลองมากเลยครับ

kuroneko 2023-09-26

สรุป AI ของเธรด HN

modeless: เชื่อว่าปัญหาใหญ่ที่สุดของผู้ช่วยเสียงในปัจจุบันคือความหน่วง และหากสร้างโมเดลการสลับลำดับการพูดในการสนทนาเสียงได้ ก็จะทำให้การสนทนาเป็นธรรมชาติมากขึ้น
TheEzEzz: ได้สร้างระบบรับคำสั่งเสียงที่มีความหน่วงต่ำโดยใช้ Llama และเครื่องมืออื่น ๆ ซึ่งใกล้เคียงกับการสนทนาที่เป็นธรรมชาติ และคิดว่าการวิจัยอย่างต่อเนื่องในด้านนี้จะนำไปสู่การพัฒนาแอปพลิเคชันใหม่ ๆ ได้
cyrux004: ตั้งข้อสงสัยว่าโมเดลที่รันแบบโลคัลจะสามารถทำประสิทธิภาพได้เทียบเท่ากับโมเดลบนคลาวด์หรือไม่ โดยเฉพาะในระบบที่ซับซ้อน
TheEzEzz: เห็นด้วยว่าขึ้นอยู่กับลักษณะของแอปพลิเคชัน และคาดว่าแนวทางแบบไฮบริดที่ให้โมเดลโลคัลจัดการการประมวลผลเบื้องต้น แล้วค่อยส่งคำขอไปยังโมเดลคลาวด์ขนาดใหญ่เมื่อจำเป็น จะกลายเป็นเรื่องทั่วไป
simian1983: ถามว่าจะเกิดอะไรขึ้นหากมีคำขอที่ไร้สาระหรือมีเจตนาร้ายส่งเข้ามาในระบบ
TheEzEzz: ตอบว่าระบบได้รับการฝึกให้เพิกเฉยต่อประโยคที่ไม่เกี่ยวข้อง เพื่อไม่ให้เสียงรบกวนเบื้องหลังรบกวนคำขอ
furyofantares: เน้นย้ำความสำคัญของความสามารถในการขัดจังหวะการตอบสนองของผู้ช่วยเสียงได้ เหมือนเวลาพูดคุยกับมนุษย์
dotancohen: เสนอว่าการถูกขัดจังหวะอาจเป็นสัญญาณของความเป็นมนุษย์ที่ระบบ AI ยังไม่สามารถทำได้อย่างสมบูรณ์
jonplackett: เชื่อว่าผู้ช่วยเสียงที่มีระดับเทียบเท่ามนุษย์อย่างแท้จริงจะต้องเข้าใจน้ำเสียงที่สื่อข้อมูลสำคัญซึ่งไม่ได้อยู่ในตัวข้อความได้

ตอนนี้ ChatGPT สามารถมองเห็น ฟัง และพูดได้แล้ว

บทความที่เกี่ยวข้อง

4 ความคิดเห็น