22 คะแนน โดย kuroneko 2023-09-26 | 4 ความคิดเห็น | แชร์ทาง WhatsApp
  • เปิดตัวความสามารถด้านเสียงและรูปภาพใหม่สำหรับ ChatGPT
  • สามารถสนทนาได้อย่างเป็นธรรมชาติผ่านเสียง และแนบรูปภาพเพื่อถามคำถามได้
  • เสียงจะถูกแปลงเป็นข้อความผ่าน Whisper และคำตอบจะถูกแปลงเป็นเสียงของนักพากย์มืออาชีพโดยอิงจากโมเดล TTS ใหม่
    • โมเดล TTS ใหม่นี้สามารถจำลองเสียงของบุคคลนั้นได้อย่างสมจริงโดยใช้เพียงตัวอย่างเสียงไม่กี่วินาที
    • โมเดลนี้ยังถูกใช้ในฟีเจอร์แปลพอดแคสต์ของ Spotify โดยแปลเป็นหลายภาษาโดยคงเสียงของพอดแคสเตอร์คนเดิมไว้
  • สามารถแนบรูปภาพได้หลายภาพพร้อมกัน และไม่เพียงอ่านข้อความในภาพได้เท่านั้น แต่ยังจดจำวัตถุได้อย่างละเอียดด้วย
    • สามารถถามวิธีใช้งานเครื่องมือหรืออุปกรณ์ หรือพูดคุยเรื่องสูตรอาหารจากวัตถุดิบในตู้เย็นได้
    • นอกจากนี้ยังสามารถวิเคราะห์กราฟหรือแก้โจทย์คณิตศาสตร์ได้ด้วย
    • ในแอปมือถือ สามารถใช้เครื่องมือวาดเพื่อเน้นให้โฟกัสที่ส่วนใดส่วนหนึ่งของภาพได้
    • เพื่อความปลอดภัยและการคุ้มครองความเป็นส่วนตัว ความสามารถในการวิเคราะห์หรือพูดถึงบุคคลถูกจำกัดไว้เป็นอย่างมาก
  • คาดว่าจะเริ่มเปิดให้ผู้ใช้ Plus และ Enterprise ใช้งานก่อนภายใน 2 สัปดาห์ข้างหน้า
  • ฟีเจอร์เสียงใช้งานได้เฉพาะบน iOS และ Android ส่วนความสามารถในการแนบรูปภาพใช้งานได้บนทุกแพลตฟอร์ม

4 ความคิดเห็น

 
alstjr7375 2023-09-26

สกายเน็ตกำลังมา...

 
ciber27 2023-09-26

คงจะเป็นไปได้ที่จะมี OS แบบในหนังเรื่อง her เลยนะ

 
kuroneko 2023-09-26

ตอนที่ GPT-4 เปิดตัวครั้งแรก ฟีเจอร์นี้โผล่มาให้เห็นแวบหนึ่ง แต่ความน่าทึ่งคือมันไม่ได้แค่จดจำภาพได้ แต่ยังเข้าใจภาพได้ด้วย

ในตัวอย่างจะมีช่วงที่ถามวิธีปรับอานจักรยาน
มันดูไม่ใช่แค่การรู้จำภาพธรรมดา แต่เหมือนกับว่ามันดูคู่มือแล้วช่วยหาเครื่องมือที่เหมาะสมให้ได้ด้วย...

เดิมทีผมก็สงสัยว่าจำเป็นต้องสมัคร Plus ไหม แต่ถ้าเป็นแบบนี้ เรื่องก็ต่างออกไปหน่อยนะ... อยากลองมากเลยครับ

 
kuroneko 2023-09-26

สรุป AI ของเธรด HN

  • modeless: เชื่อว่าปัญหาใหญ่ที่สุดของผู้ช่วยเสียงในปัจจุบันคือความหน่วง และหากสร้างโมเดลการสลับลำดับการพูดในการสนทนาเสียงได้ ก็จะทำให้การสนทนาเป็นธรรมชาติมากขึ้น
  • TheEzEzz: ได้สร้างระบบรับคำสั่งเสียงที่มีความหน่วงต่ำโดยใช้ Llama และเครื่องมืออื่น ๆ ซึ่งใกล้เคียงกับการสนทนาที่เป็นธรรมชาติ และคิดว่าการวิจัยอย่างต่อเนื่องในด้านนี้จะนำไปสู่การพัฒนาแอปพลิเคชันใหม่ ๆ ได้
  • cyrux004: ตั้งข้อสงสัยว่าโมเดลที่รันแบบโลคัลจะสามารถทำประสิทธิภาพได้เทียบเท่ากับโมเดลบนคลาวด์หรือไม่ โดยเฉพาะในระบบที่ซับซ้อน
  • TheEzEzz: เห็นด้วยว่าขึ้นอยู่กับลักษณะของแอปพลิเคชัน และคาดว่าแนวทางแบบไฮบริดที่ให้โมเดลโลคัลจัดการการประมวลผลเบื้องต้น แล้วค่อยส่งคำขอไปยังโมเดลคลาวด์ขนาดใหญ่เมื่อจำเป็น จะกลายเป็นเรื่องทั่วไป
  • simian1983: ถามว่าจะเกิดอะไรขึ้นหากมีคำขอที่ไร้สาระหรือมีเจตนาร้ายส่งเข้ามาในระบบ
  • TheEzEzz: ตอบว่าระบบได้รับการฝึกให้เพิกเฉยต่อประโยคที่ไม่เกี่ยวข้อง เพื่อไม่ให้เสียงรบกวนเบื้องหลังรบกวนคำขอ
  • furyofantares: เน้นย้ำความสำคัญของความสามารถในการขัดจังหวะการตอบสนองของผู้ช่วยเสียงได้ เหมือนเวลาพูดคุยกับมนุษย์
  • dotancohen: เสนอว่าการถูกขัดจังหวะอาจเป็นสัญญาณของความเป็นมนุษย์ที่ระบบ AI ยังไม่สามารถทำได้อย่างสมบูรณ์
  • jonplackett: เชื่อว่าผู้ช่วยเสียงที่มีระดับเทียบเท่ามนุษย์อย่างแท้จริงจะต้องเข้าใจน้ำเสียงที่สื่อข้อมูลสำคัญซึ่งไม่ได้อยู่ในตัวข้อความได้