1 คะแนน โดย GN⁺ 2023-09-26 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • OpenAI เปิดตัวฟีเจอร์เสียงและภาพใหม่ใน ChatGPT
  • ฟีเจอร์ใหม่เหล่านี้มอบอินเทอร์เฟซที่ใช้งานได้อย่างเป็นธรรมชาติมากขึ้น เช่น ให้ผู้ใช้สนทนาด้วยเสียงหรือแสดงภาพให้ ChatGPT ดู
  • ผู้ใช้สามารถนำฟีเจอร์เหล่านี้ไปใช้ได้หลากหลายรูปแบบ เช่น ถ่ายภาพสถานที่สำคัญแล้วสนทนาแบบเรียลไทม์ หรือถ่ายภาพตู้เย็นและตู้เก็บอาหารเพื่อช่วยตัดสินใจเลือกเมนูอาหารเย็น
  • มีกำหนดทยอยเปิดให้ผู้ใช้ Plus และ Enterprise ภายในสองสัปดาห์ถัดไป โดยฟีเจอร์เสียงจะใช้งานได้บน iOS และ Android ส่วนฟีเจอร์ภาพจะใช้งานได้บนทุกแพลตฟอร์ม
  • ฟีเจอร์เสียงใหม่นี้ขับเคลื่อนด้วยโมเดล text-to-speech ที่สามารถสร้างเสียงคล้ายมนุษย์ได้จากข้อความและตัวอย่างเสียงเพียงไม่กี่วินาที
  • ฟีเจอร์เสียงได้รับการพัฒนาร่วมกับนักพากย์เสียงมืออาชีพ และใช้ Whisper ซึ่งเป็นระบบรู้จำเสียงพูดแบบโอเพนซอร์สของ OpenAI เพื่อแปลงคำพูดเป็นข้อความ
  • ความสามารถในการทำความเข้าใจภาพขับเคลื่อนโดย GPT-3.5 และ GPT-4 ซึ่งนำความสามารถด้านการให้เหตุผลทางภาษามาใช้กับภาพหลากหลายประเภท
  • OpenAI ระบุว่าจะทยอยปล่อยฟีเจอร์เหล่านี้อย่างค่อยเป็นค่อยไป เพื่อให้มั่นใจถึงการใช้งานที่ปลอดภัยและเป็นประโยชน์ พร้อมเตรียมผู้ใช้สำหรับระบบที่ทรงพลังยิ่งขึ้นในอนาคต
  • เทคโนโลยีเสียงใหม่นี้มีความเสี่ยงที่ผู้ไม่หวังดีอาจนำไปใช้แอบอ้างเป็นบุคคลสาธารณะหรือใช้ในการฉ้อโกง
  • โมเดลที่อิงกับวิชันก็สร้างความท้าทายใหม่เช่นกัน เช่น การหลอนข้อมูลเกี่ยวกับผู้คน หรือปัญหาจากการพึ่งพาการตีความภาพของโมเดลในบริบทที่มีความเสี่ยงสูง
  • OpenAI ได้ดำเนินมาตรการจำกัดความสามารถของ ChatGPT ในการวิเคราะห์และแสดงความเห็นโดยตรงเกี่ยวกับบุคคล เพื่อเคารพความเป็นส่วนตัวของแต่ละคน
  • OpenAI เปิดเผยข้อจำกัดของโมเดลอย่างโปร่งใส โดยเน้นย้ำเป็นพิเศษถึงข้อจำกัดในงานวิจัยและในภาษาที่ใช้สคริปต์ที่ไม่ใช่อักษรโรมัน
  • ผู้ใช้ Plus และ Enterprise จะได้ทดลองใช้ฟีเจอร์เสียงและภาพภายในสองสัปดาห์ข้างหน้า ส่วนกลุ่มผู้ใช้อื่นรวมถึงนักพัฒนาจะได้ใช้งานตามมาในไม่ช้า

1 ความคิดเห็น

 
GN⁺ 2023-09-26
ความคิดเห็นบน Hacker News
  • ฟีเจอร์เสียงและภาพใหม่ของ ChatGPT มีศักยภาพ แต่มีความกังวลเรื่องความหน่วงระหว่างการถามและการตอบ
  • เทคโนโลยีนี้อาจถูกนำไปใช้ในการวางแผนหุ่นยนต์ ซึ่งอาจนำไปสู่หุ่นยนต์อเนกประสงค์ที่ทำงานแรงงานง่าย ๆ ได้
  • ความก้าวหน้าของ ChatGPT อาจทำให้สตาร์ทอัปจำนวนมากที่พยายามสร้างความสามารถแบบมัลติโหมดต้องสับสน
  • มีความผิดหวังที่ฟีเจอร์ท่องเว็บถูกถอดออกไปโดยไม่มีการประกาศอย่างเหมาะสม
  • ฟีเจอร์ใหม่นี้อาจถูกใช้เพื่อนำการรู้จำภาพที่ขับเคลื่อนด้วย AI ที่มีความทนทานไปใช้ในส่วนติดต่อผู้ใช้ของแอป และสร้างโค้ดอัตโนมัติสำหรับการทดสอบที่นำไปใช้งานได้จริง
  • ดูเหมือนว่าประสบการณ์ผู้ใช้ที่เป็นธรรมชาติที่สุดยังคงเป็นการแชตด้วยข้อความ แต่การโต้ตอบกับภาพก็น่าสนใจเช่นกัน
  • การเพิ่มการรองรับภาพอาจถูกนักเรียนนำไปใช้ในทางที่ผิดเพื่อให้ได้คำตอบการบ้าน
  • มีคำวิจารณ์ว่า OpenAI สื่อสารเกี่ยวกับฟีเจอร์ใหม่และการทยอยเปิดใช้งานได้ไม่เพียงพอ
  • ฟีเจอร์ใหม่นี้อาจช่วยลดความซับซ้อนและความหน่วงในการผสานบริการ AI หลายตัวเข้าด้วยกันในโปรเจกต์งานอดิเรก
  • มีคำวิจารณ์ว่า ChatGPT ยังติดอยู่ในโหมด "เดโมเท่ ๆ" และยังใช้ศักยภาพได้ไม่เต็มที่ เช่น การใช้เสียงเพื่ออธิบายโปรแกรม