4 คะแนน โดย GN⁺ 2023-12-02 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • กลุ่มโมเดลวิจัย AI ที่มุ่งขจัดกำแพงด้านภาษาและทำให้การสื่อสารข้ามภาษาหลายภาษาเป็นธรรมชาติมากขึ้น
    • SeamlessExpressive: คงไว้ซึ่งการแสดงออกและความละเอียดอ่อนทางภาษาในการแปลข้ามภาษา
    • SeamlessStreaming: ให้บริการแปลเสียงและข้อความด้วยความหน่วงราว 2 วินาที
    • SeamlessM4T v2: โมเดลพื้นฐานแบบหลายภาษาและหลายงาน รองรับการสื่อสารผ่านเสียงและข้อความ
    • Seamless: รวมความสามารถของ SeamlessExpressive, SeamlessStreaming และ SeamlessM4T v2 ไว้ในหนึ่งเดียว

รักษาน้ำหนักและนัยของการแสดงออก

  • SeamlessExpressive มีเป้าหมายเพื่อการแปลที่จับนัยละเอียดของการแสดงออกของมนุษย์
  • เครื่องมือแปลแบบเดิมเก่งในการจับเนื้อหาการสนทนา แต่โดยทั่วไปมักให้ผลลัพธ์เป็นเสียงที่ราบเรียบและคล้ายหุ่นยนต์
  • SeamlessExpressive มุ่งรักษาทั้งสไตล์การพูด สีสันทางอารมณ์ ตลอดจนความละเอียดอ่อนของภาษา เช่น ความเร็วในการพูดและจังหวะหยุด

การแปลแบบเกือบเรียลไทม์

  • SeamlessStreaming เป็นโมเดลขนาดใหญ่หลายภาษาตัวแรกที่ให้การแปลด้วยความหน่วงราว 2 วินาที
  • พัฒนาบนพื้นฐานของ SeamlessM4T v2 และรองรับการรู้จำเสียงพูดอัตโนมัติ รวมถึงการแปลเสียงเป็นข้อความสำหรับภาษาอินพุตและเอาต์พุตเกือบ 100 ภาษา
  • นอกจากนี้ยังรองรับการแปลเสียงเป็นเสียงสำหรับภาษาอินพุตเกือบ 100 ภาษา และภาษาเอาต์พุต 36 ภาษา

โมเดลพื้นฐานสำหรับการแปลแบบอเนกประสงค์

  • ในเดือนสิงหาคม 2023 Meta ได้เปิดตัว SeamlessM4T เวอร์ชันแรก ซึ่งให้ผลลัพธ์ระดับแนวหน้าทั้งด้านการแปลและการถอดความ ครอบคลุมทั้งเสียงและข้อความ
  • โมเดลที่ได้รับการปรับปรุงต่อจากนั้นคือ SeamlessM4T v2 ซึ่งกลายเป็นรากฐานของโมเดลใหม่ SeamlessExpressive และ SeamlessStreaming
  • โดดเด่นด้วยสถาปัตยกรรมใหม่และตัวถอดรหัส text-to-unit แบบไม่อัตโนมัติถดถอย ช่วยเพิ่มความสอดคล้องระหว่างผลลัพธ์ข้อความและเสียงพูด

แนวทางการวิจัย

  • Meta เชื่อในพลังของความร่วมมือและการวิจัยแบบเปิด จึงเปิดเผยโมเดล Seamless Communication ทั้งชุดเพื่อให้นักวิจัยสามารถต่อยอดจากงานนี้ได้
  • เพื่อส่งเสริมระบบนิเวศ AI ที่ปลอดภัยและมีความรับผิดชอบ ยังลดผลกระทบจาก hallucination ที่เป็นพิษในการแปลลงอย่างมาก และนำแนวทางลายน้ำแบบปรับแต่งเฉพาะมาใช้กับเอาต์พุตเสียงของโมเดลที่เน้นการแสดงออก

ความเห็นของ GN⁺

ประเด็นสำคัญที่สุดของบทความนี้คือการแนะนำโมเดล AI Seamless Communication ที่ Meta พัฒนาขึ้นเพื่อทลายกำแพงด้านภาษา โมเดลเหล่านี้สามารถแปลได้แบบเกือบเรียลไทม์พร้อมรักษาน้ำหนักและนัยของการแสดงออก และมีความสามารถแข็งแกร่งในการรองรับภาษาที่หลากหลาย ความก้าวหน้าทางเทคโนโลยีนี้กำลังเปิดทางให้ผู้คนทั่วโลกสื่อสารกันได้อย่างเป็นธรรมชาติและจริงใจมากยิ่งขึ้น จึงเป็นข่าวที่น่าสนใจและน่าดึงดูดสำหรับผู้คนจำนวนมาก

1 ความคิดเห็น

 
GN⁺ 2023-12-02
ความคิดเห็นจาก Hacker News
  • ความหวังต่อเทคโนโลยีแห่งอนาคตที่น่าตื่นเต้น

    ตั้งตารอวันที่จะได้ใส่หูฟังในต่างประเทศแล้วฟังบทสนทนารอบตัวเป็นภาษาของตัวเอง ตอนเด็กเคยหลงใหล "เครื่องแปลภาษาสากล" จากนิยายวิทยาศาสตร์ และเมื่อเห็นพ่อทำงานยุ่งในฐานะล่ามแปลพร้อมภาษาฝรั่งเศส-อังกฤษ ก็เคยพยายามสร้างเครื่องแปลด้วยตัวเอง หวังว่าการแปลเป็นงานสำคัญและจะช่วยผู้คนได้มาก

  • ความคาดหวังต่อเครื่องมือเรียนภาษาที่ใช้เทคโนโลยี

    หวังว่าจะมีการพัฒนาครูสอนภาษาที่ใช้เทคโนโลยีนี้ ทุกคนอาจมีครูส่วนตัวได้วันละหลายชั่วโมง การทำงานอยู่ในจีนหรือเม็กซิโกพร้อมเรียนภาษาผ่านเกม VR เป็นสิ่งที่น่าดึงดูดมาก

  • ความเป็นไปได้ของเทคโนโลยีสตรีมมิงแบบเรียลไทม์

    บริษัทเคยเสนอทางออกอย่าง Dragon สำหรับพนักงานใหม่ที่มีความบกพร่องทางการได้ยิน แต่ระบบไม่ทำงานแบบเรียลไทม์ อย่างไรก็ตามพนักงานคนนั้นใช้ Whisper ด้วยตัวเองเพื่อพัฒนาโซลูชันแปลงเสียงเป็นข้อความที่เกือบเรียลไทม์ จึงน่าสนใจว่าเขาจะทำอะไรได้บ้างเมื่อใช้โมเดลใหม่นี้

  • ความกังวลเกี่ยวกับความแม่นยำของการแปล

    สิ่งที่น่ากังวลยิ่งกว่าการที่ตัวแปลใช้คำไม่แม่นในบางครั้ง คือการแปลที่ทำให้เกิดความเข้าใจผิด ตัวอย่างเช่น เมื่อแปล "what the fuck" เป็นภาษาสเปนแล้วได้ "qué diablos" ที่ทำให้น้ำหนักความหมายอ่อนลง อาจเป็นปัญหาสำหรับผู้ใช้ที่ต้องการรู้เจตนาเดิมอย่างแม่นยำ

  • การรับรู้ถึงการเปลี่ยนแปลงของอุตสาหกรรมจาก AI

    ตอนที่ภรรยากำลังจะเป็นนักพากย์มืออาชีพที่ทำงานพากย์หลายภาษา ก็ได้คาดการณ์ถึงการเปลี่ยนแปลงของอุตสาหกรรมจาก AI และเปลี่ยนเส้นทางไปก่อน รู้สึกว่าผลลัพธ์จากพัฒนาการของ AI น่าประทับใจมาก

  • พัฒนาการของเทคโนโลยีแปลงข้อความเป็นเสียงและความคาดหวังในอนาคต

    เทคโนโลยีแปลงข้อความเป็นเสียงพัฒนาไปมากในช่วงไม่กี่ปีที่ผ่านมา แต่ก็สงสัยว่าเมื่อไรเทคโนโลยีนี้จะถูกรวมเข้ากับเอนจิน TTS ที่ฝังอยู่ในระบบปฏิบัติการ เช่น สำหรับโปรแกรมอ่านหน้าจอ

  • ความไม่พอใจต่อการขาดการรองรับบางภาษา

    รู้สึกผิดหวังที่ภาษาหลักอย่างภาษาฮินดีไม่ถูกรวมอยู่ในตัวอย่าง อินเดียเป็นฐานผู้ใช้ Facebook ที่ใหญ่ที่สุด แต่ Facebook กลับไม่ได้มีส่วนสนับสนุนต่ออินเดียมากพอ

  • การตั้งคำถามเรื่องการขาดแคลนข้อมูลภาษา

    ผลการลองแปลอังกฤษ-สวาฮีลีออกมาไม่ดี ใช้ Huggingface M4T V2 แล้วแต่ในกรณีส่วนใหญ่กลับทำงานไม่ถูกต้อง และเพียงแค่คืนค่าเป็นภาษาอังกฤษด้วยเสียงอื่นเท่านั้น จึงอยากได้คำอธิบายที่ชัดเจนว่าขาดข้อมูลประเภทใดจึงทำให้ภาษานั้นใช้งานได้ไม่ดี และอาจช่วยได้ผ่านการให้ข้อมูล

  • การแสดงความเห็นต่อข้อผิดพลาดของตัวแปล

    รู้สึกว่าสำนวน "toxic word hallucinations" มีความเป็นไซเบอร์พังก์ดี

  • ความทึ่งต่อพัฒนาการของเทคโนโลยีแปลภาษาด้วยปัญญาประดิษฐ์

    รู้สึกประทับใจกับความก้าวหน้าที่เกิดขึ้นตลอด 30 ปีที่ผ่านมา ในช่วงกลางทศวรรษ 90 ตอนเป็นนักศึกษาเคยทำงานกับระบบ Verbmobil ของศูนย์วิจัยปัญญาประดิษฐ์เยอรมนี ซึ่งทำการแปลเสียงเป็นเสียงระหว่างภาษาอังกฤษ เยอรมัน และญี่ปุ่นได้ในขอบเขตที่จำกัดมาก ตอนนั้นใช้แนวทาง NLP แบบ "ดั้งเดิม" เช่น การสร้างแบบจำลองโดเมน การแยกวิเคราะห์ประโยค เอนจินความหมาย และระบบแปลงเสียงเป็นข้อความที่ปรับแต่งเฉพาะสำหรับทั้ง 3 ภาษา แต่ภายหลังก็ตระหนักได้ว่าแนวทางนี้ไปต่อไม่ได้ในที่สุด