Meta เปิดตัวตระกูลโมเดล Seamless Communication

(ai.meta.com)

4 คะแนน โดย GN⁺ 2023-12-02 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

กลุ่มโมเดลวิจัย AI ที่มุ่งขจัดกำแพงด้านภาษาและทำให้การสื่อสารข้ามภาษาหลายภาษาเป็นธรรมชาติมากขึ้น
- SeamlessExpressive: คงไว้ซึ่งการแสดงออกและความละเอียดอ่อนทางภาษาในการแปลข้ามภาษา
- SeamlessStreaming: ให้บริการแปลเสียงและข้อความด้วยความหน่วงราว 2 วินาที
- SeamlessM4T v2: โมเดลพื้นฐานแบบหลายภาษาและหลายงาน รองรับการสื่อสารผ่านเสียงและข้อความ
- Seamless: รวมความสามารถของ SeamlessExpressive, SeamlessStreaming และ SeamlessM4T v2 ไว้ในหนึ่งเดียว

รักษาน้ำหนักและนัยของการแสดงออก

SeamlessExpressive มีเป้าหมายเพื่อการแปลที่จับนัยละเอียดของการแสดงออกของมนุษย์
เครื่องมือแปลแบบเดิมเก่งในการจับเนื้อหาการสนทนา แต่โดยทั่วไปมักให้ผลลัพธ์เป็นเสียงที่ราบเรียบและคล้ายหุ่นยนต์
SeamlessExpressive มุ่งรักษาทั้งสไตล์การพูด สีสันทางอารมณ์ ตลอดจนความละเอียดอ่อนของภาษา เช่น ความเร็วในการพูดและจังหวะหยุด

การแปลแบบเกือบเรียลไทม์

SeamlessStreaming เป็นโมเดลขนาดใหญ่หลายภาษาตัวแรกที่ให้การแปลด้วยความหน่วงราว 2 วินาที
พัฒนาบนพื้นฐานของ SeamlessM4T v2 และรองรับการรู้จำเสียงพูดอัตโนมัติ รวมถึงการแปลเสียงเป็นข้อความสำหรับภาษาอินพุตและเอาต์พุตเกือบ 100 ภาษา
นอกจากนี้ยังรองรับการแปลเสียงเป็นเสียงสำหรับภาษาอินพุตเกือบ 100 ภาษา และภาษาเอาต์พุต 36 ภาษา

โมเดลพื้นฐานสำหรับการแปลแบบอเนกประสงค์

ในเดือนสิงหาคม 2023 Meta ได้เปิดตัว SeamlessM4T เวอร์ชันแรก ซึ่งให้ผลลัพธ์ระดับแนวหน้าทั้งด้านการแปลและการถอดความ ครอบคลุมทั้งเสียงและข้อความ
โมเดลที่ได้รับการปรับปรุงต่อจากนั้นคือ SeamlessM4T v2 ซึ่งกลายเป็นรากฐานของโมเดลใหม่ SeamlessExpressive และ SeamlessStreaming
โดดเด่นด้วยสถาปัตยกรรมใหม่และตัวถอดรหัส text-to-unit แบบไม่อัตโนมัติถดถอย ช่วยเพิ่มความสอดคล้องระหว่างผลลัพธ์ข้อความและเสียงพูด

แนวทางการวิจัย

Meta เชื่อในพลังของความร่วมมือและการวิจัยแบบเปิด จึงเปิดเผยโมเดล Seamless Communication ทั้งชุดเพื่อให้นักวิจัยสามารถต่อยอดจากงานนี้ได้
เพื่อส่งเสริมระบบนิเวศ AI ที่ปลอดภัยและมีความรับผิดชอบ ยังลดผลกระทบจาก hallucination ที่เป็นพิษในการแปลลงอย่างมาก และนำแนวทางลายน้ำแบบปรับแต่งเฉพาะมาใช้กับเอาต์พุตเสียงของโมเดลที่เน้นการแสดงออก

ความเห็นของ GN⁺

ประเด็นสำคัญที่สุดของบทความนี้คือการแนะนำโมเดล AI Seamless Communication ที่ Meta พัฒนาขึ้นเพื่อทลายกำแพงด้านภาษา โมเดลเหล่านี้สามารถแปลได้แบบเกือบเรียลไทม์พร้อมรักษาน้ำหนักและนัยของการแสดงออก และมีความสามารถแข็งแกร่งในการรองรับภาษาที่หลากหลาย ความก้าวหน้าทางเทคโนโลยีนี้กำลังเปิดทางให้ผู้คนทั่วโลกสื่อสารกันได้อย่างเป็นธรรมชาติและจริงใจมากยิ่งขึ้น จึงเป็นข่าวที่น่าสนใจและน่าดึงดูดสำหรับผู้คนจำนวนมาก

1 ความคิดเห็น

GN⁺ 2023-12-02

ความคิดเห็นจาก Hacker News

ความหวังต่อเทคโนโลยีแห่งอนาคตที่น่าตื่นเต้น

ตั้งตารอวันที่จะได้ใส่หูฟังในต่างประเทศแล้วฟังบทสนทนารอบตัวเป็นภาษาของตัวเอง ตอนเด็กเคยหลงใหล "เครื่องแปลภาษาสากล" จากนิยายวิทยาศาสตร์ และเมื่อเห็นพ่อทำงานยุ่งในฐานะล่ามแปลพร้อมภาษาฝรั่งเศส-อังกฤษ ก็เคยพยายามสร้างเครื่องแปลด้วยตัวเอง หวังว่าการแปลเป็นงานสำคัญและจะช่วยผู้คนได้มาก
ความคาดหวังต่อเครื่องมือเรียนภาษาที่ใช้เทคโนโลยี

หวังว่าจะมีการพัฒนาครูสอนภาษาที่ใช้เทคโนโลยีนี้ ทุกคนอาจมีครูส่วนตัวได้วันละหลายชั่วโมง การทำงานอยู่ในจีนหรือเม็กซิโกพร้อมเรียนภาษาผ่านเกม VR เป็นสิ่งที่น่าดึงดูดมาก
ความเป็นไปได้ของเทคโนโลยีสตรีมมิงแบบเรียลไทม์

บริษัทเคยเสนอทางออกอย่าง Dragon สำหรับพนักงานใหม่ที่มีความบกพร่องทางการได้ยิน แต่ระบบไม่ทำงานแบบเรียลไทม์ อย่างไรก็ตามพนักงานคนนั้นใช้ Whisper ด้วยตัวเองเพื่อพัฒนาโซลูชันแปลงเสียงเป็นข้อความที่เกือบเรียลไทม์ จึงน่าสนใจว่าเขาจะทำอะไรได้บ้างเมื่อใช้โมเดลใหม่นี้
ความกังวลเกี่ยวกับความแม่นยำของการแปล

สิ่งที่น่ากังวลยิ่งกว่าการที่ตัวแปลใช้คำไม่แม่นในบางครั้ง คือการแปลที่ทำให้เกิดความเข้าใจผิด ตัวอย่างเช่น เมื่อแปล "what the fuck" เป็นภาษาสเปนแล้วได้ "qué diablos" ที่ทำให้น้ำหนักความหมายอ่อนลง อาจเป็นปัญหาสำหรับผู้ใช้ที่ต้องการรู้เจตนาเดิมอย่างแม่นยำ
การรับรู้ถึงการเปลี่ยนแปลงของอุตสาหกรรมจาก AI

ตอนที่ภรรยากำลังจะเป็นนักพากย์มืออาชีพที่ทำงานพากย์หลายภาษา ก็ได้คาดการณ์ถึงการเปลี่ยนแปลงของอุตสาหกรรมจาก AI และเปลี่ยนเส้นทางไปก่อน รู้สึกว่าผลลัพธ์จากพัฒนาการของ AI น่าประทับใจมาก
พัฒนาการของเทคโนโลยีแปลงข้อความเป็นเสียงและความคาดหวังในอนาคต

เทคโนโลยีแปลงข้อความเป็นเสียงพัฒนาไปมากในช่วงไม่กี่ปีที่ผ่านมา แต่ก็สงสัยว่าเมื่อไรเทคโนโลยีนี้จะถูกรวมเข้ากับเอนจิน TTS ที่ฝังอยู่ในระบบปฏิบัติการ เช่น สำหรับโปรแกรมอ่านหน้าจอ
ความไม่พอใจต่อการขาดการรองรับบางภาษา

รู้สึกผิดหวังที่ภาษาหลักอย่างภาษาฮินดีไม่ถูกรวมอยู่ในตัวอย่าง อินเดียเป็นฐานผู้ใช้ Facebook ที่ใหญ่ที่สุด แต่ Facebook กลับไม่ได้มีส่วนสนับสนุนต่ออินเดียมากพอ
การตั้งคำถามเรื่องการขาดแคลนข้อมูลภาษา

ผลการลองแปลอังกฤษ-สวาฮีลีออกมาไม่ดี ใช้ Huggingface M4T V2 แล้วแต่ในกรณีส่วนใหญ่กลับทำงานไม่ถูกต้อง และเพียงแค่คืนค่าเป็นภาษาอังกฤษด้วยเสียงอื่นเท่านั้น จึงอยากได้คำอธิบายที่ชัดเจนว่าขาดข้อมูลประเภทใดจึงทำให้ภาษานั้นใช้งานได้ไม่ดี และอาจช่วยได้ผ่านการให้ข้อมูล
การแสดงความเห็นต่อข้อผิดพลาดของตัวแปล

รู้สึกว่าสำนวน "toxic word hallucinations" มีความเป็นไซเบอร์พังก์ดี
ความทึ่งต่อพัฒนาการของเทคโนโลยีแปลภาษาด้วยปัญญาประดิษฐ์

รู้สึกประทับใจกับความก้าวหน้าที่เกิดขึ้นตลอด 30 ปีที่ผ่านมา ในช่วงกลางทศวรรษ 90 ตอนเป็นนักศึกษาเคยทำงานกับระบบ Verbmobil ของศูนย์วิจัยปัญญาประดิษฐ์เยอรมนี ซึ่งทำการแปลเสียงเป็นเสียงระหว่างภาษาอังกฤษ เยอรมัน และญี่ปุ่นได้ในขอบเขตที่จำกัดมาก ตอนนั้นใช้แนวทาง NLP แบบ "ดั้งเดิม" เช่น การสร้างแบบจำลองโดเมน การแยกวิเคราะห์ประโยค เอนจินความหมาย และระบบแปลงเสียงเป็นข้อความที่ปรับแต่งเฉพาะสำหรับทั้ง 3 ภาษา แต่ภายหลังก็ตระหนักได้ว่าแนวทางนี้ไปต่อไม่ได้ในที่สุด