- Meta AI พัฒนา Omnilingual Machine Translation (OMT) ซึ่งเป็นระบบแปลภาษาด้วยเครื่องระบบแรกที่รองรับมากกว่า 1,600 ภาษา ก้าวข้ามข้อจำกัด 200 ภาษาของโครงการ NLLB เดิม
- สร้าง ชุดข้อมูลหลายภาษาขนาดใหญ่ ที่ครอบคลุมแม้แต่ภาษาทรัพยากรต่ำและภาษาชนกลุ่มน้อย โดยผสาน คอร์ปัสสาธารณะ·การแปลย้อนกลับ·การทำเหมืองข้อมูล
- ผสาน เครื่องมือประเมินคุณภาพ·ความเป็นพิษ หลายแบบ เช่น BLASER 3·OmniTOX·BOUQuET·Met-BOUQuET เพื่อวัดประสิทธิภาพการแปลที่เชื่อถือได้
- ใช้งานทั้ง โมเดล decoder-only ที่อิง LLaMA3 และ OMT-NLLB แบบสถาปัตยกรรม encoder–decoder เพื่อให้ได้ การแปลคุณภาพสูงแม้ในสภาพแวดล้อมที่มีทรัพยากรประมวลผลจำกัด
- บรรลุ การสร้างประโยคที่สม่ำเสมอใน 1,600 ภาษาและการถ่ายโอนข้ามภาษาได้ดีขึ้น และถูกประเมินว่าเป็นความก้าวหน้าสำคัญในการ ขยายความครอบคลุมทางภาษาระดับโลก
ภาพรวมของ Omnilingual MT
- Omnilingual Machine Translation (OMT) คือระบบแปลภาษาด้วยเครื่องระบบแรกที่รองรับมากกว่า 1,600 ภาษา โดยพัฒนาโดย Meta AI
- ต่อยอดจากความสำเร็จของโครงการ No Language Left Behind (NLLB) เดิมที่ขยายได้ถึง 200 ภาษา เพื่อครอบคลุมภาษาได้มากขึ้นอย่างมาก
- การแปลที่อิงโมเดลภาษาขนาดใหญ่ (LLM) แบบเดิมมีคุณภาพสูง แต่ขอบเขตภาษายังจำกัด และถูกชี้ให้เห็นปัญหาโดยเฉพาะเรื่อง ความสามารถในการสร้างข้อความของภาษาทรัพยากรต่ำ·ภาษาชนกลุ่มน้อยที่ยังไม่เพียงพอ
- OMT ขยาย กลยุทธ์ข้อมูล สถาปัตยกรรมโมเดล และระบบการประเมิน อย่างรอบด้านเพื่อก้าวข้ามข้อจำกัดเหล่านี้
กลยุทธ์ด้านข้อมูลและการขยายความครอบคลุมภาษา
- OMT ผสาน คอร์ปัสหลายภาษาสาธารณะ กับ ชุดข้อมูลที่สร้างขึ้นใหม่ เพื่อขยายขอบเขตภาษาอย่างมาก
- ผสานเทคนิค MeDLEY bitext (ข้อมูลคู่ขนานที่คัดกรองด้วยมือ), การแปลย้อนกลับ (synthetic backtranslation) และ การทำเหมืองข้อมูล (mining)
- ทำให้ครอบคลุมทั้ง ภาษาส่วนน้อย (long-tail languages) รวมถึง โดเมนและรูปแบบภาษา (register) ที่หลากหลาย
- กลยุทธ์ข้อมูลนี้วางรากฐานในการรองรับ ความสามารถในการแสดงออกของภาษาจำนวนมากจากกว่า 7,000 ภาษา ที่ระบบเดิมไม่สามารถจัดการได้
ระบบประเมินและการวัดคุณภาพ
- เพื่อความน่าเชื่อถือและการขยายสเกล OMT ผสานเครื่องมือประเมินหลายแบบเข้ากับ ตัวชี้วัดมาตรฐาน
-
BLASER 3**: โมเดลประเมินแบบ**reference-free ที่ประเมินคุณภาพได้โดยไม่ต้องมีประโยคอ้างอิง
- OmniTOX: ตัวจำแนกสำหรับตรวจจับ ความเป็นพิษ (toxicity) ของผลลัพธ์การแปล
- BOUQuET: ชุดข้อมูลประเมินหลายภาษาขนาดใหญ่ ที่รวมตระกูลภาษาหลากหลายและสร้างขึ้นด้วยมือ
- Met-BOUQuET: ชุดข้อมูลแบบขยายสำหรับ การประมาณคุณภาพหลายภาษาขนาดใหญ่
- ชุดข้อมูลเหล่านี้มาพร้อมกับ ลีดเดอร์บอร์ดสาธารณะที่อัปเดตต่อเนื่อง เพื่อให้นักวิจัยนำไปใช้ได้อย่างอิสระ
สถาปัตยกรรมโมเดลและแนวทางการฝึก
- OMT ปรับ LLM ให้เชี่ยวชาญด้านการแปลด้วยสองแนวทาง
-
OMT-LLaMA
- โมเดล decoder-only ที่อิง LLaMA3
- เพิ่มความสามารถในการปรับตัวระหว่างการอนุมานผ่าน การพรีเทรนต่อเนื่องหลายภาษา (multilingual continual pretraining) และ การแปลแบบเสริมการค้นคืน (retrieval-augmented translation)
-
OMT-NLLB
- ใช้ สถาปัตยกรรม encoder–decoder และสร้างบนพื้นที่จัดแนวหลายภาษาที่ชื่อ OmniSONAR
- นำวิธีการฝึกที่สามารถใช้ ข้อมูลไม่ขนาน (non-parallel data) ได้มาใช้
- สามารถผสานข้อมูลพรีเทรนแบบ decoder-only เข้ากับการฝึก encoder–decoder ได้
- โมเดลขนาด 1B~8B พารามิเตอร์ ทำผลงานแปลได้ เทียบเท่าหรือดีกว่าโมเดลอ้างอิง LLM ขนาด 70B พิสูจน์ว่า สามารถแปลคุณภาพสูงได้แม้ในสภาพแวดล้อมที่มีทรัพยากรประมวลผลจำกัด
ประสิทธิภาพและความสามารถในการสร้างภาษา
- ในการประเมิน การแปลจากอังกฤษ→1,600 ภาษา โมเดลเดิมมักเข้าใจภาษาทรัพยากรต่ำได้ แต่ ล้มเหลวในการสร้างประโยคที่มีความหมาย ในหลายกรณี
- โมเดล OMT-LLaMA ขยาย การสร้างประโยคที่สอดคล้องกัน (coherent generation) สำหรับภาษาเหล่านี้ได้อย่างมาก
- ประสิทธิภาพด้าน การถ่ายโอนข้ามภาษา (cross-lingual transfer) ก็ดีขึ้น ทำให้ ปัญหาในด้านความเข้าใจ (understanding) สำหรับ 1,600 ภาษา แทบได้รับการแก้ไขทั้งหมด
- สามารถยกระดับคุณภาพเพิ่มเติมในภาษาเฉพาะหรือโดเมนเฉพาะได้ผ่าน การปรับจูนละเอียด (finetuning) และ การสร้างแบบเสริมการค้นคืน (RAG)
ทรัพยากรที่เปิดเผยและการต่อยอดงานวิจัย
- ชุดข้อมูล BOUQuET และ Met-BOUQuET เปิดให้ใช้งาน ฟรีแบบสาธารณะ และกำลังขยายต่อเนื่องไปสู่ Omnilinguality
- ทีมวิจัยมีเป้าหมายเพื่อ ยกระดับการเข้าถึงของภาษาทรัพยากรต่ำ และ วางรากฐานสำหรับงานวิจัย AI หลายภาษา
- OMT ได้รับการประเมินว่าเป็นระบบแปลที่ใช้งานได้จริงระบบแรกซึ่งครอบคลุม ความหลากหลายทางภาษาขนาดใหญ่ และเป็นความก้าวหน้าสำคัญเพื่อ ความครอบคลุมทางภาษาระดับโลก
1 ความคิดเห็น
ความคิดเห็นบน Hacker News
รู้สึกว่าคุณภาพการแปลของ Meta ด้อยกว่ามาก เมื่อเทียบกับบริการอื่น
โดยเฉพาะกับภาษาที่ไม่ค่อยเป็นที่รู้จักจะยิ่งแย่กว่าเดิม
Google Translate ใช้เป็นค่าพื้นฐานได้โอเค แต่ การแปลที่อิง LLM เหนือกว่ามากทั้งในด้านความเข้าใจบริบทและการถ่ายทอดนัยทางวัฒนธรรม
ฉันอาศัยอยู่ที่กัมพูชา เลยได้เปรียบเทียบคุณภาพการแปลภาษาเขมรอยู่บ่อย ๆ
จากประสบการณ์ของฉัน การแปลของ Facebook ฟังเป็นธรรมชาติมากกว่าในประโยคยาว ๆ เมื่อเทียบกับ Google
ภาษาเขมรเป็นภาษาที่พึ่งพาบริบทและมีลักษณะยืดยาว ดังนั้น LLM น่าจะช่วยได้มาก
ในทางกลับกัน เวลาที่แปลจากอังกฤษเป็นเขมร คนท้องถิ่นบอกว่ามักออกมาเป็น สำนวนทางการและแข็งเหมือนหุ่นยนต์ ซึ่งก็น่าสนใจดี
คิดว่าการรองรับหลายภาษาเป็นหนึ่งในข้อดีที่เจ๋งที่สุดของ LLM
สงสัยว่าทำไม Google ถึงไม่ใช้ Gemini ภายใน อาจเป็นเพราะ ปัญหา hallucination ก็ได้
อยากเห็น การทดสอบเชิงปริมาณ ที่เปรียบเทียบ LLM หลายตัวกับ API แปลภาษา
บอกว่าแปลได้ 1,600 ภาษา แต่ในประโยคแรกของบทคัดย่อภาษาอังกฤษยัง ทำ subject-verb agreement ไม่ถูกเลย
และยังอ้างว่าบรรลุการแปลคุณภาพสูงที่ขยายไปถึง 200 ภาษาผ่านโครงการ NLLB (No Language Left Behind)
ผมเริ่มบริษัทที่ทำเรื่องคล้ายกัน — 6k.ai
ตอนนี้โฟกัสที่ การเก็บข้อมูลสำหรับภาษาที่มีทรัพยากรต่ำ
ถ้าดูชุดข้อมูลอย่าง Common Crawl, finepdfs, fineweb จะเห็นว่า (1) แทบไม่มีข้อมูลคุณภาพดี และ (2) วิธีประมวลผลหยาบเกินไป
ตัวอย่างเช่น finepdfs จัดประเภทแต่ละหน้า PDF เป็นภาษาเดียว แต่ความจริงมีข้อมูลแบบ คู่ภาษา อยู่เยอะมาก
ผมเผยแพร่วัสดุไว้ที่ wikilangs.org, omneitylabs.com, บล็อกที่เกี่ยวข้อง
คอขวดที่ใหญ่ที่สุดไม่ใช่การเก็บข้อความ แต่เป็น ความแม่นยำในการระบุภาษา
ในชุดข้อมูลอย่าง Common Crawl หรือ Fineweb การแยกภาษาไม่ชัดเจน
ผมเคยทำงานปรับปรุงเกี่ยวกับภาษาของบ้านเกิดใน Fineweb 2 ซึ่งอาจให้แรงบันดาลใจได้
ปัญหาคล้าย ๆ กันเกิดซ้ำในหลายภูมิภาค เลยอยากลอง ร่วมมือกัน ในภายหลัง
เลยสงสัยว่าคุณเคยดู ชุดข้อมูลสาธารณะ เหล่านั้นหรือไม่ และให้ความสำคัญกับภาษาไหนเป็นลำดับแรก
ใช้เวลานานมากกว่าจะหา ลิงก์ดาวน์โหลดค่าน้ำหนักของโมเดล เจอ
ถ้าเป็น open weight ก็สงสัยว่าทำไมถึงไม่มีลิงก์ที่เข้าถึงได้โดยตรง
แต่ leaderboard และชุดข้อมูลประเมินผล เปิดเผยอยู่
ในบทความระบุแค่ว่า “โมเดลแปลของเราสร้างขึ้นบนโมเดลที่เปิดให้ใช้งานได้อย่างอิสระ”
ปี 2026 แล้ว แต่ยังไม่เข้าใจว่าทำไมยังไม่มี ฟีเจอร์ถอดเสียงข้อความเสียงอัตโนมัติ
บอกว่าแปลได้ 1,600 ภาษา แต่ยังไม่มีแม้แต่ การแบ่งย่อหน้า พื้นฐานเลย
1,600 ภาษาก็เยอะ แต่จะเรียกว่า “Omni” ยังอีกไกล
ปกติประเมินว่ามีภาษาทั้งหมดราว 4,000 ถึง 8,000 ภาษา และ การทำให้ครอบคลุม 1,000 ภาษาแรก นั้นยากที่สุด
งานวิจัยก่อนหน้า (Lauscher 2020) เคยบอกว่ามี คำสาปของพหุภาษา คือยิ่งจำนวนภาษาเพิ่ม คุณภาพการแปลยิ่งลดลง
แต่ดูเหมือน Meta จะเอาชนะมันได้
ในบทคัดย่อของงานระบุว่าพวกเขาปรับปรุง คุณภาพข้อมูลฝึก และนำ เครื่องมือประเมินแบบใหม่ มาใช้
อีกทั้งยังอ้างว่า OMT-LLaMA มี คุณภาพการสร้างข้อความ ดีกว่าโมเดลเดิม
อีกจุดที่น่าสนใจคือ benchmark BOUQuET ที่ Meta เปิดตัว
เป็นโครงการเปิดสำหรับประเมินคุณภาพการแปลข้ามภาษา
huggingface.co/spaces/facebook/bouquet
หลังจากกระแส AI เริ่มมา การแปลเอกสารของ MS ก็เละเทะไปหมด
ตัวอย่างเช่น แปล try/catch เป็นภาษาเยอรมันว่า “versuchen/fangen”
โดยเฉพาะในสภาพแวดล้อมของบริษัทที่เปลี่ยนการตั้งค่า locale ได้ยาก ยิ่งน่าหงุดหงิด
ยังมี ข้อผิดพลาดพื้นฐาน อย่างแปล “shortly” เป็น “short” อีกด้วย