4 คะแนน โดย GN⁺ 2026-03-22 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Meta AI พัฒนา Omnilingual Machine Translation (OMT) ซึ่งเป็นระบบแปลภาษาด้วยเครื่องระบบแรกที่รองรับมากกว่า 1,600 ภาษา ก้าวข้ามข้อจำกัด 200 ภาษาของโครงการ NLLB เดิม
  • สร้าง ชุดข้อมูลหลายภาษาขนาดใหญ่ ที่ครอบคลุมแม้แต่ภาษาทรัพยากรต่ำและภาษาชนกลุ่มน้อย โดยผสาน คอร์ปัสสาธารณะ·การแปลย้อนกลับ·การทำเหมืองข้อมูล
  • ผสาน เครื่องมือประเมินคุณภาพ·ความเป็นพิษ หลายแบบ เช่น BLASER 3·OmniTOX·BOUQuET·Met-BOUQuET เพื่อวัดประสิทธิภาพการแปลที่เชื่อถือได้
  • ใช้งานทั้ง โมเดล decoder-only ที่อิง LLaMA3 และ OMT-NLLB แบบสถาปัตยกรรม encoder–decoder เพื่อให้ได้ การแปลคุณภาพสูงแม้ในสภาพแวดล้อมที่มีทรัพยากรประมวลผลจำกัด
  • บรรลุ การสร้างประโยคที่สม่ำเสมอใน 1,600 ภาษาและการถ่ายโอนข้ามภาษาได้ดีขึ้น และถูกประเมินว่าเป็นความก้าวหน้าสำคัญในการ ขยายความครอบคลุมทางภาษาระดับโลก

ภาพรวมของ Omnilingual MT

  • Omnilingual Machine Translation (OMT) คือระบบแปลภาษาด้วยเครื่องระบบแรกที่รองรับมากกว่า 1,600 ภาษา โดยพัฒนาโดย Meta AI
  • ต่อยอดจากความสำเร็จของโครงการ No Language Left Behind (NLLB) เดิมที่ขยายได้ถึง 200 ภาษา เพื่อครอบคลุมภาษาได้มากขึ้นอย่างมาก
  • การแปลที่อิงโมเดลภาษาขนาดใหญ่ (LLM) แบบเดิมมีคุณภาพสูง แต่ขอบเขตภาษายังจำกัด และถูกชี้ให้เห็นปัญหาโดยเฉพาะเรื่อง ความสามารถในการสร้างข้อความของภาษาทรัพยากรต่ำ·ภาษาชนกลุ่มน้อยที่ยังไม่เพียงพอ
  • OMT ขยาย กลยุทธ์ข้อมูล สถาปัตยกรรมโมเดล และระบบการประเมิน อย่างรอบด้านเพื่อก้าวข้ามข้อจำกัดเหล่านี้

กลยุทธ์ด้านข้อมูลและการขยายความครอบคลุมภาษา

  • OMT ผสาน คอร์ปัสหลายภาษาสาธารณะ กับ ชุดข้อมูลที่สร้างขึ้นใหม่ เพื่อขยายขอบเขตภาษาอย่างมาก
    • ผสานเทคนิค MeDLEY bitext (ข้อมูลคู่ขนานที่คัดกรองด้วยมือ), การแปลย้อนกลับ (synthetic backtranslation) และ การทำเหมืองข้อมูล (mining)
    • ทำให้ครอบคลุมทั้ง ภาษาส่วนน้อย (long-tail languages) รวมถึง โดเมนและรูปแบบภาษา (register) ที่หลากหลาย
  • กลยุทธ์ข้อมูลนี้วางรากฐานในการรองรับ ความสามารถในการแสดงออกของภาษาจำนวนมากจากกว่า 7,000 ภาษา ที่ระบบเดิมไม่สามารถจัดการได้

ระบบประเมินและการวัดคุณภาพ

  • เพื่อความน่าเชื่อถือและการขยายสเกล OMT ผสานเครื่องมือประเมินหลายแบบเข้ากับ ตัวชี้วัดมาตรฐาน
    • BLASER 3**: โมเดลประเมินแบบ**reference-free ที่ประเมินคุณภาพได้โดยไม่ต้องมีประโยคอ้างอิง

      • OmniTOX: ตัวจำแนกสำหรับตรวจจับ ความเป็นพิษ (toxicity) ของผลลัพธ์การแปล
      • BOUQuET: ชุดข้อมูลประเมินหลายภาษาขนาดใหญ่ ที่รวมตระกูลภาษาหลากหลายและสร้างขึ้นด้วยมือ
      • Met-BOUQuET: ชุดข้อมูลแบบขยายสำหรับ การประมาณคุณภาพหลายภาษาขนาดใหญ่
      • ชุดข้อมูลเหล่านี้มาพร้อมกับ ลีดเดอร์บอร์ดสาธารณะที่อัปเดตต่อเนื่อง เพื่อให้นักวิจัยนำไปใช้ได้อย่างอิสระ

สถาปัตยกรรมโมเดลและแนวทางการฝึก

  • OMT ปรับ LLM ให้เชี่ยวชาญด้านการแปลด้วยสองแนวทาง
    • OMT-LLaMA

      • โมเดล decoder-only ที่อิง LLaMA3
      • เพิ่มความสามารถในการปรับตัวระหว่างการอนุมานผ่าน การพรีเทรนต่อเนื่องหลายภาษา (multilingual continual pretraining) และ การแปลแบบเสริมการค้นคืน (retrieval-augmented translation)
    • OMT-NLLB

      • ใช้ สถาปัตยกรรม encoder–decoder และสร้างบนพื้นที่จัดแนวหลายภาษาที่ชื่อ OmniSONAR
      • นำวิธีการฝึกที่สามารถใช้ ข้อมูลไม่ขนาน (non-parallel data) ได้มาใช้
      • สามารถผสานข้อมูลพรีเทรนแบบ decoder-only เข้ากับการฝึก encoder–decoder ได้
      • โมเดลขนาด 1B~8B พารามิเตอร์ ทำผลงานแปลได้ เทียบเท่าหรือดีกว่าโมเดลอ้างอิง LLM ขนาด 70B พิสูจน์ว่า สามารถแปลคุณภาพสูงได้แม้ในสภาพแวดล้อมที่มีทรัพยากรประมวลผลจำกัด

ประสิทธิภาพและความสามารถในการสร้างภาษา

  • ในการประเมิน การแปลจากอังกฤษ→1,600 ภาษา โมเดลเดิมมักเข้าใจภาษาทรัพยากรต่ำได้ แต่ ล้มเหลวในการสร้างประโยคที่มีความหมาย ในหลายกรณี
  • โมเดล OMT-LLaMA ขยาย การสร้างประโยคที่สอดคล้องกัน (coherent generation) สำหรับภาษาเหล่านี้ได้อย่างมาก
  • ประสิทธิภาพด้าน การถ่ายโอนข้ามภาษา (cross-lingual transfer) ก็ดีขึ้น ทำให้ ปัญหาในด้านความเข้าใจ (understanding) สำหรับ 1,600 ภาษา แทบได้รับการแก้ไขทั้งหมด
  • สามารถยกระดับคุณภาพเพิ่มเติมในภาษาเฉพาะหรือโดเมนเฉพาะได้ผ่าน การปรับจูนละเอียด (finetuning) และ การสร้างแบบเสริมการค้นคืน (RAG)

ทรัพยากรที่เปิดเผยและการต่อยอดงานวิจัย

  • ชุดข้อมูล BOUQuET และ Met-BOUQuET เปิดให้ใช้งาน ฟรีแบบสาธารณะ และกำลังขยายต่อเนื่องไปสู่ Omnilinguality
  • ทีมวิจัยมีเป้าหมายเพื่อ ยกระดับการเข้าถึงของภาษาทรัพยากรต่ำ และ วางรากฐานสำหรับงานวิจัย AI หลายภาษา
  • OMT ได้รับการประเมินว่าเป็นระบบแปลที่ใช้งานได้จริงระบบแรกซึ่งครอบคลุม ความหลากหลายทางภาษาขนาดใหญ่ และเป็นความก้าวหน้าสำคัญเพื่อ ความครอบคลุมทางภาษาระดับโลก

1 ความคิดเห็น

 
GN⁺ 2026-03-22
ความคิดเห็นบน Hacker News
  • รู้สึกว่าคุณภาพการแปลของ Meta ด้อยกว่ามาก เมื่อเทียบกับบริการอื่น
    โดยเฉพาะกับภาษาที่ไม่ค่อยเป็นที่รู้จักจะยิ่งแย่กว่าเดิม
    Google Translate ใช้เป็นค่าพื้นฐานได้โอเค แต่ การแปลที่อิง LLM เหนือกว่ามากทั้งในด้านความเข้าใจบริบทและการถ่ายทอดนัยทางวัฒนธรรม
    ฉันอาศัยอยู่ที่กัมพูชา เลยได้เปรียบเทียบคุณภาพการแปลภาษาเขมรอยู่บ่อย ๆ

    • ทักทายจากเสียมราฐ! ดีใจที่ได้เจอคนชอบเทคจากกัมพูชาเหมือนกัน
      จากประสบการณ์ของฉัน การแปลของ Facebook ฟังเป็นธรรมชาติมากกว่าในประโยคยาว ๆ เมื่อเทียบกับ Google
      ภาษาเขมรเป็นภาษาที่พึ่งพาบริบทและมีลักษณะยืดยาว ดังนั้น LLM น่าจะช่วยได้มาก
      ในทางกลับกัน เวลาที่แปลจากอังกฤษเป็นเขมร คนท้องถิ่นบอกว่ามักออกมาเป็น สำนวนทางการและแข็งเหมือนหุ่นยนต์ ซึ่งก็น่าสนใจดี
    • Kagi Translate ดีมากจริง ๆ
      คิดว่าการรองรับหลายภาษาเป็นหนึ่งในข้อดีที่เจ๋งที่สุดของ LLM
    • น่าสนใจที่ LLM แปลภาษาเขมรได้ดีกว่า Google
      สงสัยว่าทำไม Google ถึงไม่ใช้ Gemini ภายใน อาจเป็นเพราะ ปัญหา hallucination ก็ได้
      อยากเห็น การทดสอบเชิงปริมาณ ที่เปรียบเทียบ LLM หลายตัวกับ API แปลภาษา
    • การแปลภาษาจีนก็ไม่ค่อยดีเหมือนกัน
    • ชี้คำสะกดผิด (they're)
  • บอกว่าแปลได้ 1,600 ภาษา แต่ในประโยคแรกของบทคัดย่อภาษาอังกฤษยัง ทำ subject-verb agreement ไม่ถูกเลย
    และยังอ้างว่าบรรลุการแปลคุณภาพสูงที่ขยายไปถึง 200 ภาษาผ่านโครงการ NLLB (No Language Left Behind)

  • ผมเริ่มบริษัทที่ทำเรื่องคล้ายกัน — 6k.ai
    ตอนนี้โฟกัสที่ การเก็บข้อมูลสำหรับภาษาที่มีทรัพยากรต่ำ
    ถ้าดูชุดข้อมูลอย่าง Common Crawl, finepdfs, fineweb จะเห็นว่า (1) แทบไม่มีข้อมูลคุณภาพดี และ (2) วิธีประมวลผลหยาบเกินไป
    ตัวอย่างเช่น finepdfs จัดประเภทแต่ละหน้า PDF เป็นภาษาเดียว แต่ความจริงมีข้อมูลแบบ คู่ภาษา อยู่เยอะมาก

    • ผมก็ทำวิจัยโดยโฟกัสที่ภาษาทรัพยากรต่ำเหมือนกัน โดยเฉพาะ กลุ่มภาษา Mayan
      ผมเผยแพร่วัสดุไว้ที่ wikilangs.org, omneitylabs.com, บล็อกที่เกี่ยวข้อง
      คอขวดที่ใหญ่ที่สุดไม่ใช่การเก็บข้อความ แต่เป็น ความแม่นยำในการระบุภาษา
      ในชุดข้อมูลอย่าง Common Crawl หรือ Fineweb การแยกภาษาไม่ชัดเจน
      ผมเคยทำงานปรับปรุงเกี่ยวกับภาษาของบ้านเกิดใน Fineweb 2 ซึ่งอาจให้แรงบันดาลใจได้
      ปัญหาคล้าย ๆ กันเกิดซ้ำในหลายภูมิภาค เลยอยากลอง ร่วมมือกัน ในภายหลัง
    • Common Crawl ก็ทำโปรเจกต์ภาษาทรัพยากรต่ำมาได้ปีครึ่งแล้ว เป็นปัญหาที่ยากจริง ๆ
    • หลายหน่วยงานภาครัฐในหลายประเทศก็ศึกษาปัญหานี้อยู่เช่นกัน
      เลยสงสัยว่าคุณเคยดู ชุดข้อมูลสาธารณะ เหล่านั้นหรือไม่ และให้ความสำคัญกับภาษาไหนเป็นลำดับแรก
  • ใช้เวลานานมากกว่าจะหา ลิงก์ดาวน์โหลดค่าน้ำหนักของโมเดล เจอ
    ถ้าเป็น open weight ก็สงสัยว่าทำไมถึงไม่มีลิงก์ที่เข้าถึงได้โดยตรง

    • รุ่นนี้ไม่ได้บอกว่าเป็น open weight (NLLB รุ่นก่อนหน้านั้นเปิดเผย)
      แต่ leaderboard และชุดข้อมูลประเมินผล เปิดเผยอยู่
      ในบทความระบุแค่ว่า “โมเดลแปลของเราสร้างขึ้นบนโมเดลที่เปิดให้ใช้งานได้อย่างอิสระ”
  • ปี 2026 แล้ว แต่ยังไม่เข้าใจว่าทำไมยังไม่มี ฟีเจอร์ถอดเสียงข้อความเสียงอัตโนมัติ

  • บอกว่าแปลได้ 1,600 ภาษา แต่ยังไม่มีแม้แต่ การแบ่งย่อหน้า พื้นฐานเลย

    • โดยปกติบทคัดย่อของงานวิจัยจะเขียนเป็นย่อหน้าเดียวอยู่แล้ว
  • 1,600 ภาษาก็เยอะ แต่จะเรียกว่า “Omni” ยังอีกไกล
    ปกติประเมินว่ามีภาษาทั้งหมดราว 4,000 ถึง 8,000 ภาษา และ การทำให้ครอบคลุม 1,000 ภาษาแรก นั้นยากที่สุด

    • ในการตลาดต้องใช้คำอย่าง “frontier” หรือ “edge” ถึงจะ ให้ความรู้สึกแบบมือโปร
  • งานวิจัยก่อนหน้า (Lauscher 2020) เคยบอกว่ามี คำสาปของพหุภาษา คือยิ่งจำนวนภาษาเพิ่ม คุณภาพการแปลยิ่งลดลง
    แต่ดูเหมือน Meta จะเอาชนะมันได้
    ในบทคัดย่อของงานระบุว่าพวกเขาปรับปรุง คุณภาพข้อมูลฝึก และนำ เครื่องมือประเมินแบบใหม่ มาใช้
    อีกทั้งยังอ้างว่า OMT-LLaMA มี คุณภาพการสร้างข้อความ ดีกว่าโมเดลเดิม

  • อีกจุดที่น่าสนใจคือ benchmark BOUQuET ที่ Meta เปิดตัว
    เป็นโครงการเปิดสำหรับประเมินคุณภาพการแปลข้ามภาษา
    huggingface.co/spaces/facebook/bouquet

  • หลังจากกระแส AI เริ่มมา การแปลเอกสารของ MS ก็เละเทะไปหมด
    ตัวอย่างเช่น แปล try/catch เป็นภาษาเยอรมันว่า “versuchen/fangen”

    • การแปลแบบนี้กลับ มีคุณค่าติดลบ เสียด้วยซ้ำ
      โดยเฉพาะในสภาพแวดล้อมของบริษัทที่เปลี่ยนการตั้งค่า locale ได้ยาก ยิ่งน่าหงุดหงิด
      ยังมี ข้อผิดพลาดพื้นฐาน อย่างแปล “shortly” เป็น “short” อีกด้วย