EuroLLM: LLM ที่พัฒนาในยุโรป รองรับภาษาทางการของสหภาพยุโรป 24 ภาษา

(eurollm.io)

3 คะแนน โดย GN⁺ 2025-10-29 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

EuroLLM คือ โมเดลภาษาขนาดใหญ่ (LLM) ที่พัฒนาร่วมกันโดยสถาบันวิจัยในยุโรปและรองรับภาษาทางการของสหภาพยุโรป 24 ภาษา โดยมีเป้าหมายเพื่อสร้าง อธิปไตยด้าน AI และความพึ่งพาตนเองทางเทคโนโลยี ของยุโรป
เป็น โมเดลขนาด 9B พารามิเตอร์ ที่ฝึกด้วย โทเคนมากกว่า 4 ล้านล้านรายการ ใน 35 ภาษา และแสดง จุดเด่นในงานด้านภาษา เช่น การถามตอบ การสรุป และการแปล
EuroLLM 9B Base เปิดให้ใช้งานสำหรับการ fine-tuning ส่วน EuroLLM 9B Instruct เป็นเวอร์ชันที่รองรับการทำงานตามคำสั่งแบบโต้ตอบ และใช้งานได้บน Hugging Face
โครงการนี้มีหน่วยงานชั้นนำของยุโรปเข้าร่วม เช่น Unbabel, University of Edinburgh, Técnico Lisboa, Naver Labs Europe และทำการฝึกบน ซูเปอร์คอมพิวเตอร์ MareNostrum 5
มีแผนขยายสู่ มัลติโมดัล (ภาพ·เสียง) และประกาศแนวทาง เปิดเป็นโอเพนซอร์สอย่างเต็มรูปแบบ โดยตั้งเป้าเป็น โครงสร้างพื้นฐานหลักของระบบนิเวศนวัตกรรม AI ในยุโรป

ภาพรวมของ EuroLLM

EuroLLM คือ โมเดลภาษาขนาดใหญ่ (Local LLM) ที่พัฒนาในยุโรป และ รองรับภาษาทางการของสหภาพยุโรปทั้ง 24 ภาษา
- ถูกออกแบบให้เป็น โมเดล AI ลักษณะโครงสร้างพื้นฐานสาธารณะ ที่ประชาชน ธุรกิจ และนักวิจัยในยุโรปสามารถใช้งานได้โดยไม่มีอุปสรรคด้านภาษา
พัฒนาด้วยการสนับสนุนจาก Horizon Europe, European Research Council, และ EuroHPC ของสหภาพยุโรป
- ดำเนินการฝึกบน ซูเปอร์คอมพิวเตอร์ MareNostrum 5

คุณลักษณะทางเทคนิค

EuroLLM 9B: ขนาด 9 พันล้านพารามิเตอร์ ฝึกจากข้อมูล 4 ล้านล้านโทเคนใน 35 ภาษา
- Base model สำหรับให้ผู้ใช้ทำ fine-tuning เอง และ Instruct model มีความสามารถในการทำงานตามคำสั่งแบบโต้ตอบ
ความสามารถหลัก:
- ปรับแต่งมาเพื่อประสิทธิภาพด้านการประมวลผลภาษาธรรมชาติหลายภาษา เช่น การถามตอบ, การสรุป, การแปล
- มีแผนขยายเป็นมัลติโมดัล — ในอนาคตจะเพิ่มความสามารถในการเข้าใจภาพและเสียง
- เผยแพร่แบบโอเพนซอร์ส เพื่อให้นักวิจัย องค์กร และประชาชนทั่วไปสามารถนำไปใช้ได้อย่างอิสระ

สถาบันที่เข้าร่วมและเครือข่ายความร่วมมือ

สถาบันที่เข้าร่วม:
- Unbabel, Instituto Superior Técnico, University of Edinburgh, Université Paris-Saclay, Aveni.ai, Sorbonne University, Naver Labs Europe, University of Amsterdam
นักวิจัยหลัก:
- André Martins (Unbabel, ศาสตราจารย์แห่ง Lisbon Technical University) — ผู้เชี่ยวชาญด้านแมชชีนเลิร์นนิงและการประมวลผลภาษาธรรมชาติ
- Alexandra Birch (Aveni.ai, ศาสตราจารย์แห่ง Edinburgh) — ผู้นำงานวิจัยด้านการแปลหลายภาษาและ AI เชิงจริยธรรม
- Pierre Colombo (Université Paris-Saclay) — วิจัยด้านความปลอดภัยของ AI และการประยุกต์ใช้ AI ทางกฎหมาย

พันธกิจและวิสัยทัศน์

เป้าหมายของ EuroLLM คือ การเสริมสร้างอธิปไตยด้าน AI ของยุโรป และ การเร่งพัฒนาเทคโนโลยีหลายภาษา
- สร้าง วงจรขับเคลื่อนนวัตกรรม (flywheel for innovation) ผ่าน LLM ที่พัฒนาขึ้นอย่างอิสระภายในยุโรป
- สนับสนุนให้นักวิจัยและบริษัทต่าง ๆ ขยายบริการและงานวิจัยใหม่ ๆ บนพื้นฐานของโมเดล AI จากยุโรป
มุ่งเสริมความเป็นผู้นำทางเทคโนโลยีของยุโรปที่ตั้งอยู่บน ความหลากหลายทางภาษา
และสร้าง โมเดลนวัตกรรมที่พึ่งพาตนเองได้ในระบบนิเวศ AI ระดับโลก

1 ความคิดเห็น

GN⁺ 2025-10-29

ความเห็นจาก Hacker News

ภาษาราชการของสหภาพยุโรปมีทั้งหมด 24 ภาษา ได้แก่ บัลแกเรีย, โครเอเชีย, เช็ก, เดนมาร์ก, ดัตช์, อังกฤษ, เอสโตเนีย, ฟินแลนด์, ฝรั่งเศส, เยอรมัน, กรีก, ฮังการี, ไอริช, อิตาลี, ลัตเวีย, ลิทัวเนีย, มอลตา, โปแลนด์, โปรตุเกส, โรมาเนีย, สโลวัก, สโลวีเนีย, สเปน และสวีเดน
มอลตาเป็นภาษาเดียวที่อยู่ในตระกูลภาษา แอฟโฟร-เอเชียติก และฮังการี·ฟินแลนด์·เอสโตเนียอยู่ใน ตระกูลภาษายูราลิก ส่วนที่เหลืออยู่ในตระกูลภาษาอินโด-ยูโรเปียน โดยกรีกเป็นเฮลเลนิก และไอริชอยู่ในตระกูลภาษาเซลติก
- พูดให้แม่นยำ มอลตาเป็นภาษาใน สาขาเซมิติก (Semitic) ดู Wikipedia
- ในการเลือกตั้งทั่วไปของเนเธอร์แลนด์วันพรุ่งนี้ มีสองพรรคเสนอให้เพิ่มภาษาฟริเซียนเข้าไปในรายชื่อภาษาราชการด้วย บทความที่เกี่ยวข้อง
  อาจต้องเทรนโมเดลใหม่อีกครั้ง
- ฉันอ่าน เขียน และพูดภาษามอลตาได้ ถ้าอยากรู้อะไรเกี่ยวกับภาษา ถามมาได้เลย
- ลิทัวเนียและลัตเวียอยู่ใน ตระกูลภาษาบอลติก ไม่เกี่ยวข้องกับภาษาสลาวิก
- ถ้าดูจาก paper โมเดลนี้ไม่ได้จำกัดอยู่แค่ 24 ภาษานี้เท่านั้น ยังรวมอาหรับ, คาตาลัน, จีน, ฮินดี, ญี่ปุ่น, เกาหลี, นอร์เวย์, รัสเซีย, ตุรกี, ยูเครน ฯลฯ ด้วย PDF ของ paper
  จุดมีส่วนสำคัญของงานนี้น่าจะเป็นการลงรายละเอียดแหล่งที่มาของข้อมูลเทรนอย่างรอบคอบ
ดูเหมือนผู้กำหนดนโยบายยุโรปจะไม่เข้าใจเลยว่าควรส่งเสริม อุตสาหกรรมที่ใช้เทคโนโลยีเข้มข้น อย่างไร วิธีอุดหนุนแบบ ‘เลือกผู้ชนะ’ ดูยังไงก็ล้มเหลวแน่ เรื่องการเข้าถึงซูเปอร์คอมพิวเตอร์ของยุโรปก็น่าสนใจเหมือนกัน ทวีตที่เกี่ยวข้อง
- ขั้นตอนขอทุนของ EU อาจไม่ได้น่าสนุก แต่ Levels ก็ดู มั่นใจในตัวเองเกินไป นิดหน่อย แม้จะเก่งเรื่องสร้างรายได้ในฐานะอินฟลูเอนเซอร์ แต่ฉันไม่คิดว่าการเอาซูเปอร์คอมพิวเตอร์ที่รัฐสนับสนุนมาใช้รันเกมเบราว์เซอร์ที่หารายได้จากโฆษณาเป็นเรื่องเหมาะสม
- สิ่งที่สำคัญจริง ๆ คือยุโรปต้องสร้าง สภาพแวดล้อมที่เป็นมิตรต่อ AI สตาร์ทอัพ ก่อน ต้องผ่อนคลายกฎระเบียบและให้สิทธิประโยชน์ทางภาษี
  แต่ในความเป็นจริง ข้อจำกัดใหญ่ที่สุดที่บริษัทในยุโรปเผชิญไม่ใช่กฎระเบียบ แต่คือ การเข้าถึงเงินทุน
  จีนกลับมีอุตสาหกรรมซอฟต์แวร์ที่รุ่งเรืองได้ทั้งที่มีกฎระเบียบเข้มงวดกว่า เกาหลีก็ได้ประโยชน์จากแนวทางคุ้มครองตลาดเช่นกัน
  สิ่งที่ยุโรปควรเรียนรู้คือ การคุ้มครองเทคโนโลยี ให้มากขึ้น Pieter Levels ก็เป็นเพียงอินฟลูเอนเซอร์ ไม่ใช่ผู้ก่อตั้งที่จริงจัง
- สงสัยว่ากลยุทธ์ ‘เลือกผู้ชนะ’ แบบนี้ในทางปฏิบัติให้ผลลัพธ์ออกมาอย่างไร
- ก็ไม่แน่ใจว่าจุดมุ่งหมายของนโยบายแบบนี้คือการ ‘เลือกผู้ชนะ’ จริงหรือเปล่า หรือจริง ๆ แล้วเป็นการเสริมศักยภาพผู้ก่อตั้งและกระตุ้นเศรษฐกิจ
  ในสหรัฐมีผู้ก่อตั้งที่ออกมาจาก FAANG จำนวนมาก แต่ยุโรปยังขาด ecosystem แบบนั้น
  ต่อให้โครงการซูเปอร์คอมพิวเตอร์จะล้มเหลว เป้าหมายอาจเป็น ผลทางเศรษฐกิจทางอ้อม ก็ได้
- ผู้คนดูจะใจดีกับเขาเกินไป หลายคนอาจไม่รู้ด้วยซ้ำว่า ‘levelsio’ คือใคร เลยสงสัยว่าทำไมทุกคนถึงทำเหมือนรู้จักเขาดีนัก
ในชื่อเรื่องตก “(2024)” ไป โมเดล 9B ถูกเปิดตัวเมื่อเดือนธันวาคมปีที่แล้ว หน้าทางการ
ทีม EuroLLM มีสถาบันยุโรปสำคัญเข้าร่วม เช่น Unbabel, Instituto Tecnico Lisbon, University of Edinburgh, Naver Labs เป็นต้น
ตอนนี้ยุโรปกำลังดำเนินเครือข่ายซูเปอร์คอมพิวเตอร์สาธารณะผ่าน EuroHPC JU และว่ากันว่าเริ่มพัฒนาโมเดลทันทีที่ได้รับสิทธิ์เข้าถึง เรื่องราวทางการ
เรียกได้ว่าเป็นการนำทรัพยากรคอมพิวต์ที่ใช้กับการจำลองทางฟิสิกส์กลับมาใช้ใหม่
โดยปกติโมเดล frontier ส่วนใหญ่รองรับหลายภาษาอยู่แล้วไม่ใช่หรือ คิดว่าไม่จำเป็นต้องแยกเรื่องการรองรับรายภาษาเป็นพิเศษ
- แต่แก่นสำคัญของโมเดลนี้คือมันถูกเทรนด้วย ข้อมูลที่รับรองโดย EU
- ไม่ใช่แค่มีตัวอย่างของภาษาเท่านั้น แต่ สัดส่วนข้อมูล ของแต่ละภาษาก็สำคัญ เพราะข้อมูลภาษาอังกฤษมีมากล้นจนทำให้ประสิทธิภาพของภาษาอื่นลดลง
- วิธีเทรนก็ต่างกัน ในกรณีของภาษาญี่ปุ่น มักมีปัญหาเรื่อง tokenization จนทำให้ประสิทธิภาพต่ำ
- ในภาษาที่ไม่ใช่อังกฤษ มักมีสำนวนที่ดูเหมือนแปลมาแบบไม่เป็นธรรมชาติ ผู้ใช้ภาษาฝรั่งเศสมักชี้ให้เห็นประโยคที่ผิดธรรมชาติอยู่บ่อย ๆ
- รัฐบาลยุโรปมี เอกสารดิจิทัลและข้อมูลวัฒนธรรม จำนวนมหาศาล ความต่างทางวัฒนธรรมเหล่านี้อาจส่งผลต่อค่านิยมของโมเดลได้ด้วย
เสียดายที่ไม่ได้เปิดเผย corpus ที่ใช้จริง สำหรับภาษากลุ่มเล็กอย่างไอริช ข้อมูลส่วนใหญ่น่าจะมาจากเอกสารกฎหมายแทบทั้งหมด และแทบไม่มีข้อมูลภาษาพูดเลย
ถ้าลองประเมินแยกตามภาษาโดยใช้เจ้าของภาษาเป็นเกณฑ์ก็น่าจะน่าสนใจ
LLM อาจส่งผลเชิงบวกต่อ ภาษาที่เสี่ยงต่อการสูญหาย แบบนี้ได้ แต่ก่อนจะถึงจุดนั้นก็มีความเสี่ยงอยู่เช่นกัน (เช่น กรณี Wikipedia ภาษาเกลิกสกอต)
ถึงอย่างนั้นโดยรวมก็คิดว่าเป็นความพยายามที่ดี
EuroLLM-9B เป็นโมเดลที่เปิดตัวในเดือนธันวาคม 2024 และได้ 17.6% ตามเกณฑ์ MMLU-Pro ซึ่งเป็นระดับ สูงกว่าการสุ่มเล็กน้อย
ตารางเปรียบเทียบกับโมเดล EU อื่น ๆ ดูได้ ที่นี่
สงสัยว่าทำไมถึงมีแค่สหรัฐกับจีนที่ปล่อยโมเดลชั้นนำออกมาได้ นอกจาก Mistral ของฝรั่งเศสแล้วก็แทบไม่มีโมเดลจากยุโรปเลย อินเดีย ญี่ปุ่น และเกาหลีก็คล้ายกัน
- ก็ไม่น่าแปลกใจ ยุโรปตามหลังด้าน ความสามารถในการแข่งขันทางเทคโนโลยี มาอย่างต่อเนื่อง
  ประชากรมากกว่าสหรัฐ 1.3 เท่า GDP อยู่ที่ 75% แต่ขนาดอุตสาหกรรมเทคโนโลยีกลับมีเพียงเศษเสี้ยวของสหรัฐ
  บริษัทยักษ์ใหญ่เทค 7 อันดับแรกของสหรัฐมีขนาดใหญ่กว่าบริษัท 7 อันดับแรกของยุโรปราว 20 เท่า และมีรายได้มากกว่า 10 เท่า ลิงก์อ้างอิง
- ยุโรปมี การเข้าถึงเงินทุน ต่ำและตลาดก็แตกเป็นส่วน ๆ
  เลยต้องพึ่งทุนสายวิชาการอย่าง Horizon แต่ความร่วมมือแบบนี้มักต่อยอดเป็นผลิตภัณฑ์ได้ยาก
- การเทรนโมเดล frontier ต้องใช้ โครงสร้างเงินทุน มหาศาล มีเพียงสหรัฐกับจีนที่ระดมเงินระดับหลายพันล้านดอลลาร์ได้
- EU ทำ กฎหมาย AI ยาว 900 หน้าแล้วก็แสดงความยินดีกับตัวเอง แต่จีนบังคับใช้กฎหมายยาวแค่สองหน้าก่อนหน้านั้นไปแล้ว
- ที่จริงแล้ว มูลค่าเชิงพาณิชย์ ของโมเดลเหล่านี้ยังไม่ได้รับการพิสูจน์ชัดเจน ส่วนใหญ่ยังดำเนินต่อได้ด้วยสัญญาจากภาครัฐหรือเงินลงทุน
ถ้าจะดาวน์โหลดโมเดล EuroLLM-9B จาก Hugging Face ต้อง ยินยอมให้ข้อมูลติดต่อ ก่อน สงสัยว่านี่เป็นเรื่องปกติไหม
- ฉันก็เคยเห็นในบางโมเดลเหมือนกัน เช่น Llama 3.1-8B-Instruct ก็มีขั้นตอนคล้ายกัน
- ใช่ เป็น ขั้นตอนที่พบได้ค่อนข้างทั่วไป
น่าสนใจที่โมเดล 9B ได้รับความสนใจ แต่โมเดล TildeOpen-30B ที่เปิดตัวเมื่อสองเดือนก่อน (รองรับ 19 ภาษายุโรป) แทบไม่ถูกพูดถึงเลย หน้าของโมเดล
ประสิทธิภาพพื้นฐานอาจต่ำ แต่เป็นโมเดลเปิดที่มี ศักยภาพในการ fine-tuning สูง

EuroLLM: LLM ที่พัฒนาในยุโรป รองรับภาษาทางการของสหภาพยุโรป 24 ภาษา

ภาพรวมของ EuroLLM

คุณลักษณะทางเทคนิค

สถาบันที่เข้าร่วมและเครือข่ายความร่วมมือ

พันธกิจและวิสัยทัศน์

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นจาก Hacker News