- EuroLLM คือ โมเดลภาษาขนาดใหญ่ (LLM) ที่พัฒนาร่วมกันโดยสถาบันวิจัยในยุโรปและรองรับภาษาทางการของสหภาพยุโรป 24 ภาษา โดยมีเป้าหมายเพื่อสร้าง อธิปไตยด้าน AI และความพึ่งพาตนเองทางเทคโนโลยี ของยุโรป
- เป็น โมเดลขนาด 9B พารามิเตอร์ ที่ฝึกด้วย โทเคนมากกว่า 4 ล้านล้านรายการ ใน 35 ภาษา และแสดง จุดเด่นในงานด้านภาษา เช่น การถามตอบ การสรุป และการแปล
- EuroLLM 9B Base เปิดให้ใช้งานสำหรับการ fine-tuning ส่วน EuroLLM 9B Instruct เป็นเวอร์ชันที่รองรับการทำงานตามคำสั่งแบบโต้ตอบ และใช้งานได้บน Hugging Face
- โครงการนี้มีหน่วยงานชั้นนำของยุโรปเข้าร่วม เช่น Unbabel, University of Edinburgh, Técnico Lisboa, Naver Labs Europe และทำการฝึกบน ซูเปอร์คอมพิวเตอร์ MareNostrum 5
- มีแผนขยายสู่ มัลติโมดัล (ภาพ·เสียง) และประกาศแนวทาง เปิดเป็นโอเพนซอร์สอย่างเต็มรูปแบบ โดยตั้งเป้าเป็น โครงสร้างพื้นฐานหลักของระบบนิเวศนวัตกรรม AI ในยุโรป
ภาพรวมของ EuroLLM
- EuroLLM คือ โมเดลภาษาขนาดใหญ่ (Local LLM) ที่พัฒนาในยุโรป และ รองรับภาษาทางการของสหภาพยุโรปทั้ง 24 ภาษา
- ถูกออกแบบให้เป็น โมเดล AI ลักษณะโครงสร้างพื้นฐานสาธารณะ ที่ประชาชน ธุรกิจ และนักวิจัยในยุโรปสามารถใช้งานได้โดยไม่มีอุปสรรคด้านภาษา
- พัฒนาด้วยการสนับสนุนจาก Horizon Europe, European Research Council, และ EuroHPC ของสหภาพยุโรป
- ดำเนินการฝึกบน ซูเปอร์คอมพิวเตอร์ MareNostrum 5
คุณลักษณะทางเทคนิค
- EuroLLM 9B: ขนาด 9 พันล้านพารามิเตอร์ ฝึกจากข้อมูล 4 ล้านล้านโทเคนใน 35 ภาษา
- Base model สำหรับให้ผู้ใช้ทำ fine-tuning เอง และ Instruct model มีความสามารถในการทำงานตามคำสั่งแบบโต้ตอบ
- ความสามารถหลัก:
- ปรับแต่งมาเพื่อประสิทธิภาพด้านการประมวลผลภาษาธรรมชาติหลายภาษา เช่น การถามตอบ, การสรุป, การแปล
- มีแผนขยายเป็นมัลติโมดัล — ในอนาคตจะเพิ่มความสามารถในการเข้าใจภาพและเสียง
- เผยแพร่แบบโอเพนซอร์ส เพื่อให้นักวิจัย องค์กร และประชาชนทั่วไปสามารถนำไปใช้ได้อย่างอิสระ
สถาบันที่เข้าร่วมและเครือข่ายความร่วมมือ
- สถาบันที่เข้าร่วม:
- Unbabel, Instituto Superior Técnico, University of Edinburgh, Université Paris-Saclay, Aveni.ai, Sorbonne University, Naver Labs Europe, University of Amsterdam
- นักวิจัยหลัก:
- André Martins (Unbabel, ศาสตราจารย์แห่ง Lisbon Technical University) — ผู้เชี่ยวชาญด้านแมชชีนเลิร์นนิงและการประมวลผลภาษาธรรมชาติ
- Alexandra Birch (Aveni.ai, ศาสตราจารย์แห่ง Edinburgh) — ผู้นำงานวิจัยด้านการแปลหลายภาษาและ AI เชิงจริยธรรม
- Pierre Colombo (Université Paris-Saclay) — วิจัยด้านความปลอดภัยของ AI และการประยุกต์ใช้ AI ทางกฎหมาย
พันธกิจและวิสัยทัศน์
- เป้าหมายของ EuroLLM คือ การเสริมสร้างอธิปไตยด้าน AI ของยุโรป และ การเร่งพัฒนาเทคโนโลยีหลายภาษา
- สร้าง วงจรขับเคลื่อนนวัตกรรม (flywheel for innovation) ผ่าน LLM ที่พัฒนาขึ้นอย่างอิสระภายในยุโรป
- สนับสนุนให้นักวิจัยและบริษัทต่าง ๆ ขยายบริการและงานวิจัยใหม่ ๆ บนพื้นฐานของโมเดล AI จากยุโรป
- มุ่งเสริมความเป็นผู้นำทางเทคโนโลยีของยุโรปที่ตั้งอยู่บน ความหลากหลายทางภาษา
และสร้าง โมเดลนวัตกรรมที่พึ่งพาตนเองได้ในระบบนิเวศ AI ระดับโลก
1 ความคิดเห็น
ความเห็นจาก Hacker News
ภาษาราชการของสหภาพยุโรปมีทั้งหมด 24 ภาษา ได้แก่ บัลแกเรีย, โครเอเชีย, เช็ก, เดนมาร์ก, ดัตช์, อังกฤษ, เอสโตเนีย, ฟินแลนด์, ฝรั่งเศส, เยอรมัน, กรีก, ฮังการี, ไอริช, อิตาลี, ลัตเวีย, ลิทัวเนีย, มอลตา, โปแลนด์, โปรตุเกส, โรมาเนีย, สโลวัก, สโลวีเนีย, สเปน และสวีเดน
มอลตาเป็นภาษาเดียวที่อยู่ในตระกูลภาษา แอฟโฟร-เอเชียติก และฮังการี·ฟินแลนด์·เอสโตเนียอยู่ใน ตระกูลภาษายูราลิก ส่วนที่เหลืออยู่ในตระกูลภาษาอินโด-ยูโรเปียน โดยกรีกเป็นเฮลเลนิก และไอริชอยู่ในตระกูลภาษาเซลติก
อาจต้องเทรนโมเดลใหม่อีกครั้ง
จุดมีส่วนสำคัญของงานนี้น่าจะเป็นการลงรายละเอียดแหล่งที่มาของข้อมูลเทรนอย่างรอบคอบ
ดูเหมือนผู้กำหนดนโยบายยุโรปจะไม่เข้าใจเลยว่าควรส่งเสริม อุตสาหกรรมที่ใช้เทคโนโลยีเข้มข้น อย่างไร วิธีอุดหนุนแบบ ‘เลือกผู้ชนะ’ ดูยังไงก็ล้มเหลวแน่ เรื่องการเข้าถึงซูเปอร์คอมพิวเตอร์ของยุโรปก็น่าสนใจเหมือนกัน ทวีตที่เกี่ยวข้อง
แต่ในความเป็นจริง ข้อจำกัดใหญ่ที่สุดที่บริษัทในยุโรปเผชิญไม่ใช่กฎระเบียบ แต่คือ การเข้าถึงเงินทุน
จีนกลับมีอุตสาหกรรมซอฟต์แวร์ที่รุ่งเรืองได้ทั้งที่มีกฎระเบียบเข้มงวดกว่า เกาหลีก็ได้ประโยชน์จากแนวทางคุ้มครองตลาดเช่นกัน
สิ่งที่ยุโรปควรเรียนรู้คือ การคุ้มครองเทคโนโลยี ให้มากขึ้น Pieter Levels ก็เป็นเพียงอินฟลูเอนเซอร์ ไม่ใช่ผู้ก่อตั้งที่จริงจัง
ในสหรัฐมีผู้ก่อตั้งที่ออกมาจาก FAANG จำนวนมาก แต่ยุโรปยังขาด ecosystem แบบนั้น
ต่อให้โครงการซูเปอร์คอมพิวเตอร์จะล้มเหลว เป้าหมายอาจเป็น ผลทางเศรษฐกิจทางอ้อม ก็ได้
ในชื่อเรื่องตก “(2024)” ไป โมเดล 9B ถูกเปิดตัวเมื่อเดือนธันวาคมปีที่แล้ว หน้าทางการ
ทีม EuroLLM มีสถาบันยุโรปสำคัญเข้าร่วม เช่น Unbabel, Instituto Tecnico Lisbon, University of Edinburgh, Naver Labs เป็นต้น
ตอนนี้ยุโรปกำลังดำเนินเครือข่ายซูเปอร์คอมพิวเตอร์สาธารณะผ่าน EuroHPC JU และว่ากันว่าเริ่มพัฒนาโมเดลทันทีที่ได้รับสิทธิ์เข้าถึง เรื่องราวทางการ
เรียกได้ว่าเป็นการนำทรัพยากรคอมพิวต์ที่ใช้กับการจำลองทางฟิสิกส์กลับมาใช้ใหม่
โดยปกติโมเดล frontier ส่วนใหญ่รองรับหลายภาษาอยู่แล้วไม่ใช่หรือ คิดว่าไม่จำเป็นต้องแยกเรื่องการรองรับรายภาษาเป็นพิเศษ
เสียดายที่ไม่ได้เปิดเผย corpus ที่ใช้จริง สำหรับภาษากลุ่มเล็กอย่างไอริช ข้อมูลส่วนใหญ่น่าจะมาจากเอกสารกฎหมายแทบทั้งหมด และแทบไม่มีข้อมูลภาษาพูดเลย
ถ้าลองประเมินแยกตามภาษาโดยใช้เจ้าของภาษาเป็นเกณฑ์ก็น่าจะน่าสนใจ
LLM อาจส่งผลเชิงบวกต่อ ภาษาที่เสี่ยงต่อการสูญหาย แบบนี้ได้ แต่ก่อนจะถึงจุดนั้นก็มีความเสี่ยงอยู่เช่นกัน (เช่น กรณี Wikipedia ภาษาเกลิกสกอต)
ถึงอย่างนั้นโดยรวมก็คิดว่าเป็นความพยายามที่ดี
EuroLLM-9B เป็นโมเดลที่เปิดตัวในเดือนธันวาคม 2024 และได้ 17.6% ตามเกณฑ์ MMLU-Pro ซึ่งเป็นระดับ สูงกว่าการสุ่มเล็กน้อย
ตารางเปรียบเทียบกับโมเดล EU อื่น ๆ ดูได้ ที่นี่
สงสัยว่าทำไมถึงมีแค่สหรัฐกับจีนที่ปล่อยโมเดลชั้นนำออกมาได้ นอกจาก Mistral ของฝรั่งเศสแล้วก็แทบไม่มีโมเดลจากยุโรปเลย อินเดีย ญี่ปุ่น และเกาหลีก็คล้ายกัน
ประชากรมากกว่าสหรัฐ 1.3 เท่า GDP อยู่ที่ 75% แต่ขนาดอุตสาหกรรมเทคโนโลยีกลับมีเพียงเศษเสี้ยวของสหรัฐ
บริษัทยักษ์ใหญ่เทค 7 อันดับแรกของสหรัฐมีขนาดใหญ่กว่าบริษัท 7 อันดับแรกของยุโรปราว 20 เท่า และมีรายได้มากกว่า 10 เท่า ลิงก์อ้างอิง
เลยต้องพึ่งทุนสายวิชาการอย่าง Horizon แต่ความร่วมมือแบบนี้มักต่อยอดเป็นผลิตภัณฑ์ได้ยาก
ถ้าจะดาวน์โหลดโมเดล EuroLLM-9B จาก Hugging Face ต้อง ยินยอมให้ข้อมูลติดต่อ ก่อน สงสัยว่านี่เป็นเรื่องปกติไหม
น่าสนใจที่โมเดล 9B ได้รับความสนใจ แต่โมเดล TildeOpen-30B ที่เปิดตัวเมื่อสองเดือนก่อน (รองรับ 19 ภาษายุโรป) แทบไม่ถูกพูดถึงเลย หน้าของโมเดล
ประสิทธิภาพพื้นฐานอาจต่ำ แต่เป็นโมเดลเปิดที่มี ศักยภาพในการ fine-tuning สูง