3 คะแนน โดย GN⁺ 2025-10-29 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • EuroLLM คือ โมเดลภาษาขนาดใหญ่ (LLM) ที่พัฒนาร่วมกันโดยสถาบันวิจัยในยุโรปและรองรับภาษาทางการของสหภาพยุโรป 24 ภาษา โดยมีเป้าหมายเพื่อสร้าง อธิปไตยด้าน AI และความพึ่งพาตนเองทางเทคโนโลยี ของยุโรป
  • เป็น โมเดลขนาด 9B พารามิเตอร์ ที่ฝึกด้วย โทเคนมากกว่า 4 ล้านล้านรายการ ใน 35 ภาษา และแสดง จุดเด่นในงานด้านภาษา เช่น การถามตอบ การสรุป และการแปล
  • EuroLLM 9B Base เปิดให้ใช้งานสำหรับการ fine-tuning ส่วน EuroLLM 9B Instruct เป็นเวอร์ชันที่รองรับการทำงานตามคำสั่งแบบโต้ตอบ และใช้งานได้บน Hugging Face
  • โครงการนี้มีหน่วยงานชั้นนำของยุโรปเข้าร่วม เช่น Unbabel, University of Edinburgh, Técnico Lisboa, Naver Labs Europe และทำการฝึกบน ซูเปอร์คอมพิวเตอร์ MareNostrum 5
  • มีแผนขยายสู่ มัลติโมดัล (ภาพ·เสียง) และประกาศแนวทาง เปิดเป็นโอเพนซอร์สอย่างเต็มรูปแบบ โดยตั้งเป้าเป็น โครงสร้างพื้นฐานหลักของระบบนิเวศนวัตกรรม AI ในยุโรป

ภาพรวมของ EuroLLM

  • EuroLLM คือ โมเดลภาษาขนาดใหญ่ (Local LLM) ที่พัฒนาในยุโรป และ รองรับภาษาทางการของสหภาพยุโรปทั้ง 24 ภาษา
    • ถูกออกแบบให้เป็น โมเดล AI ลักษณะโครงสร้างพื้นฐานสาธารณะ ที่ประชาชน ธุรกิจ และนักวิจัยในยุโรปสามารถใช้งานได้โดยไม่มีอุปสรรคด้านภาษา
  • พัฒนาด้วยการสนับสนุนจาก Horizon Europe, European Research Council, และ EuroHPC ของสหภาพยุโรป
    • ดำเนินการฝึกบน ซูเปอร์คอมพิวเตอร์ MareNostrum 5

คุณลักษณะทางเทคนิค

  • EuroLLM 9B: ขนาด 9 พันล้านพารามิเตอร์ ฝึกจากข้อมูล 4 ล้านล้านโทเคนใน 35 ภาษา
    • Base model สำหรับให้ผู้ใช้ทำ fine-tuning เอง และ Instruct model มีความสามารถในการทำงานตามคำสั่งแบบโต้ตอบ
  • ความสามารถหลัก:
    • ปรับแต่งมาเพื่อประสิทธิภาพด้านการประมวลผลภาษาธรรมชาติหลายภาษา เช่น การถามตอบ, การสรุป, การแปล
    • มีแผนขยายเป็นมัลติโมดัล — ในอนาคตจะเพิ่มความสามารถในการเข้าใจภาพและเสียง
    • เผยแพร่แบบโอเพนซอร์ส เพื่อให้นักวิจัย องค์กร และประชาชนทั่วไปสามารถนำไปใช้ได้อย่างอิสระ

สถาบันที่เข้าร่วมและเครือข่ายความร่วมมือ

  • สถาบันที่เข้าร่วม:
    • Unbabel, Instituto Superior Técnico, University of Edinburgh, Université Paris-Saclay, Aveni.ai, Sorbonne University, Naver Labs Europe, University of Amsterdam
  • นักวิจัยหลัก:
    • André Martins (Unbabel, ศาสตราจารย์แห่ง Lisbon Technical University) — ผู้เชี่ยวชาญด้านแมชชีนเลิร์นนิงและการประมวลผลภาษาธรรมชาติ
    • Alexandra Birch (Aveni.ai, ศาสตราจารย์แห่ง Edinburgh) — ผู้นำงานวิจัยด้านการแปลหลายภาษาและ AI เชิงจริยธรรม
    • Pierre Colombo (Université Paris-Saclay) — วิจัยด้านความปลอดภัยของ AI และการประยุกต์ใช้ AI ทางกฎหมาย

พันธกิจและวิสัยทัศน์

  • เป้าหมายของ EuroLLM คือ การเสริมสร้างอธิปไตยด้าน AI ของยุโรป และ การเร่งพัฒนาเทคโนโลยีหลายภาษา
    • สร้าง วงจรขับเคลื่อนนวัตกรรม (flywheel for innovation) ผ่าน LLM ที่พัฒนาขึ้นอย่างอิสระภายในยุโรป
    • สนับสนุนให้นักวิจัยและบริษัทต่าง ๆ ขยายบริการและงานวิจัยใหม่ ๆ บนพื้นฐานของโมเดล AI จากยุโรป
  • มุ่งเสริมความเป็นผู้นำทางเทคโนโลยีของยุโรปที่ตั้งอยู่บน ความหลากหลายทางภาษา
    และสร้าง โมเดลนวัตกรรมที่พึ่งพาตนเองได้ในระบบนิเวศ AI ระดับโลก

1 ความคิดเห็น

 
GN⁺ 2025-10-29
ความเห็นจาก Hacker News
  • ภาษาราชการของสหภาพยุโรปมีทั้งหมด 24 ภาษา ได้แก่ บัลแกเรีย, โครเอเชีย, เช็ก, เดนมาร์ก, ดัตช์, อังกฤษ, เอสโตเนีย, ฟินแลนด์, ฝรั่งเศส, เยอรมัน, กรีก, ฮังการี, ไอริช, อิตาลี, ลัตเวีย, ลิทัวเนีย, มอลตา, โปแลนด์, โปรตุเกส, โรมาเนีย, สโลวัก, สโลวีเนีย, สเปน และสวีเดน
    มอลตาเป็นภาษาเดียวที่อยู่ในตระกูลภาษา แอฟโฟร-เอเชียติก และฮังการี·ฟินแลนด์·เอสโตเนียอยู่ใน ตระกูลภาษายูราลิก ส่วนที่เหลืออยู่ในตระกูลภาษาอินโด-ยูโรเปียน โดยกรีกเป็นเฮลเลนิก และไอริชอยู่ในตระกูลภาษาเซลติก

    • พูดให้แม่นยำ มอลตาเป็นภาษาใน สาขาเซมิติก (Semitic) ดู Wikipedia
    • ในการเลือกตั้งทั่วไปของเนเธอร์แลนด์วันพรุ่งนี้ มีสองพรรคเสนอให้เพิ่มภาษาฟริเซียนเข้าไปในรายชื่อภาษาราชการด้วย บทความที่เกี่ยวข้อง
      อาจต้องเทรนโมเดลใหม่อีกครั้ง
    • ฉันอ่าน เขียน และพูดภาษามอลตาได้ ถ้าอยากรู้อะไรเกี่ยวกับภาษา ถามมาได้เลย
    • ลิทัวเนียและลัตเวียอยู่ใน ตระกูลภาษาบอลติก ไม่เกี่ยวข้องกับภาษาสลาวิก
    • ถ้าดูจาก paper โมเดลนี้ไม่ได้จำกัดอยู่แค่ 24 ภาษานี้เท่านั้น ยังรวมอาหรับ, คาตาลัน, จีน, ฮินดี, ญี่ปุ่น, เกาหลี, นอร์เวย์, รัสเซีย, ตุรกี, ยูเครน ฯลฯ ด้วย PDF ของ paper
      จุดมีส่วนสำคัญของงานนี้น่าจะเป็นการลงรายละเอียดแหล่งที่มาของข้อมูลเทรนอย่างรอบคอบ
  • ดูเหมือนผู้กำหนดนโยบายยุโรปจะไม่เข้าใจเลยว่าควรส่งเสริม อุตสาหกรรมที่ใช้เทคโนโลยีเข้มข้น อย่างไร วิธีอุดหนุนแบบ ‘เลือกผู้ชนะ’ ดูยังไงก็ล้มเหลวแน่ เรื่องการเข้าถึงซูเปอร์คอมพิวเตอร์ของยุโรปก็น่าสนใจเหมือนกัน ทวีตที่เกี่ยวข้อง

    • ขั้นตอนขอทุนของ EU อาจไม่ได้น่าสนุก แต่ Levels ก็ดู มั่นใจในตัวเองเกินไป นิดหน่อย แม้จะเก่งเรื่องสร้างรายได้ในฐานะอินฟลูเอนเซอร์ แต่ฉันไม่คิดว่าการเอาซูเปอร์คอมพิวเตอร์ที่รัฐสนับสนุนมาใช้รันเกมเบราว์เซอร์ที่หารายได้จากโฆษณาเป็นเรื่องเหมาะสม
    • สิ่งที่สำคัญจริง ๆ คือยุโรปต้องสร้าง สภาพแวดล้อมที่เป็นมิตรต่อ AI สตาร์ทอัพ ก่อน ต้องผ่อนคลายกฎระเบียบและให้สิทธิประโยชน์ทางภาษี
      แต่ในความเป็นจริง ข้อจำกัดใหญ่ที่สุดที่บริษัทในยุโรปเผชิญไม่ใช่กฎระเบียบ แต่คือ การเข้าถึงเงินทุน
      จีนกลับมีอุตสาหกรรมซอฟต์แวร์ที่รุ่งเรืองได้ทั้งที่มีกฎระเบียบเข้มงวดกว่า เกาหลีก็ได้ประโยชน์จากแนวทางคุ้มครองตลาดเช่นกัน
      สิ่งที่ยุโรปควรเรียนรู้คือ การคุ้มครองเทคโนโลยี ให้มากขึ้น Pieter Levels ก็เป็นเพียงอินฟลูเอนเซอร์ ไม่ใช่ผู้ก่อตั้งที่จริงจัง
    • สงสัยว่ากลยุทธ์ ‘เลือกผู้ชนะ’ แบบนี้ในทางปฏิบัติให้ผลลัพธ์ออกมาอย่างไร
    • ก็ไม่แน่ใจว่าจุดมุ่งหมายของนโยบายแบบนี้คือการ ‘เลือกผู้ชนะ’ จริงหรือเปล่า หรือจริง ๆ แล้วเป็นการเสริมศักยภาพผู้ก่อตั้งและกระตุ้นเศรษฐกิจ
      ในสหรัฐมีผู้ก่อตั้งที่ออกมาจาก FAANG จำนวนมาก แต่ยุโรปยังขาด ecosystem แบบนั้น
      ต่อให้โครงการซูเปอร์คอมพิวเตอร์จะล้มเหลว เป้าหมายอาจเป็น ผลทางเศรษฐกิจทางอ้อม ก็ได้
    • ผู้คนดูจะใจดีกับเขาเกินไป หลายคนอาจไม่รู้ด้วยซ้ำว่า ‘levelsio’ คือใคร เลยสงสัยว่าทำไมทุกคนถึงทำเหมือนรู้จักเขาดีนัก
  • ในชื่อเรื่องตก “(2024)” ไป โมเดล 9B ถูกเปิดตัวเมื่อเดือนธันวาคมปีที่แล้ว หน้าทางการ

  • ทีม EuroLLM มีสถาบันยุโรปสำคัญเข้าร่วม เช่น Unbabel, Instituto Tecnico Lisbon, University of Edinburgh, Naver Labs เป็นต้น
    ตอนนี้ยุโรปกำลังดำเนินเครือข่ายซูเปอร์คอมพิวเตอร์สาธารณะผ่าน EuroHPC JU และว่ากันว่าเริ่มพัฒนาโมเดลทันทีที่ได้รับสิทธิ์เข้าถึง เรื่องราวทางการ
    เรียกได้ว่าเป็นการนำทรัพยากรคอมพิวต์ที่ใช้กับการจำลองทางฟิสิกส์กลับมาใช้ใหม่

  • โดยปกติโมเดล frontier ส่วนใหญ่รองรับหลายภาษาอยู่แล้วไม่ใช่หรือ คิดว่าไม่จำเป็นต้องแยกเรื่องการรองรับรายภาษาเป็นพิเศษ

    • แต่แก่นสำคัญของโมเดลนี้คือมันถูกเทรนด้วย ข้อมูลที่รับรองโดย EU
    • ไม่ใช่แค่มีตัวอย่างของภาษาเท่านั้น แต่ สัดส่วนข้อมูล ของแต่ละภาษาก็สำคัญ เพราะข้อมูลภาษาอังกฤษมีมากล้นจนทำให้ประสิทธิภาพของภาษาอื่นลดลง
    • วิธีเทรนก็ต่างกัน ในกรณีของภาษาญี่ปุ่น มักมีปัญหาเรื่อง tokenization จนทำให้ประสิทธิภาพต่ำ
    • ในภาษาที่ไม่ใช่อังกฤษ มักมีสำนวนที่ดูเหมือนแปลมาแบบไม่เป็นธรรมชาติ ผู้ใช้ภาษาฝรั่งเศสมักชี้ให้เห็นประโยคที่ผิดธรรมชาติอยู่บ่อย ๆ
    • รัฐบาลยุโรปมี เอกสารดิจิทัลและข้อมูลวัฒนธรรม จำนวนมหาศาล ความต่างทางวัฒนธรรมเหล่านี้อาจส่งผลต่อค่านิยมของโมเดลได้ด้วย
  • เสียดายที่ไม่ได้เปิดเผย corpus ที่ใช้จริง สำหรับภาษากลุ่มเล็กอย่างไอริช ข้อมูลส่วนใหญ่น่าจะมาจากเอกสารกฎหมายแทบทั้งหมด และแทบไม่มีข้อมูลภาษาพูดเลย
    ถ้าลองประเมินแยกตามภาษาโดยใช้เจ้าของภาษาเป็นเกณฑ์ก็น่าจะน่าสนใจ
    LLM อาจส่งผลเชิงบวกต่อ ภาษาที่เสี่ยงต่อการสูญหาย แบบนี้ได้ แต่ก่อนจะถึงจุดนั้นก็มีความเสี่ยงอยู่เช่นกัน (เช่น กรณี Wikipedia ภาษาเกลิกสกอต)
    ถึงอย่างนั้นโดยรวมก็คิดว่าเป็นความพยายามที่ดี

  • EuroLLM-9B เป็นโมเดลที่เปิดตัวในเดือนธันวาคม 2024 และได้ 17.6% ตามเกณฑ์ MMLU-Pro ซึ่งเป็นระดับ สูงกว่าการสุ่มเล็กน้อย
    ตารางเปรียบเทียบกับโมเดล EU อื่น ๆ ดูได้ ที่นี่

  • สงสัยว่าทำไมถึงมีแค่สหรัฐกับจีนที่ปล่อยโมเดลชั้นนำออกมาได้ นอกจาก Mistral ของฝรั่งเศสแล้วก็แทบไม่มีโมเดลจากยุโรปเลย อินเดีย ญี่ปุ่น และเกาหลีก็คล้ายกัน

    • ก็ไม่น่าแปลกใจ ยุโรปตามหลังด้าน ความสามารถในการแข่งขันทางเทคโนโลยี มาอย่างต่อเนื่อง
      ประชากรมากกว่าสหรัฐ 1.3 เท่า GDP อยู่ที่ 75% แต่ขนาดอุตสาหกรรมเทคโนโลยีกลับมีเพียงเศษเสี้ยวของสหรัฐ
      บริษัทยักษ์ใหญ่เทค 7 อันดับแรกของสหรัฐมีขนาดใหญ่กว่าบริษัท 7 อันดับแรกของยุโรปราว 20 เท่า และมีรายได้มากกว่า 10 เท่า ลิงก์อ้างอิง
    • ยุโรปมี การเข้าถึงเงินทุน ต่ำและตลาดก็แตกเป็นส่วน ๆ
      เลยต้องพึ่งทุนสายวิชาการอย่าง Horizon แต่ความร่วมมือแบบนี้มักต่อยอดเป็นผลิตภัณฑ์ได้ยาก
    • การเทรนโมเดล frontier ต้องใช้ โครงสร้างเงินทุน มหาศาล มีเพียงสหรัฐกับจีนที่ระดมเงินระดับหลายพันล้านดอลลาร์ได้
    • EU ทำ กฎหมาย AI ยาว 900 หน้าแล้วก็แสดงความยินดีกับตัวเอง แต่จีนบังคับใช้กฎหมายยาวแค่สองหน้าก่อนหน้านั้นไปแล้ว
    • ที่จริงแล้ว มูลค่าเชิงพาณิชย์ ของโมเดลเหล่านี้ยังไม่ได้รับการพิสูจน์ชัดเจน ส่วนใหญ่ยังดำเนินต่อได้ด้วยสัญญาจากภาครัฐหรือเงินลงทุน
  • ถ้าจะดาวน์โหลดโมเดล EuroLLM-9B จาก Hugging Face ต้อง ยินยอมให้ข้อมูลติดต่อ ก่อน สงสัยว่านี่เป็นเรื่องปกติไหม

    • ฉันก็เคยเห็นในบางโมเดลเหมือนกัน เช่น Llama 3.1-8B-Instruct ก็มีขั้นตอนคล้ายกัน
    • ใช่ เป็น ขั้นตอนที่พบได้ค่อนข้างทั่วไป
  • น่าสนใจที่โมเดล 9B ได้รับความสนใจ แต่โมเดล TildeOpen-30B ที่เปิดตัวเมื่อสองเดือนก่อน (รองรับ 19 ภาษายุโรป) แทบไม่ถูกพูดถึงเลย หน้าของโมเดล
    ประสิทธิภาพพื้นฐานอาจต่ำ แต่เป็นโมเดลเปิดที่มี ศักยภาพในการ fine-tuning สูง