สตอเรจแฟลช Huawei ขนาด 2 เพตะไบต์ของนอร์เวย์กับการฝึก LLM
(blocksandfiles.com)- หอสมุดแห่งชาตินอร์เวย์ นำสตอเรจแฟลช Huawei OceanStor Dorado ขนาด 2PB มาใช้ในไปป์ไลน์การฝึก AI เพื่อสร้าง Sovereign LLM ที่เข้าใจภาษานอร์เวย์
- ในสถานการณ์ที่ผู้ให้บริการ LLM เชิงพาณิชย์ไม่ได้สร้างโมเดลท้องถิ่นสำหรับภาษานอร์เวย์ LLM ที่เน้นภาษาอังกฤษเป็นหลักจึงจัดการกับ ประวัติศาสตร์·ข่าว·วัฒนธรรม ที่บันทึกในภาษาท้องถิ่นได้ไม่ดีนัก
- หอสมุดแห่งชาติได้ทำดิจิไทซ์หนังสือ หนังสือพิมพ์ เว็บเพจ เสียง และวิดีโอ มาตั้งแต่ปี 2005 และมี ข้อมูลเฉพาะของตนเอง 20PB โดยจัดเก็บรวมราว 60PB ตามแนวทาง 3-2-1
- คอขวดไม่ได้อยู่ที่คอมพิวต์ แต่เป็น คุณภาพข้อมูล·การทำความสะอาด·ปริมาณงานของไปป์ไลน์ โดยเตรียมข้อมูลบน DGX H200, CPU คลัสเตอร์ และแฟลชของ Huawei ภายในองค์กร ก่อนนำไปฝึกบน Sigma2 Olivia
- อาร์ไคฟ์เพื่อการเก็บรักษาและไปป์ไลน์ AI มีข้อกำหนดต่างกันทั้งด้านความทนทาน·ต้นทุน และด้าน latency ต่ำ·parallel I/O ดังนั้น Sovereign LLM จึงต้องการความสามารถด้าน การดูแลจัดการและการเก็บรักษา ด้วย
โครงการ Sovereign LLM ของหอสมุดแห่งชาตินอร์เวย์
- หอสมุดแห่งชาตินอร์เวย์(Nasjonalbiblioteket) กำลังพัฒนา โมเดลภาษาขนาดใหญ่ (LLM) ที่เข้าใจภาษานอร์เวย์ และใช้ สตอเรจแฟลช Huawei OceanStor Dorado ขนาด 2PB ในไปป์ไลน์ข้อมูลสำหรับการฝึก AI
- Marius Husnes หัวหน้าฝ่ายแพลตฟอร์ม IT ของหอสมุดแห่งชาติ เปิดเผยในงาน Huawei ID Forum 2026 Paris ว่า ผู้ให้บริการ LLM เชิงพาณิชย์ยังไม่ได้พัฒนา LLM ภาษาท้องถิ่นของนอร์เวย์
- ประเทศที่ไม่มี Sovereign LLM ซึ่งฝึกด้วยภาษาของตนเอง ย่อมต้องพึ่งพา LLM ที่ฝึกจากข้อมูลทั่วโลกและเน้นภาษาอังกฤษเป็นหลัก และโมเดลเหล่านี้ก็ยากจะเข้าใจประวัติศาสตร์ ข่าว และวัฒนธรรมที่บันทึกไว้ในภาษาท้องถิ่น
- กระทรวงวัฒนธรรมของนอร์เวย์มอบหมายให้หอสมุดแห่งชาติสร้าง Sovereign AI หรือก็คือ LLM และหอสมุดแห่งชาติก็มีคอลเลกชันดิจิทัลของหนังสือ หนังสือพิมพ์ และเว็บเพจที่ใหญ่ที่สุดในนอร์เวย์
- หอสมุดแห่งชาติมีสิทธิได้รับสำเนาหนังสือที่ตีพิมพ์และคอนเทนต์ออกอากาศทั้งหมด และ ข้อบังคับการส่งมอบสำเนา ก็ขยายบทบาทจากหนังสือไปสู่การรวบรวมและอนุรักษ์มรดกทางวัฒนธรรมทั้งหมดของนอร์เวย์
- จากข้อตกลงกับสำนักพิมพ์หนังสือพิมพ์ในนอร์เวย์ ทำให้สามารถใช้ คอนเทนต์ที่มีลิขสิทธิ์ ในการฝึก LLM ได้ และ Husnes กล่าวว่า “ภาคเอกชนไม่มีสิ่งนี้”
ปริมาณข้อมูลที่ถือครองและฐานจากการดิจิไทซ์
- หอสมุดแห่งชาติทำดิจิไทซ์คอลเลกชันมาตั้งแต่ปี 2005 และสะสม ข้อมูลเฉพาะของตนเอง 20PB
- ข้อมูลนี้ถูกจัดเก็บตาม แนวทาง 3-2-1
- สำเนา 3 ชุด
- สื่อจัดเก็บ 2 ประเภท
- จัดเก็บนอกสถานที่ 1 ชุด
- ด้วยโครงสร้างนี้ ปริมาณการจัดเก็บทั้งหมดจึงอยู่ที่ราว 60PB
- สิ่งที่ทำดิจิไทซ์ครอบคลุมข้อความต้นฉบับ เสียง วิดีโอ ภาพนิ่ง และคอนเทนต์เว็บ
- ในกระบวนการดิจิไทซ์มีการทำ OCR scan จำนวนมาก พร้อมสร้างเมทาดาทาจำนวนมากและ API สำหรับการเข้าถึงออนไลน์
- ข้อมูลส่วนใหญ่ถูกเก็บไว้ใน ระบบเพื่อการเก็บรักษา ที่ประกอบด้วยดิสก์ดิจิทัลและเทปอาร์ไคฟ์
ปัญหาในการย้ายข้อมูลจากอาร์ไคฟ์ไปยังไปป์ไลน์ AI
- โจทย์สำคัญคือการส่งข้อมูลในระบบเพื่อการเก็บรักษาไปยัง ระบบฝึก LLM
- คอขวดไม่ได้อยู่ที่คอมพิวต์ แต่เป็น คุณภาพข้อมูล การทำความสะอาด และปริมาณงานของไปป์ไลน์
- กระบวนการทำงานแบ่งเป็นการเตรียมข้อมูลในสภาพแวดล้อมคอมพิวต์ภายในของหอสมุดแห่งชาติ และการรันฝึกจริงบนซูเปอร์คอมพิวเตอร์ระดับชาติ
- สภาพแวดล้อมภายในประกอบด้วยอุปกรณ์ดังนี้
- ระบบ Nvidia DGX H200
- CPU คลัสเตอร์ 384 คอร์
- All-flash array ของ Huawei OceanStor Dorado หลายชุด รวมความจุแฟลชทั้งหมด 2PB
- สตอเรจแฟลชของ Huawei ถูกใช้เป็น สตอเรจ latency ต่ำ สำหรับไปป์ไลน์ข้อมูลและการเตรียมการฝึก
- ไปป์ไลน์ประกอบด้วยขั้นตอนการรวบรวมข้อมูล การทำความสะอาด การลบข้อมูลซ้ำ การทำให้ฟอร์แมตเป็นมาตรฐาน การตรวจสอบ และการเตรียมพร้อม
สภาพแวดล้อมสำหรับรันการฝึก: Sigma2 Olivia
- ข้อมูลที่ผ่านไปป์ไลน์แล้วจะถูกส่งไปยังระบบ Sigma2 Olivia ซึ่งเป็นซูเปอร์คอมพิวเตอร์ระดับชาติของนอร์เวย์ เพื่อรันการฝึกจริง
- Olivia เป็นระบบ HPE Cray Supercomputing EX
- Olivia มีองค์ประกอบดังนี้
- GPU 448 ตัว
- CPU core 64,512 คอร์
- ระบบสตอเรจ Cray ClusterStor E1000 ขนาด 5.3PB
- สภาพแวดล้อม AI แบบ on-premises ของหอสมุดแห่งชาติทำหน้าที่เตรียมข้อมูล ส่วน Olivia รับหน้าที่รันการฝึก
ความต้องการสตอเรจที่แตกต่างกัน
- อาร์ไคฟ์เพื่อการเก็บรักษา และ สตอเรจสำหรับไปป์ไลน์ AI มีข้อกำหนดต่างกัน
- ระบบเพื่อการเก็บรักษาขนาด 60PB ถูกปรับให้เหมาะกับความทนทานและต้นทุน ไม่ได้ปรับให้เหมาะกับ I/O ความเร็วสูง
- ระบบเพื่อการเก็บรักษาถูกออกแบบมาบนสมมติฐานว่ามีการเข้าถึงไม่บ่อย จึงมี read latency สูง
- สตอเรจสำหรับไปป์ไลน์ AI ถูกออกแบบมาสำหรับ throughput สูง, latency ต่ำ และ parallel data I/O
- ทีมงานต้องค้นหาวิธีด้วยตนเองในการย้ายและประมวลผลชุดข้อมูลระดับ PB จากอาร์ไคฟ์ไปยังไปป์ไลน์ข้อมูล AI
โจทย์ที่ยังอยู่ระหว่างการแก้
-
การประเมินผล
- ยังไม่มี เครื่องมือประเมินมาตรฐาน สำหรับประเมิน Sovereign LLM ภาษานอร์เวย์
- ภาษานอร์เวย์มีรูปแบบภาษาเขียนอยู่ 2 แบบ และยังมีหลายสำเนียงรวมถึงความเปลี่ยนแปลงทางประวัติศาสตร์
- ทีมของหอสมุดแห่งชาติกำลังสร้างเครื่องมือประเมินของตนเอง
-
ธรรมาภิบาล
- ต้องกำหนดว่าใครจะเป็นผู้ควบคุมสิทธิ์การเข้าถึง Sovereign LLM
- อีกโจทย์คือใครจะเป็นผู้ตัดสินว่าสามารถใช้ Sovereign LLM เพื่ออะไรได้บ้าง
- นี่เป็นคำถามเชิงสถาบันและการเมือง ซึ่งไม่มีคำตอบง่าย ๆ
-
การออร์เคสเตรชัน
- งานทำให้ทั้งสามระบบ ได้แก่ อาร์ไคฟ์เพื่อการเก็บรักษา, สภาพแวดล้อม AI แบบ on-premises และซูเปอร์คอมพิวเตอร์แห่งชาติ Sigma2 ทำงานร่วมกันได้อย่างลื่นไหล ยังดำเนินต่อไป
ความหมายและบทสรุป
- สตอเรจของ Huawei กำลังมี บทบาทสำคัญและใช้งานจริง ในตลาดยุโรป
- ประเทศที่ต้องการพัฒนา LLM ภาษาท้องถิ่นแบบอธิปไตยอาจได้ประโยชน์จากการพูดคุยกับ Husnes และทำความเข้าใจงานที่จำเป็น
- นอร์เวย์ถูกยกเป็นตัวอย่างของประเทศขนาดเล็กที่กำลังรับมือกับปัญหาที่ทุกประเทศนอกโลกภาษาอังกฤษต้องเผชิญ
- คำถามสำคัญคือ จะสร้าง AI ที่สะท้อนภาษา วัฒนธรรม และประวัติศาสตร์ของประเทศตนเองอย่างไร
- AI ไม่ได้ต้องการเพียงผู้สร้างเท่านั้น แต่ยังต้องการ ผู้ดูแลและผู้เก็บรักษา ด้วย
1 ความคิดเห็น
ความคิดเห็นใน Hacker News
ในฐานะชาวนอร์เวย์ ฉันใช้ หอสมุดแห่งชาติ ค้นหาข้อความแทบทุกวัน
อินเทอร์เฟซผู้ใช้และความสามารถในการค้นหาข้อความจำนวนมหาศาลนั้นยอดเยี่ยมจริง ๆ
หลายส่วนเข้าถึงได้เฉพาะจาก IP นอร์เวย์เท่านั้น เลยเป็นหนึ่งในเหตุผลหลักที่ฉันซึ่งเป็นคนนอร์เวย์แต่ไปอยู่สหราชอาณาจักรยังต้องใช้ VPN อยู่ นอกจากนี้บางส่วนยังเข้าถึงได้เฉพาะจาก IP ของห้องสมุดหรือสถาบันวิจัย แต่ถึงอย่างนั้นก็ยังมีข้อมูลที่เปิดสาธารณะให้ใช้จำนวนมหาศาล
สงสัยว่าคำกล่าวนี้จริงแค่ไหน: “ถ้าประเทศที่มีภาษาของตัวเองไม่มี sovereign LLM ที่ฝึกด้วยภาษานั้น ประเทศนั้นจะเสียเปรียบ เพราะ LLM ภาษาอังกฤษที่ฝึกจากข้อมูลทั่วโลกไม่รู้ประวัติศาสตร์ ข่าวสาร และวัฒนธรรมของประเทศนั้นที่บันทึกไว้เป็นภาษาท้องถิ่น”
ฉันคิดว่าผู้เล่นรายใหญ่คงฝึกจากข้อมูลที่เข้าถึงได้แทบทั้งหมดอยู่แล้ว ไม่ว่าภาษาหรือคุณภาพจะเป็นอย่างไร ดังนั้นมุมมองนี้ฟังดูเหมือนแนวคิดที่ก่อตัวขึ้นในยุคแรกของ LLM ทั่วไป
ไม่เห็นเหตุผลว่าทำไมต้องเสียค่าใช้จ่ายมหาศาลเพื่อฝึกโมเดลเอง โดยเฉพาะถ้ามีแนวโน้มว่าจะด้อยกว่าโมเดลชั้นนำ
เพราะเรื่องลำดับวงศ์ตระกูล ฉันเลยค้นหาข้อมูลในนั้นบ่อย ๆ ด้วยคีย์เวิร์ดทั่วไป แล้วก็เจอสิ่งที่ทั้งเสิร์ชเอนจินและโมเดลภาษายังไม่รู้จัก
แน่นอนว่าข้อมูลที่ฉันสนใจมักถูกโพสต์ไว้ที่ไหนสักแห่งที่ AI เข้าไปเก็บได้ แต่การจะดึงของน่าสนใจทั้งหมดออกมาจากในนั้นคงใช้เวลานานมาก
ทุกโมเดลที่ฉันลองคุยด้วยภาษาสวีเดนจัดการได้สมบูรณ์แบบ ฉันคิดว่านอร์เวย์ก็น่าจะเป็นแบบเดียวกันอยู่แล้ว
ก็น่าสนใจเหมือนกันถ้าจะลองใช้การทดลองแบบใน https://arxiv.org/pdf/2507.22445
ประสิทธิภาพอาจแทบไม่ต่างกันหรือบางทีก็ดีกว่าด้วยซ้ำ เพียงแต่รูปแบบแบบภาษาอังกฤษอาจซึมเข้าไปในรูปแบบการใช้ภาษาของเจ้าของภาษาคนอื่นอย่างแนบเนียน
สำหรับภาษาทรัพยากรต่ำเป็นอีกปัญหาหนึ่งโดยสิ้นเชิง แต่ถ้าจะปรับปรุงเรื่องนี้ สิ่งที่ต้องการคือ ข้อมูลเพิ่มขึ้น มากกว่าโมเดลใหม่
“ระบบ Olivia เป็นระบบ HPE Cray Supercomputing EX ที่มี GPU 448 ตัวและ CPU 64,512 คอร์”
การจะฝึก sovereign LLM ด้วยฮาร์ดแวร์ที่ค่อนข้างจำกัดระดับนี้ แทนที่จะใช้ LoRA บนโมเดลโอเพนซอร์ส ดูเป็นทั้งความผิดพลาดครั้งใหญ่และสัญญาณอันตราย
มันไม่น่าจะมีทรัพยากรพอสำหรับฝึก LLM เต็มรูปแบบได้อยู่แล้ว ดังนั้นการอ้างว่านี่คือเป้าหมายจึงให้ความรู้สึกเหมือนไม่ได้ตั้งใจจะทำให้ LLM นี้ใช้งานได้จริง ถ้าอย่างนั้นก็อดถามไม่ได้ว่ากำลังเอาเงินของใครไปเผาทำไม
กล่าวคือทำให้ความรู้เรื่องการสร้าง LLM ฝังอยู่ในองค์กรเอง
แม้ในนามจะเป็นโครงการของหอสมุดแห่งชาติ แต่ตามบทความดูเหมือนว่าถูกเลือกเพราะสามารถครอบครองและใช้ข้อมูลภาษานอร์เวย์เพื่อจุดประสงค์นี้ได้อย่างถูกกฎหมาย นักวิจัยจากสถาบันที่เกี่ยวข้องอย่างมหาวิทยาลัยก็น่าจะมีส่วนร่วมในกระบวนการนี้ด้วย
แต่ฉันไม่คิดว่าพวกเขากำลังมุ่งไปที่อะไรที่มีคุณค่าจริง ๆ โมเดลที่ผ่านการ fine-tune เหล่านั้นเสียอาการมาก และดูเหมือนใกล้เคียงกับการทำให้มีวิธีการมากกว่า ไม่แน่ใจว่ามันมีประโยชน์มากแค่ไหน แต่ก็ไม่ใช่หน้าที่ฉันที่จะไปกำหนดว่าใครจะใช้เงินวิจัยทำอะไร
โมเดล fine-tune ตัวหนึ่งที่ฉันเคยใช้ มักจะเยาะเย้ยมนุษย์ที่แสดงอารมณ์ในการแชต
อีกตัวหนึ่ง แค่ฉันพิมพ์ว่า “hei” มันก็หลอนคิดว่าฉันเป็นหมอ แล้วบอกทุกครั้งว่าลูกของฉันเป็นโรคร้ายแรง อาจเป็นไปได้ว่าระบบพรอมป์ต์แบบธรรมดาและเป็นกลางกลับไปกระตุ้นพฤติกรรมแบบนั้น
ฉันคิดว่า Olivia ใหญ่พอสมควรสำหรับการใช้งานของมัน ตอนนี้น่าจะดีกว่าถ้าตามกระแสล่าสุดให้ทัน แต่ไม่ทุ่มเงินกับฮาร์ดแวร์มากเกินไป
คลังข้อความภาษานอร์เวย์อาจไม่ต้องใช้คลัสเตอร์ขนาดมหึมา และถ้าต้องใช้ นี่ก็น่าจะเป็นสิ่งที่ดีที่สุดที่ห้องสมุดทำได้ นี่น่าจะเป็นหนึ่งในความพยายามที่ใหญ่ที่สุดอย่างแน่นอนเมื่อเทียบกับการลงทุนในโมเดลภาษานอร์เวย์
โมเดลระดับแนวหน้าอาจเข้าถึงคุณภาพของคอนเทนต์ที่หอสมุดแห่งชาติมีไม่ได้ บทความก็พูดถึงการทำไลเซนส์กับสำนักข่าว และห้องสมุดเองก็มีคลังเอกสารของตัวเองด้วย
ภาษาอังกฤษกับนอร์เวย์ไม่ได้อยู่ในตระกูลที่ใกล้กัน ดังนั้น LoRA อาจไม่ใช่วิธีที่ดีที่สุด
ฉันสงสัยว่ามีงานวิจัยสาธารณะหรือไม่ว่าการทำโลคัลไลซ์ด้วย LoRA จะได้ผลดีแค่ไหน โดยขึ้นอยู่กับว่าหลักไวยากรณ์และคำศัพท์ของภาษาเป้าหมายห่างจากภาษาอังกฤษมากเพียงใด
โครงการแบบนี้มักไม่ได้มีเป้าหมายเดียว ไม่ใช่แค่สร้างโมเดลล้ำสมัย แต่ยังมีเป้าหมายสร้างและฝึกบุคลากรในพื้นที่ เหมือนที่มหาวิทยาลัยยิงดาวเทียมขึ้นไป
ถ้าสร้าง embedding model ของตัวเอง ทำดัชนีทั้งห้องสมุด แล้วฝึกให้โมเดลไปดึงข้อมูลนั้นมาตอบคำถามด้านประวัติศาสตร์ วัฒนธรรม กฎหมาย และยุทธศาสตร์จากมุมมองของประเทศตัวเอง ก็น่าจะทั้งน่าสนใจและมีประโยชน์มาก
มันคงเอาชนะ Anthropic ในการเขียนโค้ด React ไม่ได้หรอก แต่ก็ไม่มีเหตุผลอะไรที่จะต้องพยายามลอกแบบเรื่องนั้น
มีการลองทั้ง fine-tune และฝึกจากศูนย์กับหลายโมเดลที่มีพารามิเตอร์ต่ำกว่า 10B อยู่แล้ว และครั้งล่าสุดที่ฉันเช็ก แบบที่ฝึกจากศูนย์จับภาษานั้นได้ดีกว่า
ดูเหมือนว่าทางเลือกที่ดีกว่าอาจเป็นให้นอร์เวย์สร้าง ชุดข้อมูลสำหรับการฝึก ขึ้นมาเองแทน หรือทำควบคู่กันไป แล้วเปิดให้ผู้สร้างโมเดลทุกคนใช้ได้ฟรี
วิธีนี้ดูเหมือนจะเป็นแนวทางที่ดีกว่า หรือเป็นแนวทางเสริม สำหรับเป้าหมายในการทำให้โมเดลแนวหน้ารู้จักภาษานอร์เวย์และวัฒนธรรมของมัน
ตัวอย่างเช่น ฉันเคยให้ Claude อธิบายนวนิยายปี 1911 เรื่อง “De knyttede næver” โดยใช้การสะกดแบบภาษานอร์เวย์ราวปี 1911 แล้วมันก็ทำได้ดี
สิ่งที่ขาดคือความเข้าใจเกี่ยวกับ วรรณกรรม·วัฒนธรรม·ประวัติศาสตร์ของนอร์เวย์ “De knyttede næver” เป็นหนึ่งในนวนิยายนอร์เวย์ระดับขายดีในช่วงที่ตีพิมพ์ แต่ Claude ต้องไปค้นข้อมูลก่อนถึงจะพอพูดอะไรออกมาได้ ChatGPT ทำได้ดีกว่า และโดยเฉพาะในโหมดคิดก็ให้สรุปที่ละเอียด
แม้ทุกวันนี้จะไม่ใช่งานที่เป็นที่รู้จักกว้างขวาง แต่ผู้เขียนเป็นนักหนังสือพิมพ์ชื่อดังอยู่หลายทศวรรษ และชุดผลงานนี้ก็เป็นที่รู้จักมากพอจนมีนักร้องนอร์เวย์คนหนึ่งใช้นามของตัวเอกจากเรื่องเป็นชื่อในวงการ
ด้วยจุดยืนทางการเมืองของผู้เขียนและอิทธิพลที่มีต่อนวนิยาย เรื่องนี้จึงถูกพูดถึงในหนังสือพิมพ์และหนังสือของนอร์เวย์มานานหลายทศวรรษ ดังนั้นจึงเป็นการทดสอบที่สมเหตุสมผล และรู้สึกว่ามันเผยให้เห็นช่องว่างทางความรู้ที่ค่อนข้างชัด
เห็นด้วยว่าควรทำให้ชุดข้อมูลของหอสมุดแห่งชาติเข้าถึงได้ง่ายขึ้น อย่างไรก็ตาม ดูเหมือนว่าองค์ประกอบสำคัญเพิ่มเติมในกรณีนี้คือการทำสัญญาที่ทำให้สามารถฝึกกับสื่อที่ยังมีลิขสิทธิ์ซึ่งถูกเก็บอยู่ในคลังและมีข้อจำกัดการใช้งานได้
ถึงอย่างนั้น การเปิดเผยเฉพาะข้อมูลที่ลิขสิทธิ์หมดอายุแล้วจากของสะสมที่มีอยู่ก็น่าจะเป็นจุดเริ่มต้นที่ยอดเยี่ยม
การคงข้อตกลงทางกฎหมายกับหน่วยงานของรัฐไว้ และพัฒนาสิ่งที่มีประโยชน์กับประเทศของตัวเองจริง ๆ ดูจะดีกว่ามาก
จากส่วนที่ Marius Husnes พูดว่า “ผู้ให้บริการ LLM เชิงพาณิชย์ไม่ได้พัฒนา LLM ภาษานอร์เวย์ในท้องถิ่น และประเทศที่ไม่มี sovereign LLM ที่ฝึกด้วยภาษาของตนเองย่อมเสียเปรียบ” ทำให้ไม่ค่อยมั่นใจนักว่าเขารู้จริงว่ากำลังพูดถึงอะไร
เหตุผลที่ LLM ซึ่งเอนเอียงไปทางภาษาอังกฤษเก่งภาษาอังกฤษมากกว่าก็คือมีการจัดสรรพื้นที่โทเค็นให้ภาษาอังกฤษอย่างกระชับกว่า หากลองเอาคำภาษาอังกฤษทั่วไปกับคำนอร์เวย์ไปใส่ใน tokenizer ออนไลน์ที่เรียก Anthropic API จะเห็นว่าภาษาอังกฤษมักใช้เพียงหนึ่งโทเค็นหรือน้อยกว่า ขณะที่ภาษานอร์เวย์มักเป็น 2~4 โทเค็น และบางครั้งก็มากกว่านั้น ภาษาพวกอย่างภาษาไทยเสียเปรียบอย่างมาก
การเลือกคลังข้อมูลก็มักเอนเอียงไปทางภาษาเป้าหมายอย่างหนักเช่นกัน เพราะต้องใช้พลังงานมากกว่าในการรวบรวมผลงานในภาษานั้น
เนื่องจากอิทธิพลซึ่งกันและกันของ embedding ที่มีความหมายคล้ายกันข้ามภาษา จึงเกิด เส้นฐานทางวัฒนธรรม และอคติทางความหมายอื่น ๆ ในเวกเตอร์สเปซด้วย สุดท้าย การ fine-tuning ส่งผลอย่างมากต่อการแสดงออกทางวัฒนธรรมของ LLM ผลกระทบเหล่านี้ไม่ใช่เรื่องเล็กน้อย
มีความพยายามมากมายในการสร้างโมเดลภาษาสำหรับภาษาที่กำลังเลือนหายและแบบข้ามวัฒนธรรม แต่ถ้าเป็นภาษาที่มีฐานการอ่านเขียนแข็งแรง ก็มีเหตุผลมากพอที่จะสร้าง LLM เชิงมรดกที่เฉพาะกับภาษาและวัฒนธรรมของตนเอง การคาดหวังว่า OpenAI หรือ Anthropic จะให้ความสำคัญกับภาษาของคุณมากกว่าลูกค้าเป้าหมายของพวกเขาในยามต้องเลือกนั้นเป็นเรื่องไร้สาระ
ภาษาแม่ สไตล์ และท่าทีล้วนเป็นแบบอเมริกัน
เหมือนกับที่เราไม่อาจพึ่งพา Netflix และ HBO ได้แม้ว่าตอนนี้พวกเขาจะสร้างรายการทีวีสแกนดิเนเวียอยู่ก็ตาม ในพื้นที่นี้เราก็ต้องสร้างของเราเองโดยตรง
เมื่อเวลาผ่านไป เทคโนโลยีที่ทำให้สิ่งนี้เป็นไปได้จะถูกลงและหาได้ง่ายขึ้น
มันไม่เพียงรักษาสำนวนแบบภาษาโปแลนด์ได้ดีกว่า แต่ยังเขียนเอกสารราชการได้ดีกว่าด้วย ที่บอกว่าดีกว่าเพราะมีการประเมินแบบ arena และผลทางสถิติก็ดีกว่า
มีแต่การยืนยันลอย ๆ แต่ดูไม่มีหลักฐาน ทำไมการมีแต่ LLM ภาษาอังกฤษถึงไม่ใช่ข้อเสีย?
คุณสามารถดึงนัยละเอียดอ่อนของประวัติศาสตร์และวัฒนธรรมนอร์เวย์จากโมเดลปัจจุบันได้หรือไม่?
ภาษาเวลส์ ก็กำลังได้รับการฝึก LLM ด้วย Nemotron เช่นกัน
https://www.bangor.ac.uk/news/2025-09-15-reaching-across-the...
อาจไม่ใช่วิธีที่มีประสิทธิภาพที่สุด แต่สำหรับ ภาษาที่ใช้ตัวอักษรที่ไม่ใช่ละติน ก็ยังดูมีกรณีใช้งานที่ชัดเจนสำหรับการสร้างตั้งแต่ต้น
ดูกรณีของ sarvam.ai และการปรับปรุง tokenization สำหรับภาษาท้องถิ่นได้ [1] ไม่ใช่ว่า LLM ทุกตัวต้องช่วยเขียนโค้ด หรือจำเป็นต้องเป็น Babel fish ไปเสียทั้งหมด
ภาษาเป็นวัฒนธรรม ดังนั้นจึงเข้าใจแรงจูงใจของพวกเขา และการมีทรัพยากรพอจะทำเองได้ก็ดูเป็นเรื่องดี
[1] https://www.sarvam.ai/blogs/sarvam-30b-105b
T-Bank ของรัสเซียเปลี่ยน tokenizer ของ Qwen พื้นฐานเพื่อเพิ่มโทเค็นอักษรซีริลลิกเข้าไปมากขึ้น 5 เท่า แล้วฝึกต่อด้วยคลังข้อมูลภาษารัสเซีย จึงสามารถเพิ่ม ความเร็วในการสร้าง ได้ 1.5~3 เท่า
นี่คือการติดตั้ง ระบบสตอเรจ ขนาดมหึมา
เมื่อคิดถึงความต้องการ I/O ของการฝึก LLM โดยเฉพาะการ checkpoint การเลือกใช้ NVMe flash ขนาดนี้แทน disk array แบบดั้งเดิมก็สมเหตุสมผล
“นอร์เวย์เป็นประเทศเล็ก ๆ ที่กำลังแก้ปัญหาที่ทุกประเทศนอกโลกที่ใช้ภาษาอังกฤษต้องเผชิญ จะสร้าง AI ที่สะท้อนภาษา วัฒนธรรม และประวัติศาสตร์ของตนเองได้อย่างไร? AI ไม่ได้ต้องการแค่ผู้สร้าง แต่ต้องการผู้ดูแลด้วย”
น่าเสียดาย แต่ผมคิดว่าคำตอบโดยรวมใกล้เคียงกับ “ทำไม่ได้” มากกว่า
งานแบบนี้ต้องการเจตจำนงทางการเมืองที่แข็งแกร่ง แต่ อย่างน้อยในแวดวงรอบตัวผม การทำให้สิ่งนี้ลงตัวดูแทบเป็นไปไม่ได้เลย
ค่าใช้จ่ายก็รับมือยากอยู่แล้ว แต่ยิ่งไปกว่านั้น คนที่ใส่ใจกับเรื่อง ความเป็นตัวแทนในท้องถิ่น แบบนี้ มักจะโอเคเต็มที่แม้บริษัทต่างชาติจะเป็นฝ่ายทำให้ หรือไม่ก็คัดค้านตัว AI เองตั้งแต่แรกอยู่แล้ว เพราะถ้าต้องการ คุณก็ใช้ ChatGPT เป็นภาษาบาสก์ได้
เป็นประเทศเล็กแต่มั่งคั่งอย่างยิ่ง และปัจจุบันผ่านการลงทุนของ กองทุนความมั่งคั่งแห่งชาติ จึงถือครองหุ้นคิดเป็น 1.5% ของบริษัทจดทะเบียนทั่วโลก
และโมเดลแบบนั้นก็น่าจะเหนือกว่าสิ่งที่สามารถสร้างได้ภายในประเทศอย่างมาก
แน่นอนว่าแค่พูดแบบนี้ก็คงสัมผัสได้ถึงอาการขนลุกของบางคนที่อยู่อีกฝั่งหน้าจอ