1 คะแนน โดย GN⁺ 4 시간 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • หอสมุดแห่งชาตินอร์เวย์ นำสตอเรจแฟลช Huawei OceanStor Dorado ขนาด 2PB มาใช้ในไปป์ไลน์การฝึก AI เพื่อสร้าง Sovereign LLM ที่เข้าใจภาษานอร์เวย์
  • ในสถานการณ์ที่ผู้ให้บริการ LLM เชิงพาณิชย์ไม่ได้สร้างโมเดลท้องถิ่นสำหรับภาษานอร์เวย์ LLM ที่เน้นภาษาอังกฤษเป็นหลักจึงจัดการกับ ประวัติศาสตร์·ข่าว·วัฒนธรรม ที่บันทึกในภาษาท้องถิ่นได้ไม่ดีนัก
  • หอสมุดแห่งชาติได้ทำดิจิไทซ์หนังสือ หนังสือพิมพ์ เว็บเพจ เสียง และวิดีโอ มาตั้งแต่ปี 2005 และมี ข้อมูลเฉพาะของตนเอง 20PB โดยจัดเก็บรวมราว 60PB ตามแนวทาง 3-2-1
  • คอขวดไม่ได้อยู่ที่คอมพิวต์ แต่เป็น คุณภาพข้อมูล·การทำความสะอาด·ปริมาณงานของไปป์ไลน์ โดยเตรียมข้อมูลบน DGX H200, CPU คลัสเตอร์ และแฟลชของ Huawei ภายในองค์กร ก่อนนำไปฝึกบน Sigma2 Olivia
  • อาร์ไคฟ์เพื่อการเก็บรักษาและไปป์ไลน์ AI มีข้อกำหนดต่างกันทั้งด้านความทนทาน·ต้นทุน และด้าน latency ต่ำ·parallel I/O ดังนั้น Sovereign LLM จึงต้องการความสามารถด้าน การดูแลจัดการและการเก็บรักษา ด้วย

โครงการ Sovereign LLM ของหอสมุดแห่งชาตินอร์เวย์

  • หอสมุดแห่งชาตินอร์เวย์(Nasjonalbiblioteket) กำลังพัฒนา โมเดลภาษาขนาดใหญ่ (LLM) ที่เข้าใจภาษานอร์เวย์ และใช้ สตอเรจแฟลช Huawei OceanStor Dorado ขนาด 2PB ในไปป์ไลน์ข้อมูลสำหรับการฝึก AI
  • Marius Husnes หัวหน้าฝ่ายแพลตฟอร์ม IT ของหอสมุดแห่งชาติ เปิดเผยในงาน Huawei ID Forum 2026 Paris ว่า ผู้ให้บริการ LLM เชิงพาณิชย์ยังไม่ได้พัฒนา LLM ภาษาท้องถิ่นของนอร์เวย์
  • ประเทศที่ไม่มี Sovereign LLM ซึ่งฝึกด้วยภาษาของตนเอง ย่อมต้องพึ่งพา LLM ที่ฝึกจากข้อมูลทั่วโลกและเน้นภาษาอังกฤษเป็นหลัก และโมเดลเหล่านี้ก็ยากจะเข้าใจประวัติศาสตร์ ข่าว และวัฒนธรรมที่บันทึกไว้ในภาษาท้องถิ่น
  • กระทรวงวัฒนธรรมของนอร์เวย์มอบหมายให้หอสมุดแห่งชาติสร้าง Sovereign AI หรือก็คือ LLM และหอสมุดแห่งชาติก็มีคอลเลกชันดิจิทัลของหนังสือ หนังสือพิมพ์ และเว็บเพจที่ใหญ่ที่สุดในนอร์เวย์
  • หอสมุดแห่งชาติมีสิทธิได้รับสำเนาหนังสือที่ตีพิมพ์และคอนเทนต์ออกอากาศทั้งหมด และ ข้อบังคับการส่งมอบสำเนา ก็ขยายบทบาทจากหนังสือไปสู่การรวบรวมและอนุรักษ์มรดกทางวัฒนธรรมทั้งหมดของนอร์เวย์
  • จากข้อตกลงกับสำนักพิมพ์หนังสือพิมพ์ในนอร์เวย์ ทำให้สามารถใช้ คอนเทนต์ที่มีลิขสิทธิ์ ในการฝึก LLM ได้ และ Husnes กล่าวว่า “ภาคเอกชนไม่มีสิ่งนี้”

ปริมาณข้อมูลที่ถือครองและฐานจากการดิจิไทซ์

  • หอสมุดแห่งชาติทำดิจิไทซ์คอลเลกชันมาตั้งแต่ปี 2005 และสะสม ข้อมูลเฉพาะของตนเอง 20PB
  • ข้อมูลนี้ถูกจัดเก็บตาม แนวทาง 3-2-1
    • สำเนา 3 ชุด
    • สื่อจัดเก็บ 2 ประเภท
    • จัดเก็บนอกสถานที่ 1 ชุด
  • ด้วยโครงสร้างนี้ ปริมาณการจัดเก็บทั้งหมดจึงอยู่ที่ราว 60PB
  • สิ่งที่ทำดิจิไทซ์ครอบคลุมข้อความต้นฉบับ เสียง วิดีโอ ภาพนิ่ง และคอนเทนต์เว็บ
  • ในกระบวนการดิจิไทซ์มีการทำ OCR scan จำนวนมาก พร้อมสร้างเมทาดาทาจำนวนมากและ API สำหรับการเข้าถึงออนไลน์
  • ข้อมูลส่วนใหญ่ถูกเก็บไว้ใน ระบบเพื่อการเก็บรักษา ที่ประกอบด้วยดิสก์ดิจิทัลและเทปอาร์ไคฟ์

ปัญหาในการย้ายข้อมูลจากอาร์ไคฟ์ไปยังไปป์ไลน์ AI

  • โจทย์สำคัญคือการส่งข้อมูลในระบบเพื่อการเก็บรักษาไปยัง ระบบฝึก LLM
  • คอขวดไม่ได้อยู่ที่คอมพิวต์ แต่เป็น คุณภาพข้อมูล การทำความสะอาด และปริมาณงานของไปป์ไลน์
  • กระบวนการทำงานแบ่งเป็นการเตรียมข้อมูลในสภาพแวดล้อมคอมพิวต์ภายในของหอสมุดแห่งชาติ และการรันฝึกจริงบนซูเปอร์คอมพิวเตอร์ระดับชาติ
  • สภาพแวดล้อมภายในประกอบด้วยอุปกรณ์ดังนี้
    • ระบบ Nvidia DGX H200
    • CPU คลัสเตอร์ 384 คอร์
    • All-flash array ของ Huawei OceanStor Dorado หลายชุด รวมความจุแฟลชทั้งหมด 2PB
  • สตอเรจแฟลชของ Huawei ถูกใช้เป็น สตอเรจ latency ต่ำ สำหรับไปป์ไลน์ข้อมูลและการเตรียมการฝึก
  • ไปป์ไลน์ประกอบด้วยขั้นตอนการรวบรวมข้อมูล การทำความสะอาด การลบข้อมูลซ้ำ การทำให้ฟอร์แมตเป็นมาตรฐาน การตรวจสอบ และการเตรียมพร้อม

สภาพแวดล้อมสำหรับรันการฝึก: Sigma2 Olivia

  • ข้อมูลที่ผ่านไปป์ไลน์แล้วจะถูกส่งไปยังระบบ Sigma2 Olivia ซึ่งเป็นซูเปอร์คอมพิวเตอร์ระดับชาติของนอร์เวย์ เพื่อรันการฝึกจริง
  • Olivia เป็นระบบ HPE Cray Supercomputing EX
  • Olivia มีองค์ประกอบดังนี้
    • GPU 448 ตัว
    • CPU core 64,512 คอร์
    • ระบบสตอเรจ Cray ClusterStor E1000 ขนาด 5.3PB
  • สภาพแวดล้อม AI แบบ on-premises ของหอสมุดแห่งชาติทำหน้าที่เตรียมข้อมูล ส่วน Olivia รับหน้าที่รันการฝึก

ความต้องการสตอเรจที่แตกต่างกัน

  • อาร์ไคฟ์เพื่อการเก็บรักษา และ สตอเรจสำหรับไปป์ไลน์ AI มีข้อกำหนดต่างกัน
  • ระบบเพื่อการเก็บรักษาขนาด 60PB ถูกปรับให้เหมาะกับความทนทานและต้นทุน ไม่ได้ปรับให้เหมาะกับ I/O ความเร็วสูง
  • ระบบเพื่อการเก็บรักษาถูกออกแบบมาบนสมมติฐานว่ามีการเข้าถึงไม่บ่อย จึงมี read latency สูง
  • สตอเรจสำหรับไปป์ไลน์ AI ถูกออกแบบมาสำหรับ throughput สูง, latency ต่ำ และ parallel data I/O
  • ทีมงานต้องค้นหาวิธีด้วยตนเองในการย้ายและประมวลผลชุดข้อมูลระดับ PB จากอาร์ไคฟ์ไปยังไปป์ไลน์ข้อมูล AI

โจทย์ที่ยังอยู่ระหว่างการแก้

  • การประเมินผล

    • ยังไม่มี เครื่องมือประเมินมาตรฐาน สำหรับประเมิน Sovereign LLM ภาษานอร์เวย์
    • ภาษานอร์เวย์มีรูปแบบภาษาเขียนอยู่ 2 แบบ และยังมีหลายสำเนียงรวมถึงความเปลี่ยนแปลงทางประวัติศาสตร์
    • ทีมของหอสมุดแห่งชาติกำลังสร้างเครื่องมือประเมินของตนเอง
  • ธรรมาภิบาล

    • ต้องกำหนดว่าใครจะเป็นผู้ควบคุมสิทธิ์การเข้าถึง Sovereign LLM
    • อีกโจทย์คือใครจะเป็นผู้ตัดสินว่าสามารถใช้ Sovereign LLM เพื่ออะไรได้บ้าง
    • นี่เป็นคำถามเชิงสถาบันและการเมือง ซึ่งไม่มีคำตอบง่าย ๆ
  • การออร์เคสเตรชัน

    • งานทำให้ทั้งสามระบบ ได้แก่ อาร์ไคฟ์เพื่อการเก็บรักษา, สภาพแวดล้อม AI แบบ on-premises และซูเปอร์คอมพิวเตอร์แห่งชาติ Sigma2 ทำงานร่วมกันได้อย่างลื่นไหล ยังดำเนินต่อไป

ความหมายและบทสรุป

  • สตอเรจของ Huawei กำลังมี บทบาทสำคัญและใช้งานจริง ในตลาดยุโรป
  • ประเทศที่ต้องการพัฒนา LLM ภาษาท้องถิ่นแบบอธิปไตยอาจได้ประโยชน์จากการพูดคุยกับ Husnes และทำความเข้าใจงานที่จำเป็น
  • นอร์เวย์ถูกยกเป็นตัวอย่างของประเทศขนาดเล็กที่กำลังรับมือกับปัญหาที่ทุกประเทศนอกโลกภาษาอังกฤษต้องเผชิญ
  • คำถามสำคัญคือ จะสร้าง AI ที่สะท้อนภาษา วัฒนธรรม และประวัติศาสตร์ของประเทศตนเองอย่างไร
  • AI ไม่ได้ต้องการเพียงผู้สร้างเท่านั้น แต่ยังต้องการ ผู้ดูแลและผู้เก็บรักษา ด้วย

1 ความคิดเห็น

 
GN⁺ 4 시간 전
ความคิดเห็นใน Hacker News
  • ในฐานะชาวนอร์เวย์ ฉันใช้ หอสมุดแห่งชาติ ค้นหาข้อความแทบทุกวัน
    อินเทอร์เฟซผู้ใช้และความสามารถในการค้นหาข้อความจำนวนมหาศาลนั้นยอดเยี่ยมจริง ๆ

    • ดีมากจริง ๆ แต่อยากให้มี ข้อจำกัด กับเนื้อหาที่เข้าถึงได้น้อยกว่านี้อีกหน่อย
      หลายส่วนเข้าถึงได้เฉพาะจาก IP นอร์เวย์เท่านั้น เลยเป็นหนึ่งในเหตุผลหลักที่ฉันซึ่งเป็นคนนอร์เวย์แต่ไปอยู่สหราชอาณาจักรยังต้องใช้ VPN อยู่ นอกจากนี้บางส่วนยังเข้าถึงได้เฉพาะจาก IP ของห้องสมุดหรือสถาบันวิจัย แต่ถึงอย่างนั้นก็ยังมีข้อมูลที่เปิดสาธารณะให้ใช้จำนวนมหาศาล
    • น่าหงุดหงิดมากที่ไม่มี เสิร์ชเอนจินแบบรวมศูนย์ ไม่เข้าใจว่าทำไมถึงค้นหาในคำบรรยายทีวีไม่ได้
    • ทำให้ตระหนักเลยว่าฉันเคยชินกับ การทำ stemming และความยืดหยุ่นด้านการสะกดคำ ขั้นพื้นฐานที่มีอยู่ในเสิร์ชเอนจินทุกเจ้ามาตั้งแต่ยุค Altavista มากแค่ไหน
  • สงสัยว่าคำกล่าวนี้จริงแค่ไหน: “ถ้าประเทศที่มีภาษาของตัวเองไม่มี sovereign LLM ที่ฝึกด้วยภาษานั้น ประเทศนั้นจะเสียเปรียบ เพราะ LLM ภาษาอังกฤษที่ฝึกจากข้อมูลทั่วโลกไม่รู้ประวัติศาสตร์ ข่าวสาร และวัฒนธรรมของประเทศนั้นที่บันทึกไว้เป็นภาษาท้องถิ่น”
    ฉันคิดว่าผู้เล่นรายใหญ่คงฝึกจากข้อมูลที่เข้าถึงได้แทบทั้งหมดอยู่แล้ว ไม่ว่าภาษาหรือคุณภาพจะเป็นอย่างไร ดังนั้นมุมมองนี้ฟังดูเหมือนแนวคิดที่ก่อตัวขึ้นในยุคแรกของ LLM ทั่วไป

    • ถ้าอยากให้ LLM มีความรู้ภาษานอร์เวย์ วิธีที่ obvious ที่สุดก็น่าจะเป็นการสร้าง ชุดข้อมูลฝึก ที่ดีแล้วเปิดเผยให้ใช้กันอย่างแพร่หลายไม่ใช่หรือ
      ไม่เห็นเหตุผลว่าทำไมต้องเสียค่าใช้จ่ายมหาศาลเพื่อฝึกโมเดลเอง โดยเฉพาะถ้ามีแนวโน้มว่าจะด้อยกว่าโมเดลชั้นนำ
    • LLM ต่างชาติน่าจะไม่ได้ฝึกจากข้อมูลของ หอสมุดแห่งชาตินอร์เวย์
      เพราะเรื่องลำดับวงศ์ตระกูล ฉันเลยค้นหาข้อมูลในนั้นบ่อย ๆ ด้วยคีย์เวิร์ดทั่วไป แล้วก็เจอสิ่งที่ทั้งเสิร์ชเอนจินและโมเดลภาษายังไม่รู้จัก
      แน่นอนว่าข้อมูลที่ฉันสนใจมักถูกโพสต์ไว้ที่ไหนสักแห่งที่ AI เข้าไปเก็บได้ แต่การจะดึงของน่าสนใจทั้งหมดออกมาจากในนั้นคงใช้เวลานานมาก
    • ตามความเห็นฉัน แทบไม่จริงเลย ฉันพูดนอร์เวย์ไม่ค่อยได้ แต่พูดสวีเดนได้ และสองภาษานี้คล้ายกันมาก เลยพอเข้าใจภาษานอร์เวย์เป็นส่วนใหญ่
      ทุกโมเดลที่ฉันลองคุยด้วยภาษาสวีเดนจัดการได้สมบูรณ์แบบ ฉันคิดว่านอร์เวย์ก็น่าจะเป็นแบบเดียวกันอยู่แล้ว
    • อย่างน้อยมันอาจช่วยให้ เขียนแบบคน นอร์เวย์จริง ๆ ได้ แทนที่จะเป็นสำนวนภาษาอังกฤษที่แปลเป็นนอร์เวย์
      ก็น่าสนใจเหมือนกันถ้าจะลองใช้การทดลองแบบใน https://arxiv.org/pdf/2507.22445
    • โมเดลที่ดีที่สุดในตอนนี้ค่อนข้างคล่องแคล่วกับภาษาและวัฒนธรรมหลัก ๆ อยู่แล้ว ดังนั้นอย่างน้อยคำว่า “ทั้งหมด” ก็ไม่ถูกต้อง
      ประสิทธิภาพอาจแทบไม่ต่างกันหรือบางทีก็ดีกว่าด้วยซ้ำ เพียงแต่รูปแบบแบบภาษาอังกฤษอาจซึมเข้าไปในรูปแบบการใช้ภาษาของเจ้าของภาษาคนอื่นอย่างแนบเนียน
      สำหรับภาษาทรัพยากรต่ำเป็นอีกปัญหาหนึ่งโดยสิ้นเชิง แต่ถ้าจะปรับปรุงเรื่องนี้ สิ่งที่ต้องการคือ ข้อมูลเพิ่มขึ้น มากกว่าโมเดลใหม่
  • “ระบบ Olivia เป็นระบบ HPE Cray Supercomputing EX ที่มี GPU 448 ตัวและ CPU 64,512 คอร์”
    การจะฝึก sovereign LLM ด้วยฮาร์ดแวร์ที่ค่อนข้างจำกัดระดับนี้ แทนที่จะใช้ LoRA บนโมเดลโอเพนซอร์ส ดูเป็นทั้งความผิดพลาดครั้งใหญ่และสัญญาณอันตราย
    มันไม่น่าจะมีทรัพยากรพอสำหรับฝึก LLM เต็มรูปแบบได้อยู่แล้ว ดังนั้นการอ้างว่านี่คือเป้าหมายจึงให้ความรู้สึกเหมือนไม่ได้ตั้งใจจะทำให้ LLM นี้ใช้งานได้จริง ถ้าอย่างนั้นก็อดถามไม่ได้ว่ากำลังเอาเงินของใครไปเผาทำไม

    • สำหรับคนนอกอาจไม่เป็นประโยชน์ แต่หนึ่งในเป้าหมายอาจเป็น การเรียนรู้ภายในองค์กร
      กล่าวคือทำให้ความรู้เรื่องการสร้าง LLM ฝังอยู่ในองค์กรเอง
      แม้ในนามจะเป็นโครงการของหอสมุดแห่งชาติ แต่ตามบทความดูเหมือนว่าถูกเลือกเพราะสามารถครอบครองและใช้ข้อมูลภาษานอร์เวย์เพื่อจุดประสงค์นี้ได้อย่างถูกกฎหมาย นักวิจัยจากสถาบันที่เกี่ยวข้องอย่างมหาวิทยาลัยก็น่าจะมีส่วนร่วมในกระบวนการนี้ด้วย
    • ก่อนหน้านี้เคยสร้าง โมเดลที่ผ่านการ fine-tune สำหรับพิสูจน์แนวคิดได้สำเร็จ ดังนั้นขั้นถัดไปก็คือการฝึก LLM เต็มรูปแบบ
      แต่ฉันไม่คิดว่าพวกเขากำลังมุ่งไปที่อะไรที่มีคุณค่าจริง ๆ โมเดลที่ผ่านการ fine-tune เหล่านั้นเสียอาการมาก และดูเหมือนใกล้เคียงกับการทำให้มีวิธีการมากกว่า ไม่แน่ใจว่ามันมีประโยชน์มากแค่ไหน แต่ก็ไม่ใช่หน้าที่ฉันที่จะไปกำหนดว่าใครจะใช้เงินวิจัยทำอะไร
      โมเดล fine-tune ตัวหนึ่งที่ฉันเคยใช้ มักจะเยาะเย้ยมนุษย์ที่แสดงอารมณ์ในการแชต
      อีกตัวหนึ่ง แค่ฉันพิมพ์ว่า “hei” มันก็หลอนคิดว่าฉันเป็นหมอ แล้วบอกทุกครั้งว่าลูกของฉันเป็นโรคร้ายแรง อาจเป็นไปได้ว่าระบบพรอมป์ต์แบบธรรมดาและเป็นกลางกลับไปกระตุ้นพฤติกรรมแบบนั้น
      ฉันคิดว่า Olivia ใหญ่พอสมควรสำหรับการใช้งานของมัน ตอนนี้น่าจะดีกว่าถ้าตามกระแสล่าสุดให้ทัน แต่ไม่ทุ่มเงินกับฮาร์ดแวร์มากเกินไป
    • โมเดลภาษาหลายภาษาและงาน internationalization ไม่ใช่ด้านที่แล็บแนวหน้าทุ่มทรัพยากรกันมากนัก โดยเฉพาะกับ ภาษานอร์เวย์ ยิ่งเป็นเช่นนั้น
      คลังข้อความภาษานอร์เวย์อาจไม่ต้องใช้คลัสเตอร์ขนาดมหึมา และถ้าต้องใช้ นี่ก็น่าจะเป็นสิ่งที่ดีที่สุดที่ห้องสมุดทำได้ นี่น่าจะเป็นหนึ่งในความพยายามที่ใหญ่ที่สุดอย่างแน่นอนเมื่อเทียบกับการลงทุนในโมเดลภาษานอร์เวย์
      โมเดลระดับแนวหน้าอาจเข้าถึงคุณภาพของคอนเทนต์ที่หอสมุดแห่งชาติมีไม่ได้ บทความก็พูดถึงการทำไลเซนส์กับสำนักข่าว และห้องสมุดเองก็มีคลังเอกสารของตัวเองด้วย
      ภาษาอังกฤษกับนอร์เวย์ไม่ได้อยู่ในตระกูลที่ใกล้กัน ดังนั้น LoRA อาจไม่ใช่วิธีที่ดีที่สุด
      ฉันสงสัยว่ามีงานวิจัยสาธารณะหรือไม่ว่าการทำโลคัลไลซ์ด้วย LoRA จะได้ผลดีแค่ไหน โดยขึ้นอยู่กับว่าหลักไวยากรณ์และคำศัพท์ของภาษาเป้าหมายห่างจากภาษาอังกฤษมากเพียงใด
      โครงการแบบนี้มักไม่ได้มีเป้าหมายเดียว ไม่ใช่แค่สร้างโมเดลล้ำสมัย แต่ยังมีเป้าหมายสร้างและฝึกบุคลากรในพื้นที่ เหมือนที่มหาวิทยาลัยยิงดาวเทียมขึ้นไป
    • ด้วยทรัพยากรระดับนี้ ก็มากพอที่จะใช้สิ่งอย่าง Olmo 3 recipe เป็นฐาน แล้วทำการผสมข้อมูลที่ให้น้ำหนักกับข้อมูลของตนเองก่อน รวมถึงการฝึกต่อสำหรับงานเฉพาะของตนเอง
      ถ้าสร้าง embedding model ของตัวเอง ทำดัชนีทั้งห้องสมุด แล้วฝึกให้โมเดลไปดึงข้อมูลนั้นมาตอบคำถามด้านประวัติศาสตร์ วัฒนธรรม กฎหมาย และยุทธศาสตร์จากมุมมองของประเทศตัวเอง ก็น่าจะทั้งน่าสนใจและมีประโยชน์มาก
      มันคงเอาชนะ Anthropic ในการเขียนโค้ด React ไม่ได้หรอก แต่ก็ไม่มีเหตุผลอะไรที่จะต้องพยายามลอกแบบเรื่องนั้น
    • จริง ๆ แล้วปัญหาใหญ่ที่สุดคือ ข้อมูลฝึก ที่ใช้งานได้
      มีการลองทั้ง fine-tune และฝึกจากศูนย์กับหลายโมเดลที่มีพารามิเตอร์ต่ำกว่า 10B อยู่แล้ว และครั้งล่าสุดที่ฉันเช็ก แบบที่ฝึกจากศูนย์จับภาษานั้นได้ดีกว่า
  • ดูเหมือนว่าทางเลือกที่ดีกว่าอาจเป็นให้นอร์เวย์สร้าง ชุดข้อมูลสำหรับการฝึก ขึ้นมาเองแทน หรือทำควบคู่กันไป แล้วเปิดให้ผู้สร้างโมเดลทุกคนใช้ได้ฟรี
    วิธีนี้ดูเหมือนจะเป็นแนวทางที่ดีกว่า หรือเป็นแนวทางเสริม สำหรับเป้าหมายในการทำให้โมเดลแนวหน้ารู้จักภาษานอร์เวย์และวัฒนธรรมของมัน

    • โมเดลแนวหน้าทั้งหลายรู้จักภาษานอร์เวย์ดีอยู่แล้ว ปรับตัวเข้ากับสำเนียงนอร์เวย์ได้ และยังเลียนแบบภาษานอร์เวย์แบบเก่าได้ค่อนข้างน่าเชื่อถือ
      ตัวอย่างเช่น ฉันเคยให้ Claude อธิบายนวนิยายปี 1911 เรื่อง “De knyttede næver” โดยใช้การสะกดแบบภาษานอร์เวย์ราวปี 1911 แล้วมันก็ทำได้ดี
      สิ่งที่ขาดคือความเข้าใจเกี่ยวกับ วรรณกรรม·วัฒนธรรม·ประวัติศาสตร์ของนอร์เวย์ “De knyttede næver” เป็นหนึ่งในนวนิยายนอร์เวย์ระดับขายดีในช่วงที่ตีพิมพ์ แต่ Claude ต้องไปค้นข้อมูลก่อนถึงจะพอพูดอะไรออกมาได้ ChatGPT ทำได้ดีกว่า และโดยเฉพาะในโหมดคิดก็ให้สรุปที่ละเอียด
      แม้ทุกวันนี้จะไม่ใช่งานที่เป็นที่รู้จักกว้างขวาง แต่ผู้เขียนเป็นนักหนังสือพิมพ์ชื่อดังอยู่หลายทศวรรษ และชุดผลงานนี้ก็เป็นที่รู้จักมากพอจนมีนักร้องนอร์เวย์คนหนึ่งใช้นามของตัวเอกจากเรื่องเป็นชื่อในวงการ
      ด้วยจุดยืนทางการเมืองของผู้เขียนและอิทธิพลที่มีต่อนวนิยาย เรื่องนี้จึงถูกพูดถึงในหนังสือพิมพ์และหนังสือของนอร์เวย์มานานหลายทศวรรษ ดังนั้นจึงเป็นการทดสอบที่สมเหตุสมผล และรู้สึกว่ามันเผยให้เห็นช่องว่างทางความรู้ที่ค่อนข้างชัด
      เห็นด้วยว่าควรทำให้ชุดข้อมูลของหอสมุดแห่งชาติเข้าถึงได้ง่ายขึ้น อย่างไรก็ตาม ดูเหมือนว่าองค์ประกอบสำคัญเพิ่มเติมในกรณีนี้คือการทำสัญญาที่ทำให้สามารถฝึกกับสื่อที่ยังมีลิขสิทธิ์ซึ่งถูกเก็บอยู่ในคลังและมีข้อจำกัดการใช้งานได้
      ถึงอย่างนั้น การเปิดเผยเฉพาะข้อมูลที่ลิขสิทธิ์หมดอายุแล้วจากของสะสมที่มีอยู่ก็น่าจะเป็นจุดเริ่มต้นที่ยอดเยี่ยม
    • ไม่เข้าใจว่าทำไมต้องแบ่งปันข้อมูลทั้งหมดนี้ให้กับ บริษัทอเมริกัน ที่โลภและขโมยข้อมูลของทุกคนไปหากำไรให้ตัวเอง
      การคงข้อตกลงทางกฎหมายกับหน่วยงานของรัฐไว้ และพัฒนาสิ่งที่มีประโยชน์กับประเทศของตัวเองจริง ๆ ดูจะดีกว่ามาก
  • จากส่วนที่ Marius Husnes พูดว่า “ผู้ให้บริการ LLM เชิงพาณิชย์ไม่ได้พัฒนา LLM ภาษานอร์เวย์ในท้องถิ่น และประเทศที่ไม่มี sovereign LLM ที่ฝึกด้วยภาษาของตนเองย่อมเสียเปรียบ” ทำให้ไม่ค่อยมั่นใจนักว่าเขารู้จริงว่ากำลังพูดถึงอะไร

    • เขาพูดถูก เพียงแต่ปัญหาไม่ได้อยู่ที่คลังข้อมูลฝึกทั้งหมดเท่านั้น แต่ยังเป็นเรื่องของ tokenizer ที่สามารถทำ tokenization ของ substring ได้อย่างมีประสิทธิภาพมากขึ้นโดยอิงตามอคติที่จำเป็นต่อภาษาเป้าหมายด้วย
      เหตุผลที่ LLM ซึ่งเอนเอียงไปทางภาษาอังกฤษเก่งภาษาอังกฤษมากกว่าก็คือมีการจัดสรรพื้นที่โทเค็นให้ภาษาอังกฤษอย่างกระชับกว่า หากลองเอาคำภาษาอังกฤษทั่วไปกับคำนอร์เวย์ไปใส่ใน tokenizer ออนไลน์ที่เรียก Anthropic API จะเห็นว่าภาษาอังกฤษมักใช้เพียงหนึ่งโทเค็นหรือน้อยกว่า ขณะที่ภาษานอร์เวย์มักเป็น 2~4 โทเค็น และบางครั้งก็มากกว่านั้น ภาษาพวกอย่างภาษาไทยเสียเปรียบอย่างมาก
      การเลือกคลังข้อมูลก็มักเอนเอียงไปทางภาษาเป้าหมายอย่างหนักเช่นกัน เพราะต้องใช้พลังงานมากกว่าในการรวบรวมผลงานในภาษานั้น
      เนื่องจากอิทธิพลซึ่งกันและกันของ embedding ที่มีความหมายคล้ายกันข้ามภาษา จึงเกิด เส้นฐานทางวัฒนธรรม และอคติทางความหมายอื่น ๆ ในเวกเตอร์สเปซด้วย สุดท้าย การ fine-tuning ส่งผลอย่างมากต่อการแสดงออกทางวัฒนธรรมของ LLM ผลกระทบเหล่านี้ไม่ใช่เรื่องเล็กน้อย
      มีความพยายามมากมายในการสร้างโมเดลภาษาสำหรับภาษาที่กำลังเลือนหายและแบบข้ามวัฒนธรรม แต่ถ้าเป็นภาษาที่มีฐานการอ่านเขียนแข็งแรง ก็มีเหตุผลมากพอที่จะสร้าง LLM เชิงมรดกที่เฉพาะกับภาษาและวัฒนธรรมของตนเอง การคาดหวังว่า OpenAI หรือ Anthropic จะให้ความสำคัญกับภาษาของคุณมากกว่าลูกค้าเป้าหมายของพวกเขาในยามต้องเลือกนั้นเป็นเรื่องไร้สาระ
    • เวลาโต้ตอบกับ ChatGPT แม้จะคุยเป็นภาษาเดนมาร์ก ก็ยังชัดเจนมากว่ามันมีความเป็น อเมริกัน
      ภาษาแม่ สไตล์ และท่าทีล้วนเป็นแบบอเมริกัน
      เหมือนกับที่เราไม่อาจพึ่งพา Netflix และ HBO ได้แม้ว่าตอนนี้พวกเขาจะสร้างรายการทีวีสแกนดิเนเวียอยู่ก็ตาม ในพื้นที่นี้เราก็ต้องสร้างของเราเองโดยตรง
      เมื่อเวลาผ่านไป เทคโนโลยีที่ทำให้สิ่งนี้เป็นไปได้จะถูกลงและหาได้ง่ายขึ้น
    • โปแลนด์มี LLM ของตัวเองชื่อ Bielik
      มันไม่เพียงรักษาสำนวนแบบภาษาโปแลนด์ได้ดีกว่า แต่ยังเขียนเอกสารราชการได้ดีกว่าด้วย ที่บอกว่าดีกว่าเพราะมีการประเมินแบบ arena และผลทางสถิติก็ดีกว่า
    • สงสัยว่าคุณสามารถยกหลักฐานได้ไหมว่าเขาพูดผิด
      มีแต่การยืนยันลอย ๆ แต่ดูไม่มีหลักฐาน ทำไมการมีแต่ LLM ภาษาอังกฤษถึงไม่ใช่ข้อเสีย?
      คุณสามารถดึงนัยละเอียดอ่อนของประวัติศาสตร์และวัฒนธรรมนอร์เวย์จากโมเดลปัจจุบันได้หรือไม่?
    • ฟังดูเข้าท่าเวลาจะขอรับเงินอุดหนุน
  • ภาษาเวลส์ ก็กำลังได้รับการฝึก LLM ด้วย Nemotron เช่นกัน
    https://www.bangor.ac.uk/news/2025-09-15-reaching-across-the...

  • อาจไม่ใช่วิธีที่มีประสิทธิภาพที่สุด แต่สำหรับ ภาษาที่ใช้ตัวอักษรที่ไม่ใช่ละติน ก็ยังดูมีกรณีใช้งานที่ชัดเจนสำหรับการสร้างตั้งแต่ต้น
    ดูกรณีของ sarvam.ai และการปรับปรุง tokenization สำหรับภาษาท้องถิ่นได้ [1] ไม่ใช่ว่า LLM ทุกตัวต้องช่วยเขียนโค้ด หรือจำเป็นต้องเป็น Babel fish ไปเสียทั้งหมด
    ภาษาเป็นวัฒนธรรม ดังนั้นจึงเข้าใจแรงจูงใจของพวกเขา และการมีทรัพยากรพอจะทำเองได้ก็ดูเป็นเรื่องดี
    [1] https://www.sarvam.ai/blogs/sarvam-30b-105b

    • การปรับปรุง tokenization ไม่ได้แปลว่าจำเป็นต้องสร้างใหม่ตั้งแต่ต้นเสมอไป
      T-Bank ของรัสเซียเปลี่ยน tokenizer ของ Qwen พื้นฐานเพื่อเพิ่มโทเค็นอักษรซีริลลิกเข้าไปมากขึ้น 5 เท่า แล้วฝึกต่อด้วยคลังข้อมูลภาษารัสเซีย จึงสามารถเพิ่ม ความเร็วในการสร้าง ได้ 1.5~3 เท่า
  • นี่คือการติดตั้ง ระบบสตอเรจ ขนาดมหึมา
    เมื่อคิดถึงความต้องการ I/O ของการฝึก LLM โดยเฉพาะการ checkpoint การเลือกใช้ NVMe flash ขนาดนี้แทน disk array แบบดั้งเดิมก็สมเหตุสมผล

  • “นอร์เวย์เป็นประเทศเล็ก ๆ ที่กำลังแก้ปัญหาที่ทุกประเทศนอกโลกที่ใช้ภาษาอังกฤษต้องเผชิญ จะสร้าง AI ที่สะท้อนภาษา วัฒนธรรม และประวัติศาสตร์ของตนเองได้อย่างไร? AI ไม่ได้ต้องการแค่ผู้สร้าง แต่ต้องการผู้ดูแลด้วย”
    น่าเสียดาย แต่ผมคิดว่าคำตอบโดยรวมใกล้เคียงกับ “ทำไม่ได้” มากกว่า
    งานแบบนี้ต้องการเจตจำนงทางการเมืองที่แข็งแกร่ง แต่ อย่างน้อยในแวดวงรอบตัวผม การทำให้สิ่งนี้ลงตัวดูแทบเป็นไปไม่ได้เลย
    ค่าใช้จ่ายก็รับมือยากอยู่แล้ว แต่ยิ่งไปกว่านั้น คนที่ใส่ใจกับเรื่อง ความเป็นตัวแทนในท้องถิ่น แบบนี้ มักจะโอเคเต็มที่แม้บริษัทต่างชาติจะเป็นฝ่ายทำให้ หรือไม่ก็คัดค้านตัว AI เองตั้งแต่แรกอยู่แล้ว เพราะถ้าต้องการ คุณก็ใช้ ChatGPT เป็นภาษาบาสก์ได้

    • สำหรับกรณีของนอร์เวย์ ยังพอถกเถียงได้ว่าค่าใช้จ่ายนั้นเกินรับไหวจริงหรือไม่
      เป็นประเทศเล็กแต่มั่งคั่งอย่างยิ่ง และปัจจุบันผ่านการลงทุนของ กองทุนความมั่งคั่งแห่งชาติ จึงถือครองหุ้นคิดเป็น 1.5% ของบริษัทจดทะเบียนทั่วโลก
    • ถ้านอร์เวย์เข้าไปหาเหล่าสถาบันวิจัยในสหรัฐฯ ด้วยเป้าหมายว่าจะสร้างชุดข้อมูลคัดสรรสำหรับการฝึก พวกเขาก็น่าจะเปิดทางให้สามารถเข้าไปมีส่วนในกระบวนการฝึกได้อย่างแน่นอน
      และโมเดลแบบนั้นก็น่าจะเหนือกว่าสิ่งที่สามารถสร้างได้ภายในประเทศอย่างมาก
      แน่นอนว่าแค่พูดแบบนี้ก็คงสัมผัสได้ถึงอาการขนลุกของบางคนที่อยู่อีกฝั่งหน้าจอ