Apertus โมเดลพื้นฐานแบบเปิดสำหรับ Sovereign AI
(apertvs.ai)- ระบบนิเวศ AI ของสวิตเซอร์แลนด์เปิดตัว Apertus โมเดลพื้นฐานของตนเองที่มุ่งสู่ Sovereign AI และชูความร่วมมือระหว่าง EPFL, ETH Zurich และ CSCS เป็นแกนหลัก
- จุดแตกต่างสำคัญคือ open weights, open data, open science โดยมีการจัดทำเอกสารชุดข้อมูลฝึก โค้ด ค่าน้ำหนัก วิธีวิทยา และหลักการจัดแนว เพื่อเน้นความสามารถในการทำซ้ำได้
- ในด้านกฎระเบียบและความน่าเชื่อถือ โครงการคำนึงถึงข้อกำหนดของ EU AI Act และรวมเงื่อนไขอย่างการเคารพการ opt-out การลบ PII และการป้องกันการจดจำข้อมูล
- ระบุว่าประสิทธิภาพในระดับ พารามิเตอร์ 8B และ 70B สามารถแข่งขันกับโมเดลเปิดชั้นนำในระดับเดียวกันได้ และได้รับการฝึกด้วยภาษามากกว่า 1,000 ภาษาตั้งแต่แรก
- Swisscom เข้าร่วมในฐานะ พันธมิตรเชิงกลยุทธ์ และข่าวสารเกี่ยวกับรีลีส การวิจัย และชุมชนในอนาคตจะเผยแพร่ผ่านจดหมายข่าว
ผู้พัฒนาและขอบเขตการเปิดเผย
- Apertus เป็นโมเดลพื้นฐานที่พัฒนาโดย Swiss AI Initiative
- Swiss AI Initiative เป็นความร่วมมือระหว่าง EPFL, ETH Zurich และ CSCS
- ขอบเขตการเปิดเผยครอบคลุม ชุดข้อมูลฝึก โค้ด ค่าน้ำหนัก วิธีวิทยา และหลักการจัดแนว
- องค์ประกอบที่เปิดเผยถูกจัดทำเอกสารและมุ่งสู่รูปแบบที่ ทำซ้ำได้
- Apertus เน้นย้ำความเป็นโมเดลแบบเปิดด้วยข้อความว่า “Open ใน AI ก็เหมือนกับ Source”
การรองรับกฎระเบียบและคุณลักษณะของโมเดล
- โมเดลถูกสร้างขึ้นเพื่อให้สอดคล้องกับข้อกำหนดของ EU AI Act
- เคารพการ opt-out
- ลบ PII
- ป้องกันการจดจำข้อมูล
- ชูประสิทธิภาพที่สามารถแข่งขันกับโมเดลเปิดชั้นนำในระดับขนาดเดียวกันของ พารามิเตอร์ 8B และ 70B
- รองรับหลายภาษาตั้งแต่เริ่มต้น และได้รับการฝึกด้วย มากกว่า 1,000 ภาษา
พันธมิตรและข่าวสารชุมชน
- Swisscom เป็นพันธมิตรเชิงกลยุทธ์ของ Swiss AI Initiative
- จดหมายข่าวจะให้ข้อมูลเกี่ยวกับรีลีสของ Apertus งานวิจัยของทีม และข่าวสารจากชุมชน
1 ความคิดเห็น
ความเห็นจาก Hacker News
ในกลุ่ม LLM ที่เปิดเผยทั้งหมด ยังมี OLMo 3.1 ของ Allen AI และ K2 Think V2 ของ MBZUAI ซึ่งทั้งคู่เปิดเผยทั้งไปป์ไลน์การฝึกและชุดข้อมูลทั้งหมด
Nvidia Nemotron ก็เป็นโมเดลที่เปิดเผยแหล่งที่มาของการฝึกเช่นกัน แต่บางส่วนของชุดข้อมูลยังเป็นกรรมสิทธิ์
หากอ้างอิงคอมเมนต์ของ lambda โมเดล Nemotron โดยรวมแข็งแกร่งกว่า Olmo และ K2 Think V2 (อิงตามเบนช์มาร์กของ Artificial Analysis) และชุดข้อมูลก็ทับซ้อนกันมาก ชุดข้อมูลหลายชุดถูกสร้างจากแหล่งเดียวกันโดยแค่กรองต่างกัน และทั้ง Olmo กับ K2 Think V2 ก็ใช้บางชุดข้อมูลของ Nemotron ด้วย
Nemotron เป็น LLM ที่ทันสมัยและมีความสามารถมาก และโมเดล 122b ก็แข็งแกร่งกว่า Deepseek R1 (โมเดล 671b) ในเบนช์มาร์กส่วนใหญ่ ขณะเดียวกันล่าสุดก็มีรุ่น 550b Ultra ออกมาแล้ว
https://news.ycombinator.com/item?id=48492439
ถ้าบริษัทแนวหน้าเลือกแนวทางนี้ ตอนเริ่มต้นอาจช้ากว่านี้มาก แต่พอถึงปี 2035 น่าจะไปได้ไกลกว่าตอนนี้มาก แทนที่จะทำให้ตอนนี้คนจำนวนมากในสังคมอยากเห็น AI ล้มเหลว
ผมชอบแนวคิดนี้ และทุกคนนอกสหรัฐก็ควรคิดเรื่อง อธิปไตยทางเทคโนโลยี อย่างจริงจังมากขึ้นด้วย เพราะสหรัฐกลายเป็นที่ที่ไม่ปลอดภัยสำหรับการเก็บข้อมูลแล้ว
แต่ Apertus ให้ความรู้สึกเหมือนขับเคลื่อนด้วยความเร็วแบบคณะกรรมการ เลยไม่คาดหวังว่าจะออกโมเดลที่แข่งขันได้ อย่างน้อยก็คงแข่งกับโมเดลปัจจุบันยาก อาจพอแข่งกับโมเดลเมื่อปีที่แล้วได้ แต่ดูเหมือนตอนนี้ยังทำไม่ถึงด้วยซ้ำ
ส่วนตัวผมชอบแนวทางคุ้มครองข้อมูลของ EU แต่ก็สงสัยว่าคุณมีภูมิภาคหรือกลไกป้องกันอื่นในใจที่คิดว่าจะทำให้ข้อมูล “ปลอดภัย” ได้จริงหรือเปล่า
ผมว่าอุปมาเรื่อง Linux ก็ยังไม่ตรงอยู่ดี เรื่องนี้ใหญ่กว่านั้นมาก และเป็นภัยคุกคามโดยตรงต่อแล็บ AI เชิงพาณิชย์กับ โมเดลธุรกิจ ของพวกเขา
แล็บพวกนี้วนใช้แนวคิดจากงานวิจัยพื้นฐานเดิม ๆ มาหลายปีแล้ว และดูเหมือนใกล้ถึงทางตัน
ต่อไปโอเพนซอร์ส ข้อมูลเปิด และโมเดลที่เปิดเผยสูตรฝึกอาจกลายเป็นแกนหลัก และสักวันไม่ใช่แค่การอนุมาน แต่แม้แต่การฝึกก็อาจถูก crowdsourcing แบบ BitTorrent ได้
สุดท้าย โมเดลจากจีน (GLM, Deepseek, MiMax) ก็ทำงานได้ดีมากจริง ๆ และคนที่ใช้โมเดลเหล่านี้ก็คงบอกว่าไม่รู้สึกขาด OpenAI/Anthropic/Gemini เลย ดังนั้นถ้ามีโมเดลเปิดแบบนี้ ก็มีเหตุผลมากพอที่จะไม่ต้องคิดถึงโมเดลจีนเช่นกัน
สำหรับโมเดลที่อ้างว่าโฟกัสหลายภาษา มันกลับไม่เสถียรพอสมควรกับคำถามง่าย ๆ อย่าง “พูด X เป็นภาษา Y ว่าอย่างไร” หรือ “ผันกริยา X ในภาษา Y อย่างไร”
มันชอบหลอนคำที่ไม่มีอยู่จริงขึ้นมา และต่อให้แก้ให้ก็ยังโกหกเรื่องใหม่ต่อ
ดูไม่น่าใช่ว่าจะใส่ข้อมูลฝึกที่มีป้ายกำกับภาษาไว้มากนัก
“พูด X เป็นภาษา Y ว่าอย่างไร” เป็นงานคนละแบบกับการพูด X เป็นภาษา Y จริง ๆ
โมเดล instruction ของพวกเขาดูเหมือน การ fine-tune Llama3.1 จากปีที่แล้ว ผมสงสัยว่าโมเดลใหม่นี้มีความก้าวหน้าหรือไม่
ความหวังสุดท้ายของผมสำหรับอธิปไตย AI อยู่ที่โมเดลเปิดจากจีน
ถ้าคุณอยากผสมโมเดลแบบนี้ ลองดู https://github.com/deepbluedynamics/nemesis8
ผลลัพธ์ที่ทรงอิทธิพลที่สุดจากโครงการ Apretus น่าจะเป็น ผู้คน อย่างไม่ต้องสงสัย หากจะยกคำพูดที่น่าจดจำของ Dominique Paul(https://www.thisiscrispin.com/) สิ่งที่คนส่วนใหญ่พลาดไปคือ ทีมนี้ไม่ใช่ทีมลำดับที่สี่ที่ทำเรื่องเดิมซ้ำเหมือนผู้ให้บริการ LLM รายอื่นเกือบทั้งหมด และก็ไม่ใช่ทีมที่มีโอกาสเรียนรู้จากประสบการณ์เดิมของตัวเองมาก่อน
ถ้าทีมนี้ได้ฝึกโมเดลอีกรอบ ผมคิดว่าพวกเขาน่าจะลดต้นทุนลงได้เหลือหนึ่งในสี่และได้ผลลัพธ์ที่ดีกว่านี้มาก
ใบอนุญาตค่อนข้างน่าสนใจ แต่ระยะยาวผมไม่แน่ใจว่าจะมีใครทำตามแนวทางนี้
ข้อมูลฝึกและ Apertus LLM อาจมีหรือสร้างข้อมูลที่อ้างถึงบุคคลซึ่งสามารถระบุตัวตนได้โดยตรงหรือโดยอ้อม (ข้อมูลส่วนบุคคล) ผู้ใช้จะประมวลผลข้อมูลส่วนบุคคลดังกล่าวในฐานะผู้ควบคุมข้อมูลอิสระตามกฎหมายคุ้มครองข้อมูลที่เกี่ยวข้อง
SNAI ในฐานะผู้พัฒนา Apertus LLM จะเปิดให้ดาวน์โหลดไฟล์ค่าแฮชเป็นระยะ ซึ่งสะท้อนคำขอลบข้อมูลตามกฎหมายคุ้มครองข้อมูลที่ได้รับมา และผู้ใช้สามารถนำไปใช้เป็นตัวกรองผลลัพธ์ได้ เพื่อช่วยลบข้อมูลส่วนบุคคลที่อยู่ในผลลัพธ์ของโมเดล และหลังจากโมเดลเปิดตัวแล้ว SNAI ขอแนะนำอย่างยิ่งให้ดาวน์โหลดและใช้ตัวกรองผลลัพธ์นี้จาก SNAI ทุก 6 เดือน
เวอร์ชันก่อนหน้าของโมเดลนี้ค่อนข้างแย่ แต่กลับอ้างว่า ปฏิบัติตามกฎหมายลิขสิทธิ์ แต่พอผมลองทดสอบเองก็พบว่าไม่จริง เลยคิดว่ามันไร้ประโยชน์โดยสิ้นเชิง
โมเดลเปิดอย่างสมบูรณ์: เปิดน้ำหนักโมเดล + เปิดข้อมูล + เปิดรายละเอียดการฝึกทั้งหมด รวมถึงข้อมูลทั้งหมดและสูตรการฝึก
ผมสงสัยว่าชุมชนมอง อธิปไตย AI ที่มีรัฐบาลทั่วโลกสนับสนุนเงินทุนอย่างไร
ทำไมต้องเน้นคำว่า “อธิปไตย” ด้วย? ถ้าเปิดอยู่แล้ว แค่นั้นยังไม่พอหรือ?