Apertus โมเดลพื้นฐานแบบเปิดสำหรับ Sovereign AI

(apertvs.ai)

1 คะแนน โดย GN⁺ 4 시간 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ระบบนิเวศ AI ของสวิตเซอร์แลนด์เปิดตัว Apertus โมเดลพื้นฐานของตนเองที่มุ่งสู่ Sovereign AI และชูความร่วมมือระหว่าง EPFL, ETH Zurich และ CSCS เป็นแกนหลัก
จุดแตกต่างสำคัญคือ open weights, open data, open science โดยมีการจัดทำเอกสารชุดข้อมูลฝึก โค้ด ค่าน้ำหนัก วิธีวิทยา และหลักการจัดแนว เพื่อเน้นความสามารถในการทำซ้ำได้
ในด้านกฎระเบียบและความน่าเชื่อถือ โครงการคำนึงถึงข้อกำหนดของ EU AI Act และรวมเงื่อนไขอย่างการเคารพการ opt-out การลบ PII และการป้องกันการจดจำข้อมูล
ระบุว่าประสิทธิภาพในระดับ พารามิเตอร์ 8B และ 70B สามารถแข่งขันกับโมเดลเปิดชั้นนำในระดับเดียวกันได้ และได้รับการฝึกด้วยภาษามากกว่า 1,000 ภาษาตั้งแต่แรก
Swisscom เข้าร่วมในฐานะ พันธมิตรเชิงกลยุทธ์ และข่าวสารเกี่ยวกับรีลีส การวิจัย และชุมชนในอนาคตจะเผยแพร่ผ่านจดหมายข่าว

ผู้พัฒนาและขอบเขตการเปิดเผย

Apertus เป็นโมเดลพื้นฐานที่พัฒนาโดย Swiss AI Initiative
- Swiss AI Initiative เป็นความร่วมมือระหว่าง EPFL, ETH Zurich และ CSCS
ขอบเขตการเปิดเผยครอบคลุม ชุดข้อมูลฝึก โค้ด ค่าน้ำหนัก วิธีวิทยา และหลักการจัดแนว
องค์ประกอบที่เปิดเผยถูกจัดทำเอกสารและมุ่งสู่รูปแบบที่ ทำซ้ำได้
Apertus เน้นย้ำความเป็นโมเดลแบบเปิดด้วยข้อความว่า “Open ใน AI ก็เหมือนกับ Source”

การรองรับกฎระเบียบและคุณลักษณะของโมเดล

โมเดลถูกสร้างขึ้นเพื่อให้สอดคล้องกับข้อกำหนดของ EU AI Act
- เคารพการ opt-out
- ลบ PII
- ป้องกันการจดจำข้อมูล
ชูประสิทธิภาพที่สามารถแข่งขันกับโมเดลเปิดชั้นนำในระดับขนาดเดียวกันของ พารามิเตอร์ 8B และ 70B
รองรับหลายภาษาตั้งแต่เริ่มต้น และได้รับการฝึกด้วย มากกว่า 1,000 ภาษา

พันธมิตรและข่าวสารชุมชน

Swisscom เป็นพันธมิตรเชิงกลยุทธ์ของ Swiss AI Initiative
จดหมายข่าวจะให้ข้อมูลเกี่ยวกับรีลีสของ Apertus งานวิจัยของทีม และข่าวสารจากชุมชน

1 ความคิดเห็น

GN⁺ 4 시간 전

ความเห็นจาก Hacker News

ในกลุ่ม LLM ที่เปิดเผยทั้งหมด ยังมี OLMo 3.1 ของ Allen AI และ K2 Think V2 ของ MBZUAI ซึ่งทั้งคู่เปิดเผยทั้งไปป์ไลน์การฝึกและชุดข้อมูลทั้งหมด
Nvidia Nemotron ก็เป็นโมเดลที่เปิดเผยแหล่งที่มาของการฝึกเช่นกัน แต่บางส่วนของชุดข้อมูลยังเป็นกรรมสิทธิ์
หากอ้างอิงคอมเมนต์ของ lambda โมเดล Nemotron โดยรวมแข็งแกร่งกว่า Olmo และ K2 Think V2 (อิงตามเบนช์มาร์กของ Artificial Analysis) และชุดข้อมูลก็ทับซ้อนกันมาก ชุดข้อมูลหลายชุดถูกสร้างจากแหล่งเดียวกันโดยแค่กรองต่างกัน และทั้ง Olmo กับ K2 Think V2 ก็ใช้บางชุดข้อมูลของ Nemotron ด้วย
Nemotron เป็น LLM ที่ทันสมัยและมีความสามารถมาก และโมเดล 122b ก็แข็งแกร่งกว่า Deepseek R1 (โมเดล 671b) ในเบนช์มาร์กส่วนใหญ่ ขณะเดียวกันล่าสุดก็มีรุ่น 550b Ultra ออกมาแล้ว
https://news.ycombinator.com/item?id=48492439
- Allen AI ยังไม่ได้รับความสนใจมากพอ ผมคิดว่า generative AI ควรถูกสร้างขึ้นแบบนี้มาตั้งแต่แรก
  ถ้าบริษัทแนวหน้าเลือกแนวทางนี้ ตอนเริ่มต้นอาจช้ากว่านี้มาก แต่พอถึงปี 2035 น่าจะไปได้ไกลกว่าตอนนี้มาก แทนที่จะทำให้ตอนนี้คนจำนวนมากในสังคมอยากเห็น AI ล้มเหลว
- ชักอยากลอง Nemotron อีกครั้ง เมื่อวานลองโมเดลล่าสุดบน OpenRouter แล้วไม่ประทับใจเลย แย่กว่า StepFun เสียอีก
ผมชอบแนวคิดนี้ และทุกคนนอกสหรัฐก็ควรคิดเรื่อง อธิปไตยทางเทคโนโลยี อย่างจริงจังมากขึ้นด้วย เพราะสหรัฐกลายเป็นที่ที่ไม่ปลอดภัยสำหรับการเก็บข้อมูลแล้ว
แต่ Apertus ให้ความรู้สึกเหมือนขับเคลื่อนด้วยความเร็วแบบคณะกรรมการ เลยไม่คาดหวังว่าจะออกโมเดลที่แข่งขันได้ อย่างน้อยก็คงแข่งกับโมเดลปัจจุบันยาก อาจพอแข่งกับโมเดลเมื่อปีที่แล้วได้ แต่ดูเหมือนตอนนี้ยังทำไม่ถึงด้วยซ้ำ
- ผมเห็นด้วยกับประโยคที่ว่า “สหรัฐกลายเป็นที่ที่ไม่ปลอดภัยสำหรับการเก็บข้อมูลแล้ว” แต่ก็สงสัยว่าทำไมประเทศอื่นถึงจะเป็น ที่ลี้ภัยข้อมูล ที่ดีกว่า
  ส่วนตัวผมชอบแนวทางคุ้มครองข้อมูลของ EU แต่ก็สงสัยว่าคุณมีภูมิภาคหรือกลไกป้องกันอื่นในใจที่คิดว่าจะทำให้ข้อมูล “ปลอดภัย” ได้จริงหรือเปล่า
ผมว่าอุปมาเรื่อง Linux ก็ยังไม่ตรงอยู่ดี เรื่องนี้ใหญ่กว่านั้นมาก และเป็นภัยคุกคามโดยตรงต่อแล็บ AI เชิงพาณิชย์กับ โมเดลธุรกิจ ของพวกเขา
แล็บพวกนี้วนใช้แนวคิดจากงานวิจัยพื้นฐานเดิม ๆ มาหลายปีแล้ว และดูเหมือนใกล้ถึงทางตัน
ต่อไปโอเพนซอร์ส ข้อมูลเปิด และโมเดลที่เปิดเผยสูตรฝึกอาจกลายเป็นแกนหลัก และสักวันไม่ใช่แค่การอนุมาน แต่แม้แต่การฝึกก็อาจถูก crowdsourcing แบบ BitTorrent ได้
สุดท้าย โมเดลจากจีน (GLM, Deepseek, MiMax) ก็ทำงานได้ดีมากจริง ๆ และคนที่ใช้โมเดลเหล่านี้ก็คงบอกว่าไม่รู้สึกขาด OpenAI/Anthropic/Gemini เลย ดังนั้นถ้ามีโมเดลเปิดแบบนี้ ก็มีเหตุผลมากพอที่จะไม่ต้องคิดถึงโมเดลจีนเช่นกัน
สำหรับโมเดลที่อ้างว่าโฟกัสหลายภาษา มันกลับไม่เสถียรพอสมควรกับคำถามง่าย ๆ อย่าง “พูด X เป็นภาษา Y ว่าอย่างไร” หรือ “ผันกริยา X ในภาษา Y อย่างไร”
มันชอบหลอนคำที่ไม่มีอยู่จริงขึ้นมา และต่อให้แก้ให้ก็ยังโกหกเรื่องใหม่ต่อ
- เป็นไปได้มากว่ามันไม่รู้ว่ากลุ่มคำแต่ละชุดชี้ไปที่ภาษาไหน
  ดูไม่น่าใช่ว่าจะใส่ข้อมูลฝึกที่มีป้ายกำกับภาษาไว้มากนัก
  “พูด X เป็นภาษา Y ว่าอย่างไร” เป็นงานคนละแบบกับการพูด X เป็นภาษา Y จริง ๆ
โมเดล instruction ของพวกเขาดูเหมือน การ fine-tune Llama3.1 จากปีที่แล้ว ผมสงสัยว่าโมเดลใหม่นี้มีความก้าวหน้าหรือไม่
ความหวังสุดท้ายของผมสำหรับอธิปไตย AI อยู่ที่โมเดลเปิดจากจีน
- อธิปไตย AI ไม่ใช่เรื่องของการใช้แค่โมเดลเดียว แต่คือการใช้โมเดลให้เหมาะกับงาน และให้หลายโมเดลช่วยกันถกวิธีแก้ก่อนจะสรุปคำตอบ
  ถ้าคุณอยากผสมโมเดลแบบนี้ ลองดู https://github.com/deepbluedynamics/nemesis8
ผลลัพธ์ที่ทรงอิทธิพลที่สุดจากโครงการ Apretus น่าจะเป็น ผู้คน อย่างไม่ต้องสงสัย หากจะยกคำพูดที่น่าจดจำของ Dominique Paul(https://www.thisiscrispin.com/) สิ่งที่คนส่วนใหญ่พลาดไปคือ ทีมนี้ไม่ใช่ทีมลำดับที่สี่ที่ทำเรื่องเดิมซ้ำเหมือนผู้ให้บริการ LLM รายอื่นเกือบทั้งหมด และก็ไม่ใช่ทีมที่มีโอกาสเรียนรู้จากประสบการณ์เดิมของตัวเองมาก่อน
ถ้าทีมนี้ได้ฝึกโมเดลอีกรอบ ผมคิดว่าพวกเขาน่าจะลดต้นทุนลงได้เหลือหนึ่งในสี่และได้ผลลัพธ์ที่ดีกว่านี้มาก
ใบอนุญาตค่อนข้างน่าสนใจ แต่ระยะยาวผมไม่แน่ใจว่าจะมีใครทำตามแนวทางนี้
ข้อมูลฝึกและ Apertus LLM อาจมีหรือสร้างข้อมูลที่อ้างถึงบุคคลซึ่งสามารถระบุตัวตนได้โดยตรงหรือโดยอ้อม (ข้อมูลส่วนบุคคล) ผู้ใช้จะประมวลผลข้อมูลส่วนบุคคลดังกล่าวในฐานะผู้ควบคุมข้อมูลอิสระตามกฎหมายคุ้มครองข้อมูลที่เกี่ยวข้อง
SNAI ในฐานะผู้พัฒนา Apertus LLM จะเปิดให้ดาวน์โหลดไฟล์ค่าแฮชเป็นระยะ ซึ่งสะท้อนคำขอลบข้อมูลตามกฎหมายคุ้มครองข้อมูลที่ได้รับมา และผู้ใช้สามารถนำไปใช้เป็นตัวกรองผลลัพธ์ได้ เพื่อช่วยลบข้อมูลส่วนบุคคลที่อยู่ในผลลัพธ์ของโมเดล และหลังจากโมเดลเปิดตัวแล้ว SNAI ขอแนะนำอย่างยิ่งให้ดาวน์โหลดและใช้ตัวกรองผลลัพธ์นี้จาก SNAI ทุก 6 เดือน
เวอร์ชันก่อนหน้าของโมเดลนี้ค่อนข้างแย่ แต่กลับอ้างว่า ปฏิบัติตามกฎหมายลิขสิทธิ์ แต่พอผมลองทดสอบเองก็พบว่าไม่จริง เลยคิดว่ามันไร้ประโยชน์โดยสิ้นเชิง
- ตราบใดที่เงื่อนไขต่อไปนี้เป็นจริง รีลีสนี้ก็มีส่วนช่วยต่อวงการวิทยาศาสตร์มากกว่าโมเดลส่วนใหญ่ที่ฝึกกัน “หลังประตูปิด”
  โมเดลเปิดอย่างสมบูรณ์: เปิดน้ำหนักโมเดล + เปิดข้อมูล + เปิดรายละเอียดการฝึกทั้งหมด รวมถึงข้อมูลทั้งหมดและสูตรการฝึก
- มันใช้ fineweb ซึ่งได้มาจาก Common Crawl และ Common Crawl ก็รวบรวมหน้าเว็บมาโดยไม่ได้รับอนุญาต
- ผมอยากรู้ว่าคุณทดสอบอย่างไร อธิบายได้ไหม? คุณมีชุดข้อเท็จจริงย่อย ๆ ที่ควรเข้าข่ายลิขสิทธิ์ แล้วตรวจดูว่าโมเดลสามารถสร้างงานทั้งชิ้นแบบตรงตัวออกมาได้ somehow หรือเปล่า?
ผมสงสัยว่าชุมชนมอง อธิปไตย AI ที่มีรัฐบาลทั่วโลกสนับสนุนเงินทุนอย่างไร
ทำไมต้องเน้นคำว่า “อธิปไตย” ด้วย? ถ้าเปิดอยู่แล้ว แค่นั้นยังไม่พอหรือ?

Apertus โมเดลพื้นฐานแบบเปิดสำหรับ Sovereign AI

ผู้พัฒนาและขอบเขตการเปิดเผย

การรองรับกฎระเบียบและคุณลักษณะของโมเดล

พันธมิตรและข่าวสารชุมชน

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นจาก Hacker News