1 คะแนน โดย GN⁺ 4 시간 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • ระบบนิเวศ AI ของสวิตเซอร์แลนด์เปิดตัว Apertus โมเดลพื้นฐานของตนเองที่มุ่งสู่ Sovereign AI และชูความร่วมมือระหว่าง EPFL, ETH Zurich และ CSCS เป็นแกนหลัก
  • จุดแตกต่างสำคัญคือ open weights, open data, open science โดยมีการจัดทำเอกสารชุดข้อมูลฝึก โค้ด ค่าน้ำหนัก วิธีวิทยา และหลักการจัดแนว เพื่อเน้นความสามารถในการทำซ้ำได้
  • ในด้านกฎระเบียบและความน่าเชื่อถือ โครงการคำนึงถึงข้อกำหนดของ EU AI Act และรวมเงื่อนไขอย่างการเคารพการ opt-out การลบ PII และการป้องกันการจดจำข้อมูล
  • ระบุว่าประสิทธิภาพในระดับ พารามิเตอร์ 8B และ 70B สามารถแข่งขันกับโมเดลเปิดชั้นนำในระดับเดียวกันได้ และได้รับการฝึกด้วยภาษามากกว่า 1,000 ภาษาตั้งแต่แรก
  • Swisscom เข้าร่วมในฐานะ พันธมิตรเชิงกลยุทธ์ และข่าวสารเกี่ยวกับรีลีส การวิจัย และชุมชนในอนาคตจะเผยแพร่ผ่านจดหมายข่าว

ผู้พัฒนาและขอบเขตการเปิดเผย

  • Apertus เป็นโมเดลพื้นฐานที่พัฒนาโดย Swiss AI Initiative
    • Swiss AI Initiative เป็นความร่วมมือระหว่าง EPFL, ETH Zurich และ CSCS
  • ขอบเขตการเปิดเผยครอบคลุม ชุดข้อมูลฝึก โค้ด ค่าน้ำหนัก วิธีวิทยา และหลักการจัดแนว
  • องค์ประกอบที่เปิดเผยถูกจัดทำเอกสารและมุ่งสู่รูปแบบที่ ทำซ้ำได้
  • Apertus เน้นย้ำความเป็นโมเดลแบบเปิดด้วยข้อความว่า “Open ใน AI ก็เหมือนกับ Source”

การรองรับกฎระเบียบและคุณลักษณะของโมเดล

  • โมเดลถูกสร้างขึ้นเพื่อให้สอดคล้องกับข้อกำหนดของ EU AI Act
    • เคารพการ opt-out
    • ลบ PII
    • ป้องกันการจดจำข้อมูล
  • ชูประสิทธิภาพที่สามารถแข่งขันกับโมเดลเปิดชั้นนำในระดับขนาดเดียวกันของ พารามิเตอร์ 8B และ 70B
  • รองรับหลายภาษาตั้งแต่เริ่มต้น และได้รับการฝึกด้วย มากกว่า 1,000 ภาษา

พันธมิตรและข่าวสารชุมชน

  • Swisscom เป็นพันธมิตรเชิงกลยุทธ์ของ Swiss AI Initiative
  • จดหมายข่าวจะให้ข้อมูลเกี่ยวกับรีลีสของ Apertus งานวิจัยของทีม และข่าวสารจากชุมชน

1 ความคิดเห็น

 
GN⁺ 4 시간 전
ความเห็นจาก Hacker News
  • ในกลุ่ม LLM ที่เปิดเผยทั้งหมด ยังมี OLMo 3.1 ของ Allen AI และ K2 Think V2 ของ MBZUAI ซึ่งทั้งคู่เปิดเผยทั้งไปป์ไลน์การฝึกและชุดข้อมูลทั้งหมด
    Nvidia Nemotron ก็เป็นโมเดลที่เปิดเผยแหล่งที่มาของการฝึกเช่นกัน แต่บางส่วนของชุดข้อมูลยังเป็นกรรมสิทธิ์
    หากอ้างอิงคอมเมนต์ของ lambda โมเดล Nemotron โดยรวมแข็งแกร่งกว่า Olmo และ K2 Think V2 (อิงตามเบนช์มาร์กของ Artificial Analysis) และชุดข้อมูลก็ทับซ้อนกันมาก ชุดข้อมูลหลายชุดถูกสร้างจากแหล่งเดียวกันโดยแค่กรองต่างกัน และทั้ง Olmo กับ K2 Think V2 ก็ใช้บางชุดข้อมูลของ Nemotron ด้วย
    Nemotron เป็น LLM ที่ทันสมัยและมีความสามารถมาก และโมเดล 122b ก็แข็งแกร่งกว่า Deepseek R1 (โมเดล 671b) ในเบนช์มาร์กส่วนใหญ่ ขณะเดียวกันล่าสุดก็มีรุ่น 550b Ultra ออกมาแล้ว
    https://news.ycombinator.com/item?id=48492439

    • Allen AI ยังไม่ได้รับความสนใจมากพอ ผมคิดว่า generative AI ควรถูกสร้างขึ้นแบบนี้มาตั้งแต่แรก
      ถ้าบริษัทแนวหน้าเลือกแนวทางนี้ ตอนเริ่มต้นอาจช้ากว่านี้มาก แต่พอถึงปี 2035 น่าจะไปได้ไกลกว่าตอนนี้มาก แทนที่จะทำให้ตอนนี้คนจำนวนมากในสังคมอยากเห็น AI ล้มเหลว
    • ชักอยากลอง Nemotron อีกครั้ง เมื่อวานลองโมเดลล่าสุดบน OpenRouter แล้วไม่ประทับใจเลย แย่กว่า StepFun เสียอีก
  • ผมชอบแนวคิดนี้ และทุกคนนอกสหรัฐก็ควรคิดเรื่อง อธิปไตยทางเทคโนโลยี อย่างจริงจังมากขึ้นด้วย เพราะสหรัฐกลายเป็นที่ที่ไม่ปลอดภัยสำหรับการเก็บข้อมูลแล้ว
    แต่ Apertus ให้ความรู้สึกเหมือนขับเคลื่อนด้วยความเร็วแบบคณะกรรมการ เลยไม่คาดหวังว่าจะออกโมเดลที่แข่งขันได้ อย่างน้อยก็คงแข่งกับโมเดลปัจจุบันยาก อาจพอแข่งกับโมเดลเมื่อปีที่แล้วได้ แต่ดูเหมือนตอนนี้ยังทำไม่ถึงด้วยซ้ำ

    • ผมเห็นด้วยกับประโยคที่ว่า “สหรัฐกลายเป็นที่ที่ไม่ปลอดภัยสำหรับการเก็บข้อมูลแล้ว” แต่ก็สงสัยว่าทำไมประเทศอื่นถึงจะเป็น ที่ลี้ภัยข้อมูล ที่ดีกว่า
      ส่วนตัวผมชอบแนวทางคุ้มครองข้อมูลของ EU แต่ก็สงสัยว่าคุณมีภูมิภาคหรือกลไกป้องกันอื่นในใจที่คิดว่าจะทำให้ข้อมูล “ปลอดภัย” ได้จริงหรือเปล่า
  • ผมว่าอุปมาเรื่อง Linux ก็ยังไม่ตรงอยู่ดี เรื่องนี้ใหญ่กว่านั้นมาก และเป็นภัยคุกคามโดยตรงต่อแล็บ AI เชิงพาณิชย์กับ โมเดลธุรกิจ ของพวกเขา
    แล็บพวกนี้วนใช้แนวคิดจากงานวิจัยพื้นฐานเดิม ๆ มาหลายปีแล้ว และดูเหมือนใกล้ถึงทางตัน
    ต่อไปโอเพนซอร์ส ข้อมูลเปิด และโมเดลที่เปิดเผยสูตรฝึกอาจกลายเป็นแกนหลัก และสักวันไม่ใช่แค่การอนุมาน แต่แม้แต่การฝึกก็อาจถูก crowdsourcing แบบ BitTorrent ได้
    สุดท้าย โมเดลจากจีน (GLM, Deepseek, MiMax) ก็ทำงานได้ดีมากจริง ๆ และคนที่ใช้โมเดลเหล่านี้ก็คงบอกว่าไม่รู้สึกขาด OpenAI/Anthropic/Gemini เลย ดังนั้นถ้ามีโมเดลเปิดแบบนี้ ก็มีเหตุผลมากพอที่จะไม่ต้องคิดถึงโมเดลจีนเช่นกัน

  • สำหรับโมเดลที่อ้างว่าโฟกัสหลายภาษา มันกลับไม่เสถียรพอสมควรกับคำถามง่าย ๆ อย่าง “พูด X เป็นภาษา Y ว่าอย่างไร” หรือ “ผันกริยา X ในภาษา Y อย่างไร”
    มันชอบหลอนคำที่ไม่มีอยู่จริงขึ้นมา และต่อให้แก้ให้ก็ยังโกหกเรื่องใหม่ต่อ

    • เป็นไปได้มากว่ามันไม่รู้ว่ากลุ่มคำแต่ละชุดชี้ไปที่ภาษาไหน
      ดูไม่น่าใช่ว่าจะใส่ข้อมูลฝึกที่มีป้ายกำกับภาษาไว้มากนัก
      “พูด X เป็นภาษา Y ว่าอย่างไร” เป็นงานคนละแบบกับการพูด X เป็นภาษา Y จริง ๆ
  • โมเดล instruction ของพวกเขาดูเหมือน การ fine-tune Llama3.1 จากปีที่แล้ว ผมสงสัยว่าโมเดลใหม่นี้มีความก้าวหน้าหรือไม่
    ความหวังสุดท้ายของผมสำหรับอธิปไตย AI อยู่ที่โมเดลเปิดจากจีน

    • อธิปไตย AI ไม่ใช่เรื่องของการใช้แค่โมเดลเดียว แต่คือการใช้โมเดลให้เหมาะกับงาน และให้หลายโมเดลช่วยกันถกวิธีแก้ก่อนจะสรุปคำตอบ
      ถ้าคุณอยากผสมโมเดลแบบนี้ ลองดู https://github.com/deepbluedynamics/nemesis8
  • ผลลัพธ์ที่ทรงอิทธิพลที่สุดจากโครงการ Apretus น่าจะเป็น ผู้คน อย่างไม่ต้องสงสัย หากจะยกคำพูดที่น่าจดจำของ Dominique Paul(https://www.thisiscrispin.com/) สิ่งที่คนส่วนใหญ่พลาดไปคือ ทีมนี้ไม่ใช่ทีมลำดับที่สี่ที่ทำเรื่องเดิมซ้ำเหมือนผู้ให้บริการ LLM รายอื่นเกือบทั้งหมด และก็ไม่ใช่ทีมที่มีโอกาสเรียนรู้จากประสบการณ์เดิมของตัวเองมาก่อน
    ถ้าทีมนี้ได้ฝึกโมเดลอีกรอบ ผมคิดว่าพวกเขาน่าจะลดต้นทุนลงได้เหลือหนึ่งในสี่และได้ผลลัพธ์ที่ดีกว่านี้มาก

  • ใบอนุญาตค่อนข้างน่าสนใจ แต่ระยะยาวผมไม่แน่ใจว่าจะมีใครทำตามแนวทางนี้
    ข้อมูลฝึกและ Apertus LLM อาจมีหรือสร้างข้อมูลที่อ้างถึงบุคคลซึ่งสามารถระบุตัวตนได้โดยตรงหรือโดยอ้อม (ข้อมูลส่วนบุคคล) ผู้ใช้จะประมวลผลข้อมูลส่วนบุคคลดังกล่าวในฐานะผู้ควบคุมข้อมูลอิสระตามกฎหมายคุ้มครองข้อมูลที่เกี่ยวข้อง
    SNAI ในฐานะผู้พัฒนา Apertus LLM จะเปิดให้ดาวน์โหลดไฟล์ค่าแฮชเป็นระยะ ซึ่งสะท้อนคำขอลบข้อมูลตามกฎหมายคุ้มครองข้อมูลที่ได้รับมา และผู้ใช้สามารถนำไปใช้เป็นตัวกรองผลลัพธ์ได้ เพื่อช่วยลบข้อมูลส่วนบุคคลที่อยู่ในผลลัพธ์ของโมเดล และหลังจากโมเดลเปิดตัวแล้ว SNAI ขอแนะนำอย่างยิ่งให้ดาวน์โหลดและใช้ตัวกรองผลลัพธ์นี้จาก SNAI ทุก 6 เดือน

  • เวอร์ชันก่อนหน้าของโมเดลนี้ค่อนข้างแย่ แต่กลับอ้างว่า ปฏิบัติตามกฎหมายลิขสิทธิ์ แต่พอผมลองทดสอบเองก็พบว่าไม่จริง เลยคิดว่ามันไร้ประโยชน์โดยสิ้นเชิง

    • ตราบใดที่เงื่อนไขต่อไปนี้เป็นจริง รีลีสนี้ก็มีส่วนช่วยต่อวงการวิทยาศาสตร์มากกว่าโมเดลส่วนใหญ่ที่ฝึกกัน “หลังประตูปิด”
      โมเดลเปิดอย่างสมบูรณ์: เปิดน้ำหนักโมเดล + เปิดข้อมูล + เปิดรายละเอียดการฝึกทั้งหมด รวมถึงข้อมูลทั้งหมดและสูตรการฝึก
    • มันใช้ fineweb ซึ่งได้มาจาก Common Crawl และ Common Crawl ก็รวบรวมหน้าเว็บมาโดยไม่ได้รับอนุญาต
    • ผมอยากรู้ว่าคุณทดสอบอย่างไร อธิบายได้ไหม? คุณมีชุดข้อเท็จจริงย่อย ๆ ที่ควรเข้าข่ายลิขสิทธิ์ แล้วตรวจดูว่าโมเดลสามารถสร้างงานทั้งชิ้นแบบตรงตัวออกมาได้ somehow หรือเปล่า?
  • ผมสงสัยว่าชุมชนมอง อธิปไตย AI ที่มีรัฐบาลทั่วโลกสนับสนุนเงินทุนอย่างไร
    ทำไมต้องเน้นคำว่า “อธิปไตย” ด้วย? ถ้าเปิดอยู่แล้ว แค่นั้นยังไม่พอหรือ?