2 คะแนน โดย GN⁺ 2025-07-12 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • ETH Zurich และ EPFL เป็นผู้นำในการพัฒนาโมเดลภาษาขนาดใหญ่ (LLM) ที่สร้างขึ้นอย่างเปิดเผยทั้งหมดบนโครงสร้างพื้นฐานสาธารณะ และมีกำหนดเปิดตัวในเร็ว ๆ นี้
  • โมเดลนี้มุ่งเน้นที่ ความโปร่งใส ความสามารถแบบหลายภาษา และการเข้าถึงอย่างกว้างขวาง เพื่อให้สามารถนำไปใช้ได้ในหลากหลายภาคส่วน เช่น วิทยาศาสตร์ ภาครัฐ และภาคเอกชน
  • มีการเปิดเผย ซอร์สโค้ด น้ำหนักโมเดล และข้อมูลฝึก พร้อมออกแบบให้ทุกขั้นตอนสามารถทำซ้ำได้ เพื่อส่งเสริมการวิจัยแบบเปิดและการปฏิบัติตามข้อกำกับดูแล
  • ฝึกด้วยพลังงานที่เป็นมิตรต่อสิ่งแวดล้อมบนซูเปอร์คอมพิวเตอร์รุ่นล่าสุด Alps (CSCS) โดยมีเป้าหมายด้านขนาดใหญ่ ประสิทธิภาพสูง และการใช้ข้อมูลอย่างรับผิดชอบ
  • LLM นี้มีกำหนดเผยแพร่ภายใต้ Apache 2.0 License ช่วงปลายฤดูร้อน และคาดว่าจะช่วยกระตุ้นนวัตกรรมและการวิจัยทั่วโลก

ความร่วมมือระหว่างประเทศและที่มาของการสร้าง LLM แบบเปิด

  • ในงาน International Open-Source LLM Builders Summit ที่จัดขึ้นในเจนีวา มี องค์กรกว่า 50 แห่งด้านโอเพนซอร์ส LLM ระดับโลกและ AI ที่น่าเชื่อถือ มารวมตัวกัน
  • งานนี้จัดโดยศูนย์ AI ของ EPFL และ ETH Zurich และเป็นจุดเปลี่ยนสำคัญในการกระตุ้นความร่วมมือและระบบนิเวศของ โมเดลพื้นฐานแบบเปิด
  • LLM แบบเปิดกำลังถูกมองมากขึ้นว่าเป็น ทางเลือก สำหรับระบบเชิงพาณิชย์ที่พัฒนาแบบปิดในสหรัฐฯ จีน และประเทศอื่น ๆ

คุณลักษณะของ LLM สาธารณะตัวใหม่และแผนการเปิดตัว

  • จากความร่วมมือของนักวิจัยจาก EPFL, ETH Zurich, มหาวิทยาลัยอื่น ๆ ในสวิตเซอร์แลนด์ และวิศวกรจาก CSCS ทำให้ LLM ที่พัฒนาแบบเปิดทั้งหมดและสร้างขึ้นเพื่อสาธารณะ กำลังจะเปิดตัวในเร็ว ๆ นี้
  • ขณะนี้อยู่ในขั้นตอนทดสอบขั้นสุดท้าย และจะเปิดให้ดาวน์โหลดภายใต้ ไลเซนส์แบบเปิด
  • โมเดลนี้ยึด ความโปร่งใส ประสิทธิภาพหลายภาษา และการเข้าถึงอย่างกว้างขวาง เป็นคุณค่าหลัก

หลักการเปิดเผยทั้งหมดและความโปร่งใส

  • ทั้ง ซอร์สโค้ดและน้ำหนักโมเดล จะถูกเปิดเผย
  • ข้อมูลฝึกก็จะถูกเปิดเผยอย่างโปร่งใส และออกแบบในลักษณะที่ทำซ้ำได้ เพื่อสนับสนุนการนำไปใช้ใน วิทยาศาสตร์ ภาครัฐ การศึกษา และภาคเอกชน
  • แนวทางนี้มีเป้าหมายเพื่อ ส่งเสริมนวัตกรรมและเสริมสร้างความรับผิดชอบ

ความเห็นจากผู้เชี่ยวชาญ

  • Imanol Schlag นักวิจัยจาก ETH AI Center เน้นว่า “โมเดลที่เปิดเผยทั้งหมด เป็นสิ่งจำเป็นต่อการสร้างแอปพลิเคชันที่เชื่อถือได้และการพัฒนางานวิจัยด้านความเสี่ยง/โอกาสของ AI”
  • กระบวนการที่โปร่งใสยังช่วยให้ ปฏิบัติตามข้อกำกับดูแล ได้ง่ายขึ้นด้วย

การออกแบบแบบหลายภาษา

  • หนึ่งในคุณสมบัติหลักของโมเดลคือ รองรับมากกว่า 1,000 ภาษา
  • ศาสตราจารย์ Antoine Bosselut ระบุว่าได้มุ่งเน้นที่ การรองรับหลายภาษาอย่างกว้างขวาง ตั้งแต่ระยะแรก
  • มีการทำ pretraining ด้วย ชุดข้อมูลขนาดใหญ่กว่า 1,500 ภาษา (อังกฤษ 60%, ไม่ใช่อังกฤษ 40%) รวมถึงข้อมูลโค้ดและคณิตศาสตร์
  • เนื้อหาสะท้อนภาษาและวัฒนธรรมที่หลากหลายจากทั่วโลก จึงมี ศักยภาพในการใช้งานระดับโลก สูง

ความสามารถในการขยายขนาดและความครอบคลุม

  • โมเดลจะเปิดเผย 2 ขนาด คือ 8 พันล้าน (8B) และ 7 หมื่นล้าน (70B) พารามิเตอร์
    • เวอร์ชัน 70B เป็นหนึ่งในโมเดลที่เปิดเผยทั้งหมดที่ทรงพลังที่สุดในโลก
  • ฝึกด้วย โทเคนคุณภาพสูงมากกว่า 15 ล้านล้านรายการ (หน่วยข้อความขนาดเล็ก) เพื่อให้ได้ ความน่าเชื่อถือสูงและการใช้งานอเนกประสงค์

การใช้ข้อมูลอย่างรับผิดชอบ

  • กำลังพัฒนาโดยปฏิบัติตาม ข้อกำหนดด้านความโปร่งใส ที่กฎหมายคุ้มครองข้อมูล กฎหมายลิขสิทธิ์ของสวิตเซอร์แลนด์ และ EU AI Act กำหนด
  • ผลวิจัยล่าสุดพิสูจน์ว่า แม้จะเคารพการปฏิเสธ web crawling (robots exclusion standard) ก็แทบไม่ทำให้ประสิทธิภาพของ LLM ลดลง

การพัฒนาด้วยซูเปอร์คอมพิวเตอร์และความยั่งยืน

  • การฝึกโมเดลดำเนินการบน ซูเปอร์คอมพิวเตอร์ Alps ของ CSCS ในเมืองลูกาโน
    • ติดตั้ง NVIDIA Grace Hopper Superchip จำนวน 10,000 ตัว เป็นโครงสร้างพื้นฐาน AI ระดับแนวหน้าของโลก
    • สามารถฝึกได้อย่างมีประสิทธิภาพด้วยไฟฟ้าที่เป็นกลางทางคาร์บอน 100%
  • การนำ Alps มาใช้งานได้สำเร็จเป็นผลจาก ความร่วมมือเชิงกลยุทธ์ตลอด 15 ปี กับ NVIDIA และ HPE/Cray
  • Alps มีบทบาทสำคัญในการรองรับงาน AI ขนาดใหญ่ รวมถึง pretraining ของ LLM ที่ซับซ้อน
  • ศาสตราจารย์ Thomas Schulthess เน้นว่า “ความร่วมมือร่วมกัน ระหว่างสถาบันวิจัยสาธารณะและภาคอุตสาหกรรมพิสูจน์ให้เห็นถึงการมีส่วนต่อโครงสร้างพื้นฐาน AI ที่มีอธิปไตย นวัตกรรมแบบเปิด ตลอดจนวิทยาศาสตร์และสังคมทั่วโลก”

การเข้าถึงแบบเปิดและการใช้งานระดับโลก

  • LLM นี้มีกำหนดเผยแพร่ ช่วงปลายฤดูร้อน ภายใต้ Apache 2.0 License
  • จะมีการจัดทำ เอกสารประกอบ เช่น สถาปัตยกรรมโมเดล วิธีการฝึก และแนวทางการใช้งาน เพื่อสนับสนุนการนำกลับไปใช้และการพัฒนาต่อยอดอย่างโปร่งใส
  • ศาสตราจารย์ Antoine Bosselut กล่าวว่าเขาหวังว่านักวิจัยภาครัฐจะเป็นผู้นำในการ ผลักดันโมเดลแบบเปิด และให้องค์กรต่าง ๆ นำไปพัฒนาแอปพลิเคชันของตนเองต่อได้
  • ศาสตราจารย์ Martin Jaggi ระบุว่า “ความเปิดเผยอย่างสมบูรณ์เป็นปัจจัยสำคัญในการส่งเสริมนวัตกรรมผ่านความร่วมมือของสวิตเซอร์แลนด์ ยุโรป และนานาชาติ รวมถึงการดึงดูดบุคลากรชั้นนำ”

1 ความคิดเห็น

 
GN⁺ 2025-07-12
ความคิดเห็นจาก Hacker News
  • กำลังตั้งตารอผลงานนี้อยู่ เท่าที่ทราบ ETH กับ EPFL กำลังเทรนหรือทำ fine-tune บนโมเดลรุ่นก่อน ไม่ใช่ LLaMA รุ่นล่าสุด ดังนั้นอาจตามหลังประสิทธิภาพระดับ SOTA อยู่บ้าง แต่ผมคิดว่าประเด็นสำคัญที่สุดคือ ETH และ EPFL ได้สั่งสมประสบการณ์ด้านการเทรนขนาดใหญ่ ได้ยินมาว่าคลัสเตอร์ AI ที่เพิ่งสร้างขึ้นใหม่ยังเจอการลองผิดลองถูกเยอะในช่วงแรก ผู้คนมักประเมินต่ำไปว่าการเทรนโมเดลบนโครงสร้างพื้นฐานของตัวเองในสเกลนี้ยากแค่ไหน<br>เพิ่มเติมคือผมเกิดที่สวิตเซอร์แลนด์และเรียนที่ ETH คนเก่งมีพอแน่ แต่ประสบการณ์ด้านการเทรนขนาดใหญ่ยังน้อย และโดยส่วนตัวผมคิดว่า "เวทมนตร์" ของ LLM จำนวนมากจริง ๆ แล้วมาจากอินฟราสตรักเจอร์

    • จริง ๆ ผมคิดว่าเวทมนตร์จำนวนมากมาจากชุดข้อมูล โดยเฉพาะ SFT และข้อมูล fine-tuning/RLHF อื่น ๆ นั่นแหละคือสิ่งที่แยกโมเดลที่คนใช้งานจริงออกจากโมเดลที่ไม่มีใครใช้ ผมเห็นด้วยเต็มที่กับเรื่องการสั่งสมประสบการณ์ และมองว่าการสร้างอินฟราสตรักเจอร์เป็นแกนหลักของห่วงโซ่อุปทาน LLM แบบอธิปไตย แต่ข้อมูลก็ควรได้รับความใส่ใจอย่างมากตั้งแต่ต้นด้วย ไม่อย่างนั้นโมเดลจะไม่ค่อยใช้งานได้จริง

    • การเทรน LLM ระดับ SOTA ต้องใช้อินฟราสตรักเจอร์ที่ซับซ้อนมาก หลายคนคิดว่าแค่อัปโหลดสถาปัตยกรรมกับชุดข้อมูลแล้วใช้ Ray ก็จบ แต่ในความจริงยังต้องมีทั้งการออกแบบชุดข้อมูล การสร้าง evaluation pipeline วิธีการเทรน การรีดประสิทธิภาพฮาร์ดแวร์ให้สุด latency ระหว่างโหนด การกู้คืนจากข้อผิดพลาด และองค์ประกอบอีกมหาศาล ถึงอย่างนั้นผมก็คิดว่าเป็นเรื่องดีที่มีผู้เล่นมากขึ้นในวงการนี้

    • เห็นคำว่า "from scratch" แล้วเดาว่าพวกเขาจะทำ pretraining ไม่ใช่ fine-tuning อยากรู้เหมือนกันว่าคนอื่นคิดเห็นอย่างไร และก็สงสัยด้วยว่าจะใช้สถาปัตยกรรม Llama แบบทั่วไปหรือเปล่า อยากเห็นผล benchmark

  • ประโยคที่ว่า <i>แม้จะเคารพการ opt-out จากการครอว์ลเว็บ ก็แทบไม่มีผลต่อประสิทธิภาพ</i> น่ายินดีมาก

    • ต่อให้ในตัวชี้วัดการเทรนจะบอกว่าไม่มีประสิทธิภาพตก แต่ในมุมผู้ใช้ปลายทางสุดท้ายอาจไม่เหมือนกัน ผู้ใช้กับเจ้าของเว็บไซต์มีเป้าหมายต่างกันโดยพื้นฐาน ผู้ใช้อยากได้คำตอบและคอนเทนต์ ส่วนเจ้าของเว็บอยากได้โฆษณาหรือการขายต่อเพิ่ม สุดท้ายแล้วตอบโจทย์ได้เพียงฝ่ายเดียว
  • ผมสงสัยว่านี่จะเป็นกรณีที่ตั้งมาตรฐานใหม่เรื่องความโปร่งใสของชุดข้อมูลหรือไม่ ถ้าทำได้จริงก็ถือเป็นความก้าวหน้าสำคัญ แต่ถ้าตั้งชื่อเครื่องว่า AIps (AI Petaflops Supercomputer) น่าจะสนุกกว่านี้

    • โมเดล OLMo ที่ Allen Institute for Artificial Intelligence ทำก็เปิดทั้งหมดเหมือนกัน<br><i>OLMo is fully open</i><br>AI2 มีจุดยืนว่าความเปิดอย่างแท้จริงคือต้องเปิดทั้งข้อมูล โมเดล และโค้ด<br>ดูรายละเอียด OLMo

    • เท่าที่ผมรู้ Smollm ก็เป็นโมเดลที่เปิดอย่างสมบูรณ์เหมือนกัน

  • ข้อมูลเทรนแบบเปิดคือจุดต่างที่ชี้ขาด ผมสงสัยว่านี่อาจเป็นชุดข้อมูลที่เปิดจริงในสเกลนี้เป็นครั้งแรกหรือไม่ ความพยายามก่อนหน้าอย่าง The Pile ก็มีคุณค่า แต่ก็มีข้อจำกัด และผมก็ตั้งตารอว่าพวกเขาจะรับประกันความสามารถในการทำซ้ำการเทรนอย่างไร

    • จากข้อความที่ว่า "โมเดลจะเปิดอย่างสมบูรณ์: ซอร์สโค้ดและน้ำหนักโมเดลจะเปิดเผย และข้อมูลเทรนจะโปร่งใสและทำซ้ำได้" ผมคิดว่าจุดเน้นน่าจะอยู่ที่คำว่า "ทำซ้ำได้" มากกว่าจะหมายถึงการเปิดข้อมูลเทรนทั้งหมด อาจมีการเปิดเอกสารอ้างอิงอย่างรายชื่อ URL ของหน้าที่ใช้เทรนจริง แต่ไม่ใช่ตัวคอนเทนต์ทั้งหมด

    • ใช่ ยังมีปัญหาลิขสิทธิ์แบบดั้งเดิมค้างอยู่ ดังนั้นคงไม่สามารถแจกเป็นแพ็กเกจชุดข้อมูลได้ตรง ๆ

  • นี่แหละคือความหมายของ "การทำให้ AI เป็นประชาธิปไตย"

  • ในข่าวประชาสัมพันธ์พูดเยอะมากเกี่ยวกับวิธีที่สร้างมันขึ้นมา แต่แทบไม่มีข้อมูลเลยว่าความสามารถจริงเมื่อเทียบกับโมเดลเปิดอื่น ๆ เป็นอย่างไร

    • สำหรับมหาวิทยาลัย การสอนว่า 'สร้างอย่างไร' คือหัวใจหลักอยู่แล้ว ดังนั้นการเน้นจุดนี้จึงเป็นเรื่องธรรมชาติ

    • เขาบอกว่า <i>โมเดลจะออกมา 2 เวอร์ชันคือ 8B (8 พันล้าน) และ 70B (7 หมื่นล้าน) โดยเวอร์ชัน 70B จะเป็นหนึ่งในโมเดลเปิดที่ทรงพลังที่สุดในโลก และจะเปิดตัวภายใต้ไลเซนส์ Apache 2.0 ช่วงปลายฤดูร้อนนี้</i> ก็คงต้องมาดูกันจริง ๆ ในเดือนกันยายน

  • ในฐานะคนสวิส ผมภูมิใจที่เห็นข่าวนี้ขึ้นบนสุดของ HN มหาวิทยาลัยสองแห่งนี้ผลิตผู้ก่อตั้ง นักวิจัย และวิศวกรระดับโลกจำนวนมากมาโดยตลอด แต่ก็มักถูกเงาของสหรัฐฯ บดบังอยู่เสมอ อย่างไรก็ตาม ด้วยโครงสร้างพื้นฐานสาธารณะที่ยอดเยี่ยม การศึกษา และเสถียรภาพทางการเมือง (+ ความเป็นกลาง) ผมคิดว่าพวกเขามีโอกาสพิเศษในวงการ open LLM

  • ในบทความมีข้อความว่า<br>"open LLM กำลังถูกมองว่าเป็นทางเลือกที่น่าเชื่อถือมากขึ้นเรื่อย ๆ ขณะที่ระบบเชิงพาณิชย์ส่วนใหญ่กำลังถูกพัฒนาแบบปิดในสหรัฐฯ หรือจีน"<br>ตอนนี้บริษัทที่สร้าง LLM ขนาดใหญ่มีแรงจูงใจให้ลดคุณภาพลงเพื่อทำเงิน ไม่ว่าจะเพื่อดึงคนไปสมัครสมาชิกหรือโฆษณาสินค้า และบางรายก็มีอคติทางการเมืองไปแล้วด้วย ถ้ายุโรปสามารถทำบริการค้นหาและ AI เพื่อประโยชน์สาธารณะผ่านความร่วมมือระหว่างภาครัฐกับภาควิชาการ และเดินหน้าโดยยึดผู้ใช้เป็นศูนย์กลางได้ ก็จะมีความหมายมาก

    • แต่การให้บริการแบบนั้นก็ซับซ้อนในตัวเอง ต่อให้เทรนโมเดลที่ดีได้ การให้บริการจริงก็น่าจะยังเป็นเรื่องของภาคเอกชนอยู่ดี ดังนั้นแรงกดดันเรื่องการทำเงินก็ยังคงอยู่ และในกรณีของ AI แนวโน้มนี้อาจยิ่งแรงขึ้นเพราะต้นทุนการดำเนินงานสูง สุดท้ายถ้าเป็นบริการฟรี ผู้ใช้ก็จะกลายเป็นสินค้า จึงต้องพยายามสกัดมูลค่าออกมาให้มากพอถึงจะมีกำไร
  • อยากลองทดสอบใช้งานจริงเร็ว ๆ แล้ว

  • สงสัยว่าทำไมถึงประกาศกันแบบนี้ทั้งที่ยังไม่เปิดตัวเลย คิดว่าควรพูดกันตรง ๆ มากกว่า

    • การประกาศครั้งนี้เกิดขึ้นในงาน International Open-Source LLM Builders Summit ที่จัดในสวิตเซอร์แลนด์สัปดาห์นี้ การแชร์กำหนดการและแผนงานก็ไม่ได้แปลกอะไรนัก

    • อาจเป็นไปเพื่อการระดมทุน และยังมีความหมายในแง่ของการตอกย้ำให้ผู้ใช้ยุโรปรับรู้ถึง LLM ที่พัฒนาจากภาครัฐในยุโรปด้วย (อย่างน้อยก็ไม่ใช่ของสหรัฐฯ หรือจีน) บางทีอาจมีเหตุผลเกินไปจนบรัสเซลส์ไม่อนุมัติก็ได้

    • ในสวิตเซอร์แลนด์มีภาพจำว่าถ้าจะทำอะไรสักอย่างก็มักจะทำกันอย่างค่อยเป็นค่อยไป