ETH Zurich และ EPFL เตรียมเปิดตัว LLM ที่พัฒนาบนโครงสร้างพื้นฐานสาธารณะ

(ethz.ch)

2 คะแนน โดย GN⁺ 2025-07-12 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ETH Zurich และ EPFL เป็นผู้นำในการพัฒนาโมเดลภาษาขนาดใหญ่ (LLM) ที่สร้างขึ้นอย่างเปิดเผยทั้งหมดบนโครงสร้างพื้นฐานสาธารณะ และมีกำหนดเปิดตัวในเร็ว ๆ นี้
โมเดลนี้มุ่งเน้นที่ ความโปร่งใส ความสามารถแบบหลายภาษา และการเข้าถึงอย่างกว้างขวาง เพื่อให้สามารถนำไปใช้ได้ในหลากหลายภาคส่วน เช่น วิทยาศาสตร์ ภาครัฐ และภาคเอกชน
มีการเปิดเผย ซอร์สโค้ด น้ำหนักโมเดล และข้อมูลฝึก พร้อมออกแบบให้ทุกขั้นตอนสามารถทำซ้ำได้ เพื่อส่งเสริมการวิจัยแบบเปิดและการปฏิบัติตามข้อกำกับดูแล
ฝึกด้วยพลังงานที่เป็นมิตรต่อสิ่งแวดล้อมบนซูเปอร์คอมพิวเตอร์รุ่นล่าสุด Alps (CSCS) โดยมีเป้าหมายด้านขนาดใหญ่ ประสิทธิภาพสูง และการใช้ข้อมูลอย่างรับผิดชอบ
LLM นี้มีกำหนดเผยแพร่ภายใต้ Apache 2.0 License ช่วงปลายฤดูร้อน และคาดว่าจะช่วยกระตุ้นนวัตกรรมและการวิจัยทั่วโลก

ความร่วมมือระหว่างประเทศและที่มาของการสร้าง LLM แบบเปิด

ในงาน International Open-Source LLM Builders Summit ที่จัดขึ้นในเจนีวา มี องค์กรกว่า 50 แห่งด้านโอเพนซอร์ส LLM ระดับโลกและ AI ที่น่าเชื่อถือ มารวมตัวกัน
งานนี้จัดโดยศูนย์ AI ของ EPFL และ ETH Zurich และเป็นจุดเปลี่ยนสำคัญในการกระตุ้นความร่วมมือและระบบนิเวศของ โมเดลพื้นฐานแบบเปิด
LLM แบบเปิดกำลังถูกมองมากขึ้นว่าเป็น ทางเลือก สำหรับระบบเชิงพาณิชย์ที่พัฒนาแบบปิดในสหรัฐฯ จีน และประเทศอื่น ๆ

คุณลักษณะของ LLM สาธารณะตัวใหม่และแผนการเปิดตัว

จากความร่วมมือของนักวิจัยจาก EPFL, ETH Zurich, มหาวิทยาลัยอื่น ๆ ในสวิตเซอร์แลนด์ และวิศวกรจาก CSCS ทำให้ LLM ที่พัฒนาแบบเปิดทั้งหมดและสร้างขึ้นเพื่อสาธารณะ กำลังจะเปิดตัวในเร็ว ๆ นี้
ขณะนี้อยู่ในขั้นตอนทดสอบขั้นสุดท้าย และจะเปิดให้ดาวน์โหลดภายใต้ ไลเซนส์แบบเปิด
โมเดลนี้ยึด ความโปร่งใส ประสิทธิภาพหลายภาษา และการเข้าถึงอย่างกว้างขวาง เป็นคุณค่าหลัก

หลักการเปิดเผยทั้งหมดและความโปร่งใส

ทั้ง ซอร์สโค้ดและน้ำหนักโมเดล จะถูกเปิดเผย
ข้อมูลฝึกก็จะถูกเปิดเผยอย่างโปร่งใส และออกแบบในลักษณะที่ทำซ้ำได้ เพื่อสนับสนุนการนำไปใช้ใน วิทยาศาสตร์ ภาครัฐ การศึกษา และภาคเอกชน
แนวทางนี้มีเป้าหมายเพื่อ ส่งเสริมนวัตกรรมและเสริมสร้างความรับผิดชอบ

ความเห็นจากผู้เชี่ยวชาญ

Imanol Schlag นักวิจัยจาก ETH AI Center เน้นว่า “โมเดลที่เปิดเผยทั้งหมด เป็นสิ่งจำเป็นต่อการสร้างแอปพลิเคชันที่เชื่อถือได้และการพัฒนางานวิจัยด้านความเสี่ยง/โอกาสของ AI”
กระบวนการที่โปร่งใสยังช่วยให้ ปฏิบัติตามข้อกำกับดูแล ได้ง่ายขึ้นด้วย

การออกแบบแบบหลายภาษา

หนึ่งในคุณสมบัติหลักของโมเดลคือ รองรับมากกว่า 1,000 ภาษา
ศาสตราจารย์ Antoine Bosselut ระบุว่าได้มุ่งเน้นที่ การรองรับหลายภาษาอย่างกว้างขวาง ตั้งแต่ระยะแรก
มีการทำ pretraining ด้วย ชุดข้อมูลขนาดใหญ่กว่า 1,500 ภาษา (อังกฤษ 60%, ไม่ใช่อังกฤษ 40%) รวมถึงข้อมูลโค้ดและคณิตศาสตร์
เนื้อหาสะท้อนภาษาและวัฒนธรรมที่หลากหลายจากทั่วโลก จึงมี ศักยภาพในการใช้งานระดับโลก สูง

ความสามารถในการขยายขนาดและความครอบคลุม

โมเดลจะเปิดเผย 2 ขนาด คือ 8 พันล้าน (8B) และ 7 หมื่นล้าน (70B) พารามิเตอร์
- เวอร์ชัน 70B เป็นหนึ่งในโมเดลที่เปิดเผยทั้งหมดที่ทรงพลังที่สุดในโลก
ฝึกด้วย โทเคนคุณภาพสูงมากกว่า 15 ล้านล้านรายการ (หน่วยข้อความขนาดเล็ก) เพื่อให้ได้ ความน่าเชื่อถือสูงและการใช้งานอเนกประสงค์

การใช้ข้อมูลอย่างรับผิดชอบ

กำลังพัฒนาโดยปฏิบัติตาม ข้อกำหนดด้านความโปร่งใส ที่กฎหมายคุ้มครองข้อมูล กฎหมายลิขสิทธิ์ของสวิตเซอร์แลนด์ และ EU AI Act กำหนด
ผลวิจัยล่าสุดพิสูจน์ว่า แม้จะเคารพการปฏิเสธ web crawling (robots exclusion standard) ก็แทบไม่ทำให้ประสิทธิภาพของ LLM ลดลง

การพัฒนาด้วยซูเปอร์คอมพิวเตอร์และความยั่งยืน

การฝึกโมเดลดำเนินการบน ซูเปอร์คอมพิวเตอร์ Alps ของ CSCS ในเมืองลูกาโน
- ติดตั้ง NVIDIA Grace Hopper Superchip จำนวน 10,000 ตัว เป็นโครงสร้างพื้นฐาน AI ระดับแนวหน้าของโลก
- สามารถฝึกได้อย่างมีประสิทธิภาพด้วยไฟฟ้าที่เป็นกลางทางคาร์บอน 100%
การนำ Alps มาใช้งานได้สำเร็จเป็นผลจาก ความร่วมมือเชิงกลยุทธ์ตลอด 15 ปี กับ NVIDIA และ HPE/Cray
Alps มีบทบาทสำคัญในการรองรับงาน AI ขนาดใหญ่ รวมถึง pretraining ของ LLM ที่ซับซ้อน
ศาสตราจารย์ Thomas Schulthess เน้นว่า “ความร่วมมือร่วมกัน ระหว่างสถาบันวิจัยสาธารณะและภาคอุตสาหกรรมพิสูจน์ให้เห็นถึงการมีส่วนต่อโครงสร้างพื้นฐาน AI ที่มีอธิปไตย นวัตกรรมแบบเปิด ตลอดจนวิทยาศาสตร์และสังคมทั่วโลก”

การเข้าถึงแบบเปิดและการใช้งานระดับโลก

LLM นี้มีกำหนดเผยแพร่ ช่วงปลายฤดูร้อน ภายใต้ Apache 2.0 License
จะมีการจัดทำ เอกสารประกอบ เช่น สถาปัตยกรรมโมเดล วิธีการฝึก และแนวทางการใช้งาน เพื่อสนับสนุนการนำกลับไปใช้และการพัฒนาต่อยอดอย่างโปร่งใส
ศาสตราจารย์ Antoine Bosselut กล่าวว่าเขาหวังว่านักวิจัยภาครัฐจะเป็นผู้นำในการ ผลักดันโมเดลแบบเปิด และให้องค์กรต่าง ๆ นำไปพัฒนาแอปพลิเคชันของตนเองต่อได้
ศาสตราจารย์ Martin Jaggi ระบุว่า “ความเปิดเผยอย่างสมบูรณ์เป็นปัจจัยสำคัญในการส่งเสริมนวัตกรรมผ่านความร่วมมือของสวิตเซอร์แลนด์ ยุโรป และนานาชาติ รวมถึงการดึงดูดบุคลากรชั้นนำ”

1 ความคิดเห็น

GN⁺ 2025-07-12

ความคิดเห็นจาก Hacker News

กำลังตั้งตารอผลงานนี้อยู่ เท่าที่ทราบ ETH กับ EPFL กำลังเทรนหรือทำ fine-tune บนโมเดลรุ่นก่อน ไม่ใช่ LLaMA รุ่นล่าสุด ดังนั้นอาจตามหลังประสิทธิภาพระดับ SOTA อยู่บ้าง แต่ผมคิดว่าประเด็นสำคัญที่สุดคือ ETH และ EPFL ได้สั่งสมประสบการณ์ด้านการเทรนขนาดใหญ่ ได้ยินมาว่าคลัสเตอร์ AI ที่เพิ่งสร้างขึ้นใหม่ยังเจอการลองผิดลองถูกเยอะในช่วงแรก ผู้คนมักประเมินต่ำไปว่าการเทรนโมเดลบนโครงสร้างพื้นฐานของตัวเองในสเกลนี้ยากแค่ไหน เพิ่มเติมคือผมเกิดที่สวิตเซอร์แลนด์และเรียนที่ ETH คนเก่งมีพอแน่ แต่ประสบการณ์ด้านการเทรนขนาดใหญ่ยังน้อย และโดยส่วนตัวผมคิดว่า "เวทมนตร์" ของ LLM จำนวนมากจริง ๆ แล้วมาจากอินฟราสตรักเจอร์
- จริง ๆ ผมคิดว่าเวทมนตร์จำนวนมากมาจากชุดข้อมูล โดยเฉพาะ SFT และข้อมูล fine-tuning/RLHF อื่น ๆ นั่นแหละคือสิ่งที่แยกโมเดลที่คนใช้งานจริงออกจากโมเดลที่ไม่มีใครใช้ ผมเห็นด้วยเต็มที่กับเรื่องการสั่งสมประสบการณ์ และมองว่าการสร้างอินฟราสตรักเจอร์เป็นแกนหลักของห่วงโซ่อุปทาน LLM แบบอธิปไตย แต่ข้อมูลก็ควรได้รับความใส่ใจอย่างมากตั้งแต่ต้นด้วย ไม่อย่างนั้นโมเดลจะไม่ค่อยใช้งานได้จริง
- การเทรน LLM ระดับ SOTA ต้องใช้อินฟราสตรักเจอร์ที่ซับซ้อนมาก หลายคนคิดว่าแค่อัปโหลดสถาปัตยกรรมกับชุดข้อมูลแล้วใช้ Ray ก็จบ แต่ในความจริงยังต้องมีทั้งการออกแบบชุดข้อมูล การสร้าง evaluation pipeline วิธีการเทรน การรีดประสิทธิภาพฮาร์ดแวร์ให้สุด latency ระหว่างโหนด การกู้คืนจากข้อผิดพลาด และองค์ประกอบอีกมหาศาล ถึงอย่างนั้นผมก็คิดว่าเป็นเรื่องดีที่มีผู้เล่นมากขึ้นในวงการนี้
- เห็นคำว่า "from scratch" แล้วเดาว่าพวกเขาจะทำ pretraining ไม่ใช่ fine-tuning อยากรู้เหมือนกันว่าคนอื่นคิดเห็นอย่างไร และก็สงสัยด้วยว่าจะใช้สถาปัตยกรรม Llama แบบทั่วไปหรือเปล่า อยากเห็นผล benchmark
ประโยคที่ว่า แม้จะเคารพการ opt-out จากการครอว์ลเว็บ ก็แทบไม่มีผลต่อประสิทธิภาพ น่ายินดีมาก
- ต่อให้ในตัวชี้วัดการเทรนจะบอกว่าไม่มีประสิทธิภาพตก แต่ในมุมผู้ใช้ปลายทางสุดท้ายอาจไม่เหมือนกัน ผู้ใช้กับเจ้าของเว็บไซต์มีเป้าหมายต่างกันโดยพื้นฐาน ผู้ใช้อยากได้คำตอบและคอนเทนต์ ส่วนเจ้าของเว็บอยากได้โฆษณาหรือการขายต่อเพิ่ม สุดท้ายแล้วตอบโจทย์ได้เพียงฝ่ายเดียว
ผมสงสัยว่านี่จะเป็นกรณีที่ตั้งมาตรฐานใหม่เรื่องความโปร่งใสของชุดข้อมูลหรือไม่ ถ้าทำได้จริงก็ถือเป็นความก้าวหน้าสำคัญ แต่ถ้าตั้งชื่อเครื่องว่า AIps (AI Petaflops Supercomputer) น่าจะสนุกกว่านี้
- โมเดล OLMo ที่ Allen Institute for Artificial Intelligence ทำก็เปิดทั้งหมดเหมือนกัน OLMo is fully open AI2 มีจุดยืนว่าความเปิดอย่างแท้จริงคือต้องเปิดทั้งข้อมูล โมเดล และโค้ด ดูรายละเอียด OLMo
- เท่าที่ผมรู้ Smollm ก็เป็นโมเดลที่เปิดอย่างสมบูรณ์เหมือนกัน
ข้อมูลเทรนแบบเปิดคือจุดต่างที่ชี้ขาด ผมสงสัยว่านี่อาจเป็นชุดข้อมูลที่เปิดจริงในสเกลนี้เป็นครั้งแรกหรือไม่ ความพยายามก่อนหน้าอย่าง The Pile ก็มีคุณค่า แต่ก็มีข้อจำกัด และผมก็ตั้งตารอว่าพวกเขาจะรับประกันความสามารถในการทำซ้ำการเทรนอย่างไร
- จากข้อความที่ว่า "โมเดลจะเปิดอย่างสมบูรณ์: ซอร์สโค้ดและน้ำหนักโมเดลจะเปิดเผย และข้อมูลเทรนจะโปร่งใสและทำซ้ำได้" ผมคิดว่าจุดเน้นน่าจะอยู่ที่คำว่า "ทำซ้ำได้" มากกว่าจะหมายถึงการเปิดข้อมูลเทรนทั้งหมด อาจมีการเปิดเอกสารอ้างอิงอย่างรายชื่อ URL ของหน้าที่ใช้เทรนจริง แต่ไม่ใช่ตัวคอนเทนต์ทั้งหมด
- ใช่ ยังมีปัญหาลิขสิทธิ์แบบดั้งเดิมค้างอยู่ ดังนั้นคงไม่สามารถแจกเป็นแพ็กเกจชุดข้อมูลได้ตรง ๆ
นี่แหละคือความหมายของ "การทำให้ AI เป็นประชาธิปไตย"
ในข่าวประชาสัมพันธ์พูดเยอะมากเกี่ยวกับวิธีที่สร้างมันขึ้นมา แต่แทบไม่มีข้อมูลเลยว่าความสามารถจริงเมื่อเทียบกับโมเดลเปิดอื่น ๆ เป็นอย่างไร
- สำหรับมหาวิทยาลัย การสอนว่า 'สร้างอย่างไร' คือหัวใจหลักอยู่แล้ว ดังนั้นการเน้นจุดนี้จึงเป็นเรื่องธรรมชาติ
- เขาบอกว่า โมเดลจะออกมา 2 เวอร์ชันคือ 8B (8 พันล้าน) และ 70B (7 หมื่นล้าน) โดยเวอร์ชัน 70B จะเป็นหนึ่งในโมเดลเปิดที่ทรงพลังที่สุดในโลก และจะเปิดตัวภายใต้ไลเซนส์ Apache 2.0 ช่วงปลายฤดูร้อนนี้ ก็คงต้องมาดูกันจริง ๆ ในเดือนกันยายน
ในฐานะคนสวิส ผมภูมิใจที่เห็นข่าวนี้ขึ้นบนสุดของ HN มหาวิทยาลัยสองแห่งนี้ผลิตผู้ก่อตั้ง นักวิจัย และวิศวกรระดับโลกจำนวนมากมาโดยตลอด แต่ก็มักถูกเงาของสหรัฐฯ บดบังอยู่เสมอ อย่างไรก็ตาม ด้วยโครงสร้างพื้นฐานสาธารณะที่ยอดเยี่ยม การศึกษา และเสถียรภาพทางการเมือง (+ ความเป็นกลาง) ผมคิดว่าพวกเขามีโอกาสพิเศษในวงการ open LLM
ในบทความมีข้อความว่า "open LLM กำลังถูกมองว่าเป็นทางเลือกที่น่าเชื่อถือมากขึ้นเรื่อย ๆ ขณะที่ระบบเชิงพาณิชย์ส่วนใหญ่กำลังถูกพัฒนาแบบปิดในสหรัฐฯ หรือจีน" ตอนนี้บริษัทที่สร้าง LLM ขนาดใหญ่มีแรงจูงใจให้ลดคุณภาพลงเพื่อทำเงิน ไม่ว่าจะเพื่อดึงคนไปสมัครสมาชิกหรือโฆษณาสินค้า และบางรายก็มีอคติทางการเมืองไปแล้วด้วย ถ้ายุโรปสามารถทำบริการค้นหาและ AI เพื่อประโยชน์สาธารณะผ่านความร่วมมือระหว่างภาครัฐกับภาควิชาการ และเดินหน้าโดยยึดผู้ใช้เป็นศูนย์กลางได้ ก็จะมีความหมายมาก
- แต่การให้บริการแบบนั้นก็ซับซ้อนในตัวเอง ต่อให้เทรนโมเดลที่ดีได้ การให้บริการจริงก็น่าจะยังเป็นเรื่องของภาคเอกชนอยู่ดี ดังนั้นแรงกดดันเรื่องการทำเงินก็ยังคงอยู่ และในกรณีของ AI แนวโน้มนี้อาจยิ่งแรงขึ้นเพราะต้นทุนการดำเนินงานสูง สุดท้ายถ้าเป็นบริการฟรี ผู้ใช้ก็จะกลายเป็นสินค้า จึงต้องพยายามสกัดมูลค่าออกมาให้มากพอถึงจะมีกำไร
อยากลองทดสอบใช้งานจริงเร็ว ๆ แล้ว
สงสัยว่าทำไมถึงประกาศกันแบบนี้ทั้งที่ยังไม่เปิดตัวเลย คิดว่าควรพูดกันตรง ๆ มากกว่า
- การประกาศครั้งนี้เกิดขึ้นในงาน International Open-Source LLM Builders Summit ที่จัดในสวิตเซอร์แลนด์สัปดาห์นี้ การแชร์กำหนดการและแผนงานก็ไม่ได้แปลกอะไรนัก
- อาจเป็นไปเพื่อการระดมทุน และยังมีความหมายในแง่ของการตอกย้ำให้ผู้ใช้ยุโรปรับรู้ถึง LLM ที่พัฒนาจากภาครัฐในยุโรปด้วย (อย่างน้อยก็ไม่ใช่ของสหรัฐฯ หรือจีน) บางทีอาจมีเหตุผลเกินไปจนบรัสเซลส์ไม่อนุมัติก็ได้
- ในสวิตเซอร์แลนด์มีภาพจำว่าถ้าจะทำอะไรสักอย่างก็มักจะทำกันอย่างค่อยเป็นค่อยไป

ETH Zurich และ EPFL เตรียมเปิดตัว LLM ที่พัฒนาบนโครงสร้างพื้นฐานสาธารณะ

ความร่วมมือระหว่างประเทศและที่มาของการสร้าง LLM แบบเปิด

คุณลักษณะของ LLM สาธารณะตัวใหม่และแผนการเปิดตัว

หลักการเปิดเผยทั้งหมดและความโปร่งใส

ความเห็นจากผู้เชี่ยวชาญ

การออกแบบแบบหลายภาษา

ความสามารถในการขยายขนาดและความครอบคลุม

การใช้ข้อมูลอย่างรับผิดชอบ

การพัฒนาด้วยซูเปอร์คอมพิวเตอร์และความยั่งยืน

การเข้าถึงแบบเปิดและการใช้งานระดับโลก

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News