- ETH Zurich และ EPFL เป็นผู้นำในการพัฒนาโมเดลภาษาขนาดใหญ่ (LLM) ที่สร้างขึ้นอย่างเปิดเผยทั้งหมดบนโครงสร้างพื้นฐานสาธารณะ และมีกำหนดเปิดตัวในเร็ว ๆ นี้
- โมเดลนี้มุ่งเน้นที่ ความโปร่งใส ความสามารถแบบหลายภาษา และการเข้าถึงอย่างกว้างขวาง เพื่อให้สามารถนำไปใช้ได้ในหลากหลายภาคส่วน เช่น วิทยาศาสตร์ ภาครัฐ และภาคเอกชน
- มีการเปิดเผย ซอร์สโค้ด น้ำหนักโมเดล และข้อมูลฝึก พร้อมออกแบบให้ทุกขั้นตอนสามารถทำซ้ำได้ เพื่อส่งเสริมการวิจัยแบบเปิดและการปฏิบัติตามข้อกำกับดูแล
- ฝึกด้วยพลังงานที่เป็นมิตรต่อสิ่งแวดล้อมบนซูเปอร์คอมพิวเตอร์รุ่นล่าสุด Alps (CSCS) โดยมีเป้าหมายด้านขนาดใหญ่ ประสิทธิภาพสูง และการใช้ข้อมูลอย่างรับผิดชอบ
- LLM นี้มีกำหนดเผยแพร่ภายใต้ Apache 2.0 License ช่วงปลายฤดูร้อน และคาดว่าจะช่วยกระตุ้นนวัตกรรมและการวิจัยทั่วโลก
ความร่วมมือระหว่างประเทศและที่มาของการสร้าง LLM แบบเปิด
- ในงาน International Open-Source LLM Builders Summit ที่จัดขึ้นในเจนีวา มี องค์กรกว่า 50 แห่งด้านโอเพนซอร์ส LLM ระดับโลกและ AI ที่น่าเชื่อถือ มารวมตัวกัน
- งานนี้จัดโดยศูนย์ AI ของ EPFL และ ETH Zurich และเป็นจุดเปลี่ยนสำคัญในการกระตุ้นความร่วมมือและระบบนิเวศของ โมเดลพื้นฐานแบบเปิด
- LLM แบบเปิดกำลังถูกมองมากขึ้นว่าเป็น ทางเลือก สำหรับระบบเชิงพาณิชย์ที่พัฒนาแบบปิดในสหรัฐฯ จีน และประเทศอื่น ๆ
คุณลักษณะของ LLM สาธารณะตัวใหม่และแผนการเปิดตัว
- จากความร่วมมือของนักวิจัยจาก EPFL, ETH Zurich, มหาวิทยาลัยอื่น ๆ ในสวิตเซอร์แลนด์ และวิศวกรจาก CSCS ทำให้ LLM ที่พัฒนาแบบเปิดทั้งหมดและสร้างขึ้นเพื่อสาธารณะ กำลังจะเปิดตัวในเร็ว ๆ นี้
- ขณะนี้อยู่ในขั้นตอนทดสอบขั้นสุดท้าย และจะเปิดให้ดาวน์โหลดภายใต้ ไลเซนส์แบบเปิด
- โมเดลนี้ยึด ความโปร่งใส ประสิทธิภาพหลายภาษา และการเข้าถึงอย่างกว้างขวาง เป็นคุณค่าหลัก
หลักการเปิดเผยทั้งหมดและความโปร่งใส
- ทั้ง ซอร์สโค้ดและน้ำหนักโมเดล จะถูกเปิดเผย
- ข้อมูลฝึกก็จะถูกเปิดเผยอย่างโปร่งใส และออกแบบในลักษณะที่ทำซ้ำได้ เพื่อสนับสนุนการนำไปใช้ใน วิทยาศาสตร์ ภาครัฐ การศึกษา และภาคเอกชน
- แนวทางนี้มีเป้าหมายเพื่อ ส่งเสริมนวัตกรรมและเสริมสร้างความรับผิดชอบ
ความเห็นจากผู้เชี่ยวชาญ
- Imanol Schlag นักวิจัยจาก ETH AI Center เน้นว่า “โมเดลที่เปิดเผยทั้งหมด เป็นสิ่งจำเป็นต่อการสร้างแอปพลิเคชันที่เชื่อถือได้และการพัฒนางานวิจัยด้านความเสี่ยง/โอกาสของ AI”
- กระบวนการที่โปร่งใสยังช่วยให้ ปฏิบัติตามข้อกำกับดูแล ได้ง่ายขึ้นด้วย
การออกแบบแบบหลายภาษา
- หนึ่งในคุณสมบัติหลักของโมเดลคือ รองรับมากกว่า 1,000 ภาษา
- ศาสตราจารย์ Antoine Bosselut ระบุว่าได้มุ่งเน้นที่ การรองรับหลายภาษาอย่างกว้างขวาง ตั้งแต่ระยะแรก
- มีการทำ pretraining ด้วย ชุดข้อมูลขนาดใหญ่กว่า 1,500 ภาษา (อังกฤษ 60%, ไม่ใช่อังกฤษ 40%) รวมถึงข้อมูลโค้ดและคณิตศาสตร์
- เนื้อหาสะท้อนภาษาและวัฒนธรรมที่หลากหลายจากทั่วโลก จึงมี ศักยภาพในการใช้งานระดับโลก สูง
ความสามารถในการขยายขนาดและความครอบคลุม
- โมเดลจะเปิดเผย 2 ขนาด คือ 8 พันล้าน (8B) และ 7 หมื่นล้าน (70B) พารามิเตอร์
- เวอร์ชัน 70B เป็นหนึ่งในโมเดลที่เปิดเผยทั้งหมดที่ทรงพลังที่สุดในโลก
- ฝึกด้วย โทเคนคุณภาพสูงมากกว่า 15 ล้านล้านรายการ (หน่วยข้อความขนาดเล็ก) เพื่อให้ได้ ความน่าเชื่อถือสูงและการใช้งานอเนกประสงค์
การใช้ข้อมูลอย่างรับผิดชอบ
- กำลังพัฒนาโดยปฏิบัติตาม ข้อกำหนดด้านความโปร่งใส ที่กฎหมายคุ้มครองข้อมูล กฎหมายลิขสิทธิ์ของสวิตเซอร์แลนด์ และ EU AI Act กำหนด
- ผลวิจัยล่าสุดพิสูจน์ว่า แม้จะเคารพการปฏิเสธ web crawling (robots exclusion standard) ก็แทบไม่ทำให้ประสิทธิภาพของ LLM ลดลง
การพัฒนาด้วยซูเปอร์คอมพิวเตอร์และความยั่งยืน
- การฝึกโมเดลดำเนินการบน ซูเปอร์คอมพิวเตอร์ Alps ของ CSCS ในเมืองลูกาโน
- ติดตั้ง NVIDIA Grace Hopper Superchip จำนวน 10,000 ตัว เป็นโครงสร้างพื้นฐาน AI ระดับแนวหน้าของโลก
- สามารถฝึกได้อย่างมีประสิทธิภาพด้วยไฟฟ้าที่เป็นกลางทางคาร์บอน 100%
- การนำ Alps มาใช้งานได้สำเร็จเป็นผลจาก ความร่วมมือเชิงกลยุทธ์ตลอด 15 ปี กับ NVIDIA และ HPE/Cray
- Alps มีบทบาทสำคัญในการรองรับงาน AI ขนาดใหญ่ รวมถึง pretraining ของ LLM ที่ซับซ้อน
- ศาสตราจารย์ Thomas Schulthess เน้นว่า “ความร่วมมือร่วมกัน ระหว่างสถาบันวิจัยสาธารณะและภาคอุตสาหกรรมพิสูจน์ให้เห็นถึงการมีส่วนต่อโครงสร้างพื้นฐาน AI ที่มีอธิปไตย นวัตกรรมแบบเปิด ตลอดจนวิทยาศาสตร์และสังคมทั่วโลก”
การเข้าถึงแบบเปิดและการใช้งานระดับโลก
- LLM นี้มีกำหนดเผยแพร่ ช่วงปลายฤดูร้อน ภายใต้ Apache 2.0 License
- จะมีการจัดทำ เอกสารประกอบ เช่น สถาปัตยกรรมโมเดล วิธีการฝึก และแนวทางการใช้งาน เพื่อสนับสนุนการนำกลับไปใช้และการพัฒนาต่อยอดอย่างโปร่งใส
- ศาสตราจารย์ Antoine Bosselut กล่าวว่าเขาหวังว่านักวิจัยภาครัฐจะเป็นผู้นำในการ ผลักดันโมเดลแบบเปิด และให้องค์กรต่าง ๆ นำไปพัฒนาแอปพลิเคชันของตนเองต่อได้
- ศาสตราจารย์ Martin Jaggi ระบุว่า “ความเปิดเผยอย่างสมบูรณ์เป็นปัจจัยสำคัญในการส่งเสริมนวัตกรรมผ่านความร่วมมือของสวิตเซอร์แลนด์ ยุโรป และนานาชาติ รวมถึงการดึงดูดบุคลากรชั้นนำ”
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
กำลังตั้งตารอผลงานนี้อยู่ เท่าที่ทราบ ETH กับ EPFL กำลังเทรนหรือทำ fine-tune บนโมเดลรุ่นก่อน ไม่ใช่ LLaMA รุ่นล่าสุด ดังนั้นอาจตามหลังประสิทธิภาพระดับ SOTA อยู่บ้าง แต่ผมคิดว่าประเด็นสำคัญที่สุดคือ ETH และ EPFL ได้สั่งสมประสบการณ์ด้านการเทรนขนาดใหญ่ ได้ยินมาว่าคลัสเตอร์ AI ที่เพิ่งสร้างขึ้นใหม่ยังเจอการลองผิดลองถูกเยอะในช่วงแรก ผู้คนมักประเมินต่ำไปว่าการเทรนโมเดลบนโครงสร้างพื้นฐานของตัวเองในสเกลนี้ยากแค่ไหน<br>เพิ่มเติมคือผมเกิดที่สวิตเซอร์แลนด์และเรียนที่ ETH คนเก่งมีพอแน่ แต่ประสบการณ์ด้านการเทรนขนาดใหญ่ยังน้อย และโดยส่วนตัวผมคิดว่า "เวทมนตร์" ของ LLM จำนวนมากจริง ๆ แล้วมาจากอินฟราสตรักเจอร์
จริง ๆ ผมคิดว่าเวทมนตร์จำนวนมากมาจากชุดข้อมูล โดยเฉพาะ SFT และข้อมูล fine-tuning/RLHF อื่น ๆ นั่นแหละคือสิ่งที่แยกโมเดลที่คนใช้งานจริงออกจากโมเดลที่ไม่มีใครใช้ ผมเห็นด้วยเต็มที่กับเรื่องการสั่งสมประสบการณ์ และมองว่าการสร้างอินฟราสตรักเจอร์เป็นแกนหลักของห่วงโซ่อุปทาน LLM แบบอธิปไตย แต่ข้อมูลก็ควรได้รับความใส่ใจอย่างมากตั้งแต่ต้นด้วย ไม่อย่างนั้นโมเดลจะไม่ค่อยใช้งานได้จริง
การเทรน LLM ระดับ SOTA ต้องใช้อินฟราสตรักเจอร์ที่ซับซ้อนมาก หลายคนคิดว่าแค่อัปโหลดสถาปัตยกรรมกับชุดข้อมูลแล้วใช้ Ray ก็จบ แต่ในความจริงยังต้องมีทั้งการออกแบบชุดข้อมูล การสร้าง evaluation pipeline วิธีการเทรน การรีดประสิทธิภาพฮาร์ดแวร์ให้สุด latency ระหว่างโหนด การกู้คืนจากข้อผิดพลาด และองค์ประกอบอีกมหาศาล ถึงอย่างนั้นผมก็คิดว่าเป็นเรื่องดีที่มีผู้เล่นมากขึ้นในวงการนี้
เห็นคำว่า "from scratch" แล้วเดาว่าพวกเขาจะทำ pretraining ไม่ใช่ fine-tuning อยากรู้เหมือนกันว่าคนอื่นคิดเห็นอย่างไร และก็สงสัยด้วยว่าจะใช้สถาปัตยกรรม Llama แบบทั่วไปหรือเปล่า อยากเห็นผล benchmark
ประโยคที่ว่า <i>แม้จะเคารพการ opt-out จากการครอว์ลเว็บ ก็แทบไม่มีผลต่อประสิทธิภาพ</i> น่ายินดีมาก
ผมสงสัยว่านี่จะเป็นกรณีที่ตั้งมาตรฐานใหม่เรื่องความโปร่งใสของชุดข้อมูลหรือไม่ ถ้าทำได้จริงก็ถือเป็นความก้าวหน้าสำคัญ แต่ถ้าตั้งชื่อเครื่องว่า AIps (AI Petaflops Supercomputer) น่าจะสนุกกว่านี้
โมเดล OLMo ที่ Allen Institute for Artificial Intelligence ทำก็เปิดทั้งหมดเหมือนกัน<br><i>OLMo is fully open</i><br>AI2 มีจุดยืนว่าความเปิดอย่างแท้จริงคือต้องเปิดทั้งข้อมูล โมเดล และโค้ด<br>ดูรายละเอียด OLMo
เท่าที่ผมรู้ Smollm ก็เป็นโมเดลที่เปิดอย่างสมบูรณ์เหมือนกัน
ข้อมูลเทรนแบบเปิดคือจุดต่างที่ชี้ขาด ผมสงสัยว่านี่อาจเป็นชุดข้อมูลที่เปิดจริงในสเกลนี้เป็นครั้งแรกหรือไม่ ความพยายามก่อนหน้าอย่าง The Pile ก็มีคุณค่า แต่ก็มีข้อจำกัด และผมก็ตั้งตารอว่าพวกเขาจะรับประกันความสามารถในการทำซ้ำการเทรนอย่างไร
จากข้อความที่ว่า "โมเดลจะเปิดอย่างสมบูรณ์: ซอร์สโค้ดและน้ำหนักโมเดลจะเปิดเผย และข้อมูลเทรนจะโปร่งใสและทำซ้ำได้" ผมคิดว่าจุดเน้นน่าจะอยู่ที่คำว่า "ทำซ้ำได้" มากกว่าจะหมายถึงการเปิดข้อมูลเทรนทั้งหมด อาจมีการเปิดเอกสารอ้างอิงอย่างรายชื่อ URL ของหน้าที่ใช้เทรนจริง แต่ไม่ใช่ตัวคอนเทนต์ทั้งหมด
ใช่ ยังมีปัญหาลิขสิทธิ์แบบดั้งเดิมค้างอยู่ ดังนั้นคงไม่สามารถแจกเป็นแพ็กเกจชุดข้อมูลได้ตรง ๆ
นี่แหละคือความหมายของ "การทำให้ AI เป็นประชาธิปไตย"
ในข่าวประชาสัมพันธ์พูดเยอะมากเกี่ยวกับวิธีที่สร้างมันขึ้นมา แต่แทบไม่มีข้อมูลเลยว่าความสามารถจริงเมื่อเทียบกับโมเดลเปิดอื่น ๆ เป็นอย่างไร
สำหรับมหาวิทยาลัย การสอนว่า 'สร้างอย่างไร' คือหัวใจหลักอยู่แล้ว ดังนั้นการเน้นจุดนี้จึงเป็นเรื่องธรรมชาติ
เขาบอกว่า <i>โมเดลจะออกมา 2 เวอร์ชันคือ 8B (8 พันล้าน) และ 70B (7 หมื่นล้าน) โดยเวอร์ชัน 70B จะเป็นหนึ่งในโมเดลเปิดที่ทรงพลังที่สุดในโลก และจะเปิดตัวภายใต้ไลเซนส์ Apache 2.0 ช่วงปลายฤดูร้อนนี้</i> ก็คงต้องมาดูกันจริง ๆ ในเดือนกันยายน
ในฐานะคนสวิส ผมภูมิใจที่เห็นข่าวนี้ขึ้นบนสุดของ HN มหาวิทยาลัยสองแห่งนี้ผลิตผู้ก่อตั้ง นักวิจัย และวิศวกรระดับโลกจำนวนมากมาโดยตลอด แต่ก็มักถูกเงาของสหรัฐฯ บดบังอยู่เสมอ อย่างไรก็ตาม ด้วยโครงสร้างพื้นฐานสาธารณะที่ยอดเยี่ยม การศึกษา และเสถียรภาพทางการเมือง (+ ความเป็นกลาง) ผมคิดว่าพวกเขามีโอกาสพิเศษในวงการ open LLM
ในบทความมีข้อความว่า<br>"open LLM กำลังถูกมองว่าเป็นทางเลือกที่น่าเชื่อถือมากขึ้นเรื่อย ๆ ขณะที่ระบบเชิงพาณิชย์ส่วนใหญ่กำลังถูกพัฒนาแบบปิดในสหรัฐฯ หรือจีน"<br>ตอนนี้บริษัทที่สร้าง LLM ขนาดใหญ่มีแรงจูงใจให้ลดคุณภาพลงเพื่อทำเงิน ไม่ว่าจะเพื่อดึงคนไปสมัครสมาชิกหรือโฆษณาสินค้า และบางรายก็มีอคติทางการเมืองไปแล้วด้วย ถ้ายุโรปสามารถทำบริการค้นหาและ AI เพื่อประโยชน์สาธารณะผ่านความร่วมมือระหว่างภาครัฐกับภาควิชาการ และเดินหน้าโดยยึดผู้ใช้เป็นศูนย์กลางได้ ก็จะมีความหมายมาก
อยากลองทดสอบใช้งานจริงเร็ว ๆ แล้ว
สงสัยว่าทำไมถึงประกาศกันแบบนี้ทั้งที่ยังไม่เปิดตัวเลย คิดว่าควรพูดกันตรง ๆ มากกว่า
การประกาศครั้งนี้เกิดขึ้นในงาน International Open-Source LLM Builders Summit ที่จัดในสวิตเซอร์แลนด์สัปดาห์นี้ การแชร์กำหนดการและแผนงานก็ไม่ได้แปลกอะไรนัก
อาจเป็นไปเพื่อการระดมทุน และยังมีความหมายในแง่ของการตอกย้ำให้ผู้ใช้ยุโรปรับรู้ถึง LLM ที่พัฒนาจากภาครัฐในยุโรปด้วย (อย่างน้อยก็ไม่ใช่ของสหรัฐฯ หรือจีน) บางทีอาจมีเหตุผลเกินไปจนบรัสเซลส์ไม่อนุมัติก็ได้
ในสวิตเซอร์แลนด์มีภาพจำว่าถ้าจะทำอะไรสักอย่างก็มักจะทำกันอย่างค่อยเป็นค่อยไป