Hello OLMo ปรากฏตัวขึ้นในฐานะ LLM แบบเปิดอย่างแท้จริง

(blog.allenai.org)

7 คะแนน โดย GN⁺ 2024-04-09 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

AI2 เปิดตัวโมเดล OLMo 7B ซึ่งเป็นโมเดลภาษาขนาดใหญ่แบบโอเพนซอร์สในความหมายที่แท้จริง โดยเปิดเผยทั้งข้อมูลพรีเทรนและโค้ดสำหรับการฝึก
- ทำให้นักวิจัยและนักพัฒนาสามารถใช้โมเดลเปิดที่ดีที่สุดเพื่อร่วมกันผลักดันวิทยาศาสตร์ของโมเดลภาษาให้ก้าวหน้า
- Yann LeCun นักวิทยาศาสตร์ AI ของ Meta กล่าวว่าชุมชนโอเพนซอร์สสามารถสร้างอนาคตของ AI ได้เร็วและมีประสิทธิภาพที่สุด
คุณลักษณะสำคัญของเฟรมเวิร์ก OLMo:
- ข้อมูลพรีเทรนแบบครบถ้วน: ใช้ชุดข้อมูล Dolma ของ AI2 และรวมโค้ดที่ใช้สร้างข้อมูลฝึกไว้ด้วย
- โค้ดการฝึกและค่าน้ำหนักของโมเดล: ให้ค่าน้ำหนักของโมเดลทั้งหมด โค้ดสำหรับอนุมาน ตัวชี้วัดการฝึก บันทึกการฝึก ฯลฯ สำหรับโมเดล 4 รุ่นย่อยในสเกล 7B
- การประเมินผล: ภายใต้โครงการ Catwalk ได้เปิดเผยเครื่องมือประเมินที่ใช้ในการพัฒนา เช่น เช็กพอยต์มากกว่า 500 รายการและโค้ดประเมินผล
ผ่าน OLMo นักวิจัยและนักพัฒนา AI จะได้รับประสบการณ์ดังต่อไปนี้:
โฆษณา
- การวิเคราะห์ที่แม่นยำยิ่งขึ้น: สามารถทำงานได้รวดเร็วยิ่งขึ้นบนพื้นฐานของความเข้าใจเชิงลึกอย่างครบถ้วนเกี่ยวกับข้อมูลฝึก
- ลดการปล่อยคาร์บอน: การเปิดเผยระบบนิเวศทั้งหมดของการฝึกและการประเมินช่วยลดการพัฒนาที่ซ้ำซ้อน
- ผลลัพธ์ที่ต่อเนื่อง: การเปิดเผยโมเดลและชุดข้อมูลช่วยให้เรียนรู้จากโมเดลก่อนหน้าและต่อยอดได้
OLMo สามารถพัฒนาได้ผ่านความร่วมมือกับ AMD, CSC (Lumi Supercomputer), University of Washington, Databricks และอีกหลายแห่ง

ความเห็นของ GN⁺

การเปิดเผยข้อมูลฝึกและโค้ดเพื่อเพิ่มความโปร่งใสของโมเดล AI ดูมีความหมายอย่างมาก อย่างไรก็ตาม อาจยังมีปัญหาอย่างอคติของข้อมูล จึงน่าจะต้องมีการตรวจสอบในประเด็นนี้ด้วย
คาดว่าการกระตุ้นระบบนิเวศของโมเดลภาษาโอเพนซอร์สจะช่วยเร่งความก้าวหน้าทางเทคโนโลยี แต่ก็คงต้องติดตามว่าจะสร้างผลงานได้มากเพียงใดในการแข่งขันกับโมเดล AI แบบปิดของบริษัทยักษ์ใหญ่ด้านไอที
ความร่วมมือกับสถาบันหลากหลายแห่งดูมีความสำคัญอย่างยิ่งต่อการจัดหาทรัพยากรคอมพิวต์มหาศาลที่จำเป็นสำหรับการพัฒนา AI และน่าจะเป็นแบบอย่างที่ดีของความร่วมมือระหว่างภาควิชาการกับภาคอุตสาหกรรม
คาดว่า OLMo จะช่วยให้การวิจัยเชิงวิทยาศาสตร์เกี่ยวกับหลักการทำงานของโมเดลภาษาคึกคักมากขึ้น ซึ่งอาจนำไปสู่การพัฒนา AI ที่ปลอดภัยและน่าเชื่อถือยิ่งขึ้น

1 ความคิดเห็น

GN⁺ 2024-04-09

ความคิดเห็นจาก Hacker News

เมื่อใช้ LLM ต้องแจ้งผู้สร้างว่าใช้เพื่อวัตถุประสงค์ใด นี่เป็นสิ่งที่ระบุไว้ในไลเซนส์
หากสร้างงานดัดแปลง ต้องส่ง Derivative Impact Report ให้ AI2 หรือให้ข้อมูลที่คล้ายกันเป็นลายลักษณ์อักษร AI2 สามารถเปิดเผยข้อมูลนี้ต่อสาธารณะได้
ต้องเปิดเผยอย่างโปร่งใสเกี่ยวกับวัตถุประสงค์การใช้งานของงานดัดแปลง
Derivative Impact Report ไม่ได้มีไว้เพื่อลงโทษการเปิดเผยโดยสุจริต หากมีการยื่นฟ้องที่เกี่ยวข้อง สัญญาจะสิ้นสุดลงทันที
นี่คือหนึ่งในโมเดลโอเพนซอร์สที่แท้จริง ส่วนใหญ่เปิดเผยแค่น้ำหนักโมเดล แต่ตัวนี้เปิดแบบ end-to-end
น่าแปลกที่ไม่มีการกล่าวถึงการเปรียบเทียบกับ Mistral 7b
ดูเหมือนว่า "The Pile" จะไม่ถูกรวมอยู่ในข้อมูลฝึก อาจมีความปลอดภัยทางกฎหมายมากกว่า LLM "โอเพน" ตัวอื่น ๆ
ความหมายที่แท้จริงของการจัดประเภทความเสี่ยงที่ใช้กับชุดข้อมูลคืออะไร? หน้าไลเซนส์อธิบายไว้ไม่เพียงพอ หมายถึงความเสี่ยงที่อาจไม่เข้ากันในแง่ไลเซนส์เมื่อนำไปใช้เป็นชุดข้อมูลฝึกหรือไม่?
แม้จะมีขนาดเล็ก แต่ก็ทำงานได้เร็วอย่างน่าประหลาดใจ
นี่อาจเป็นหนึ่งใน LLM รุ่นแรก ๆ ที่น่าสนใจซึ่งฝึกสำเร็จบน AMD GPU หรือไม่? อยากรู้ว่ากระบวนการราบรื่นแค่ไหนและมีความยากลำบากหรือไม่
ในโมเดลนี้และโมเดลคล้ายกัน มีปัญหา "โทเค็นซ้ำ" เกิดขึ้นระหว่างการอนุมาน มักเกิดเมื่อ context window มีความยาวปานกลาง
ดูเหมือนว่าระหว่างการฝึกจะติดอยู่ใน local minimum บางอย่าง อุณหภูมิดูเหมือนจะมีผล แต่ไม่ได้แก้ปัญหาได้ทั้งหมด
น่าเสียดายที่ในบล็อกโพสต์ไม่มีตารางเปรียบเทียบ
สำหรับผม นี่คือ LLM ที่น่าสนใจที่สุด เป็นเครื่องมือทรงพลังที่สามารถแทนการค้นหา และแม้กระทั่งทำวิจัยเพื่อให้คำตอบสุดท้ายได้ โมเดลปิดอย่าง OpenAI, Anthropic และรายอื่น ๆ ไม่สามารถตรวจสอบได้
มีกรณีจริงที่มีการใส่อคติลงใน LLM (เช่น การสร้างภาพที่ไม่ถูกต้องตามประวัติศาสตร์จากเมตาพรอมป์ต์ลับของ Google Gemini)
ชอบแนวทางของ AI2 นอกจากน้ำหนักโมเดลแล้ว ยังแชร์ซอร์สโค้ดการฝึก ข้อมูล และเครื่องมือประเมินทั้งหมดภายใต้ไลเซนส์ Apache
โมเดลแบบ open-weight อย่าง Llama กำลังไล่ตามโมเดลปิดอย่าง OpenAI และรายอื่น ๆ ให้ทัน หวังว่าโมเดลเปิดจริงอย่าง OLMo จะพัฒนาต่อไปเรื่อย ๆ
หวังว่าจะไม่มีการใช้กฎระเบียบมาขัดขวางการพัฒนา AI โอเพนซอร์ส เพราะในอนาคตมันอาจกลายเป็นสื่อกลางของสังคม และการกำกับดูแลก็คล้ายกับการจำกัดเสรีภาพในการแสดงออก การลดแรงกดดันจากการแข่งขันจะทำลายนวัตกรรม
เป็นโพสต์เมื่อ 2 เดือนก่อน

Hello OLMo ปรากฏตัวขึ้นในฐานะ LLM แบบเปิดอย่างแท้จริง

ความเห็นของ GN⁺

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News