7 คะแนน โดย GN⁺ 2024-04-09 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • AI2 เปิดตัวโมเดล OLMo 7B ซึ่งเป็นโมเดลภาษาขนาดใหญ่แบบโอเพนซอร์สในความหมายที่แท้จริง โดยเปิดเผยทั้งข้อมูลพรีเทรนและโค้ดสำหรับการฝึก

    • ทำให้นักวิจัยและนักพัฒนาสามารถใช้โมเดลเปิดที่ดีที่สุดเพื่อร่วมกันผลักดันวิทยาศาสตร์ของโมเดลภาษาให้ก้าวหน้า
    • Yann LeCun นักวิทยาศาสตร์ AI ของ Meta กล่าวว่าชุมชนโอเพนซอร์สสามารถสร้างอนาคตของ AI ได้เร็วและมีประสิทธิภาพที่สุด
  • คุณลักษณะสำคัญของเฟรมเวิร์ก OLMo:

    • ข้อมูลพรีเทรนแบบครบถ้วน: ใช้ชุดข้อมูล Dolma ของ AI2 และรวมโค้ดที่ใช้สร้างข้อมูลฝึกไว้ด้วย
    • โค้ดการฝึกและค่าน้ำหนักของโมเดล: ให้ค่าน้ำหนักของโมเดลทั้งหมด โค้ดสำหรับอนุมาน ตัวชี้วัดการฝึก บันทึกการฝึก ฯลฯ สำหรับโมเดล 4 รุ่นย่อยในสเกล 7B
    • การประเมินผล: ภายใต้โครงการ Catwalk ได้เปิดเผยเครื่องมือประเมินที่ใช้ในการพัฒนา เช่น เช็กพอยต์มากกว่า 500 รายการและโค้ดประเมินผล
  • ผ่าน OLMo นักวิจัยและนักพัฒนา AI จะได้รับประสบการณ์ดังต่อไปนี้:

    โฆษณา
    • การวิเคราะห์ที่แม่นยำยิ่งขึ้น: สามารถทำงานได้รวดเร็วยิ่งขึ้นบนพื้นฐานของความเข้าใจเชิงลึกอย่างครบถ้วนเกี่ยวกับข้อมูลฝึก
    • ลดการปล่อยคาร์บอน: การเปิดเผยระบบนิเวศทั้งหมดของการฝึกและการประเมินช่วยลดการพัฒนาที่ซ้ำซ้อน
    • ผลลัพธ์ที่ต่อเนื่อง: การเปิดเผยโมเดลและชุดข้อมูลช่วยให้เรียนรู้จากโมเดลก่อนหน้าและต่อยอดได้
  • OLMo สามารถพัฒนาได้ผ่านความร่วมมือกับ AMD, CSC (Lumi Supercomputer), University of Washington, Databricks และอีกหลายแห่ง

ความเห็นของ GN⁺

  • การเปิดเผยข้อมูลฝึกและโค้ดเพื่อเพิ่มความโปร่งใสของโมเดล AI ดูมีความหมายอย่างมาก อย่างไรก็ตาม อาจยังมีปัญหาอย่างอคติของข้อมูล จึงน่าจะต้องมีการตรวจสอบในประเด็นนี้ด้วย
  • คาดว่าการกระตุ้นระบบนิเวศของโมเดลภาษาโอเพนซอร์สจะช่วยเร่งความก้าวหน้าทางเทคโนโลยี แต่ก็คงต้องติดตามว่าจะสร้างผลงานได้มากเพียงใดในการแข่งขันกับโมเดล AI แบบปิดของบริษัทยักษ์ใหญ่ด้านไอที
  • ความร่วมมือกับสถาบันหลากหลายแห่งดูมีความสำคัญอย่างยิ่งต่อการจัดหาทรัพยากรคอมพิวต์มหาศาลที่จำเป็นสำหรับการพัฒนา AI และน่าจะเป็นแบบอย่างที่ดีของความร่วมมือระหว่างภาควิชาการกับภาคอุตสาหกรรม
  • คาดว่า OLMo จะช่วยให้การวิจัยเชิงวิทยาศาสตร์เกี่ยวกับหลักการทำงานของโมเดลภาษาคึกคักมากขึ้น ซึ่งอาจนำไปสู่การพัฒนา AI ที่ปลอดภัยและน่าเชื่อถือยิ่งขึ้น

1 ความคิดเห็น

 
GN⁺ 2024-04-09
ความคิดเห็นจาก Hacker News
  • เมื่อใช้ LLM ต้องแจ้งผู้สร้างว่าใช้เพื่อวัตถุประสงค์ใด นี่เป็นสิ่งที่ระบุไว้ในไลเซนส์
  • หากสร้างงานดัดแปลง ต้องส่ง Derivative Impact Report ให้ AI2 หรือให้ข้อมูลที่คล้ายกันเป็นลายลักษณ์อักษร AI2 สามารถเปิดเผยข้อมูลนี้ต่อสาธารณะได้
  • ต้องเปิดเผยอย่างโปร่งใสเกี่ยวกับวัตถุประสงค์การใช้งานของงานดัดแปลง
  • Derivative Impact Report ไม่ได้มีไว้เพื่อลงโทษการเปิดเผยโดยสุจริต หากมีการยื่นฟ้องที่เกี่ยวข้อง สัญญาจะสิ้นสุดลงทันที
  • นี่คือหนึ่งในโมเดลโอเพนซอร์สที่แท้จริง ส่วนใหญ่เปิดเผยแค่น้ำหนักโมเดล แต่ตัวนี้เปิดแบบ end-to-end
  • น่าแปลกที่ไม่มีการกล่าวถึงการเปรียบเทียบกับ Mistral 7b
  • ดูเหมือนว่า "The Pile" จะไม่ถูกรวมอยู่ในข้อมูลฝึก อาจมีความปลอดภัยทางกฎหมายมากกว่า LLM "โอเพน" ตัวอื่น ๆ
  • ความหมายที่แท้จริงของการจัดประเภทความเสี่ยงที่ใช้กับชุดข้อมูลคืออะไร? หน้าไลเซนส์อธิบายไว้ไม่เพียงพอ หมายถึงความเสี่ยงที่อาจไม่เข้ากันในแง่ไลเซนส์เมื่อนำไปใช้เป็นชุดข้อมูลฝึกหรือไม่?
  • แม้จะมีขนาดเล็ก แต่ก็ทำงานได้เร็วอย่างน่าประหลาดใจ
  • นี่อาจเป็นหนึ่งใน LLM รุ่นแรก ๆ ที่น่าสนใจซึ่งฝึกสำเร็จบน AMD GPU หรือไม่? อยากรู้ว่ากระบวนการราบรื่นแค่ไหนและมีความยากลำบากหรือไม่
  • ในโมเดลนี้และโมเดลคล้ายกัน มีปัญหา "โทเค็นซ้ำ" เกิดขึ้นระหว่างการอนุมาน มักเกิดเมื่อ context window มีความยาวปานกลาง
  • ดูเหมือนว่าระหว่างการฝึกจะติดอยู่ใน local minimum บางอย่าง อุณหภูมิดูเหมือนจะมีผล แต่ไม่ได้แก้ปัญหาได้ทั้งหมด
  • น่าเสียดายที่ในบล็อกโพสต์ไม่มีตารางเปรียบเทียบ
  • สำหรับผม นี่คือ LLM ที่น่าสนใจที่สุด เป็นเครื่องมือทรงพลังที่สามารถแทนการค้นหา และแม้กระทั่งทำวิจัยเพื่อให้คำตอบสุดท้ายได้ โมเดลปิดอย่าง OpenAI, Anthropic และรายอื่น ๆ ไม่สามารถตรวจสอบได้
  • มีกรณีจริงที่มีการใส่อคติลงใน LLM (เช่น การสร้างภาพที่ไม่ถูกต้องตามประวัติศาสตร์จากเมตาพรอมป์ต์ลับของ Google Gemini)
  • ชอบแนวทางของ AI2 นอกจากน้ำหนักโมเดลแล้ว ยังแชร์ซอร์สโค้ดการฝึก ข้อมูล และเครื่องมือประเมินทั้งหมดภายใต้ไลเซนส์ Apache
  • โมเดลแบบ open-weight อย่าง Llama กำลังไล่ตามโมเดลปิดอย่าง OpenAI และรายอื่น ๆ ให้ทัน หวังว่าโมเดลเปิดจริงอย่าง OLMo จะพัฒนาต่อไปเรื่อย ๆ
  • หวังว่าจะไม่มีการใช้กฎระเบียบมาขัดขวางการพัฒนา AI โอเพนซอร์ส เพราะในอนาคตมันอาจกลายเป็นสื่อกลางของสังคม และการกำกับดูแลก็คล้ายกับการจำกัดเสรีภาพในการแสดงออก การลดแรงกดดันจากการแข่งขันจะทำลายนวัตกรรม
  • เป็นโพสต์เมื่อ 2 เดือนก่อน