- LLM แบบ Instruction-Tuned ที่เปิดอย่างแท้จริงตัวแรกของโลก
- เปิดเผยทั้งโค้ดสำหรับการฝึกทั้งหมด ชุดข้อมูล และค่าน้ำหนักของโมเดลทั้งหมด นั่นคือไม่ว่าใครหรือบริษัทใดก็สามารถสร้างและเป็นเจ้าของ LLM ทรงพลังของตนเองได้
- ปรับจูนด้วยชุดข้อมูล databricks-dolly-15k ซึ่งเป็นคำสั่งที่มนุษย์สร้างขึ้น
- คู่พรอมป์ต์/คำตอบ 15,000 คู่ ทุกคนสามารถแก้ไข/ขยายได้ และสามารถใช้เพื่อการค้าได้
- (Alpaca, Koala, GPT4All, Vicuna ฯลฯ ล้วนไม่สามารถใช้เชิงพาณิชย์ได้)
- ข้อมูลนี้ถูกเขียนขึ้นโดยพนักงาน Databricks 5,000 คนโดยตรง
- พัฒนาบนพื้นฐานของโมเดลภาษา EleutherAI pythia ขนาด 12B พารามิเตอร์
1 ความคิดเห็น
เรื่องที่เปิดให้พนักงานภายในช่วยกันสร้างชุดคำถามสำหรับฝึก LLM แล้วมีคนเข้าร่วมมากเกินคาดจนต้องปิดรับก่อนกำหนดเพราะกลัวจะรบกวนงานประจำนี่น่าสนุกมากจริง ๆ
อย่างไรก็ตาม ผมอยากชื่นชมมากจริง ๆ ที่บริษัทใหญ่แบบนี้กล้าลงทุนและเปิดชุดข้อมูลคุณภาพสูงออกมาเป็นโอเพนซอร์สอย่างสมบูรณ์ (CC BY-SA 3.0)
ถ้ามีบริษัทแบบนี้ค่อย ๆ เพิ่มขึ้นและมีการมีส่วนร่วมมากขึ้นเรื่อย ๆ สักวันหนึ่งเราอาจได้เห็นโมเดลโอเพนซอร์สที่ใช้งานเชิงพาณิชย์ได้ในระดับใกล้เคียง GPT-4 ก็เป็นได้ใช่ไหม?