24 คะแนน โดย xguru 2023-04-20 | 2 ความคิดเห็น | แชร์ทาง WhatsApp
  • เปิดตัวโมเดลขนาด 3B/7B และมีแผนจะเปิดตัวโมเดล 15B/30B/65B รวมถึงวางแผนไปถึง 175B
  • โมเดลใช้ไลเซนส์ CC BY-SA-4.0 จึงสามารถใช้งานเชิงพาณิชย์ได้หากระบุแหล่งที่มา
  • แม้อ้างอิงจากชุดข้อมูลเปิด The Pile แต่ฝึกด้วยชุดข้อมูลใหม่ที่มีขนาดใหญ่กว่า 3 เท่า คือ 1.5T โทเค็น
  • ความยาวคอนเท็กซ์คือ 4096 โทเค็น
  • เปิดตัวโมเดล StableLM-Tuned-Alpha-7B ที่ผ่านการ fine-tune ตามกระบวนการของ Alpaca ในฐานะ PoC ด้วย
    • ใช้ชุดข้อมูลแบบสนทนา 5 ชุด: Stanford's Alpaca, Nomic-AI's gpt4all, RyokoAI's ShareGPT52K datasets, Databricks labs' Dolly, Anthropic's HH
    • เดโมแชตบอตเปิดเผยบน Hugging Face

2 ความคิดเห็น

 
laeyoung 2023-04-20

ดีจัง ดีจัง!

 
xguru 2023-04-20

เหมือนกับที่การเปิดตัว Stable Diffusion ทำให้ตลาดเร่งตัวขึ้น ตอนนี้ก็คงจะมีทั้งข้อมูลที่สามารถใช้งานได้อย่างเปิดเผยและกรณีการใช้งานของโมเดลภาษาทะลักออกมาเช่นกัน