14 คะแนน โดย xguru 2023-05-26 | 2 ความคิดเห็น | แชร์ทาง WhatsApp
  • สามารถสเกลให้ประมวลผลได้มีประสิทธิภาพและขนานกันมากขึ้น โดยก้าวข้ามสถาปัตยกรรม Transformer ที่โมเดลอย่าง GPT-4 ใช้งานอยู่
  • Transformer เหมาะกับลำดับสั้น แต่ขยายไปสู่โทเค็นลำดับยาวกว่า 1 ล้านโทเค็น เช่น ภาพความละเอียดสูง พอดแคสต์ โค้ด และหนังสือ ได้ยาก
  • Megabyte เป็นสถาปัตยกรรมดีโคดเดอร์แบบหลายสเกลที่สามารถทำโมเดลลิงลำดับที่ยาวเกิน 1 ล้านได้
    • แบ่งลำดับอินพุตและเอาต์พุตออกเป็น "Patch" แทนการแยกเป็นโทเค็นเดี่ยว
    • โมเดล AI แบบโลคัลจะสร้างผลลัพธ์สำหรับแต่ละแพตช์ และโมเดลแบบโกลบอลจะคอยจัดการและประสานงานแพตช์เหล่านี้
  • ผลการทดสอบระบุว่า Megabyte ที่ใช้โมเดลขนาด 1.5B พารามิเตอร์ สามารถสร้างลำดับได้เร็วกว่าโมเดล Transformer ที่ทำงานด้วย 350M พารามิเตอร์อยู่ 40%
  • ผลการทดสอบยังระบุว่าสามารถรองรับได้ถึง 1.2M โทเค็น ซึ่งมากกว่า 32,000 โทเค็นของ GPT-4 และ 100,000 โทเค็นของ Claude อย่างมาก

2 ความคิดเห็น

 
ninebow 2023-05-27

บทความแนะนำเกี่ยวกับ Megabyte ที่เขียนโดย ENCORD สตาร์ทอัพด้านการพัฒนาโครงสร้างพื้นฐานและเครื่องมือ AI ได้รับการแปลโดยได้รับอนุญาตดังต่อไปนี้ :)

https://discuss.pytorch.kr/t/…

 
cosine20 2023-05-27

มีอยู่ในเนื้อหาด้วย แต่ลิงก์บทความวิจัยคือ: https://arxiv.org/abs/2305.07185