Meta เปิดตัว Megabyte สถาปัตยกรรมโมเดล AI แบบนวัตกรรมใหม่

xguru · 2023-05-26T10:02:01+09:00

สามารถสเกลให้ประมวลผลได้มีประสิทธิภาพและขนานกันมากขึ้น โดยก้าวข้ามสถาปัตยกรรม Transformer ที่โมเดลอย่าง GPT-4 ใช้งานอยู่ Transformer เหมาะกับลำดับสั้น แต่ขยายไปสู่โทเค็นลำดับยาวกว่า 1 ล้านโทเค็น เช่น ภาพความละเอียดสูง พอดแคสต์ โค้ด และหนังสือ ได้ยาก Megabyte เป็นสถาปัตยกรรมดีโคดเดอร์แบบหลายสเกลที่สามารถทำโมเดลลิงลำดับที่ยาวเกิน 1 ล้านได้ แบ่งลำดับอินพุตและเอาต์พุตออกเป็น "Patch" แทนการแยกเป็นโทเค็นเดี่ยว โมเดล AI แบบโลคัลจะสร้างผลลัพธ์สำหรับแต่ละแพตช์ และโมเดลแบบโกลบอลจะคอยจัดการและประสานงานแพตช์เหล่านี้ ผลการทดสอบระบุว่า Megabyte ที่ใช้โมเดลขนาด 1.5B พารามิเตอร์ สามารถสร้างลำดับได้เร็วกว่าโมเดล Transformer ที่ทำงานด้วย 350M พารามิเตอร์อยู่ 40% ผลการทดสอบยังระบุว่าสามารถรองรับได้ถึง 1.2M โทเค็น ซึ่งมากกว่า 32,000 โทเค็นของ GPT-4 และ 100,000 โทเค็นของ Claude อย่างมาก

(artisana.ai)

14 คะแนน โดย xguru 2023-05-26 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

สามารถสเกลให้ประมวลผลได้มีประสิทธิภาพและขนานกันมากขึ้น โดยก้าวข้ามสถาปัตยกรรม Transformer ที่โมเดลอย่าง GPT-4 ใช้งานอยู่
Transformer เหมาะกับลำดับสั้น แต่ขยายไปสู่โทเค็นลำดับยาวกว่า 1 ล้านโทเค็น เช่น ภาพความละเอียดสูง พอดแคสต์ โค้ด และหนังสือ ได้ยาก
Megabyte เป็นสถาปัตยกรรมดีโคดเดอร์แบบหลายสเกลที่สามารถทำโมเดลลิงลำดับที่ยาวเกิน 1 ล้านได้
- แบ่งลำดับอินพุตและเอาต์พุตออกเป็น "Patch" แทนการแยกเป็นโทเค็นเดี่ยว
- โมเดล AI แบบโลคัลจะสร้างผลลัพธ์สำหรับแต่ละแพตช์ และโมเดลแบบโกลบอลจะคอยจัดการและประสานงานแพตช์เหล่านี้
ผลการทดสอบระบุว่า Megabyte ที่ใช้โมเดลขนาด 1.5B พารามิเตอร์ สามารถสร้างลำดับได้เร็วกว่าโมเดล Transformer ที่ทำงานด้วย 350M พารามิเตอร์อยู่ 40%
ผลการทดสอบยังระบุว่าสามารถรองรับได้ถึง 1.2M โทเค็น ซึ่งมากกว่า 32,000 โทเค็นของ GPT-4 และ 100,000 โทเค็นของ Claude อย่างมาก

2 ความคิดเห็น

ninebow 2023-05-27

บทความแนะนำเกี่ยวกับ Megabyte ที่เขียนโดย ENCORD สตาร์ทอัพด้านการพัฒนาโครงสร้างพื้นฐานและเครื่องมือ AI ได้รับการแปลโดยได้รับอนุญาตดังต่อไปนี้ :)

https://discuss.pytorch.kr/t/…

cosine20 2023-05-27

มีอยู่ในเนื้อหาด้วย แต่ลิงก์บทความวิจัยคือ: https://arxiv.org/abs/2305.07185

Meta เปิดตัว Megabyte สถาปัตยกรรมโมเดล AI แบบนวัตกรรมใหม่

บทความที่เกี่ยวข้อง

2 ความคิดเห็น