[แปล] คำอธิบายเกี่ยวกับ Megabyte ของ Meta AI

(discuss.pytorch.kr)

12 คะแนน โดย ninebow 2023-05-27 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

คำแปลของบทความอธิบาย Megabyteที่เขียนโดย ENCORD สตาร์ทอัพด้านโครงสร้างพื้นฐาน / เครื่องมือพัฒนา AI

แนะนำโครงสร้างหลักของ MegaByte
- Patch Embedder: ฝังตัวข้อมูลนำเข้าและแบ่งเป็นแพตช์
- Global Module: ออโตรีเกรสซีฟทรานส์ฟอร์เมอร์ที่ทำ self-attention
- Local Module: ทำนายแพตช์ถัดไปจากข้อมูลนำเข้าที่ได้รับจากโมเดลส่วนกลาง
แนะนำ Multiscale Transformer
แนะนำ Autoregressive Transformer
ปัญหาของโมเดลในปัจจุบัน: Tokenization, Scalability, Generation Speed
วิธีแก้ไขที่เสนอ
- self-attention ที่ลดต้นทุนการคำนวณลงเหลือ O(N^(4/3))
- ใช้ feedforward layer ในระดับแพตช์
- การประมวลผลแบบขนานระหว่างการถอดรหัส
(เพิ่มเติม) ความเคลื่อนไหวล่าสุดของ Meta AI
- SAM: https://th.news.hada.io/topic?id=8893
- MTIA: https://th.news.hada.io/topic?id=9246
- DINOv2: https://th.news.hada.io/topic?id=9269
- ImageBIND: https://th.news.hada.io/topic?id=9156
- (แม้จะไม่ได้อยู่ในบทความ) MMS: https://th.news.hada.io/topic?id=9245
- (เช่นกัน แม้จะไม่ได้อยู่ในบทความ) LIMA: https://th.news.hada.io/topic?id=9239

[แปล] คำอธิบายเกี่ยวกับ Megabyte ของ Meta AI

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น