25 คะแนน โดย clumsypupil 2025-10-20 | 3 ความคิดเห็น | แชร์ทาง WhatsApp

สรุปหนึ่งบรรทัด

เสนอและพิสูจน์แนวคิดการบีบอัดบริบทเชิงแสงที่แปลงเอกสาร/บันทึกบทสนทนาเป็นภาพ (visual tokens) เพื่อลดคอนเท็กซ์ของ LLM อย่างมาก (≈7–20×) แล้วกู้คืนกลับเป็นข้อความอย่างแม่นยำอีกครั้ง (OCR) โดยผสานวิชันเอนโค้ดเดอร์ใหม่ (DeepEncoder) เข้ากับดีโคดเดอร์ 3B MoE ทำให้ได้ประสิทธิภาพการแยกวิเคราะห์เอกสารระดับ SOTA แม้ใช้ visual token จำนวนน้อย

นิยามปัญหา
• LLM มีต้นทุนแบบ Quadratic ที่เพิ่มขึ้นเมื่อความยาวบริบทยาวขึ้น
• หากเรนเดอร์ข้อความเอกสารเป็นภาพ จำนวน visual tokens จะน้อยกว่า text tokens มาก → ถ้ากู้คืนภาพ→ข้อความได้ดี ก็สามารถบีบอัดได้อย่างมีประสิทธิภาพสูง
• OCR เป็นองค์ประกอบการทดลองที่ดี เพราะสามารถสร้างแมปปิงการบีบอัด/กู้คืนระหว่างภาพ↔ข้อความได้อย่างเป็นธรรมชาติ และวัดผลเชิงปริมาณได้

ภาพรวมวิธีการ

สถาปัตยกรรม: DeepEncoder (encoder) + DeepSeek-3B-MoE-A570M (decoder)
• DeepEncoder (แกนหลัก)
• ประกอบด้วยสองขั้นตอน:
1. บล็อกการรับรู้เชิงภาพแบบ window attention (ตระกูล SAM-base, ~80M) → ใช้หน่วยความจำ active ต่ำแม้ที่ความละเอียดสูง
2. หลังจากนั้นลดจำนวนโทเคนลงอย่างมากด้วยตัวบีบอัดคอนโวลูชัน 16×
3. บล็อกความรู้เชิงภาพแบบ global attention (CLIP-large, ตัด Patch embedding ตัวแรกออก)
• รองรับหลายความละเอียด (โหมด): Tiny (64 โทเคน, 512²), Small (100, 640²), Base (256, 1024²), Large (400,1280²) +
Gundam(n ไทล์ขนาด 640² + global view ขนาด 1024² → โทเคน = n×100+256),
Gundam-M(ไทล์ 1024² + global 1280²)
• แนวคิด valid tokens: นับเฉพาะโทเคนที่มีข้อมูลจริงโดยตัดพื้นที่ว่างจาก padding ออก (นิยามเป็นสมการ)
• MoE decoder: ใช้ DeepSeek-3B-MoE (12 ชั้น) เพื่อกู้คืนข้อความต้นฉบับจาก visual tokens ที่ถูกบีบอัดซึ่งสร้างโดยเอนโค้ดเดอร์

Data engine และการฝึก
• OCR 1.0 (OCR แบบดั้งเดิม):
• PDF จากอินเทอร์เน็ต 30 ล้านหน้า (ราว 100 ภาษา):
• Coarse: ดึงด้วย fitz (สำหรับฝึกการรู้จำข้อความเชิงแสง)
• Fine: ติดป้ายกำกับอย่างละเอียดให้ภาษาจีนและอังกฤษอย่างละ 2 ล้านหน้า ด้วยเลย์เอาต์/OCR ขั้นสูง (สลับกล่อง+ข้อความ) และเพิ่มเอกสาร Word อีก 3 ล้านหน้า
• OCR ฉากธรรมชาติ: ภาษาจีน/อังกฤษอย่างละ 10 ล้านตัวอย่าง (ป้ายกำกับจาก PaddleOCR)
• OCR 2.0 (การแยกวิเคราะห์ภาพสังเคราะห์แบบซับซ้อน):
• กราฟ (pyecharts/matplotlib) 10 ล้านภาพ → ติดป้ายกำกับเป็นตาราง HTML
• สูตรเคมี: เรนเดอร์จาก PubChem SMILES ด้วย RDKit จำนวน 5 ล้าน
• เรขาคณิตระนาบ: สร้างข้อมูลแบบ Slow Perception (เช่น พจนานุกรมของส่วนของเส้นตรง)
• วิชันทั่วไป: ผสมตัวอย่าง LAION 100 ล้านรายการเพื่อ pretrain เอนโค้ดเดอร์
• โครงสร้างพื้นฐานการฝึก: 20 โหนด (แต่ละโหนด 8×A100-40G), pipeline parallel 4 สเตจ (encoder 2, decoder 2), DP=40, global batch 640
• เฉพาะข้อความ 90B tok/day, มัลติโหมด 70B tok/day
• การสร้างข้อมูลระดับโปรดักชัน: 20 โหนดสามารถสร้างได้ 33 ล้านหน้าต่อวัน

ผลการทดลอง

  1. งานวิจัยการบีบอัดบริบทเชิงแสง (Compression) — ชุดทดสอบ Fox (อังกฤษ 100 หน้า, 600–1300 โทเคน)
    • อิง Small (100 visual tokens) ค่าความแม่นยำและอัตราการบีบอัด (text tokens/visual tokens):
    • 600–700: 98.5%, 6.7×
    • 700–800: 97.3%, 7.5×
    • 800–900: 96.8%, 8.5×
    • 900–1000: 96.8%, 9.7×
    • 1000–1100: 91.5%, 10.6×
    • 1100–1200: 89.8%, 11.3×
    • 1200–1300: 87.1%, 12.6×

    • สรุป: ที่การบีบอัด 9–10× ได้ความแม่นยำ 96%+, ที่ 10–12× ได้ราว ≈90%, และใกล้ 20× ได้ราว ≈60%
    → ช่วงประมาณ 10× ใกล้เคียงกึ่งไม่สูญเสียข้อมูล ส่วนที่สูงกว่านั้นจะค่อย ๆ ลดลงจากผลของความซับซ้อนของเลย์เอาต์/ภาพเบลอที่ความละเอียดต่ำ

  2. การแยกวิเคราะห์เอกสารใช้งานจริง (OmniDocBench) — edit distance (ยิ่งต่ำยิ่งดี)
    • เพียง 100 โทเคน (640²) ก็เหนือกว่า GOT-OCR2.0 (256 โทเคน)
    • ที่ 400 โทเคน (1280²) ได้ระดับเทียบเท่า SOTA ล่าสุด
    • ในโหมด Gundam (<800 โทเคน) ให้ประสิทธิภาพสูงกว่า MinerU-2.0 (≈6,790 โทเคน)
    → มีประสิทธิภาพด้านโทเคนยอดเยี่ยมมาก (ใช้ visual tokens น้อยกว่าแต่ให้ผลลัพธ์เทียบเท่าหรือดีกว่า)

  3. ผลเชิงคุณภาพ (ความสามารถ)
    • Deep parsing:
    • กราฟ → ตาราง HTML
    • สูตรเคมี → SMILES
    • รูปเรขาคณิต → โครงสร้างแบบพจนานุกรม (ส่วนของเส้นตรง/พิกัด/ประเภท ฯลฯ)
    • ภาพธรรมชาติก็รองรับการถามตอบพื้นฐานได้
    • หลายภาษา: รู้จำ PDF ได้ราว 100 ภาษา (ควบคุมเอาต์พุตแบบมีเลย์เอาต์/ไม่มีเลย์เอาต์ได้ด้วยพรอมป์ต์)

ความหมาย
• เป็นหลักฐานเชิงประจักษ์ว่า การบีบอัดผ่าน visual tokens เป็นแนวทางแก้ปัญหาต้นทุนคอนเท็กซ์ยาวมากของ LLM ที่มีศักยภาพสูง
• เสนอแนวทาง memory decay โดยให้บทสนทนาหรือบริบทล่าสุดใช้ความละเอียดสูง ส่วนประวัติเก่าจะค่อย ๆ ลดขนาดลง (อัตราการบีบอัด↑) → เป็นการจัดสรรทรัพยากรคล้ายเส้นโค้งการลืมของมนุษย์
• การปรับงบประมาณโทเคนให้เหมาะสม: ให้แนวทางปริมาณโทเคนที่ต้องใช้ตามประเภทงาน/เอกสาร (เช่น หนังสือพิมพ์ที่มีความหนาแน่นสูงมาก แนะนำโหมด Gundam/M)

ข้อจำกัดและงานต่อไป
• ปัจจุบันยังใกล้เคียงกับ PoC ที่อิง OCR และยังต้องมีงานวิจัยเพิ่มเติมเรื่องการวิเคราะห์ความสูญเสียใน pipeline ดิจิทัล↔เชิงแสง↔ดิจิทัลอย่างแท้จริง
• ยังต้องปรับปรุงสาเหตุของประสิทธิภาพที่ลดลงมากเมื่อเกิน 10× (เลย์เอาต์ซับซ้อน, ภาพเบลอจากความละเอียดต่ำ)
• มีประเด็นเรื่องความสอดคล้องของฟอร์แมต/เบนช์มาร์ก (เช่น ความต่างของฟอร์แมตการประเมิน Fox อาจทำให้ประสิทธิภาพจริงถูกประเมินต่ำเกินไป)

สรุปประเด็นสำคัญ
• DeepEncoder: window attention (active ต่ำ) → บีบอัด conv 16× → global attention (CLIP)
• หลายความละเอียด + tile+global (Gundam) เพื่อสมดุลระหว่างการประหยัดหน่วยความจำ/โทเคนกับประสิทธิภาพ
• ที่การบีบอัด ≈10× ได้ความแม่นยำการกู้คืน ~96% → เป็นเบาะแสสำคัญในการลดต้นทุนคอนเท็กซ์อย่างมาก
• OmniDocBench: ในระดับ 100–800 visual tokens เข้าใกล้หรือเหนือกว่า SOTA
• ครอบคลุมการใช้งานตั้งแต่กราฟ/เคมี/เรขาคณิต/หลายภาษา

3 ความคิดเห็น

 
m00nlygreat 2025-10-21

ว้าว น่าทึ่งเลย 555 แต่พอกู้คืนแล้วมันก็ยังเป็นโทเค็นเดิมอยู่ดีไม่ใช่เหรอ? มันช่วยประหยัดได้แค่โทเค็นที่อยู่ในสถานะเก็บรักษาเท่านั้นหรือเปล่า? ผมโง่เลยไม่ค่อยเข้าใจอะครับ T_T มีใครช่วยอธิบายให้เข้าใจหน่อยได้ไหม

 
luminance 2025-10-21

ไอเดียของ DeepSeek ดีมากจริง ๆ

 
xguru 2025-10-21

DeepSeek OCR - โมเดล OCR ประสิทธิภาพสูงพิเศษผ่านการบีบอัดบริบทเชิงภาพ
โปรดดูเวอร์ชันที่ GN+ สรุปไว้และความคิดเห็นใน Hacker News ประกอบด้วย