3 คะแนน โดย GN⁺ 2025-10-24 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • บทความ DeepSeek-OCR ที่เผยแพร่เมื่อไม่นานมานี้สำรวจความเป็นไปได้ที่โมเดลภาษาขนาดใหญ่ (LLM) จะสามารถเรียนรู้ได้โดยรับ พิกเซลของภาพ โดยตรงเป็นอินพุตแทนข้อความ
  • แนวทางนี้เสนอวิธีส่งข้อมูลเชิงภาพให้โมเดลโดยตรง โดยข้ามขั้นตอน OCR (การรู้จำอักขระด้วยแสง) แบบดั้งเดิม
  • Karpathy กล่าวถึงบทความนี้พร้อมตั้งคำถามว่า อินพุตแบบพิกเซลอาจให้บริบทที่สมบูรณ์กว่าข้อความโทเค็น หรือไม่
  • แนวคิดนี้สอดคล้องกับทิศทางการพัฒนาของ AI หลายโมดัล และเป็นการสำรวจเชิงทดลองว่าโมเดลภาษาจะสามารถทำให้ความเข้าใจเชิงภาพเป็นความสามารถภายในได้หรือไม่
  • การถกเถียงนี้ถูกมองว่าเป็นกระแสการวิจัยสำคัญที่อาจนิยามใหม่ทั้ง โครงสร้างอินพุตและกระบวนทัศน์การเรียนรู้ของ LLM ในอนาคต

แนวคิดหลักของบทความ DeepSeek-OCR

  • DeepSeek-OCR เสนอสถาปัตยกรรมโมเดลภาษาขนาดใหญ่ที่ ประมวลผลข้อมูลพิกเซลของภาพเอกสารโดยตรง แทนอินพุตแบบข้อความเดิม
    • ระบบ OCR แบบดั้งเดิมจะดึงข้อความออกจากภาพก่อนแล้วจึงส่งต่อไปยังโมเดลภาษา แต่ในกระบวนการนี้ รูปร่างตัวอักษร เลย์เอาต์ และบริบทเชิงภาพ จะสูญหายไป
    • DeepSeek-OCR ใช้ ข้อมูลเชิงภาพระดับพิกเซล เป็นอินพุตของโมเดลโดยตรงเพื่อลดการสูญเสียนี้
  • โมเดลถูกออกแบบให้เข้าใจองค์ประกอบเชิงภาพหลากหลายภายในภาพ เช่น ตัวอักษร ตาราง สมการ และแผนภาพ ไปพร้อมกัน
    • ด้วยเหตุนี้ จึงไม่เพียงทำการรู้จำข้อความเท่านั้น แต่ยังสามารถ เข้าใจโครงสร้างเอกสารและอนุมานความหมาย ได้ด้วย

ประเด็นคำถามของ Karpathy

  • Karpathy กล่าวถึงบทความนี้ในเธรด Twitter ของเขาพร้อมตั้งคำถามว่า “พิกเซลเป็นอินพุตที่ดีกว่าข้อความหรือไม่?”
    • เขาชี้ว่าวิธีการปัจจุบันที่ LLM เรียนรู้จากโทเค็นข้อความเพียงอย่างเดียวอาจทำให้เกิด การสูญเสียข้อมูล
    • โดยเฉพาะหากโมเดลภาษาสามารถเรียนรู้บริบทเชิงภาพได้โดยตรง ก็อาจทำให้เกิด โครงสร้างการเรียนรู้แบบบูรณาการที่ตัดขั้นตอน OCR ออกไป ได้
  • Karpathy ประเมินว่าแนวทางนี้มีศักยภาพในการเพิ่ม ความสามารถในการทำให้ทั่วไปของโมเดล และ ความเข้าใจแบบหลายโมดัล
    • อย่างไรก็ตาม เขายังชี้ถึง ข้อจำกัดเชิงปฏิบัติ เช่น ต้นทุนการคำนวณที่สูงของอินพุตแบบพิกเซล และความยากในการสร้างชุดข้อมูลขนาดใหญ่

ความหมายทางเทคนิคและผลกระทบที่อาจเกิดขึ้น

  • อินพุตแบบพิกเซลมีข้อดีคือ ความหนาแน่นของข้อมูลสูงกว่าและคงบริบทเชิงภาพไว้ได้ มากกว่าอินพุตแบบข้อความ
    • ตัวอย่างเช่น ในเอกสารที่มีตารางหรือสมการ กระบวนการแปลงเป็นข้อความมักทำให้ข้อมูลเชิงโครงสร้างสูญหาย แต่การป้อนพิกเซลจะรักษาข้อมูลเหล่านี้ไว้ได้ครบ
  • ในทางกลับกัน อินพุตแบบพิกเซลก็มาพร้อมปัญหาอย่าง จำนวนพารามิเตอร์โมเดลที่เพิ่มขึ้น, ต้นทุนการฝึกที่สูงขึ้น และ ความเร็วในการอนุมานที่ลดลง
    • ดังนั้น ในการใช้งานจริง แนวทางไฮบริดระหว่างข้อความกับพิกเซล จึงถูกพูดถึงในฐานะทางเลือกที่สมเหตุสมผล
  • การถกเถียงนี้ถูกมองว่าเป็นการสำรวจเชิงทดลองว่า LLM จะสามารถทำให้ ความสามารถในการรับรู้เชิงภาพและเชิงพื้นที่ กลายเป็นส่วนหนึ่งภายในโมเดลได้หรือไม่ นอกเหนือจากความเข้าใจภาษาเพียงอย่างเดียว

นัยต่ออุตสาหกรรม

  • สำหรับอุตสาหกรรมที่ต้องจัดการกับ โครงสร้างเอกสารที่ซับซ้อน เช่น การประมวลผลเอกสาร การเงิน กฎหมาย และการแพทย์ แนวทางของ DeepSeek-OCR มีความหมายอย่างมาก
    • ตัวอย่างเช่น สามารถสร้างระบบ AI ที่เข้าใจการจัดวางเชิงภาพของสัญญาหรือใบแจ้งหนี้ที่สแกนมาได้โดยตรง
  • การอภิปรายของ Karpathy กระตุ้นให้เกิด การทบทวนรูปแบบอินพุตของ AI อย่างถึงราก และมีแนวโน้มที่จะส่งผลต่อทิศทางการออกแบบ LLM ในอนาคต
  • LLM ที่ใช้อินพุตแบบพิกเซลอาจนำไปสู่ การแทนที่หรือบูรณาการเทคโนโลยี OCR และกำลังได้รับความสนใจในฐานะจุดเปลี่ยนใหม่ของงานวิจัย AI หลายโมดัล

1 ความคิดเห็น

 
GN⁺ 2025-10-24
ความคิดเห็นจาก Hacker News
  • ไม่ใช่พิกเซล แต่เป็น percel ต่างหาก พิกเซลคือจุดในภาพ แต่ percel คือ หน่วยข้อมูลเชิงการรับรู้ ที่อาจรวมถึงเสียง ความรู้สึก หรือแม้แต่โทเค็นของความคิด
    สำหรับมนุษย์ เรารับรู้ percel ที่หลอมรวมหลายประสาทสัมผัสเข้าด้วยกัน และโครงข่ายประสาท (โดยเฉพาะ LLM) ก็ไม่ได้ประมวลผล percel แบบแยกเดี่ยว แต่จัดการมันร่วมกันภายใต้ บริบท (context) ของ percel ที่อยู่ข้างเคียง

    • ฉันเคยเขียนข้อเสนอขอทุนวิจัยจากไอเดียนี้ นักวิจัย ML วิจารณ์อย่างหนักว่ามันใช้งานจริงไม่ได้ แต่ นักประสาทวิทยา กลับสนับสนุนอย่างมาก
      ศักยภาพของงานวิจัยข้ามสาขามีสูงมาก แต่ก็น่าเสียดายที่ความจริงคือมันขอทุนได้ยากเพียงเพราะไม่เข้ากับกรอบเดิม
    • แนวคิดนี้น่าสนใจมากจนฉันลองค้นดู แต่ไม่พบข้อมูลอะไรเลย เลยสงสัยว่านี่เป็น คำที่บัญญัติขึ้นเอง หรือมีงานวิจัยหรือบทความอ้างอิงอะไรอยู่แล้ว
    • สุดท้ายก็คิดว่ามันคล้ายกับแนวคิดเรื่อง latent space ไม่ใช่หรือ ในแง่ที่เป็นโครงสร้างซึ่งเวกเตอร์ที่เกี่ยวข้องกันถูกจัดกลุ่มไว้ด้วยกัน
    • ถ้าจะแทน percel ด้วยเวกเตอร์ ก็น่าจะต้องแมปมันลงใน latent space โดยแยกมิติตาม โหมดการรับรู้ (การมองเห็น การได้ยิน ฯลฯ)
    • พูดเล่น ๆ แต่ชักอยากเรียกมันว่า toxel แทน percel
  • Kill the tokenizer” เป็นข้อเสนอที่รุนแรง แต่แตะถึงรากของปัญหา
    การทำ tokenization เป็นเพียง วิธีแก้ขัด (hack) เพื่อทำให้ภาษากลายเป็นเชิงปริมาณ และมันบิดเบือนแก่นแท้ของภาษา
    แนวคิดที่ว่าพิกเซลอาจเป็นหน่วยแทนความหมายที่ทรงพลังกว่ายังฟังแปลกใหม่ แต่ก็ต้องมีใครสักคนลองแนวทางใหม่

    • ตอนฉันอ่านหนังสือ ฉันประมวลผลข้อความทั้งในเชิงภาพและเชิงเสียงไปพร้อมกัน
      เพราะอย่างนั้น อินพุตที่อิงภาพ จึงให้ความรู้สึกเหมือนเป็นผลลัพธ์ตามธรรมชาติของวิวัฒนาการ
      ถ้าแทนที่จะเรนเดอร์ข้อความแล้วอ่านด้วย OCR เรา เข้ารหัสตัวอย่างเสียงด้วย TTS อาจมีประสิทธิภาพกว่าพิกเซลก็ได้ แน่นอนว่านั่นก็ขึ้นกับความละเอียดหรือ sample rate ด้วย
    • Byte Latent Transformer ของ Meta พยายามมาแทน tokenizer แต่สุดท้ายก็ไม่ได้รับความสนใจ
    • ถ้าอย่างนั้นตอนสร้างผลลัพธ์จะถอดรหัสออกมาเป็นอะไร นี่คือคำถามสำคัญ เพราะ โทเค็นมีความหมายมากกว่าแค่การแสดงผลทางสายตา ดังนั้นการสร้างเพียงภาพของข้อความจึงไม่พอ
    • ข้อความมี ความหนาแน่นของข้อมูลสูงมาก จึงยังคงมีประสิทธิภาพในฐานะอินพุต
    • ฉันก็ยังไม่ค่อยเข้าใจเหมือนกัน ว่าภาพของข้อความจะดีกว่าตัวข้อความเองได้อย่างไร ฟังดูเหมือนกำลังบอกว่าให้จับภาพทั้งหน้าจอแล้วไปสอนโมเดลให้เรียนรู้จากกล้องเสียมากกว่า
  • มีงานวิจัยที่น่าสนใจที่เกี่ยวข้องกัน โดย Lex Flagel และคณะได้แปลงข้อมูลลำดับ DNA ให้เป็นภาพแล้วฝึกด้วย CNN
    ผลคือ CNN สามารถทำซ้ำ ค่าชี้วัดทางพันธุกรรม ที่เดิมได้มาจากการวิเคราะห์แบบข้อความ
    ลิงก์งานวิจัย

  • แก่นของการถกเถียงช่วงนี้คือการตระหนักว่า การที่เราใช้แทนภาษาสำหรับเครื่องจักรนั้นเป็น นามธรรมแบบมีการสูญเสีย (lossy abstraction)
    tokenization เป็นเพียงหนึ่งในนั้น ขณะที่พิกเซลหรือสัญญาณเสียงก็เป็นการประมาณอีกแบบหนึ่ง
    คุณค่าที่แท้จริงของการทดลองลักษณะนี้อยู่ที่การตรวจสอบ สมมติฐานการออกแบบของสถาปัตยกรรมปัจจุบัน
    แนวทางที่เรียนรู้การจัดแนวหลายโมดาลิตีอาจนำไปสู่การค้นพบ โครงสร้างแฝง หรือ วิธีการฝึก ที่ดีกว่า และสิ่งนั้นอาจย้อนกลับมาช่วยปรับปรุง text encoder แบบเดิมได้
    โดยเฉพาะในภาษาที่ขอบเขตของคำไม่ชัดเจน วิธีเข้ารหัสทางเลือก อาจช่วยได้มาก

  • ประเด็น “การบีบอัดข้อมูล → context window ที่สั้นลง → ประสิทธิภาพที่ดีขึ้น” ที่กล่าวในงานวิจัยนั้นน่าสนใจ
    แต่ก็อดสงสัยไม่ได้ว่า ถ้าขนาดตัวอักษร ฟอนต์ หรือระยะห่างเปลี่ยนไป อัตราการบีบอัดอาจ แย่ลง แทนหรือเปล่า

  • เห็นด้วยกับข้อโต้แย้งของ Karpathy
    ข้อดีอย่างหนึ่งของ text token คือมันเรียนรู้ ความเข้าใจโดยนัยต่อวิธีป้อนข้อมูล (แป้นพิมพ์ QWERTY)
    ตัวอย่างเช่น “Hello” กับ “Hwllo” จะถูกมองว่ามีความหมายใกล้กัน เพราะคีย์อยู่ติดกันบนคีย์บอร์ด

    • ถ้า AI อ่านได้จากอินพุตแบบพิกเซล มันก็น่าจะมองรูปแบบอย่าง “HWLLO” หรือ “H3LL0” ว่าคล้ายกันได้ผ่าน ความคล้ายคลึงทางภาพ
      แม้อาจต้องฝึกมากขึ้น แต่สุดท้ายก็อาจได้ ความสามารถในการรับรู้แบบทั่วไป
    • ฉันเห็นด้วยกับแนวคิด typo learning เรื่องนี้ฉันก็พูดไว้ในวิดีโอของฉัน
      เพราะเราก็สร้างคำพิมพ์ผิดในภาพเพื่อใช้ฝึกได้เหมือนกัน เลยคิดว่าไม่น่าใช่ปัญหาใหญ่
  • เวลานึกถึงตัวเอง สิ่งที่ได้ยินในหัวคือ กระแสของคำพูด
    ไม่ใช่หน้ากระดาษหรือภาพ แต่เป็นความรู้สึกเหมือน คำที่อยู่ในรูปของเสียง ไหลต่อเนื่องกัน

  • tokenization แบบปัจจุบันอาจไม่มีประสิทธิภาพ ภาษาเองมี โครงสร้างการบีบอัดระดับสูง อยู่แล้ว
    แต่ก็เป็นไปได้ว่ายังมีรูปแบบการแทนที่ดีกว่าอยู่ใน latent space

    • ในอุตสาหกรรมเองก็รู้กันดีถึง ข้อจำกัดของ tokenizer แต่การสร้างวิธีที่มาแทนได้และ scale ได้จริง นั้นยากมาก
    • โมเดลภาพใช้ โทเค็นที่มีหน่วยใหญ่กว่า ส่วนในข้อความก็อาจสร้างพจนานุกรมโทเค็นขนาดใหญ่แบบอิง n-gram ได้
      แต่โครงสร้าง LLM ปัจจุบันไม่มีประสิทธิภาพพอจะจัดการกับ การกระจายเอาต์พุตที่ใหญ่เกินไป
  • รู้สึกว่าแนวทางนี้ยังห่างไกลจากการใช้งานจริง
    ทุกครั้งที่ ChatGPT เสนอว่า “จะลองทำเป็นภาพให้ดูไหม?” ผลลัพธ์ที่ออกมาก็มักเต็มไปด้วย ภาพหลอน (hallucination)

    • แต่ การสร้างภาพ กับ การรับภาพเป็นอินพุต เป็นคนละปัญหากันโดยสิ้นเชิง
      สิ่งที่พูดกันตรงนี้คือการแปลงข้อความเป็นภาพแล้วป้อนเข้า LLM ไม่ใช่การสร้างภาพ
  • การถกเถียงที่เกี่ยวข้องเมื่อไม่นานมานี้ได้แก่
    กรณีรัน DeepSeek-OCR บน Nvidia Spark และ
    โปรเจกต์ DeepSeek OCR
    ทั้งสองหัวข้อถูกพูดถึงอย่างคึกคักในเดือนตุลาคม 2025