อินพุตแบบพิกเซลดีกว่าข้อความหรือไม่? คำถามที่ Karpathy ตั้งต่อบทความ DeepSeek-OCR

(twitter.com/karpathy)

3 คะแนน โดย GN⁺ 2025-10-24 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

บทความ DeepSeek-OCR ที่เผยแพร่เมื่อไม่นานมานี้สำรวจความเป็นไปได้ที่โมเดลภาษาขนาดใหญ่ (LLM) จะสามารถเรียนรู้ได้โดยรับ พิกเซลของภาพ โดยตรงเป็นอินพุตแทนข้อความ
แนวทางนี้เสนอวิธีส่งข้อมูลเชิงภาพให้โมเดลโดยตรง โดยข้ามขั้นตอน OCR (การรู้จำอักขระด้วยแสง) แบบดั้งเดิม
Karpathy กล่าวถึงบทความนี้พร้อมตั้งคำถามว่า อินพุตแบบพิกเซลอาจให้บริบทที่สมบูรณ์กว่าข้อความโทเค็น หรือไม่
แนวคิดนี้สอดคล้องกับทิศทางการพัฒนาของ AI หลายโมดัล และเป็นการสำรวจเชิงทดลองว่าโมเดลภาษาจะสามารถทำให้ความเข้าใจเชิงภาพเป็นความสามารถภายในได้หรือไม่
การถกเถียงนี้ถูกมองว่าเป็นกระแสการวิจัยสำคัญที่อาจนิยามใหม่ทั้ง โครงสร้างอินพุตและกระบวนทัศน์การเรียนรู้ของ LLM ในอนาคต

แนวคิดหลักของบทความ DeepSeek-OCR

DeepSeek-OCR เสนอสถาปัตยกรรมโมเดลภาษาขนาดใหญ่ที่ ประมวลผลข้อมูลพิกเซลของภาพเอกสารโดยตรง แทนอินพุตแบบข้อความเดิม
- ระบบ OCR แบบดั้งเดิมจะดึงข้อความออกจากภาพก่อนแล้วจึงส่งต่อไปยังโมเดลภาษา แต่ในกระบวนการนี้ รูปร่างตัวอักษร เลย์เอาต์ และบริบทเชิงภาพ จะสูญหายไป
- DeepSeek-OCR ใช้ ข้อมูลเชิงภาพระดับพิกเซล เป็นอินพุตของโมเดลโดยตรงเพื่อลดการสูญเสียนี้
โมเดลถูกออกแบบให้เข้าใจองค์ประกอบเชิงภาพหลากหลายภายในภาพ เช่น ตัวอักษร ตาราง สมการ และแผนภาพ ไปพร้อมกัน
- ด้วยเหตุนี้ จึงไม่เพียงทำการรู้จำข้อความเท่านั้น แต่ยังสามารถ เข้าใจโครงสร้างเอกสารและอนุมานความหมาย ได้ด้วย

ประเด็นคำถามของ Karpathy

Karpathy กล่าวถึงบทความนี้ในเธรด Twitter ของเขาพร้อมตั้งคำถามว่า “พิกเซลเป็นอินพุตที่ดีกว่าข้อความหรือไม่?”
- เขาชี้ว่าวิธีการปัจจุบันที่ LLM เรียนรู้จากโทเค็นข้อความเพียงอย่างเดียวอาจทำให้เกิด การสูญเสียข้อมูล
- โดยเฉพาะหากโมเดลภาษาสามารถเรียนรู้บริบทเชิงภาพได้โดยตรง ก็อาจทำให้เกิด โครงสร้างการเรียนรู้แบบบูรณาการที่ตัดขั้นตอน OCR ออกไป ได้
Karpathy ประเมินว่าแนวทางนี้มีศักยภาพในการเพิ่ม ความสามารถในการทำให้ทั่วไปของโมเดล และ ความเข้าใจแบบหลายโมดัล
- อย่างไรก็ตาม เขายังชี้ถึง ข้อจำกัดเชิงปฏิบัติ เช่น ต้นทุนการคำนวณที่สูงของอินพุตแบบพิกเซล และความยากในการสร้างชุดข้อมูลขนาดใหญ่

ความหมายทางเทคนิคและผลกระทบที่อาจเกิดขึ้น

อินพุตแบบพิกเซลมีข้อดีคือ ความหนาแน่นของข้อมูลสูงกว่าและคงบริบทเชิงภาพไว้ได้ มากกว่าอินพุตแบบข้อความ
- ตัวอย่างเช่น ในเอกสารที่มีตารางหรือสมการ กระบวนการแปลงเป็นข้อความมักทำให้ข้อมูลเชิงโครงสร้างสูญหาย แต่การป้อนพิกเซลจะรักษาข้อมูลเหล่านี้ไว้ได้ครบ
ในทางกลับกัน อินพุตแบบพิกเซลก็มาพร้อมปัญหาอย่าง จำนวนพารามิเตอร์โมเดลที่เพิ่มขึ้น, ต้นทุนการฝึกที่สูงขึ้น และ ความเร็วในการอนุมานที่ลดลง
- ดังนั้น ในการใช้งานจริง แนวทางไฮบริดระหว่างข้อความกับพิกเซล จึงถูกพูดถึงในฐานะทางเลือกที่สมเหตุสมผล
การถกเถียงนี้ถูกมองว่าเป็นการสำรวจเชิงทดลองว่า LLM จะสามารถทำให้ ความสามารถในการรับรู้เชิงภาพและเชิงพื้นที่ กลายเป็นส่วนหนึ่งภายในโมเดลได้หรือไม่ นอกเหนือจากความเข้าใจภาษาเพียงอย่างเดียว

นัยต่ออุตสาหกรรม

สำหรับอุตสาหกรรมที่ต้องจัดการกับ โครงสร้างเอกสารที่ซับซ้อน เช่น การประมวลผลเอกสาร การเงิน กฎหมาย และการแพทย์ แนวทางของ DeepSeek-OCR มีความหมายอย่างมาก
- ตัวอย่างเช่น สามารถสร้างระบบ AI ที่เข้าใจการจัดวางเชิงภาพของสัญญาหรือใบแจ้งหนี้ที่สแกนมาได้โดยตรง
การอภิปรายของ Karpathy กระตุ้นให้เกิด การทบทวนรูปแบบอินพุตของ AI อย่างถึงราก และมีแนวโน้มที่จะส่งผลต่อทิศทางการออกแบบ LLM ในอนาคต
LLM ที่ใช้อินพุตแบบพิกเซลอาจนำไปสู่ การแทนที่หรือบูรณาการเทคโนโลยี OCR และกำลังได้รับความสนใจในฐานะจุดเปลี่ยนใหม่ของงานวิจัย AI หลายโมดัล

1 ความคิดเห็น

GN⁺ 2025-10-24

ความคิดเห็นจาก Hacker News

ไม่ใช่พิกเซล แต่เป็น percel ต่างหาก พิกเซลคือจุดในภาพ แต่ percel คือ หน่วยข้อมูลเชิงการรับรู้ ที่อาจรวมถึงเสียง ความรู้สึก หรือแม้แต่โทเค็นของความคิด
สำหรับมนุษย์ เรารับรู้ percel ที่หลอมรวมหลายประสาทสัมผัสเข้าด้วยกัน และโครงข่ายประสาท (โดยเฉพาะ LLM) ก็ไม่ได้ประมวลผล percel แบบแยกเดี่ยว แต่จัดการมันร่วมกันภายใต้ บริบท (context) ของ percel ที่อยู่ข้างเคียง
- ฉันเคยเขียนข้อเสนอขอทุนวิจัยจากไอเดียนี้ นักวิจัย ML วิจารณ์อย่างหนักว่ามันใช้งานจริงไม่ได้ แต่ นักประสาทวิทยา กลับสนับสนุนอย่างมาก
  ศักยภาพของงานวิจัยข้ามสาขามีสูงมาก แต่ก็น่าเสียดายที่ความจริงคือมันขอทุนได้ยากเพียงเพราะไม่เข้ากับกรอบเดิม
- แนวคิดนี้น่าสนใจมากจนฉันลองค้นดู แต่ไม่พบข้อมูลอะไรเลย เลยสงสัยว่านี่เป็น คำที่บัญญัติขึ้นเอง หรือมีงานวิจัยหรือบทความอ้างอิงอะไรอยู่แล้ว
- สุดท้ายก็คิดว่ามันคล้ายกับแนวคิดเรื่อง latent space ไม่ใช่หรือ ในแง่ที่เป็นโครงสร้างซึ่งเวกเตอร์ที่เกี่ยวข้องกันถูกจัดกลุ่มไว้ด้วยกัน
- ถ้าจะแทน percel ด้วยเวกเตอร์ ก็น่าจะต้องแมปมันลงใน latent space โดยแยกมิติตาม โหมดการรับรู้ (การมองเห็น การได้ยิน ฯลฯ)
- พูดเล่น ๆ แต่ชักอยากเรียกมันว่า toxel แทน percel
“Kill the tokenizer” เป็นข้อเสนอที่รุนแรง แต่แตะถึงรากของปัญหา
การทำ tokenization เป็นเพียง วิธีแก้ขัด (hack) เพื่อทำให้ภาษากลายเป็นเชิงปริมาณ และมันบิดเบือนแก่นแท้ของภาษา
แนวคิดที่ว่าพิกเซลอาจเป็นหน่วยแทนความหมายที่ทรงพลังกว่ายังฟังแปลกใหม่ แต่ก็ต้องมีใครสักคนลองแนวทางใหม่
- ตอนฉันอ่านหนังสือ ฉันประมวลผลข้อความทั้งในเชิงภาพและเชิงเสียงไปพร้อมกัน
  เพราะอย่างนั้น อินพุตที่อิงภาพ จึงให้ความรู้สึกเหมือนเป็นผลลัพธ์ตามธรรมชาติของวิวัฒนาการ
  ถ้าแทนที่จะเรนเดอร์ข้อความแล้วอ่านด้วย OCR เรา เข้ารหัสตัวอย่างเสียงด้วย TTS อาจมีประสิทธิภาพกว่าพิกเซลก็ได้ แน่นอนว่านั่นก็ขึ้นกับความละเอียดหรือ sample rate ด้วย
- Byte Latent Transformer ของ Meta พยายามมาแทน tokenizer แต่สุดท้ายก็ไม่ได้รับความสนใจ
- ถ้าอย่างนั้นตอนสร้างผลลัพธ์จะถอดรหัสออกมาเป็นอะไร นี่คือคำถามสำคัญ เพราะ โทเค็นมีความหมายมากกว่าแค่การแสดงผลทางสายตา ดังนั้นการสร้างเพียงภาพของข้อความจึงไม่พอ
- ข้อความมี ความหนาแน่นของข้อมูลสูงมาก จึงยังคงมีประสิทธิภาพในฐานะอินพุต
- ฉันก็ยังไม่ค่อยเข้าใจเหมือนกัน ว่าภาพของข้อความจะดีกว่าตัวข้อความเองได้อย่างไร ฟังดูเหมือนกำลังบอกว่าให้จับภาพทั้งหน้าจอแล้วไปสอนโมเดลให้เรียนรู้จากกล้องเสียมากกว่า
มีงานวิจัยที่น่าสนใจที่เกี่ยวข้องกัน โดย Lex Flagel และคณะได้แปลงข้อมูลลำดับ DNA ให้เป็นภาพแล้วฝึกด้วย CNN
ผลคือ CNN สามารถทำซ้ำ ค่าชี้วัดทางพันธุกรรม ที่เดิมได้มาจากการวิเคราะห์แบบข้อความ
ลิงก์งานวิจัย
แก่นของการถกเถียงช่วงนี้คือการตระหนักว่า การที่เราใช้แทนภาษาสำหรับเครื่องจักรนั้นเป็น นามธรรมแบบมีการสูญเสีย (lossy abstraction)
tokenization เป็นเพียงหนึ่งในนั้น ขณะที่พิกเซลหรือสัญญาณเสียงก็เป็นการประมาณอีกแบบหนึ่ง
คุณค่าที่แท้จริงของการทดลองลักษณะนี้อยู่ที่การตรวจสอบ สมมติฐานการออกแบบของสถาปัตยกรรมปัจจุบัน
แนวทางที่เรียนรู้การจัดแนวหลายโมดาลิตีอาจนำไปสู่การค้นพบ โครงสร้างแฝง หรือ วิธีการฝึก ที่ดีกว่า และสิ่งนั้นอาจย้อนกลับมาช่วยปรับปรุง text encoder แบบเดิมได้
โดยเฉพาะในภาษาที่ขอบเขตของคำไม่ชัดเจน วิธีเข้ารหัสทางเลือก อาจช่วยได้มาก
ประเด็น “การบีบอัดข้อมูล → context window ที่สั้นลง → ประสิทธิภาพที่ดีขึ้น” ที่กล่าวในงานวิจัยนั้นน่าสนใจ
แต่ก็อดสงสัยไม่ได้ว่า ถ้าขนาดตัวอักษร ฟอนต์ หรือระยะห่างเปลี่ยนไป อัตราการบีบอัดอาจ แย่ลง แทนหรือเปล่า
เห็นด้วยกับข้อโต้แย้งของ Karpathy
ข้อดีอย่างหนึ่งของ text token คือมันเรียนรู้ ความเข้าใจโดยนัยต่อวิธีป้อนข้อมูล (แป้นพิมพ์ QWERTY)
ตัวอย่างเช่น “Hello” กับ “Hwllo” จะถูกมองว่ามีความหมายใกล้กัน เพราะคีย์อยู่ติดกันบนคีย์บอร์ด
- ถ้า AI อ่านได้จากอินพุตแบบพิกเซล มันก็น่าจะมองรูปแบบอย่าง “HWLLO” หรือ “H3LL0” ว่าคล้ายกันได้ผ่าน ความคล้ายคลึงทางภาพ
  แม้อาจต้องฝึกมากขึ้น แต่สุดท้ายก็อาจได้ ความสามารถในการรับรู้แบบทั่วไป
- ฉันเห็นด้วยกับแนวคิด typo learning เรื่องนี้ฉันก็พูดไว้ในวิดีโอของฉัน
  เพราะเราก็สร้างคำพิมพ์ผิดในภาพเพื่อใช้ฝึกได้เหมือนกัน เลยคิดว่าไม่น่าใช่ปัญหาใหญ่
เวลานึกถึงตัวเอง สิ่งที่ได้ยินในหัวคือ กระแสของคำพูด
ไม่ใช่หน้ากระดาษหรือภาพ แต่เป็นความรู้สึกเหมือน คำที่อยู่ในรูปของเสียง ไหลต่อเนื่องกัน
tokenization แบบปัจจุบันอาจไม่มีประสิทธิภาพ ภาษาเองมี โครงสร้างการบีบอัดระดับสูง อยู่แล้ว
แต่ก็เป็นไปได้ว่ายังมีรูปแบบการแทนที่ดีกว่าอยู่ใน latent space
- ในอุตสาหกรรมเองก็รู้กันดีถึง ข้อจำกัดของ tokenizer แต่การสร้างวิธีที่มาแทนได้และ scale ได้จริง นั้นยากมาก
- โมเดลภาพใช้ โทเค็นที่มีหน่วยใหญ่กว่า ส่วนในข้อความก็อาจสร้างพจนานุกรมโทเค็นขนาดใหญ่แบบอิง n-gram ได้
  แต่โครงสร้าง LLM ปัจจุบันไม่มีประสิทธิภาพพอจะจัดการกับ การกระจายเอาต์พุตที่ใหญ่เกินไป
รู้สึกว่าแนวทางนี้ยังห่างไกลจากการใช้งานจริง
ทุกครั้งที่ ChatGPT เสนอว่า “จะลองทำเป็นภาพให้ดูไหม?” ผลลัพธ์ที่ออกมาก็มักเต็มไปด้วย ภาพหลอน (hallucination)
- แต่ การสร้างภาพ กับ การรับภาพเป็นอินพุต เป็นคนละปัญหากันโดยสิ้นเชิง
  สิ่งที่พูดกันตรงนี้คือการแปลงข้อความเป็นภาพแล้วป้อนเข้า LLM ไม่ใช่การสร้างภาพ
การถกเถียงที่เกี่ยวข้องเมื่อไม่นานมานี้ได้แก่
กรณีรัน DeepSeek-OCR บน Nvidia Spark และ
โปรเจกต์ DeepSeek OCR
ทั้งสองหัวข้อถูกพูดถึงอย่างคึกคักในเดือนตุลาคม 2025

อินพุตแบบพิกเซลดีกว่าข้อความหรือไม่? คำถามที่ Karpathy ตั้งต่อบทความ DeepSeek-OCR

แนวคิดหลักของบทความ DeepSeek-OCR

ประเด็นคำถามของ Karpathy

ความหมายทางเทคนิคและผลกระทบที่อาจเกิดขึ้น

นัยต่ออุตสาหกรรม

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News