- บทความ DeepSeek-OCR ที่เผยแพร่เมื่อไม่นานมานี้สำรวจความเป็นไปได้ที่โมเดลภาษาขนาดใหญ่ (LLM) จะสามารถเรียนรู้ได้โดยรับ พิกเซลของภาพ โดยตรงเป็นอินพุตแทนข้อความ
- แนวทางนี้เสนอวิธีส่งข้อมูลเชิงภาพให้โมเดลโดยตรง โดยข้ามขั้นตอน OCR (การรู้จำอักขระด้วยแสง) แบบดั้งเดิม
- Karpathy กล่าวถึงบทความนี้พร้อมตั้งคำถามว่า อินพุตแบบพิกเซลอาจให้บริบทที่สมบูรณ์กว่าข้อความโทเค็น หรือไม่
- แนวคิดนี้สอดคล้องกับทิศทางการพัฒนาของ AI หลายโมดัล และเป็นการสำรวจเชิงทดลองว่าโมเดลภาษาจะสามารถทำให้ความเข้าใจเชิงภาพเป็นความสามารถภายในได้หรือไม่
- การถกเถียงนี้ถูกมองว่าเป็นกระแสการวิจัยสำคัญที่อาจนิยามใหม่ทั้ง โครงสร้างอินพุตและกระบวนทัศน์การเรียนรู้ของ LLM ในอนาคต
แนวคิดหลักของบทความ DeepSeek-OCR
- DeepSeek-OCR เสนอสถาปัตยกรรมโมเดลภาษาขนาดใหญ่ที่ ประมวลผลข้อมูลพิกเซลของภาพเอกสารโดยตรง แทนอินพุตแบบข้อความเดิม
- ระบบ OCR แบบดั้งเดิมจะดึงข้อความออกจากภาพก่อนแล้วจึงส่งต่อไปยังโมเดลภาษา แต่ในกระบวนการนี้ รูปร่างตัวอักษร เลย์เอาต์ และบริบทเชิงภาพ จะสูญหายไป
- DeepSeek-OCR ใช้ ข้อมูลเชิงภาพระดับพิกเซล เป็นอินพุตของโมเดลโดยตรงเพื่อลดการสูญเสียนี้
- โมเดลถูกออกแบบให้เข้าใจองค์ประกอบเชิงภาพหลากหลายภายในภาพ เช่น ตัวอักษร ตาราง สมการ และแผนภาพ ไปพร้อมกัน
- ด้วยเหตุนี้ จึงไม่เพียงทำการรู้จำข้อความเท่านั้น แต่ยังสามารถ เข้าใจโครงสร้างเอกสารและอนุมานความหมาย ได้ด้วย
ประเด็นคำถามของ Karpathy
- Karpathy กล่าวถึงบทความนี้ในเธรด Twitter ของเขาพร้อมตั้งคำถามว่า “พิกเซลเป็นอินพุตที่ดีกว่าข้อความหรือไม่?”
- เขาชี้ว่าวิธีการปัจจุบันที่ LLM เรียนรู้จากโทเค็นข้อความเพียงอย่างเดียวอาจทำให้เกิด การสูญเสียข้อมูล
- โดยเฉพาะหากโมเดลภาษาสามารถเรียนรู้บริบทเชิงภาพได้โดยตรง ก็อาจทำให้เกิด โครงสร้างการเรียนรู้แบบบูรณาการที่ตัดขั้นตอน OCR ออกไป ได้
- Karpathy ประเมินว่าแนวทางนี้มีศักยภาพในการเพิ่ม ความสามารถในการทำให้ทั่วไปของโมเดล และ ความเข้าใจแบบหลายโมดัล
- อย่างไรก็ตาม เขายังชี้ถึง ข้อจำกัดเชิงปฏิบัติ เช่น ต้นทุนการคำนวณที่สูงของอินพุตแบบพิกเซล และความยากในการสร้างชุดข้อมูลขนาดใหญ่
ความหมายทางเทคนิคและผลกระทบที่อาจเกิดขึ้น
- อินพุตแบบพิกเซลมีข้อดีคือ ความหนาแน่นของข้อมูลสูงกว่าและคงบริบทเชิงภาพไว้ได้ มากกว่าอินพุตแบบข้อความ
- ตัวอย่างเช่น ในเอกสารที่มีตารางหรือสมการ กระบวนการแปลงเป็นข้อความมักทำให้ข้อมูลเชิงโครงสร้างสูญหาย แต่การป้อนพิกเซลจะรักษาข้อมูลเหล่านี้ไว้ได้ครบ
- ในทางกลับกัน อินพุตแบบพิกเซลก็มาพร้อมปัญหาอย่าง จำนวนพารามิเตอร์โมเดลที่เพิ่มขึ้น, ต้นทุนการฝึกที่สูงขึ้น และ ความเร็วในการอนุมานที่ลดลง
- ดังนั้น ในการใช้งานจริง แนวทางไฮบริดระหว่างข้อความกับพิกเซล จึงถูกพูดถึงในฐานะทางเลือกที่สมเหตุสมผล
- การถกเถียงนี้ถูกมองว่าเป็นการสำรวจเชิงทดลองว่า LLM จะสามารถทำให้ ความสามารถในการรับรู้เชิงภาพและเชิงพื้นที่ กลายเป็นส่วนหนึ่งภายในโมเดลได้หรือไม่ นอกเหนือจากความเข้าใจภาษาเพียงอย่างเดียว
นัยต่ออุตสาหกรรม
- สำหรับอุตสาหกรรมที่ต้องจัดการกับ โครงสร้างเอกสารที่ซับซ้อน เช่น การประมวลผลเอกสาร การเงิน กฎหมาย และการแพทย์ แนวทางของ DeepSeek-OCR มีความหมายอย่างมาก
- ตัวอย่างเช่น สามารถสร้างระบบ AI ที่เข้าใจการจัดวางเชิงภาพของสัญญาหรือใบแจ้งหนี้ที่สแกนมาได้โดยตรง
- การอภิปรายของ Karpathy กระตุ้นให้เกิด การทบทวนรูปแบบอินพุตของ AI อย่างถึงราก และมีแนวโน้มที่จะส่งผลต่อทิศทางการออกแบบ LLM ในอนาคต
- LLM ที่ใช้อินพุตแบบพิกเซลอาจนำไปสู่ การแทนที่หรือบูรณาการเทคโนโลยี OCR และกำลังได้รับความสนใจในฐานะจุดเปลี่ยนใหม่ของงานวิจัย AI หลายโมดัล
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
ไม่ใช่พิกเซล แต่เป็น percel ต่างหาก พิกเซลคือจุดในภาพ แต่ percel คือ หน่วยข้อมูลเชิงการรับรู้ ที่อาจรวมถึงเสียง ความรู้สึก หรือแม้แต่โทเค็นของความคิด
สำหรับมนุษย์ เรารับรู้ percel ที่หลอมรวมหลายประสาทสัมผัสเข้าด้วยกัน และโครงข่ายประสาท (โดยเฉพาะ LLM) ก็ไม่ได้ประมวลผล percel แบบแยกเดี่ยว แต่จัดการมันร่วมกันภายใต้ บริบท (context) ของ percel ที่อยู่ข้างเคียง
ศักยภาพของงานวิจัยข้ามสาขามีสูงมาก แต่ก็น่าเสียดายที่ความจริงคือมันขอทุนได้ยากเพียงเพราะไม่เข้ากับกรอบเดิม
“Kill the tokenizer” เป็นข้อเสนอที่รุนแรง แต่แตะถึงรากของปัญหา
การทำ tokenization เป็นเพียง วิธีแก้ขัด (hack) เพื่อทำให้ภาษากลายเป็นเชิงปริมาณ และมันบิดเบือนแก่นแท้ของภาษา
แนวคิดที่ว่าพิกเซลอาจเป็นหน่วยแทนความหมายที่ทรงพลังกว่ายังฟังแปลกใหม่ แต่ก็ต้องมีใครสักคนลองแนวทางใหม่
เพราะอย่างนั้น อินพุตที่อิงภาพ จึงให้ความรู้สึกเหมือนเป็นผลลัพธ์ตามธรรมชาติของวิวัฒนาการ
ถ้าแทนที่จะเรนเดอร์ข้อความแล้วอ่านด้วย OCR เรา เข้ารหัสตัวอย่างเสียงด้วย TTS อาจมีประสิทธิภาพกว่าพิกเซลก็ได้ แน่นอนว่านั่นก็ขึ้นกับความละเอียดหรือ sample rate ด้วย
มีงานวิจัยที่น่าสนใจที่เกี่ยวข้องกัน โดย Lex Flagel และคณะได้แปลงข้อมูลลำดับ DNA ให้เป็นภาพแล้วฝึกด้วย CNN
ผลคือ CNN สามารถทำซ้ำ ค่าชี้วัดทางพันธุกรรม ที่เดิมได้มาจากการวิเคราะห์แบบข้อความ
ลิงก์งานวิจัย
แก่นของการถกเถียงช่วงนี้คือการตระหนักว่า การที่เราใช้แทนภาษาสำหรับเครื่องจักรนั้นเป็น นามธรรมแบบมีการสูญเสีย (lossy abstraction)
tokenization เป็นเพียงหนึ่งในนั้น ขณะที่พิกเซลหรือสัญญาณเสียงก็เป็นการประมาณอีกแบบหนึ่ง
คุณค่าที่แท้จริงของการทดลองลักษณะนี้อยู่ที่การตรวจสอบ สมมติฐานการออกแบบของสถาปัตยกรรมปัจจุบัน
แนวทางที่เรียนรู้การจัดแนวหลายโมดาลิตีอาจนำไปสู่การค้นพบ โครงสร้างแฝง หรือ วิธีการฝึก ที่ดีกว่า และสิ่งนั้นอาจย้อนกลับมาช่วยปรับปรุง text encoder แบบเดิมได้
โดยเฉพาะในภาษาที่ขอบเขตของคำไม่ชัดเจน วิธีเข้ารหัสทางเลือก อาจช่วยได้มาก
ประเด็น “การบีบอัดข้อมูล → context window ที่สั้นลง → ประสิทธิภาพที่ดีขึ้น” ที่กล่าวในงานวิจัยนั้นน่าสนใจ
แต่ก็อดสงสัยไม่ได้ว่า ถ้าขนาดตัวอักษร ฟอนต์ หรือระยะห่างเปลี่ยนไป อัตราการบีบอัดอาจ แย่ลง แทนหรือเปล่า
เห็นด้วยกับข้อโต้แย้งของ Karpathy
ข้อดีอย่างหนึ่งของ text token คือมันเรียนรู้ ความเข้าใจโดยนัยต่อวิธีป้อนข้อมูล (แป้นพิมพ์ QWERTY)
ตัวอย่างเช่น “Hello” กับ “Hwllo” จะถูกมองว่ามีความหมายใกล้กัน เพราะคีย์อยู่ติดกันบนคีย์บอร์ด
แม้อาจต้องฝึกมากขึ้น แต่สุดท้ายก็อาจได้ ความสามารถในการรับรู้แบบทั่วไป
เพราะเราก็สร้างคำพิมพ์ผิดในภาพเพื่อใช้ฝึกได้เหมือนกัน เลยคิดว่าไม่น่าใช่ปัญหาใหญ่
เวลานึกถึงตัวเอง สิ่งที่ได้ยินในหัวคือ กระแสของคำพูด
ไม่ใช่หน้ากระดาษหรือภาพ แต่เป็นความรู้สึกเหมือน คำที่อยู่ในรูปของเสียง ไหลต่อเนื่องกัน
tokenization แบบปัจจุบันอาจไม่มีประสิทธิภาพ ภาษาเองมี โครงสร้างการบีบอัดระดับสูง อยู่แล้ว
แต่ก็เป็นไปได้ว่ายังมีรูปแบบการแทนที่ดีกว่าอยู่ใน latent space
แต่โครงสร้าง LLM ปัจจุบันไม่มีประสิทธิภาพพอจะจัดการกับ การกระจายเอาต์พุตที่ใหญ่เกินไป
รู้สึกว่าแนวทางนี้ยังห่างไกลจากการใช้งานจริง
ทุกครั้งที่ ChatGPT เสนอว่า “จะลองทำเป็นภาพให้ดูไหม?” ผลลัพธ์ที่ออกมาก็มักเต็มไปด้วย ภาพหลอน (hallucination)
สิ่งที่พูดกันตรงนี้คือการแปลงข้อความเป็นภาพแล้วป้อนเข้า LLM ไม่ใช่การสร้างภาพ
การถกเถียงที่เกี่ยวข้องเมื่อไม่นานมานี้ได้แก่
กรณีรัน DeepSeek-OCR บน Nvidia Spark และ
โปรเจกต์ DeepSeek OCR
ทั้งสองหัวข้อถูกพูดถึงอย่างคึกคักในเดือนตุลาคม 2025