พรีวิว Moondream 3: ยกระดับการให้เหตุผลล้ำสมัยด้วยความเร็วที่พลิกโฉม

(moondream.ai)

14 คะแนน โดย GN⁺ 2025-09-28 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Moondream 3 ใช้สถาปัตยกรรม 9B MoE และ พารามิเตอร์ที่ทำงานจริง 2B เพื่อให้ได้ทั้งประสิทธิภาพ การให้เหตุผลด้านภาพ ระดับล้ำสมัย และความเร็วในการอนุมานที่รวดเร็วมีประสิทธิภาพ
โมเดลนี้ออกแบบโดยเน้น สถาปัตยกรรมที่เหมาะกับงานวิชันในโลกจริง, ความสามารถในการฝึกได้ง่าย, ความเร็วสูง และต้นทุนต่ำ
แสดงประสิทธิภาพที่แข็งแกร่งในงานประยุกต์จริงหลากหลายด้าน เช่น การตรวจจับวัตถุ, การชี้ตำแหน่ง, เอาต์พุตแบบมีโครงสร้าง, OCR
รองรับความยาวคอนเท็กซ์ 32k โทเค็น ช่วยเสริมความสามารถในการจัดการ คำถามและคำตอบที่ซับซ้อน อย่างมาก
เบนช์มาร์กเบื้องต้นแสดงให้เห็นว่ามีความได้เปรียบด้าน ความเร็วในการตอบสนองและประสิทธิภาพ เมื่อเทียบกับโมเดลขนาดใหญ่เดิม

บทนำและเป้าหมายหลัก

Moondream 3 คือโมเดล vision-language ใหม่ที่สร้างบนสถาปัตยกรรม 9B Mixture-of-Experts(MoE) และ พารามิเตอร์ที่ทำงานจริง 2B
ตั้งเป้าทั้ง ความสามารถในการให้เหตุผลเชิงภาพระดับล้ำสมัย และประสิทธิภาพการอนุมานที่รวดเร็วมากพร้อมความคุ้มค่าด้านต้นทุน เมื่อเทียบกับโมเดลเดิม
เพื่อแก้ปัญหาในโลกจริง โมเดลนี้จึงมุ่งเน้น 4 ด้านหลักดังต่อไปนี้
- การให้เหตุผลด้านภาพ: มุ่งให้ความสามารถยอดเยี่ยมในงานจริง แม้โมเดลจะมีขนาดเล็ก โดยไม่ต้องแลกกับความสามารถที่ใช้งานได้จริง
- ความง่ายในการฝึก: ให้ความสำคัญกับการ fine-tune ที่ทำได้ง่ายสำหรับงานวิชันเฉพาะทาง เช่น การอ่านภาพทางการแพทย์ หรือการตรวจจับพฤติกรรมผิดปกติในฝูงชน
- ความเร็ว: รองรับความเร็วสูงสำหรับแอปพลิเคชัน vision AI ที่ต้องประมวลผลแบบเรียลไทม์ เช่น การคัดแยกผลิตภัณฑ์ หรือการเฝ้าระวังด้วยโดรน
- ต้นทุนต่ำ: มุ่งลด ต้นทุนการดำเนินงาน ให้ต่ำที่สุด แม้จะใช้งานในสเกลใหญ่สำหรับสภาพแวดล้อมที่ต้องประมวลผลภาพจำนวนมาก
แม้เป็นโมเดล 9B MoE แต่ให้ทำงานจริงเพียง 2B active parameters จึงเปิดทางสู่การอนุมานแบบเรียลไทม์ที่รวดเร็วและมีต้นทุนต่ำ
ใช้ Reinforcement Learning เพื่อเสริม ประสิทธิภาพการฝึก ทำให้ปรับตัวได้ดีแม้ในสภาพแวดล้อมที่ซับซ้อน
ขยาย ความยาวคอนเท็กซ์ จากเดิม 2k เป็น 32k อย่างมาก ช่วยแก้ข้อจำกัดด้านการจัดการบริบทที่ซับซ้อน

กรณีใช้งานจริงของ Moondream 3

การตรวจจับวัตถุ (Object Detection)
- Moondream 3 ไม่ได้หยุดแค่การจำแนกป้ายกำกับแบบง่าย ๆ แต่สามารถเข้าใจคำถามที่ซับซ้อนและตรวจจับวัตถุตามบริบทได้
- เมื่อเทียบกับ Frontier model ก็ให้ประสิทธิภาพที่แตกต่างในความสามารถพื้นฐานอย่าง การตรวจจับวัตถุและการชี้ตำแหน่ง
  - ตัวอย่าง 1: ตรวจจับ "นักวิ่งที่สวมถุงเท้าสีม่วง"
  - ตัวอย่าง 2: ตรวจจับองค์ประกอบ UI "ป้อนจำนวน"
การชี้ตำแหน่ง (Pointing)
- Moondream 3 มีความสามารถในการ ชี้ตำแหน่ง (pointing) วัตถุเฉพาะในภาพได้อย่างแม่นยำเป็นฟังก์ชันพื้นฐานในตัว
  - ตัวอย่าง 3: ชี้ตำแหน่งวัตถุ "ขวด"
  - ตัวอย่าง 4: เลือก "อุปกรณ์ทำครัวที่เหมาะที่สุดสำหรับพาสตา"
เอาต์พุตแบบมีโครงสร้าง (Structured Output)
- ด้วยความยาวคอนเท็กซ์ 32k ทำให้สร้าง เอาต์พุตที่มีโครงสร้างซับซ้อน ได้ดีขึ้น และสามารถส่งคืนผลลัพธ์ในรูปแบบข้อมูลอย่าง JSON ได้ด้วยพรอมป์ต์เพียงเล็กน้อย
  - ตัวอย่าง 5: สร้าง JSON array ของข้อมูลสุนัขลากเลื่อน โดยมีฟิลด์ dog_id, fur_color, harness_color
OCR (การรู้จำอักขระด้วยแสง)
- ประสิทธิภาพ OCR ดีขึ้นอย่างมาก เมื่อเทียบกับเดิม และนำไปใช้ได้กับงานจริงหลากหลายรูปแบบ
- แม้จะยังมีข้อจำกัดบางส่วนกับตัวอักษรที่เล็กมาก แต่แสดงความแม่นยำสูงในการดึงข้อมูลเชิงโครงสร้าง เช่น ตาราง
  - ตัวอย่าง 6: แปลงตารางปฏิกิริยาเคมีเป็นตาราง Markdown

เบนช์มาร์ก

Moondream 3 แสดง ประสิทธิภาพที่เทียบเคียงได้กับ VLM ชั้นนำ ในเบนช์มาร์กหลากหลายชุด
อย่างไรก็ตาม Moondream 3 ยังคงพิสูจน์ข้อได้เปรียบที่เป็นรูปธรรมเหนือโมเดลขนาดใหญ่ในด้านความเร็วในการตอบสนองอย่างต่อเนื่อง
มีแผนจะเปิดเผยผลเบนช์มาร์กที่สมบูรณ์ยิ่งขึ้นและ การเปรียบเทียบเวลาอนุมาน ในภายหลัง

หมายเหตุทางเทคนิคของ Moondream 3

เป็น โมเดล Mixture-of-Experts แบบ sparse ละเอียดสูง ที่มีผู้เชี่ยวชาญ 64 คน โดยจะมี 8 คนถูกเปิดใช้งานในทุกโทเค็น
ใช้เทคนิคการเริ่มต้นแบบ drop upcycling จาก Moondream 2(2B Dense)
รองรับความยาวคอนเท็กซ์เต็ม 32k โทเค็นในการฝึกจริง
ผสมตัวอย่างคอนเท็กซ์ยาวเข้าไปใน pretraining เพื่อให้ใช้งานได้อย่างมีประสิทธิภาพโดยไม่ต้องมีขั้นตอนขยายคอนเท็กซ์เพิ่มเติม
เสริมความเข้าใจบริบทยาวด้วย temperature scaling ระหว่างการฝึก และการปรับ structured attention
รองรับทั้งโหมดการให้เหตุผลเชิงตรรกะและการอธิบายแบบไม่ใช่ตรรกะ โดยเชี่ยวชาญเป็นพิเศษด้าน image grounding
ผ่านการฝึกแบบ reinforcement learning (RL) เพื่อค่อย ๆ เพิ่มการพึ่งพาตัวอย่างการให้เหตุผลเชิงภาพและความสามารถในการปรับตัว
ใช้ load balancing, router orthogonal loss เป็นต้น เพื่อกระตุ้นการทำงานเฉพาะทางในระดับโทเค็น แล้วเสริมเสถียรภาพในขั้นตอน post-training
ปรับปรุงองค์ประกอบ attention เช่น LSE suppression, temperature tuning เพื่อเพิ่มทั้งความแม่นยำและความชัดเจน

บทสรุปและแผนในอนาคต

พรีวิวครั้งนี้อาจยังทำงานช้าเนื่องจาก โค้ดอนุมานที่ยังไม่ได้ปรับแต่งให้เหมาะสม และขณะนี้กำลังมีการฝึกโมเดลเพิ่มเติม
ใน เวอร์ชันทางการ ที่จะออกในอนาคต คาดว่าทั้งประสิทธิภาพ เบนช์มาร์ก และความเร็วในการอนุมานจะดีขึ้นอย่างมาก
รวมถึงมีแผนสร้าง โมเดลแตกแขนงหลายแบบ เช่น เวอร์ชัน quantized และ distilled ขนาดเล็ก
สามารถใช้งานได้บน Moondream Playground และ HuggingFace และสามารถส่งฟีดแบ็กหรือสอบถามเพิ่มเติมได้ผ่าน Discord

หมายเหตุ: ใน Frontier model ไม่มีการรองรับการตรวจจับวัตถุพื้นฐานโดยตรง จึงใช้ template prompt เพื่อการเปรียบเทียบ

1 ความคิดเห็น

GN⁺ 2025-09-28

ความคิดเห็นจาก Hacker News

ผมใช้งาน Moondream 2 ได้คุ้มมาก ส่วนใหญ่เอาไปทำ auto-labeling ให้ชุดข้อมูล object detection สำหรับคลาสใหม่ ๆ แล้ว distill ต่อเป็น CNN ที่เล็กกว่ามากแต่ความแม่นยำใกล้เคียงกัน
ตั้งแต่แท็กเวอร์ชัน 2025-01-09 เป็นต้นมา แทบไม่รู้สึกถึงการปรับปรุงด้านประสิทธิภาพที่ประกาศไว้เลย โดยรีลีสหลังจากนั้น recall ดีขึ้นก็จริง แต่เสียดายที่ precision ตกลงไปเยอะ
ถ้าจะช่วยแก้ปัญหาแบบนี้ได้ดีขึ้น ก็น่าจะดีถ้า vision-language model อย่าง Moondream รายงาน class confidence มาด้วย
ผมชอบมากที่มี API สำหรับ object detection โดยเฉพาะ แบบนี้ยังไม่เคยเห็นในโมเดลหรือ wrapper ตัวอื่น
รอคอยผลของการ optimize inference ใน Moondream 3 อยู่ ขอแสดงความยินดีกับทีม
ผู้ก่อตั้งอย่าง Vik ก็น่าติดตามบน X
- มีคำตอบว่า ถ้ามีตัวอย่างปัญหา precision/recall ก็ส่งอีเมลหา vik@m87.ai ได้เสมอ
ผมก็เคยใช้ทำ auto-labeling ชุดข้อมูลเหมือนกัน แล้วมันทำได้ดีมากจริง ๆ
ประสิทธิภาพของโมเดล Moondream น่าประทับใจมาก
แต่พอเห็นผลจากแล็บวิจัยบิ๊ก 3 แล้วก็ตกใจว่า Claude กับ OpenAI ทำได้แย่ขนาดนั้น
Gemini ถึงจะสู้ Moondream ไม่ได้ แต่ก็ยังเป็นตัวเดียวที่พอจะเรียกได้ว่าใช้งานได้
ไม่คิดมาก่อนเลยว่าช่องว่างด้านประสิทธิภาพจะใหญ่ขนาดนี้
- ที่น่าสนใจก็คือมีแค่ Gemini ที่อ่านเลขบนลูกเต๋า D20 ได้ถูกต้อง
  ChatGPT ตอบผิดตลอด ส่วน Claude เอาแต่บอกว่าอ่านไม่ได้เพราะหน้าบนของลูกเต๋าถูกบังอยู่ (ทั้งที่จริง ๆ ไม่ได้ถูกบัง)
- น่าแปลกที่ Moondream ทำได้ดีขนาดนี้แล้วยังไม่ถูกบิ๊กเทคเข้าซื้อ
  Anthropic, OpenAI และที่อื่น ๆ น่าจะอยากเอาเทคโนโลยีแบบนี้ไปใส่ในแพลตฟอร์มมาก
  คนสร้างควรได้รวย และถ้ารวมเข้ากับการเข้าถึงผู้ใช้ขององค์กรใหญ่ ๆ ประโยชน์ด้านการมองเห็นของ LLM ก็น่าจะใช้งานได้จริงขึ้นมาก
- Gemini เก่งมากกับงานที่ใกล้เคียง OCR แต่กับงานภาพแบบอื่นส่วนใหญ่ประสิทธิภาพมักจะตกลงชัดเจน
ผลลัพธ์ออกมาดูยอดเยี่ยมมาก
ผมเองก็เคยชอบใช้ Gemini กับงาน automation ของ bounding box แต่ถ้าโมเดล 9B ชนะได้ก็น่าตื่นเต้นมาก
Moondream 2 ใช้ไลเซนส์ Apache 2 แต่พอเป็น 3 preview เห็นว่าเป็น BSL เลยสงสัยว่ามีการเปลี่ยนไลเซนส์ถาวรหรือเปล่า
- ดูจาก ไลเซนส์ของ Moondream3 จะเปลี่ยนเป็น Apache 2 หลังจาก 2 ปี
paper.design ใช้ moondream2 อยู่เพื่อทำ auto-label ให้รูปที่ผู้ใช้อัปโหลด (สำหรับ layer tree)
เร็วและแม่นมากจริง ๆ กำลังรอ 3 เหมือนกัน
ผมใช้เวลา 5 นาทีหาข้อมูลราคา Moondream cloud แต่เหมือนจะยังไม่มีอยู่จริงเลย (อย่างน้อยก่อนสมัครยังไม่เห็น)
ถึงจะมีฟรี 5,000 requests แต่ก่อนจะเชื่อมเข้ากับบริการจริง สิ่งสำคัญอันดับแรกคือรู้ก่อนว่าราคาสมเหตุสมผลไหม
- cloud กำลังจะเปิดตัวเร็ว ๆ นี้
  ตอนนี้กำลัง optimize เพื่อลดต้นทุน inference ให้ต่ำลงอีก และเตรียมให้ได้ราคาที่ดีที่สุด
  ถ้าอยากรู้ข่าวเปิดตัวเร็ว ๆ จะไปติดตาม @moondreamai บน X ก็ได้
คิดว่าการเลือกสถาปัตยกรรม MoE น่าสนใจเป็นพิเศษ
การคงประสิทธิภาพระดับโมเดล 8B ไว้ได้ ทั้งที่ activate แค่ 2B parameters น่าจะเปลี่ยนเกมสำหรับการ deploy บน edge device ได้มาก
ผมมีประสบการณ์ deploy vision model ที่ production ซึ่ง latency สำคัญมาก และ sparse activation แบบนี้น่าจะช่วยลดข้อจำกัดด้านการนำไปใช้ที่เกิดจากต้นทุน inference ของ vision-language model ขนาดใหญ่ได้มากทีเดียว
ความสามารถในการเข้าใจ chart ก็เป็นอีกจุดที่น่าคาดหวังสำหรับ workflow งาน document automation
อยากรู้ว่ามีใครลองทดสอบความสม่ำเสมอของโมเดลกับคุณภาพภาพหรือสภาพแสงแบบอื่น ๆ บ้างหรือยัง
เพราะในเงื่อนไขแบบนี้ โมเดลขนาดเล็กมักจะลำบากกว่าโมเดล flagship มาก
เป็นโมเดลที่น่าประทับใจ
อยากรู้ว่ามีใครเคยเอาไปใช้ควบคุมคอมพิวเตอร์/เบราว์เซอร์บ้างไหม แล้วจัดการกับกราฟและ chart ได้ดีแค่ไหน
- สกิล point ถูกฝึกมาจากข้อมูล UI จำนวนมาก และมีผู้ใช้หลายคนเอาไปใช้ทำ UI automation ร่วมกับโมเดล driver ที่ใหญ่กว่า
  ก่อนปล่อยรีลีสสุดท้าย ทีมกำลังพยายามฝึกเพิ่มให้ทำงานแบบ end-to-end ในสภาพแวดล้อมแบบ agent ได้
  ด้วยเหตุนี้จึงเพิ่มความยาว context ขึ้นด้วย
  เรื่องการเข้าใจ chart นั้นมีหลายประเภท แต่โดยรวมถือว่าทำได้ค่อนข้างดี
  ในบล็อกได้เปิดเผย benchmark ของ ChartQA ไว้แล้ว และผลออกมาใกล้เคียง GPT5* พร้อมทั้งดีกว่า Gemini 2.5 Flash เล็กน้อย
  - อย่างไรก็ตาม GPT5 น่าจะทำงานกับ chart/graph ได้หลากหลายชนิดกว่ามาก ขณะที่ Moondream เหมาะกับ vision AI ที่ GPT5 ใช้ยากเพราะปัจจัยด้านราคา/latency
- ผมใช้อยู่กับงาน label ชุดข้อมูล และกำลังรอดูว่าผลจะออกมาเป็นอย่างไร
ผมสงสัยว่าแนวคิดเรื่อง 2B active parameters นี่หมายถึง inference ต่อ token หรือเปล่า แล้วถ้าความยาว context เปลี่ยนไป มันสเกลอย่างไร
อยากฟังคำอธิบายเพิ่มว่าจริง ๆ แล้ว MoE ส่งผลต่อการ activation ระหว่าง inference อย่างไร และมีความหมายเชิง latency แบบไหนในทางปฏิบัติ
มีใครแนะนำได้ไหมว่าฮาร์ดแวร์ที่ถูกที่สุดที่พอจะรันโมเดลนี้บนเครื่อง local ได้ในระดับใช้งานจริงคืออะไร
- ตอนนี้ยังไม่มีเวอร์ชัน quantized ดังนั้นเฉพาะ weights ก็ต้องใช้หน่วยความจำราว 20GB แล้ว
  ถ้ารวม KV cache ด้วย ชุด CPU + RAM 32GB น่าจะเป็นตัวเลือกที่ถูกที่สุดและยังเร็วพอใช้ได้
  เพราะจำนวน active parameters ต่ำ เลยทำงานบน CPU ได้ค่อนข้างดี
อยากเห็นผลเปรียบเทียบประสิทธิภาพระหว่างโมเดล Qwen3-VL กับ Moondream

พรีวิว Moondream 3: ยกระดับการให้เหตุผลล้ำสมัยด้วยความเร็วที่พลิกโฉม

บทนำและเป้าหมายหลัก

กรณีใช้งานจริงของ Moondream 3

การตรวจจับวัตถุ (Object Detection)

การชี้ตำแหน่ง (Pointing)

เอาต์พุตแบบมีโครงสร้าง (Structured Output)

OCR (การรู้จำอักขระด้วยแสง)

เบนช์มาร์ก

หมายเหตุทางเทคนิคของ Moondream 3

บทสรุปและแผนในอนาคต

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News