- Moondream 3 ใช้สถาปัตยกรรม 9B MoE และ พารามิเตอร์ที่ทำงานจริง 2B เพื่อให้ได้ทั้งประสิทธิภาพ การให้เหตุผลด้านภาพ ระดับล้ำสมัย และความเร็วในการอนุมานที่รวดเร็วมีประสิทธิภาพ
- โมเดลนี้ออกแบบโดยเน้น สถาปัตยกรรมที่เหมาะกับงานวิชันในโลกจริง, ความสามารถในการฝึกได้ง่าย, ความเร็วสูง และต้นทุนต่ำ
- แสดงประสิทธิภาพที่แข็งแกร่งในงานประยุกต์จริงหลากหลายด้าน เช่น การตรวจจับวัตถุ, การชี้ตำแหน่ง, เอาต์พุตแบบมีโครงสร้าง, OCR
- รองรับความยาวคอนเท็กซ์ 32k โทเค็น ช่วยเสริมความสามารถในการจัดการ คำถามและคำตอบที่ซับซ้อน อย่างมาก
- เบนช์มาร์กเบื้องต้นแสดงให้เห็นว่ามีความได้เปรียบด้าน ความเร็วในการตอบสนองและประสิทธิภาพ เมื่อเทียบกับโมเดลขนาดใหญ่เดิม
บทนำและเป้าหมายหลัก
- Moondream 3 คือโมเดล vision-language ใหม่ที่สร้างบนสถาปัตยกรรม 9B Mixture-of-Experts(MoE) และ พารามิเตอร์ที่ทำงานจริง 2B
- ตั้งเป้าทั้ง ความสามารถในการให้เหตุผลเชิงภาพระดับล้ำสมัย และประสิทธิภาพการอนุมานที่รวดเร็วมากพร้อมความคุ้มค่าด้านต้นทุน เมื่อเทียบกับโมเดลเดิม
- เพื่อแก้ปัญหาในโลกจริง โมเดลนี้จึงมุ่งเน้น 4 ด้านหลักดังต่อไปนี้
- การให้เหตุผลด้านภาพ: มุ่งให้ความสามารถยอดเยี่ยมในงานจริง แม้โมเดลจะมีขนาดเล็ก โดยไม่ต้องแลกกับความสามารถที่ใช้งานได้จริง
- ความง่ายในการฝึก: ให้ความสำคัญกับการ fine-tune ที่ทำได้ง่ายสำหรับงานวิชันเฉพาะทาง เช่น การอ่านภาพทางการแพทย์ หรือการตรวจจับพฤติกรรมผิดปกติในฝูงชน
- ความเร็ว: รองรับความเร็วสูงสำหรับแอปพลิเคชัน vision AI ที่ต้องประมวลผลแบบเรียลไทม์ เช่น การคัดแยกผลิตภัณฑ์ หรือการเฝ้าระวังด้วยโดรน
- ต้นทุนต่ำ: มุ่งลด ต้นทุนการดำเนินงาน ให้ต่ำที่สุด แม้จะใช้งานในสเกลใหญ่สำหรับสภาพแวดล้อมที่ต้องประมวลผลภาพจำนวนมาก
- แม้เป็นโมเดล 9B MoE แต่ให้ทำงานจริงเพียง 2B active parameters จึงเปิดทางสู่การอนุมานแบบเรียลไทม์ที่รวดเร็วและมีต้นทุนต่ำ
- ใช้ Reinforcement Learning เพื่อเสริม ประสิทธิภาพการฝึก ทำให้ปรับตัวได้ดีแม้ในสภาพแวดล้อมที่ซับซ้อน
- ขยาย ความยาวคอนเท็กซ์ จากเดิม 2k เป็น 32k อย่างมาก ช่วยแก้ข้อจำกัดด้านการจัดการบริบทที่ซับซ้อน
กรณีใช้งานจริงของ Moondream 3
-
การตรวจจับวัตถุ (Object Detection)
- Moondream 3 ไม่ได้หยุดแค่การจำแนกป้ายกำกับแบบง่าย ๆ แต่สามารถเข้าใจคำถามที่ซับซ้อนและตรวจจับวัตถุตามบริบทได้
- เมื่อเทียบกับ Frontier model ก็ให้ประสิทธิภาพที่แตกต่างในความสามารถพื้นฐานอย่าง การตรวจจับวัตถุและการชี้ตำแหน่ง
- ตัวอย่าง 1: ตรวจจับ "นักวิ่งที่สวมถุงเท้าสีม่วง"
- ตัวอย่าง 2: ตรวจจับองค์ประกอบ UI "ป้อนจำนวน"
-
การชี้ตำแหน่ง (Pointing)
- Moondream 3 มีความสามารถในการ ชี้ตำแหน่ง (pointing) วัตถุเฉพาะในภาพได้อย่างแม่นยำเป็นฟังก์ชันพื้นฐานในตัว
- ตัวอย่าง 3: ชี้ตำแหน่งวัตถุ "ขวด"
- ตัวอย่าง 4: เลือก "อุปกรณ์ทำครัวที่เหมาะที่สุดสำหรับพาสตา"
- Moondream 3 มีความสามารถในการ ชี้ตำแหน่ง (pointing) วัตถุเฉพาะในภาพได้อย่างแม่นยำเป็นฟังก์ชันพื้นฐานในตัว
-
เอาต์พุตแบบมีโครงสร้าง (Structured Output)
- ด้วยความยาวคอนเท็กซ์ 32k ทำให้สร้าง เอาต์พุตที่มีโครงสร้างซับซ้อน ได้ดีขึ้น และสามารถส่งคืนผลลัพธ์ในรูปแบบข้อมูลอย่าง JSON ได้ด้วยพรอมป์ต์เพียงเล็กน้อย
- ตัวอย่าง 5: สร้าง JSON array ของข้อมูลสุนัขลากเลื่อน โดยมีฟิลด์ dog_id, fur_color, harness_color
- ด้วยความยาวคอนเท็กซ์ 32k ทำให้สร้าง เอาต์พุตที่มีโครงสร้างซับซ้อน ได้ดีขึ้น และสามารถส่งคืนผลลัพธ์ในรูปแบบข้อมูลอย่าง JSON ได้ด้วยพรอมป์ต์เพียงเล็กน้อย
-
OCR (การรู้จำอักขระด้วยแสง)
- ประสิทธิภาพ OCR ดีขึ้นอย่างมาก เมื่อเทียบกับเดิม และนำไปใช้ได้กับงานจริงหลากหลายรูปแบบ
- แม้จะยังมีข้อจำกัดบางส่วนกับตัวอักษรที่เล็กมาก แต่แสดงความแม่นยำสูงในการดึงข้อมูลเชิงโครงสร้าง เช่น ตาราง
- ตัวอย่าง 6: แปลงตารางปฏิกิริยาเคมีเป็นตาราง Markdown
เบนช์มาร์ก
- Moondream 3 แสดง ประสิทธิภาพที่เทียบเคียงได้กับ VLM ชั้นนำ ในเบนช์มาร์กหลากหลายชุด
- อย่างไรก็ตาม Moondream 3 ยังคงพิสูจน์ข้อได้เปรียบที่เป็นรูปธรรมเหนือโมเดลขนาดใหญ่ในด้านความเร็วในการตอบสนองอย่างต่อเนื่อง
- มีแผนจะเปิดเผยผลเบนช์มาร์กที่สมบูรณ์ยิ่งขึ้นและ การเปรียบเทียบเวลาอนุมาน ในภายหลัง
หมายเหตุทางเทคนิคของ Moondream 3
- เป็น โมเดล Mixture-of-Experts แบบ sparse ละเอียดสูง ที่มีผู้เชี่ยวชาญ 64 คน โดยจะมี 8 คนถูกเปิดใช้งานในทุกโทเค็น
- ใช้เทคนิคการเริ่มต้นแบบ drop upcycling จาก Moondream 2(2B Dense)
- รองรับความยาวคอนเท็กซ์เต็ม 32k โทเค็นในการฝึกจริง
- ผสมตัวอย่างคอนเท็กซ์ยาวเข้าไปใน pretraining เพื่อให้ใช้งานได้อย่างมีประสิทธิภาพโดยไม่ต้องมีขั้นตอนขยายคอนเท็กซ์เพิ่มเติม
- เสริมความเข้าใจบริบทยาวด้วย temperature scaling ระหว่างการฝึก และการปรับ structured attention
- รองรับทั้งโหมดการให้เหตุผลเชิงตรรกะและการอธิบายแบบไม่ใช่ตรรกะ โดยเชี่ยวชาญเป็นพิเศษด้าน image grounding
- ผ่านการฝึกแบบ reinforcement learning (RL) เพื่อค่อย ๆ เพิ่มการพึ่งพาตัวอย่างการให้เหตุผลเชิงภาพและความสามารถในการปรับตัว
- ใช้ load balancing, router orthogonal loss เป็นต้น เพื่อกระตุ้นการทำงานเฉพาะทางในระดับโทเค็น แล้วเสริมเสถียรภาพในขั้นตอน post-training
- ปรับปรุงองค์ประกอบ attention เช่น LSE suppression, temperature tuning เพื่อเพิ่มทั้งความแม่นยำและความชัดเจน
บทสรุปและแผนในอนาคต
- พรีวิวครั้งนี้อาจยังทำงานช้าเนื่องจาก โค้ดอนุมานที่ยังไม่ได้ปรับแต่งให้เหมาะสม และขณะนี้กำลังมีการฝึกโมเดลเพิ่มเติม
- ใน เวอร์ชันทางการ ที่จะออกในอนาคต คาดว่าทั้งประสิทธิภาพ เบนช์มาร์ก และความเร็วในการอนุมานจะดีขึ้นอย่างมาก
- รวมถึงมีแผนสร้าง โมเดลแตกแขนงหลายแบบ เช่น เวอร์ชัน quantized และ distilled ขนาดเล็ก
- สามารถใช้งานได้บน Moondream Playground และ HuggingFace และสามารถส่งฟีดแบ็กหรือสอบถามเพิ่มเติมได้ผ่าน Discord
หมายเหตุ: ใน Frontier model ไม่มีการรองรับการตรวจจับวัตถุพื้นฐานโดยตรง จึงใช้ template prompt เพื่อการเปรียบเทียบ
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
ตั้งแต่แท็กเวอร์ชัน 2025-01-09 เป็นต้นมา แทบไม่รู้สึกถึงการปรับปรุงด้านประสิทธิภาพที่ประกาศไว้เลย โดยรีลีสหลังจากนั้น recall ดีขึ้นก็จริง แต่เสียดายที่ precision ตกลงไปเยอะ
ถ้าจะช่วยแก้ปัญหาแบบนี้ได้ดีขึ้น ก็น่าจะดีถ้า vision-language model อย่าง Moondream รายงาน class confidence มาด้วย
ผมชอบมากที่มี API สำหรับ object detection โดยเฉพาะ แบบนี้ยังไม่เคยเห็นในโมเดลหรือ wrapper ตัวอื่น
รอคอยผลของการ optimize inference ใน Moondream 3 อยู่ ขอแสดงความยินดีกับทีม
ผู้ก่อตั้งอย่าง Vik ก็น่าติดตามบน X
แต่พอเห็นผลจากแล็บวิจัยบิ๊ก 3 แล้วก็ตกใจว่า Claude กับ OpenAI ทำได้แย่ขนาดนั้น
Gemini ถึงจะสู้ Moondream ไม่ได้ แต่ก็ยังเป็นตัวเดียวที่พอจะเรียกได้ว่าใช้งานได้
ไม่คิดมาก่อนเลยว่าช่องว่างด้านประสิทธิภาพจะใหญ่ขนาดนี้
ChatGPT ตอบผิดตลอด ส่วน Claude เอาแต่บอกว่าอ่านไม่ได้เพราะหน้าบนของลูกเต๋าถูกบังอยู่ (ทั้งที่จริง ๆ ไม่ได้ถูกบัง)
Anthropic, OpenAI และที่อื่น ๆ น่าจะอยากเอาเทคโนโลยีแบบนี้ไปใส่ในแพลตฟอร์มมาก
คนสร้างควรได้รวย และถ้ารวมเข้ากับการเข้าถึงผู้ใช้ขององค์กรใหญ่ ๆ ประโยชน์ด้านการมองเห็นของ LLM ก็น่าจะใช้งานได้จริงขึ้นมาก
ผมเองก็เคยชอบใช้ Gemini กับงาน automation ของ bounding box แต่ถ้าโมเดล 9B ชนะได้ก็น่าตื่นเต้นมาก
Moondream 2 ใช้ไลเซนส์ Apache 2 แต่พอเป็น 3 preview เห็นว่าเป็น BSL เลยสงสัยว่ามีการเปลี่ยนไลเซนส์ถาวรหรือเปล่า
เร็วและแม่นมากจริง ๆ กำลังรอ 3 เหมือนกัน
ถึงจะมีฟรี 5,000 requests แต่ก่อนจะเชื่อมเข้ากับบริการจริง สิ่งสำคัญอันดับแรกคือรู้ก่อนว่าราคาสมเหตุสมผลไหม
ตอนนี้กำลัง optimize เพื่อลดต้นทุน inference ให้ต่ำลงอีก และเตรียมให้ได้ราคาที่ดีที่สุด
ถ้าอยากรู้ข่าวเปิดตัวเร็ว ๆ จะไปติดตาม @moondreamai บน X ก็ได้
การคงประสิทธิภาพระดับโมเดล 8B ไว้ได้ ทั้งที่ activate แค่ 2B parameters น่าจะเปลี่ยนเกมสำหรับการ deploy บน edge device ได้มาก
ผมมีประสบการณ์ deploy vision model ที่ production ซึ่ง latency สำคัญมาก และ sparse activation แบบนี้น่าจะช่วยลดข้อจำกัดด้านการนำไปใช้ที่เกิดจากต้นทุน inference ของ vision-language model ขนาดใหญ่ได้มากทีเดียว
ความสามารถในการเข้าใจ chart ก็เป็นอีกจุดที่น่าคาดหวังสำหรับ workflow งาน document automation
อยากรู้ว่ามีใครลองทดสอบความสม่ำเสมอของโมเดลกับคุณภาพภาพหรือสภาพแสงแบบอื่น ๆ บ้างหรือยัง
เพราะในเงื่อนไขแบบนี้ โมเดลขนาดเล็กมักจะลำบากกว่าโมเดล flagship มาก
อยากรู้ว่ามีใครเคยเอาไปใช้ควบคุมคอมพิวเตอร์/เบราว์เซอร์บ้างไหม แล้วจัดการกับกราฟและ chart ได้ดีแค่ไหน
pointถูกฝึกมาจากข้อมูล UI จำนวนมาก และมีผู้ใช้หลายคนเอาไปใช้ทำ UI automation ร่วมกับโมเดล driver ที่ใหญ่กว่าก่อนปล่อยรีลีสสุดท้าย ทีมกำลังพยายามฝึกเพิ่มให้ทำงานแบบ end-to-end ในสภาพแวดล้อมแบบ agent ได้
ด้วยเหตุนี้จึงเพิ่มความยาว context ขึ้นด้วย
เรื่องการเข้าใจ chart นั้นมีหลายประเภท แต่โดยรวมถือว่าทำได้ค่อนข้างดี
ในบล็อกได้เปิดเผย benchmark ของ ChartQA ไว้แล้ว และผลออกมาใกล้เคียง GPT5* พร้อมทั้งดีกว่า Gemini 2.5 Flash เล็กน้อย
อยากฟังคำอธิบายเพิ่มว่าจริง ๆ แล้ว MoE ส่งผลต่อการ activation ระหว่าง inference อย่างไร และมีความหมายเชิง latency แบบไหนในทางปฏิบัติ
ถ้ารวม KV cache ด้วย ชุด CPU + RAM 32GB น่าจะเป็นตัวเลือกที่ถูกที่สุดและยังเร็วพอใช้ได้
เพราะจำนวน active parameters ต่ำ เลยทำงานบน CPU ได้ค่อนข้างดี