14 คะแนน โดย GN⁺ 2025-09-28 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Moondream 3 ใช้สถาปัตยกรรม 9B MoE และ พารามิเตอร์ที่ทำงานจริง 2B เพื่อให้ได้ทั้งประสิทธิภาพ การให้เหตุผลด้านภาพ ระดับล้ำสมัย และความเร็วในการอนุมานที่รวดเร็วมีประสิทธิภาพ
  • โมเดลนี้ออกแบบโดยเน้น สถาปัตยกรรมที่เหมาะกับงานวิชันในโลกจริง, ความสามารถในการฝึกได้ง่าย, ความเร็วสูง และต้นทุนต่ำ
  • แสดงประสิทธิภาพที่แข็งแกร่งในงานประยุกต์จริงหลากหลายด้าน เช่น การตรวจจับวัตถุ, การชี้ตำแหน่ง, เอาต์พุตแบบมีโครงสร้าง, OCR
  • รองรับความยาวคอนเท็กซ์ 32k โทเค็น ช่วยเสริมความสามารถในการจัดการ คำถามและคำตอบที่ซับซ้อน อย่างมาก
  • เบนช์มาร์กเบื้องต้นแสดงให้เห็นว่ามีความได้เปรียบด้าน ความเร็วในการตอบสนองและประสิทธิภาพ เมื่อเทียบกับโมเดลขนาดใหญ่เดิม

บทนำและเป้าหมายหลัก

  • Moondream 3 คือโมเดล vision-language ใหม่ที่สร้างบนสถาปัตยกรรม 9B Mixture-of-Experts(MoE) และ พารามิเตอร์ที่ทำงานจริง 2B
  • ตั้งเป้าทั้ง ความสามารถในการให้เหตุผลเชิงภาพระดับล้ำสมัย และประสิทธิภาพการอนุมานที่รวดเร็วมากพร้อมความคุ้มค่าด้านต้นทุน เมื่อเทียบกับโมเดลเดิม
  • เพื่อแก้ปัญหาในโลกจริง โมเดลนี้จึงมุ่งเน้น 4 ด้านหลักดังต่อไปนี้
    • การให้เหตุผลด้านภาพ: มุ่งให้ความสามารถยอดเยี่ยมในงานจริง แม้โมเดลจะมีขนาดเล็ก โดยไม่ต้องแลกกับความสามารถที่ใช้งานได้จริง
    • ความง่ายในการฝึก: ให้ความสำคัญกับการ fine-tune ที่ทำได้ง่ายสำหรับงานวิชันเฉพาะทาง เช่น การอ่านภาพทางการแพทย์ หรือการตรวจจับพฤติกรรมผิดปกติในฝูงชน
    • ความเร็ว: รองรับความเร็วสูงสำหรับแอปพลิเคชัน vision AI ที่ต้องประมวลผลแบบเรียลไทม์ เช่น การคัดแยกผลิตภัณฑ์ หรือการเฝ้าระวังด้วยโดรน
    • ต้นทุนต่ำ: มุ่งลด ต้นทุนการดำเนินงาน ให้ต่ำที่สุด แม้จะใช้งานในสเกลใหญ่สำหรับสภาพแวดล้อมที่ต้องประมวลผลภาพจำนวนมาก
  • แม้เป็นโมเดล 9B MoE แต่ให้ทำงานจริงเพียง 2B active parameters จึงเปิดทางสู่การอนุมานแบบเรียลไทม์ที่รวดเร็วและมีต้นทุนต่ำ
  • ใช้ Reinforcement Learning เพื่อเสริม ประสิทธิภาพการฝึก ทำให้ปรับตัวได้ดีแม้ในสภาพแวดล้อมที่ซับซ้อน
  • ขยาย ความยาวคอนเท็กซ์ จากเดิม 2k เป็น 32k อย่างมาก ช่วยแก้ข้อจำกัดด้านการจัดการบริบทที่ซับซ้อน

กรณีใช้งานจริงของ Moondream 3

  • การตรวจจับวัตถุ (Object Detection)

    • Moondream 3 ไม่ได้หยุดแค่การจำแนกป้ายกำกับแบบง่าย ๆ แต่สามารถเข้าใจคำถามที่ซับซ้อนและตรวจจับวัตถุตามบริบทได้
    • เมื่อเทียบกับ Frontier model ก็ให้ประสิทธิภาพที่แตกต่างในความสามารถพื้นฐานอย่าง การตรวจจับวัตถุและการชี้ตำแหน่ง
      • ตัวอย่าง 1: ตรวจจับ "นักวิ่งที่สวมถุงเท้าสีม่วง"
      • ตัวอย่าง 2: ตรวจจับองค์ประกอบ UI "ป้อนจำนวน"
  • การชี้ตำแหน่ง (Pointing)

    • Moondream 3 มีความสามารถในการ ชี้ตำแหน่ง (pointing) วัตถุเฉพาะในภาพได้อย่างแม่นยำเป็นฟังก์ชันพื้นฐานในตัว
      • ตัวอย่าง 3: ชี้ตำแหน่งวัตถุ "ขวด"
      • ตัวอย่าง 4: เลือก "อุปกรณ์ทำครัวที่เหมาะที่สุดสำหรับพาสตา"
  • เอาต์พุตแบบมีโครงสร้าง (Structured Output)

    • ด้วยความยาวคอนเท็กซ์ 32k ทำให้สร้าง เอาต์พุตที่มีโครงสร้างซับซ้อน ได้ดีขึ้น และสามารถส่งคืนผลลัพธ์ในรูปแบบข้อมูลอย่าง JSON ได้ด้วยพรอมป์ต์เพียงเล็กน้อย
      • ตัวอย่าง 5: สร้าง JSON array ของข้อมูลสุนัขลากเลื่อน โดยมีฟิลด์ dog_id, fur_color, harness_color
  • OCR (การรู้จำอักขระด้วยแสง)

    • ประสิทธิภาพ OCR ดีขึ้นอย่างมาก เมื่อเทียบกับเดิม และนำไปใช้ได้กับงานจริงหลากหลายรูปแบบ
    • แม้จะยังมีข้อจำกัดบางส่วนกับตัวอักษรที่เล็กมาก แต่แสดงความแม่นยำสูงในการดึงข้อมูลเชิงโครงสร้าง เช่น ตาราง
      • ตัวอย่าง 6: แปลงตารางปฏิกิริยาเคมีเป็นตาราง Markdown

เบนช์มาร์ก

  • Moondream 3 แสดง ประสิทธิภาพที่เทียบเคียงได้กับ VLM ชั้นนำ ในเบนช์มาร์กหลากหลายชุด
  • อย่างไรก็ตาม Moondream 3 ยังคงพิสูจน์ข้อได้เปรียบที่เป็นรูปธรรมเหนือโมเดลขนาดใหญ่ในด้านความเร็วในการตอบสนองอย่างต่อเนื่อง
  • มีแผนจะเปิดเผยผลเบนช์มาร์กที่สมบูรณ์ยิ่งขึ้นและ การเปรียบเทียบเวลาอนุมาน ในภายหลัง

หมายเหตุทางเทคนิคของ Moondream 3

  • เป็น โมเดล Mixture-of-Experts แบบ sparse ละเอียดสูง ที่มีผู้เชี่ยวชาญ 64 คน โดยจะมี 8 คนถูกเปิดใช้งานในทุกโทเค็น
  • ใช้เทคนิคการเริ่มต้นแบบ drop upcycling จาก Moondream 2(2B Dense)
  • รองรับความยาวคอนเท็กซ์เต็ม 32k โทเค็นในการฝึกจริง
  • ผสมตัวอย่างคอนเท็กซ์ยาวเข้าไปใน pretraining เพื่อให้ใช้งานได้อย่างมีประสิทธิภาพโดยไม่ต้องมีขั้นตอนขยายคอนเท็กซ์เพิ่มเติม
  • เสริมความเข้าใจบริบทยาวด้วย temperature scaling ระหว่างการฝึก และการปรับ structured attention
  • รองรับทั้งโหมดการให้เหตุผลเชิงตรรกะและการอธิบายแบบไม่ใช่ตรรกะ โดยเชี่ยวชาญเป็นพิเศษด้าน image grounding
  • ผ่านการฝึกแบบ reinforcement learning (RL) เพื่อค่อย ๆ เพิ่มการพึ่งพาตัวอย่างการให้เหตุผลเชิงภาพและความสามารถในการปรับตัว
  • ใช้ load balancing, router orthogonal loss เป็นต้น เพื่อกระตุ้นการทำงานเฉพาะทางในระดับโทเค็น แล้วเสริมเสถียรภาพในขั้นตอน post-training
  • ปรับปรุงองค์ประกอบ attention เช่น LSE suppression, temperature tuning เพื่อเพิ่มทั้งความแม่นยำและความชัดเจน

บทสรุปและแผนในอนาคต

  • พรีวิวครั้งนี้อาจยังทำงานช้าเนื่องจาก โค้ดอนุมานที่ยังไม่ได้ปรับแต่งให้เหมาะสม และขณะนี้กำลังมีการฝึกโมเดลเพิ่มเติม
  • ใน เวอร์ชันทางการ ที่จะออกในอนาคต คาดว่าทั้งประสิทธิภาพ เบนช์มาร์ก และความเร็วในการอนุมานจะดีขึ้นอย่างมาก
  • รวมถึงมีแผนสร้าง โมเดลแตกแขนงหลายแบบ เช่น เวอร์ชัน quantized และ distilled ขนาดเล็ก
  • สามารถใช้งานได้บน Moondream Playground และ HuggingFace และสามารถส่งฟีดแบ็กหรือสอบถามเพิ่มเติมได้ผ่าน Discord

หมายเหตุ: ใน Frontier model ไม่มีการรองรับการตรวจจับวัตถุพื้นฐานโดยตรง จึงใช้ template prompt เพื่อการเปรียบเทียบ

1 ความคิดเห็น

 
GN⁺ 2025-09-28
ความคิดเห็นจาก Hacker News
  • ผมใช้งาน Moondream 2 ได้คุ้มมาก ส่วนใหญ่เอาไปทำ auto-labeling ให้ชุดข้อมูล object detection สำหรับคลาสใหม่ ๆ แล้ว distill ต่อเป็น CNN ที่เล็กกว่ามากแต่ความแม่นยำใกล้เคียงกัน
    ตั้งแต่แท็กเวอร์ชัน 2025-01-09 เป็นต้นมา แทบไม่รู้สึกถึงการปรับปรุงด้านประสิทธิภาพที่ประกาศไว้เลย โดยรีลีสหลังจากนั้น recall ดีขึ้นก็จริง แต่เสียดายที่ precision ตกลงไปเยอะ
    ถ้าจะช่วยแก้ปัญหาแบบนี้ได้ดีขึ้น ก็น่าจะดีถ้า vision-language model อย่าง Moondream รายงาน class confidence มาด้วย
    ผมชอบมากที่มี API สำหรับ object detection โดยเฉพาะ แบบนี้ยังไม่เคยเห็นในโมเดลหรือ wrapper ตัวอื่น
    รอคอยผลของการ optimize inference ใน Moondream 3 อยู่ ขอแสดงความยินดีกับทีม
    ผู้ก่อตั้งอย่าง Vik ก็น่าติดตามบน X
    • มีคำตอบว่า ถ้ามีตัวอย่างปัญหา precision/recall ก็ส่งอีเมลหา vik@m87.ai ได้เสมอ
  • ผมก็เคยใช้ทำ auto-labeling ชุดข้อมูลเหมือนกัน แล้วมันทำได้ดีมากจริง ๆ
  • ประสิทธิภาพของโมเดล Moondream น่าประทับใจมาก
    แต่พอเห็นผลจากแล็บวิจัยบิ๊ก 3 แล้วก็ตกใจว่า Claude กับ OpenAI ทำได้แย่ขนาดนั้น
    Gemini ถึงจะสู้ Moondream ไม่ได้ แต่ก็ยังเป็นตัวเดียวที่พอจะเรียกได้ว่าใช้งานได้
    ไม่คิดมาก่อนเลยว่าช่องว่างด้านประสิทธิภาพจะใหญ่ขนาดนี้
    • ที่น่าสนใจก็คือมีแค่ Gemini ที่อ่านเลขบนลูกเต๋า D20 ได้ถูกต้อง
      ChatGPT ตอบผิดตลอด ส่วน Claude เอาแต่บอกว่าอ่านไม่ได้เพราะหน้าบนของลูกเต๋าถูกบังอยู่ (ทั้งที่จริง ๆ ไม่ได้ถูกบัง)
    • น่าแปลกที่ Moondream ทำได้ดีขนาดนี้แล้วยังไม่ถูกบิ๊กเทคเข้าซื้อ
      Anthropic, OpenAI และที่อื่น ๆ น่าจะอยากเอาเทคโนโลยีแบบนี้ไปใส่ในแพลตฟอร์มมาก
      คนสร้างควรได้รวย และถ้ารวมเข้ากับการเข้าถึงผู้ใช้ขององค์กรใหญ่ ๆ ประโยชน์ด้านการมองเห็นของ LLM ก็น่าจะใช้งานได้จริงขึ้นมาก
    • Gemini เก่งมากกับงานที่ใกล้เคียง OCR แต่กับงานภาพแบบอื่นส่วนใหญ่ประสิทธิภาพมักจะตกลงชัดเจน
  • ผลลัพธ์ออกมาดูยอดเยี่ยมมาก
    ผมเองก็เคยชอบใช้ Gemini กับงาน automation ของ bounding box แต่ถ้าโมเดล 9B ชนะได้ก็น่าตื่นเต้นมาก
    Moondream 2 ใช้ไลเซนส์ Apache 2 แต่พอเป็น 3 preview เห็นว่าเป็น BSL เลยสงสัยว่ามีการเปลี่ยนไลเซนส์ถาวรหรือเปล่า
  • paper.design ใช้ moondream2 อยู่เพื่อทำ auto-label ให้รูปที่ผู้ใช้อัปโหลด (สำหรับ layer tree)
    เร็วและแม่นมากจริง ๆ กำลังรอ 3 เหมือนกัน
  • ผมใช้เวลา 5 นาทีหาข้อมูลราคา Moondream cloud แต่เหมือนจะยังไม่มีอยู่จริงเลย (อย่างน้อยก่อนสมัครยังไม่เห็น)
    ถึงจะมีฟรี 5,000 requests แต่ก่อนจะเชื่อมเข้ากับบริการจริง สิ่งสำคัญอันดับแรกคือรู้ก่อนว่าราคาสมเหตุสมผลไหม
    • cloud กำลังจะเปิดตัวเร็ว ๆ นี้
      ตอนนี้กำลัง optimize เพื่อลดต้นทุน inference ให้ต่ำลงอีก และเตรียมให้ได้ราคาที่ดีที่สุด
      ถ้าอยากรู้ข่าวเปิดตัวเร็ว ๆ จะไปติดตาม @moondreamai บน X ก็ได้
  • คิดว่าการเลือกสถาปัตยกรรม MoE น่าสนใจเป็นพิเศษ
    การคงประสิทธิภาพระดับโมเดล 8B ไว้ได้ ทั้งที่ activate แค่ 2B parameters น่าจะเปลี่ยนเกมสำหรับการ deploy บน edge device ได้มาก
    ผมมีประสบการณ์ deploy vision model ที่ production ซึ่ง latency สำคัญมาก และ sparse activation แบบนี้น่าจะช่วยลดข้อจำกัดด้านการนำไปใช้ที่เกิดจากต้นทุน inference ของ vision-language model ขนาดใหญ่ได้มากทีเดียว
    ความสามารถในการเข้าใจ chart ก็เป็นอีกจุดที่น่าคาดหวังสำหรับ workflow งาน document automation
    อยากรู้ว่ามีใครลองทดสอบความสม่ำเสมอของโมเดลกับคุณภาพภาพหรือสภาพแสงแบบอื่น ๆ บ้างหรือยัง
    เพราะในเงื่อนไขแบบนี้ โมเดลขนาดเล็กมักจะลำบากกว่าโมเดล flagship มาก
  • เป็นโมเดลที่น่าประทับใจ
    อยากรู้ว่ามีใครเคยเอาไปใช้ควบคุมคอมพิวเตอร์/เบราว์เซอร์บ้างไหม แล้วจัดการกับกราฟและ chart ได้ดีแค่ไหน
    • สกิล point ถูกฝึกมาจากข้อมูล UI จำนวนมาก และมีผู้ใช้หลายคนเอาไปใช้ทำ UI automation ร่วมกับโมเดล driver ที่ใหญ่กว่า
      ก่อนปล่อยรีลีสสุดท้าย ทีมกำลังพยายามฝึกเพิ่มให้ทำงานแบบ end-to-end ในสภาพแวดล้อมแบบ agent ได้
      ด้วยเหตุนี้จึงเพิ่มความยาว context ขึ้นด้วย
      เรื่องการเข้าใจ chart นั้นมีหลายประเภท แต่โดยรวมถือว่าทำได้ค่อนข้างดี
      ในบล็อกได้เปิดเผย benchmark ของ ChartQA ไว้แล้ว และผลออกมาใกล้เคียง GPT5* พร้อมทั้งดีกว่า Gemini 2.5 Flash เล็กน้อย
      • อย่างไรก็ตาม GPT5 น่าจะทำงานกับ chart/graph ได้หลากหลายชนิดกว่ามาก ขณะที่ Moondream เหมาะกับ vision AI ที่ GPT5 ใช้ยากเพราะปัจจัยด้านราคา/latency
    • ผมใช้อยู่กับงาน label ชุดข้อมูล และกำลังรอดูว่าผลจะออกมาเป็นอย่างไร
  • ผมสงสัยว่าแนวคิดเรื่อง 2B active parameters นี่หมายถึง inference ต่อ token หรือเปล่า แล้วถ้าความยาว context เปลี่ยนไป มันสเกลอย่างไร
    อยากฟังคำอธิบายเพิ่มว่าจริง ๆ แล้ว MoE ส่งผลต่อการ activation ระหว่าง inference อย่างไร และมีความหมายเชิง latency แบบไหนในทางปฏิบัติ
  • มีใครแนะนำได้ไหมว่าฮาร์ดแวร์ที่ถูกที่สุดที่พอจะรันโมเดลนี้บนเครื่อง local ได้ในระดับใช้งานจริงคืออะไร
    • ตอนนี้ยังไม่มีเวอร์ชัน quantized ดังนั้นเฉพาะ weights ก็ต้องใช้หน่วยความจำราว 20GB แล้ว
      ถ้ารวม KV cache ด้วย ชุด CPU + RAM 32GB น่าจะเป็นตัวเลือกที่ถูกที่สุดและยังเร็วพอใช้ได้
      เพราะจำนวน active parameters ต่ำ เลยทำงานบน CPU ได้ค่อนข้างดี
  • อยากเห็นผลเปรียบเทียบประสิทธิภาพระหว่างโมเดล Qwen3-VL กับ Moondream