15 คะแนน โดย GN⁺ 2025-05-14 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Repo อย่างเป็นทางการของ "FastVLM: Efficient Vision Encoding for Vision Language Models" ที่ Apple นำเสนอในงาน CVPR 2025
  • FastViTHD แสดงประสิทธิภาพในการ ลดจำนวนโทเค็นและลดเวลาเข้ารหัสภาพความละเอียดสูง
  • โมเดลขนาดเล็กที่สุดทำได้เร็วกว่า LLaVA-OneVision-0.5B ถึง 85 เท่า และมีขนาดเอนโค้ดเดอร์เล็กกว่า 3.4 เท่า
  • โมเดลขนาดใหญ่แสดงประสิทธิภาพที่เหนือกว่า Cambrian-1-8B และมีความเร็วมากกว่า 7.9 เท่า
  • มี แอปเดโมที่ทำงานบนอุปกรณ์พกพา เช่น iPhone ให้ใช้งาน

ความสำคัญและข้อดีของโปรเจกต์ FastVLM

  • FastVLM เป็นโอเพนซอร์ส implementation อย่างเป็นทางการสำหรับ โมเดลวิชัน-ภาษา (Vision Language Model, VLM)
  • ให้ข้อได้เปรียบอย่างโดดเด่นในด้าน ความเร็วและประสิทธิภาพ เมื่อเทียบกับวิชันเอนโค้ดเดอร์แบบเดิม
  • ใช้งานได้ดีบนฮาร์ดแวร์หลากหลายประเภท โดยเฉพาะ Apple Silicon และสภาพแวดล้อมบนมือถือ
  • สามารถเลือกใช้โมเดลพรีเทรนได้โดยตรงหลายขนาดและหลายระดับประสิทธิภาพ
  • ด้วยขนาดโมเดลที่เล็กกว่าเมื่อเทียบกับโปรเจกต์อื่น จึงรับประกัน การตอบสนองแบบเรียลไทม์ที่ปรับแต่งมาอย่างเหมาะสม และใช้ทรัพยากรฮาร์ดแวร์น้อย

คุณสมบัติหลัก

  • FastViTHD คือ วิชันเอนโค้ดเดอร์แบบนวัตกรรม ที่มีโครงสร้างไฮบริด ซึ่งลดจำนวนโทเค็นเอาต์พุตและช่วยย่นเวลาเข้ารหัสภาพความละเอียดสูงได้อย่างมาก
  • โมเดล FastVLM-0.5B ซึ่งเป็นรุ่นเล็กที่สุด มี TTFT (เวลาในการสร้างโทเค็นแรก) เร็วกว่า LLaVA-OneVision-0.5B ถึง 85 เท่า และมีขนาดเอนโค้ดเดอร์เล็กกว่า 3.4 เท่า
  • โมเดล FastVLM-7B ขนาดใหญ่ที่จับคู่กับ Qwen2-7B LLM แสดง TTFT เร็วกว่า 7.9 เท่า และให้ประสิทธิภาพยอดเยี่ยมด้วยเอนโค้ดเดอร์ภาพเดี่ยว เมื่อเทียบกับ SOTA ล่าสุดอย่าง Cambrian-1-8B
  • มี แอปเดโม ที่ทำงานได้จริงบนสภาพแวดล้อมมือถือ (iOS) มาพร้อมกัน ทำให้ตรวจสอบการใช้งานเทคโนโลยีได้ทันที

ข้อมูลโมเดล (Model Zoo)

  • มีโมเดล FastVLM หลายขนาด (FastVLM-0.5B, FastVLM-1.5B, FastVLM-7B) ให้ใช้งานทั้งเวอร์ชันขั้นที่ 2 และขั้นที่ 3
  • มีการให้ไฟล์ PyTorch checkpoint อย่างเป็นทางการสำหรับแต่ละโมเดล
  • ผู้ใช้สามารถใช้คำสั่งที่ให้มาอย่างเป็นทางการเพื่อดาวน์โหลดหลายโมเดลแบบชุดเดียวไปยังไดเรกทอรี checkpoints ได้

ตัวอย่างการใช้งาน (Usage Example)

  • สามารถทดสอบ inference ได้อย่างง่ายและรวดเร็วด้วยเช็กพอยต์ PyTorch ที่ผ่านการฝึกแล้ว ผ่านสคริปต์ predict.py
  • เมื่อป้อนภาพและพรอมป์ต์ (คำถาม) ผ่านคำสั่งตัวอย่าง ก็จะได้คำบรรยายของภาพนั้นหรือคำตอบสำหรับคำถาม

การรองรับ Apple Silicon และอุปกรณ์พกพา

  • มีคู่มืออธิบายขั้นตอนการ export โมเดลและการทำ quantization แยกต่างหากสำหรับ inference บน Apple Silicon
  • มีการแจกจ่ายไฟล์ checkpoint เวอร์ชันที่ ปรับแต่งตรงสำหรับ Apple Silicon อย่างเป็นทางการ
  • มีคู่มือพัฒนาแอปและซอร์สโค้ดสำหรับใช้งานได้ทันทีบน iPhone, iPad, Mac อยู่ในโฟลเดอร์ /app

ข้อมูลเพิ่มเติมและคำแนะนำโอเพนซอร์ส

  • มีลิงก์ arXiv อย่างเป็นทางการของงานวิจัย FastVLM และรูปแบบการอ้างอิงบทความจากงานประชุม CVPR 2025
  • โค้ดเบสนี้สร้างอยู่บนพื้นฐานของหลายโปรเจกต์โอเพนซอร์ส และมีการแยกแจ้งรายละเอียดการมีส่วนร่วมกับข้อมูลไลเซนส์ไว้ต่างหาก
  • ก่อนใช้งานโมเดลและโค้ด ต้องตรวจสอบ ไลเซนส์ (ไฟล์ไลเซนส์และไลเซนส์ของโมเดล) ให้เรียบร้อย

1 ความคิดเห็น

 
GN⁺ 2025-05-14
ความคิดเห็นจาก Hacker News
  • โมเดลระดับท็อป 0.5B ที่ขนาด 2GB ถ้าให้แต่ละแอปต้องดาวน์โหลดแยกกันก็ดูไม่สมเหตุสมผล คิดว่า Apple น่าจะมีแผนโหลดโมเดลพวกนี้ไว้ล่วงหน้าในระดับ OS และออก SDK ให้ทุกแอปเรียกใช้โมเดลเหล่านี้แบบโลคัลได้ นี่เป็นช่วงเวลาที่น่าตื่นเต้นมาก ถึงกับเปิด issue ไว้เพื่อตรวจสอบเรื่องนี้แล้ว
    • ถ้ามี foundation model มาตรฐานของ OS ที่อิงจากน้ำหนักแบบเปิดเผยต่อสาธารณะ ก็น่าจะเปิดความเป็นไปได้มหาศาล ถ้า API อนุญาตให้นักพัฒนาแอปโหลด LoRa fine-tuning แบบปรับแต่งเฉพาะรันไทม์เข้ากับโมเดลมาตรฐานของ OS ได้ อย่างเหมาะที่สุดก็น่าจะได้ทั้งข้อดีของโมเดลเฉพาะแอปโดยยังคงขนาดแอปยอดนิยมไว้ได้ และยังได้ประโยชน์จาก foundation model ไปพร้อมกัน
    • ถ้าควอนไทซ์เป็น f16 หรือแม้แต่ int8 ก็อาจลดขนาดโมเดลลงได้อีก แต่ประเด็นสำคัญคืออย่างที่คุณพูดไว้ จากมุมผู้ใช้เอง การต้องโหลดไฟล์ 500MB ให้แอปเดียวก็ไม่ใช่ประสบการณ์ที่น่ายินดีนัก
    • จำได้ว่าปีที่แล้วใน WWDC ก็พูดอะไรคล้าย ๆ กันเกี่ยวกับ LLM คือ OS จะมีโมเดลพื้นฐานให้ แล้วแต่ละแอปสามารถ fine-tune โมเดลนั้นด้วย LORAs หรือใส่ custom head ของตัวเองได้
    • คิดว่าเรื่องนี้คงจะไม่ถูกพูดถึงต่อสาธารณะ ถ้าไม่ใช่งานพรีเซนเทชันใหญ่ ๆ น่าจะต้องรอดูในงานอย่าง WWDC ถึงจะยืนยันได้
  • รู้สึกว่าการดันความเร็ว time-to-first-token ให้เร็วพอเป็นเรื่องจำเป็นมากสำหรับแอปที่ต้องมองหน้าจอแล้วลงมือทำทันที เช่น ผู้ช่วยที่ทำงานบน on-device continuous vision พอเห็นแอปจริงรันอยู่ใน repo แล้วน่าประทับใจมาก และคืนนี้ก็ตื่นเต้นที่จะลอง build ใช้เอง
  • อยากให้มีส่วนร่วมกับคอมมูนิตี้ AI/ML มากกว่านี้ และอัปโหลดทั้งน้ำหนักกับสถาปัตยกรรมโมเดลลง HuggingFace ด้วย ที่ตลกคือวันนี้เพิ่งเห็นเดโม VLM คล้ายกันที่ใช้ VLM ฟรี ลิงก์อ้างอิง: https://github.com/ngxson/smolvlm-realtime-webcam
    • SmolVLM เป็นโมเดลจากทีม huggingface รู้สึกสนุกมากที่ได้เห็นคนทดลองสร้างนั่นนี่ด้วยโมเดลขนาดเล็กแบบนี้ ขอลิงก์ที่เกี่ยวข้องไว้ด้วย: https://huggingface.co/blog/smolvlm, https://arxiv.org/abs/2504.05299
  • กำลังสร้างแอปเสียง+วิชันแบบเรียลไทม์ชื่อ Sen ด้วยตัวเอง ตอนนี้เปิดเป็นเบตาแล้ว และสตรีมเฟรมแบบเรียลไทม์ผ่าน webrtc รู้สึกว่ามันทั้งเร็วและฉลาด เลยสงสัยว่ายิ่งโมเดลพวกนี้เข้าใกล้ฮาร์ดแวร์มากขึ้นจะยิ่งดีได้แค่ไหน ในอนาคตน่าจะรันบนอุปกรณ์ได้อย่างเป็นธรรมชาติและมี TTFB ที่เร็ว
    • ถ้ามีบทความสรุปเทคสแตกและการตั้งค่า รบกวนแชร์หน่อยได้ไหม หรือจะสรุปสั้น ๆ ให้ก็ขอบคุณมาก อยากทำอะไรคล้าย Qwen ส่วนตัวสำหรับเด็ก ที่สื่อสารด้วยปุ่มและเสียงในการส่งพรอมป์ตไปมา ตอนนี้ยังไม่จำเป็นต้องมีวิชันก็ได้ (แม้ว่าถ้าเพิ่มได้ในอนาคตก็คงเจ๋งมาก) Siri น่าผิดหวังจริง ๆ ยังไปไม่ถึงระดับที่ต้องการเลย
  • น่าตื่นเต้นมากที่เห็นว่ามีความพยายามทำให้ใช้ทรัพยากรอย่างมีประสิทธิภาพ ลดการใช้ทรัพยากร และทำโมเดลให้เล็กลงเพื่อให้รันได้ แทนที่จะทุ่มทรัพยากรแบบไม่จำกัด
  • ยิ่งรู้สึกชัดขึ้นเรื่อย ๆ ว่าอนาคตของวงการหุ่นยนต์คือโมเดล VLA (vision-language-action) แม้แต่ Tesla FSD ก็เป็นโมเดล VLA แบบ end-to-end และการเข้ารหัสภาพอย่างมีประสิทธิภาพก็น่าจะเป็นปัจจัยชี้ขาดต่อความปลอดภัยและการตอบสนองของหุ่นยนต์
  • ในฐานะพ่อของเด็กเล็กที่เส้นประสาทตาเสียหายอย่างรุนแรงและอาจตาบอดได้ทุกเมื่อ เดิมทีเคยกังวลมาก แต่ด้วยการรักษาเชิงทดลองในการทดลองทางคลินิกของ NIH จึงยังพอรักษาการมองเห็นไว้ได้บางส่วน (ผมคิดว่าการสนับสนุนวิทยาศาสตร์ต้องดำเนินต่อไป) ความก้าวหน้าของ Vision-Language Model ทำให้ผมมีความหวังว่า แม้ลูกจะสูญเสียการมองเห็น ก็ยังสามารถสื่อสารกับโลก เรียนมหาวิทยาลัย และทำสิ่งดี ๆ ในสายวิทยาศาสตร์หรือวิศวกรรมที่เขาชอบได้ ลูกมีพรสวรรค์มากกว่าเด็กวัยเดียวกันและน่าตั้งตารออนาคตจริง ๆ
    • อยากเล่าประสบการณ์ของคนที่เติบโตมาโดยตาบอดสนิท 100% ในยุค 80 ตอนนั้นเทคโนโลยียังไม่ก้าวหน้าเหมือนทุกวันนี้ กว่าคอมพิวเตอร์จะเข้ามาก็ตอนอายุราว 12 ปี และผมเริ่มจากการฝึกพิมพ์ดีดด้วยเครื่องพิมพ์ดีดรุ่นเก่า รวมถึงเรียนเขียนอักษรเบรลล์ด้วยเครื่องเบรลล์โลหะหนัก ๆ สมัยนั้นเทคโนโลยี OCR ก็ยังไม่ดีนัก และกว่าจะถึงระดับมัธยมปลาย (ในคำเรียกของที่นี่) ถึงจะได้ใช้โน้ตบุ๊กที่มีจออักษรเบรลล์เพื่อเรียนในชั้น ผมใช้ DOS และจดโน้ตด้วย Word 5.5 นอกจาก PC Lingua สำหรับเรียนภาษาละตินแล้ว แทบไม่มีเครื่องมือเฉพาะทางสำหรับการเรียนเลย สุดท้ายสิ่งที่มีคือโน้ตอิเล็กทรอนิกส์กับสมองของผมเอง แต่ถึงอย่างนั้นก็เรียนจบ ตอนนี้ก็มีอาชีพที่พอใจมาก มีบ้านของตัวเอง มีแฟนสาวแสนน่ารัก และใช้ชีวิตอย่างอิสระได้เต็มที่ เสียอีกที่ผมต้องพยายามกันแม่ที่คอยจะช่วยออกไปเสียเอง ในหมู่คนพิการเรามีคำพูดว่า การเลี้ยงดูแบบปกป้องเกินไปของพ่อแม่คือ "ความพิการเพิ่มเติมที่เกิดจากพ่อแม่" อย่ารับคำนี้ในเชิงอารมณ์ แต่อยากให้คิดถึงความหมายของมันจริง ๆ ลูกของคุณสามารถเป็นอิสระได้เต็มที่เมื่ออายุ 18 ยิ่งพยายามยืดช่วงเวลานั้นออกไป ก็ยิ่งทำให้การเป็นอิสระจริง ๆ ยากขึ้น และพลาดโอกาสสร้างความเข้มแข็งภายใน ผมเข้าใจจุดยืนของคุณที่รู้สึกมีความหวังกับความก้าวหน้าของเทคโนโลยีตอนนี้ แต่เชื่อว่าศักยภาพของลูกคุณอาจมากกว่าที่คุณคิดเสียอีก ถ้าช่วยให้เขาค้นพบศักยภาพของตัวเอง คุณอาจได้เห็นเรื่องที่น่าทึ่งจริง ๆ และผมก็ไม่อยากให้พึ่งแต่เครื่องมือราคาแพงหรือเทคโนโลยีล่าสุดมากเกินไป ผมเองก็ชอบ vision model มาก แต่ทุกวันนี้เวลาออกจากบ้าน ผมก็หยิบแค่ไม้เท้ากับโทรศัพท์ บางครั้งก็ถาม Siri ว่า "ฉันอยู่ที่ไหน" แต่สุดท้ายสิ่งที่ช่วยให้ผมหาทางคือ cane ของผมเอง จริง ๆ แล้วเทคโนโลยีสมัยใหม่ส่วนใหญ่ถูกพูดเกินจริง และผมอยากย้ำว่าแค่การได้ยินกับการรับสัมผัสตามปกติก็ทำอะไรได้มากกว่าที่คิด ขออวยพรอย่างจริงใจให้ครอบครัวของคุณและลูกของคุณโชคดีกับการเติบโตในอนาคต
  • เทคโนโลยีแบบนี้น่าจะทำให้สร้างผู้ช่วยที่ใช้งานได้จริงสำหรับผู้พิการทางสายตาได้ โดยมีแค่มือถือเครื่องหนึ่งกับกล้องที่ติดบนแว่น ก่อนหน้านี้คนที่ขยับตัวไม่ได้หากไม่มีผู้ช่วย ก็น่าจะมีชีวิตที่พึ่งพาตัวเองและเคลื่อนไหวได้ในชีวิตประจำวันมากขึ้น
    • มันอาจมีประโยชน์สำหรับแยกแยะครีมไก่กับซุปครีมเห็ด แต่ถ้าเป็นเรื่องการเคลื่อนที่ ผมไม่คิดว่ามันจะช่วยได้มากนักเมื่อเทียบกับกลยุทธ์ที่ผู้พิการทางสายตาใช้อยู่เดิม ฟีดแบ็กแบบ "มีต้นไม้อยู่ตรงนี้ มีต้นไม้อีกต้น มีคนเดินถนน มีต้นไม้อีกต้น มีป้าย" ไม่ได้ช่วยในการเคลื่อนที่จริง ๆ เท่าไร
  • สงสัยว่าจะลองแปลง/รันมันบน llama.cpp ได้ไหม ข้อที่มันอิงกับ LLaVA ทำให้น่าตื่นเต้นพอสมควร