FastVLM ของ Apple - การเข้ารหัสวิชันที่มีประสิทธิภาพสำหรับโมเดลวิชัน-ภาษา

(github.com/apple)

15 คะแนน โดย GN⁺ 2025-05-14 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Repo อย่างเป็นทางการของ "FastVLM: Efficient Vision Encoding for Vision Language Models" ที่ Apple นำเสนอในงาน CVPR 2025
FastViTHD แสดงประสิทธิภาพในการ ลดจำนวนโทเค็นและลดเวลาเข้ารหัสภาพความละเอียดสูง
โมเดลขนาดเล็กที่สุดทำได้เร็วกว่า LLaVA-OneVision-0.5B ถึง 85 เท่า และมีขนาดเอนโค้ดเดอร์เล็กกว่า 3.4 เท่า
โมเดลขนาดใหญ่แสดงประสิทธิภาพที่เหนือกว่า Cambrian-1-8B และมีความเร็วมากกว่า 7.9 เท่า
มี แอปเดโมที่ทำงานบนอุปกรณ์พกพา เช่น iPhone ให้ใช้งาน

ความสำคัญและข้อดีของโปรเจกต์ FastVLM

FastVLM เป็นโอเพนซอร์ส implementation อย่างเป็นทางการสำหรับ โมเดลวิชัน-ภาษา (Vision Language Model, VLM)
ให้ข้อได้เปรียบอย่างโดดเด่นในด้าน ความเร็วและประสิทธิภาพ เมื่อเทียบกับวิชันเอนโค้ดเดอร์แบบเดิม
ใช้งานได้ดีบนฮาร์ดแวร์หลากหลายประเภท โดยเฉพาะ Apple Silicon และสภาพแวดล้อมบนมือถือ
สามารถเลือกใช้โมเดลพรีเทรนได้โดยตรงหลายขนาดและหลายระดับประสิทธิภาพ
ด้วยขนาดโมเดลที่เล็กกว่าเมื่อเทียบกับโปรเจกต์อื่น จึงรับประกัน การตอบสนองแบบเรียลไทม์ที่ปรับแต่งมาอย่างเหมาะสม และใช้ทรัพยากรฮาร์ดแวร์น้อย

คุณสมบัติหลัก

FastViTHD คือ วิชันเอนโค้ดเดอร์แบบนวัตกรรม ที่มีโครงสร้างไฮบริด ซึ่งลดจำนวนโทเค็นเอาต์พุตและช่วยย่นเวลาเข้ารหัสภาพความละเอียดสูงได้อย่างมาก
โมเดล FastVLM-0.5B ซึ่งเป็นรุ่นเล็กที่สุด มี TTFT (เวลาในการสร้างโทเค็นแรก) เร็วกว่า LLaVA-OneVision-0.5B ถึง 85 เท่า และมีขนาดเอนโค้ดเดอร์เล็กกว่า 3.4 เท่า
โมเดล FastVLM-7B ขนาดใหญ่ที่จับคู่กับ Qwen2-7B LLM แสดง TTFT เร็วกว่า 7.9 เท่า และให้ประสิทธิภาพยอดเยี่ยมด้วยเอนโค้ดเดอร์ภาพเดี่ยว เมื่อเทียบกับ SOTA ล่าสุดอย่าง Cambrian-1-8B
มี แอปเดโม ที่ทำงานได้จริงบนสภาพแวดล้อมมือถือ (iOS) มาพร้อมกัน ทำให้ตรวจสอบการใช้งานเทคโนโลยีได้ทันที

ข้อมูลโมเดล (Model Zoo)

มีโมเดล FastVLM หลายขนาด (FastVLM-0.5B, FastVLM-1.5B, FastVLM-7B) ให้ใช้งานทั้งเวอร์ชันขั้นที่ 2 และขั้นที่ 3
มีการให้ไฟล์ PyTorch checkpoint อย่างเป็นทางการสำหรับแต่ละโมเดล
ผู้ใช้สามารถใช้คำสั่งที่ให้มาอย่างเป็นทางการเพื่อดาวน์โหลดหลายโมเดลแบบชุดเดียวไปยังไดเรกทอรี checkpoints ได้

ตัวอย่างการใช้งาน (Usage Example)

สามารถทดสอบ inference ได้อย่างง่ายและรวดเร็วด้วยเช็กพอยต์ PyTorch ที่ผ่านการฝึกแล้ว ผ่านสคริปต์ predict.py
เมื่อป้อนภาพและพรอมป์ต์ (คำถาม) ผ่านคำสั่งตัวอย่าง ก็จะได้คำบรรยายของภาพนั้นหรือคำตอบสำหรับคำถาม

การรองรับ Apple Silicon และอุปกรณ์พกพา

มีคู่มืออธิบายขั้นตอนการ export โมเดลและการทำ quantization แยกต่างหากสำหรับ inference บน Apple Silicon
มีการแจกจ่ายไฟล์ checkpoint เวอร์ชันที่ ปรับแต่งตรงสำหรับ Apple Silicon อย่างเป็นทางการ
มีคู่มือพัฒนาแอปและซอร์สโค้ดสำหรับใช้งานได้ทันทีบน iPhone, iPad, Mac อยู่ในโฟลเดอร์ /app

ข้อมูลเพิ่มเติมและคำแนะนำโอเพนซอร์ส

มีลิงก์ arXiv อย่างเป็นทางการของงานวิจัย FastVLM และรูปแบบการอ้างอิงบทความจากงานประชุม CVPR 2025
โค้ดเบสนี้สร้างอยู่บนพื้นฐานของหลายโปรเจกต์โอเพนซอร์ส และมีการแยกแจ้งรายละเอียดการมีส่วนร่วมกับข้อมูลไลเซนส์ไว้ต่างหาก
ก่อนใช้งานโมเดลและโค้ด ต้องตรวจสอบ ไลเซนส์ (ไฟล์ไลเซนส์และไลเซนส์ของโมเดล) ให้เรียบร้อย

1 ความคิดเห็น

GN⁺ 2025-05-14

ความคิดเห็นจาก Hacker News

โมเดลระดับท็อป 0.5B ที่ขนาด 2GB ถ้าให้แต่ละแอปต้องดาวน์โหลดแยกกันก็ดูไม่สมเหตุสมผล คิดว่า Apple น่าจะมีแผนโหลดโมเดลพวกนี้ไว้ล่วงหน้าในระดับ OS และออก SDK ให้ทุกแอปเรียกใช้โมเดลเหล่านี้แบบโลคัลได้ นี่เป็นช่วงเวลาที่น่าตื่นเต้นมาก ถึงกับเปิด issue ไว้เพื่อตรวจสอบเรื่องนี้แล้ว
- ถ้ามี foundation model มาตรฐานของ OS ที่อิงจากน้ำหนักแบบเปิดเผยต่อสาธารณะ ก็น่าจะเปิดความเป็นไปได้มหาศาล ถ้า API อนุญาตให้นักพัฒนาแอปโหลด LoRa fine-tuning แบบปรับแต่งเฉพาะรันไทม์เข้ากับโมเดลมาตรฐานของ OS ได้ อย่างเหมาะที่สุดก็น่าจะได้ทั้งข้อดีของโมเดลเฉพาะแอปโดยยังคงขนาดแอปยอดนิยมไว้ได้ และยังได้ประโยชน์จาก foundation model ไปพร้อมกัน
- ถ้าควอนไทซ์เป็น f16 หรือแม้แต่ int8 ก็อาจลดขนาดโมเดลลงได้อีก แต่ประเด็นสำคัญคืออย่างที่คุณพูดไว้ จากมุมผู้ใช้เอง การต้องโหลดไฟล์ 500MB ให้แอปเดียวก็ไม่ใช่ประสบการณ์ที่น่ายินดีนัก
- จำได้ว่าปีที่แล้วใน WWDC ก็พูดอะไรคล้าย ๆ กันเกี่ยวกับ LLM คือ OS จะมีโมเดลพื้นฐานให้ แล้วแต่ละแอปสามารถ fine-tune โมเดลนั้นด้วย LORAs หรือใส่ custom head ของตัวเองได้
- คิดว่าเรื่องนี้คงจะไม่ถูกพูดถึงต่อสาธารณะ ถ้าไม่ใช่งานพรีเซนเทชันใหญ่ ๆ น่าจะต้องรอดูในงานอย่าง WWDC ถึงจะยืนยันได้
รู้สึกว่าการดันความเร็ว time-to-first-token ให้เร็วพอเป็นเรื่องจำเป็นมากสำหรับแอปที่ต้องมองหน้าจอแล้วลงมือทำทันที เช่น ผู้ช่วยที่ทำงานบน on-device continuous vision พอเห็นแอปจริงรันอยู่ใน repo แล้วน่าประทับใจมาก และคืนนี้ก็ตื่นเต้นที่จะลอง build ใช้เอง
อยากให้มีส่วนร่วมกับคอมมูนิตี้ AI/ML มากกว่านี้ และอัปโหลดทั้งน้ำหนักกับสถาปัตยกรรมโมเดลลง HuggingFace ด้วย ที่ตลกคือวันนี้เพิ่งเห็นเดโม VLM คล้ายกันที่ใช้ VLM ฟรี ลิงก์อ้างอิง: https://github.com/ngxson/smolvlm-realtime-webcam
- SmolVLM เป็นโมเดลจากทีม huggingface รู้สึกสนุกมากที่ได้เห็นคนทดลองสร้างนั่นนี่ด้วยโมเดลขนาดเล็กแบบนี้ ขอลิงก์ที่เกี่ยวข้องไว้ด้วย: https://huggingface.co/blog/smolvlm, https://arxiv.org/abs/2504.05299
กำลังสร้างแอปเสียง+วิชันแบบเรียลไทม์ชื่อ Sen ด้วยตัวเอง ตอนนี้เปิดเป็นเบตาแล้ว และสตรีมเฟรมแบบเรียลไทม์ผ่าน webrtc รู้สึกว่ามันทั้งเร็วและฉลาด เลยสงสัยว่ายิ่งโมเดลพวกนี้เข้าใกล้ฮาร์ดแวร์มากขึ้นจะยิ่งดีได้แค่ไหน ในอนาคตน่าจะรันบนอุปกรณ์ได้อย่างเป็นธรรมชาติและมี TTFB ที่เร็ว
- ถ้ามีบทความสรุปเทคสแตกและการตั้งค่า รบกวนแชร์หน่อยได้ไหม หรือจะสรุปสั้น ๆ ให้ก็ขอบคุณมาก อยากทำอะไรคล้าย Qwen ส่วนตัวสำหรับเด็ก ที่สื่อสารด้วยปุ่มและเสียงในการส่งพรอมป์ตไปมา ตอนนี้ยังไม่จำเป็นต้องมีวิชันก็ได้ (แม้ว่าถ้าเพิ่มได้ในอนาคตก็คงเจ๋งมาก) Siri น่าผิดหวังจริง ๆ ยังไปไม่ถึงระดับที่ต้องการเลย
น่าตื่นเต้นมากที่เห็นว่ามีความพยายามทำให้ใช้ทรัพยากรอย่างมีประสิทธิภาพ ลดการใช้ทรัพยากร และทำโมเดลให้เล็กลงเพื่อให้รันได้ แทนที่จะทุ่มทรัพยากรแบบไม่จำกัด
ยิ่งรู้สึกชัดขึ้นเรื่อย ๆ ว่าอนาคตของวงการหุ่นยนต์คือโมเดล VLA (vision-language-action) แม้แต่ Tesla FSD ก็เป็นโมเดล VLA แบบ end-to-end และการเข้ารหัสภาพอย่างมีประสิทธิภาพก็น่าจะเป็นปัจจัยชี้ขาดต่อความปลอดภัยและการตอบสนองของหุ่นยนต์
ในฐานะพ่อของเด็กเล็กที่เส้นประสาทตาเสียหายอย่างรุนแรงและอาจตาบอดได้ทุกเมื่อ เดิมทีเคยกังวลมาก แต่ด้วยการรักษาเชิงทดลองในการทดลองทางคลินิกของ NIH จึงยังพอรักษาการมองเห็นไว้ได้บางส่วน (ผมคิดว่าการสนับสนุนวิทยาศาสตร์ต้องดำเนินต่อไป) ความก้าวหน้าของ Vision-Language Model ทำให้ผมมีความหวังว่า แม้ลูกจะสูญเสียการมองเห็น ก็ยังสามารถสื่อสารกับโลก เรียนมหาวิทยาลัย และทำสิ่งดี ๆ ในสายวิทยาศาสตร์หรือวิศวกรรมที่เขาชอบได้ ลูกมีพรสวรรค์มากกว่าเด็กวัยเดียวกันและน่าตั้งตารออนาคตจริง ๆ
- อยากเล่าประสบการณ์ของคนที่เติบโตมาโดยตาบอดสนิท 100% ในยุค 80 ตอนนั้นเทคโนโลยียังไม่ก้าวหน้าเหมือนทุกวันนี้ กว่าคอมพิวเตอร์จะเข้ามาก็ตอนอายุราว 12 ปี และผมเริ่มจากการฝึกพิมพ์ดีดด้วยเครื่องพิมพ์ดีดรุ่นเก่า รวมถึงเรียนเขียนอักษรเบรลล์ด้วยเครื่องเบรลล์โลหะหนัก ๆ สมัยนั้นเทคโนโลยี OCR ก็ยังไม่ดีนัก และกว่าจะถึงระดับมัธยมปลาย (ในคำเรียกของที่นี่) ถึงจะได้ใช้โน้ตบุ๊กที่มีจออักษรเบรลล์เพื่อเรียนในชั้น ผมใช้ DOS และจดโน้ตด้วย Word 5.5 นอกจาก PC Lingua สำหรับเรียนภาษาละตินแล้ว แทบไม่มีเครื่องมือเฉพาะทางสำหรับการเรียนเลย สุดท้ายสิ่งที่มีคือโน้ตอิเล็กทรอนิกส์กับสมองของผมเอง แต่ถึงอย่างนั้นก็เรียนจบ ตอนนี้ก็มีอาชีพที่พอใจมาก มีบ้านของตัวเอง มีแฟนสาวแสนน่ารัก และใช้ชีวิตอย่างอิสระได้เต็มที่ เสียอีกที่ผมต้องพยายามกันแม่ที่คอยจะช่วยออกไปเสียเอง ในหมู่คนพิการเรามีคำพูดว่า การเลี้ยงดูแบบปกป้องเกินไปของพ่อแม่คือ "ความพิการเพิ่มเติมที่เกิดจากพ่อแม่" อย่ารับคำนี้ในเชิงอารมณ์ แต่อยากให้คิดถึงความหมายของมันจริง ๆ ลูกของคุณสามารถเป็นอิสระได้เต็มที่เมื่ออายุ 18 ยิ่งพยายามยืดช่วงเวลานั้นออกไป ก็ยิ่งทำให้การเป็นอิสระจริง ๆ ยากขึ้น และพลาดโอกาสสร้างความเข้มแข็งภายใน ผมเข้าใจจุดยืนของคุณที่รู้สึกมีความหวังกับความก้าวหน้าของเทคโนโลยีตอนนี้ แต่เชื่อว่าศักยภาพของลูกคุณอาจมากกว่าที่คุณคิดเสียอีก ถ้าช่วยให้เขาค้นพบศักยภาพของตัวเอง คุณอาจได้เห็นเรื่องที่น่าทึ่งจริง ๆ และผมก็ไม่อยากให้พึ่งแต่เครื่องมือราคาแพงหรือเทคโนโลยีล่าสุดมากเกินไป ผมเองก็ชอบ vision model มาก แต่ทุกวันนี้เวลาออกจากบ้าน ผมก็หยิบแค่ไม้เท้ากับโทรศัพท์ บางครั้งก็ถาม Siri ว่า "ฉันอยู่ที่ไหน" แต่สุดท้ายสิ่งที่ช่วยให้ผมหาทางคือ cane ของผมเอง จริง ๆ แล้วเทคโนโลยีสมัยใหม่ส่วนใหญ่ถูกพูดเกินจริง และผมอยากย้ำว่าแค่การได้ยินกับการรับสัมผัสตามปกติก็ทำอะไรได้มากกว่าที่คิด ขออวยพรอย่างจริงใจให้ครอบครัวของคุณและลูกของคุณโชคดีกับการเติบโตในอนาคต
เทคโนโลยีแบบนี้น่าจะทำให้สร้างผู้ช่วยที่ใช้งานได้จริงสำหรับผู้พิการทางสายตาได้ โดยมีแค่มือถือเครื่องหนึ่งกับกล้องที่ติดบนแว่น ก่อนหน้านี้คนที่ขยับตัวไม่ได้หากไม่มีผู้ช่วย ก็น่าจะมีชีวิตที่พึ่งพาตัวเองและเคลื่อนไหวได้ในชีวิตประจำวันมากขึ้น
- มันอาจมีประโยชน์สำหรับแยกแยะครีมไก่กับซุปครีมเห็ด แต่ถ้าเป็นเรื่องการเคลื่อนที่ ผมไม่คิดว่ามันจะช่วยได้มากนักเมื่อเทียบกับกลยุทธ์ที่ผู้พิการทางสายตาใช้อยู่เดิม ฟีดแบ็กแบบ "มีต้นไม้อยู่ตรงนี้ มีต้นไม้อีกต้น มีคนเดินถนน มีต้นไม้อีกต้น มีป้าย" ไม่ได้ช่วยในการเคลื่อนที่จริง ๆ เท่าไร
สงสัยว่าจะลองแปลง/รันมันบน llama.cpp ได้ไหม ข้อที่มันอิงกับ LLaVA ทำให้น่าตื่นเต้นพอสมควร

FastVLM ของ Apple - การเข้ารหัสวิชันที่มีประสิทธิภาพสำหรับโมเดลวิชัน-ภาษา

ความสำคัญและข้อดีของโปรเจกต์ FastVLM

คุณสมบัติหลัก

ข้อมูลโมเดล (Model Zoo)

ตัวอย่างการใช้งาน (Usage Example)

การรองรับ Apple Silicon และอุปกรณ์พกพา

ข้อมูลเพิ่มเติมและคำแนะนำโอเพนซอร์ส

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News