- Fly.io กำลังสร้างพับลิกคลาวด์ที่ใช้ฮาร์ดแวร์ของตนเอง และพัฒนา Fly GPU Machines โดยมีเป้าหมายเพื่อให้บริการ AI/ML inference ที่ใช้ GPU
- Fly GPU Machines เป็น VM ที่รันคอนเทนเนอร์ Docker/OCI และออกแบบมาให้แมป NVIDIA GPU โดยตรงเพื่อให้สามารถทำงาน CUDA ได้อย่างรวดเร็ว
- ความสำคัญของ AI/ML นั้นมากกว่าที่คาดไว้ แต่ดูเหมือนว่าผลิตภัณฑ์ GPU จะยังไม่สะท้อนความต้องการของตลาดได้อย่างเหมาะสม
ความยากทางเทคนิคในการนำ GPU มาใช้
- Fly GPU Machines ถูกออกแบบให้ใช้ Intel Cloud Hypervisor แทน Firecracker เพื่อรองรับ PCI passthrough
- ecosystem ของ NVIDIA ไม่รองรับ micro VM hypervisor ทำให้การเพิ่มประสิทธิภาพด้านความปลอดภัยและประสิทธิภาพของ GPU ทำได้ยาก
- GPU เป็นสิ่งที่ทีมความปลอดภัยกังวล เนื่องจากรองรับการรับส่ง DMA (Direct Memory Access) ได้หลายทิศทางและการประมวลผลที่ผู้ใช้ควบคุมได้ จึงก่อให้เกิดความเสี่ยงด้านความปลอดภัยสูง
- เพื่อแยก workload ที่ใช้ GPU และไม่ใช้ GPU ออกจากกัน จึงต้องใช้ฮาร์ดแวร์เซิร์ฟเวอร์แยกต่างหาก ส่งผลให้โครงสร้างต้นทุนไม่มีประสิทธิภาพ
- มีการทำการประเมินความปลอดภัยขนาดใหญ่ร่วมกับ Atredis และ Tetrel เพื่อการตรวจสอบด้านความปลอดภัย ซึ่งใช้ทั้งต้นทุนและเวลาสูง
การลองผิดลองถูกทางเทคนิค
- ไม่ได้ทำตามแนวทางที่ NVIDIA แนะนำ (สร้างคลัสเตอร์ K8s หรือใช้ QEMU) แต่พยายามรักษาความเร็วในการเริ่มต้นของ Fly Machines เอาไว้
- พยายามใช้ไดรเวอร์ virtual GPU (vGPU) ของ NVIDIA บน Intel Cloud Hypervisor แต่ไม่สำเร็จ
- ด้วยสภาพแวดล้อมไดรเวอร์แบบปิดของ NVIDIA จึงยากที่จะสร้างสถาปัตยกรรมที่ใช้ GPU ได้อย่างมีประสิทธิภาพ
- จำเป็นต้องปรับปรุงการโหลด model weights โดยใช้ GPU แต่แก้ปัญหานี้ได้ยากในขณะที่ยังต้องรักษา developer experience (DX) เอาไว้
- ซื้อ GPU มาจำนวนมาก แต่ไม่ได้ผลลัพธ์ตามที่คาดหวัง
สาเหตุที่โมเดลธุรกิจ GPU ล้มเหลว
- นักพัฒนาทั่วไปต้องการ LLM มากกว่า GPU
- การใช้ LLM API ของ OpenAI, Anthropic และรายอื่น ๆ สะดวกกว่าการปรับแต่งโมเดล AI/ML และความแตกต่างด้านประสิทธิภาพก็ไม่ได้มากนัก
- นักพัฒนาส่วนใหญ่ให้ความสำคัญกับประสิทธิภาพในหน่วย "tokens per second" และไม่ได้สนใจมากนักกับการปรับแต่งระดับมิลลิวินาทีที่ GPU มอบให้
- บริษัทที่ทำงาน AI ขนาดใหญ่ต้องการพลังประมวลผล GPU มหาศาล และแม้แต่ A100 GPU เดี่ยวก็ยังไม่เพียงพอ
- ห้องวิจัย AI และบริษัทขนาดใหญ่ต้องการคลัสเตอร์ H100 แบบ SXM
- อาจมีตลาด GPU ขนาดเล็กสำหรับงาน ML น้ำหนักเบา แต่การใช้ NVIDIA MIG ในสภาพแวดล้อม virtualized เต็มรูปแบบทำได้ยาก
- แม้ L40S GPU จะถูกใช้งานอย่างมีประโยชน์ แต่ก็ไม่สามารถกลายเป็นปัจจัยหลักในการเติบโตของธุรกิจหลักของ Fly.io ได้
บทเรียนที่ได้รับ
- ในช่วงแรก (2022) คาดว่าจะมีโมเดล AI หลากหลายรูปแบบเกิดขึ้น แต่ปัจจุบันกลับค่อย ๆ รวมศูนย์ไปที่ LLM ไม่กี่รุ่น เช่น OpenAI และ Anthropic
- Fly.io ยึดหลักว่า "ออกแบบฟีเจอร์สำหรับนักพัฒนา 10,000 คน"
- GPU เป็นเพียงฟีเจอร์สำหรับนักพัฒนาคนที่ 10,001 จึงยากที่จะกลายเป็นผลิตภัณฑ์หลัก
- สตาร์ตอัปคือกระบวนการเรียนรู้ผ่านการลองหลายครั้ง และการนำ GPU มาใช้ก็เป็นหนึ่งในการเดิมพันที่ล้มเหลว
- การลงทุนที่เกี่ยวข้องกับ GPU ไม่ได้สูญเปล่าทั้งหมด เพราะฮาร์ดแวร์บางส่วนยังสามารถขายต่อได้ในภายหลัง
- สามารถปรับลดการรองรับ GPU ลงได้ โดยยังคงรักษาความปลอดภัยและ developer experience ของ Fly Machines เอาไว้
- เช่นเดียวกับที่ผลิตภัณฑ์แรกของ Fly.io อย่าง JavaScript edge computing runtime ไม่เป็นที่ต้องการของตลาด และสุดท้ายต้องเปลี่ยนไปสนับสนุนคอนเทนเนอร์ GPU ก็เป็นอีกทางเลือกหนึ่งที่ไม่สอดคล้องกับความต้องการของตลาด
- สตาร์ตอัปมักค้นหาคำตอบที่ถูกต้องผ่านสมมติฐานที่ผิดพลาด และกรณีของ GPU ครั้งนี้ก็เป็นส่วนหนึ่งของกระบวนการนั้น
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
นักพัฒนาต้องการ LLMs มากกว่า GPU หรือโมเดล AI/ML ฝั่งวิศวกรระบบสนใจ CUDA และ GPU แต่ฝั่งนักพัฒนาซอฟต์แวร์ไม่ได้สนใจแบบนั้น
git pushและไม่อยากทำความเข้าใจเรื่องอย่าง DNS หรือ Linuxกฎของมัวร์สิ้นสุดลงโดยพฤตินัยตั้งแต่ปี 2012 การประมวลผลแบบ single-thread หยุดอยู่ที่ 2GHz
เครื่อง GPU ของ fly เร็วมากและเชื่อถือได้ และราคาไม่ได้แพงเมื่อเทียบกับทางเลือกอื่น
ซื้อ 4090 มาแล้ว แต่ VRAM 24GB ยังไม่เพียงพอ
ลูกค้าที่เลือก Fly น่าจะเป็นคนกลุ่มสุดท้ายที่ยังใช้เซิร์ฟเวอร์ GPU แบบ dedicated ระยะยาว
เสียดายที่ไม่มี GPU slices เพราะค่าใช้จ่ายเดือนละ $1,000 ยากจะหาเหตุผลมารองรับ
"เราผิดไปแล้ว" เป็นหนึ่งในประโยคที่สูงส่งและงดงามที่สุดในภาษาอังกฤษ
Fly.io ดึงดูดนักพัฒนาในลักษณะคล้ายกับแพลตฟอร์ม Workers ของ Cloudflare
ใช้เวลาหนึ่งเดือนในการตั้งค่า serverless endpoint บน Runpod และทั้งแพงทั้งไม่น่าเชื่อถือ