ความเข้าใจผิดเกี่ยวกับ GPU

(fly.io)

7 คะแนน โดย GN⁺ 2025-02-15 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Fly.io กำลังสร้างพับลิกคลาวด์ที่ใช้ฮาร์ดแวร์ของตนเอง และพัฒนา Fly GPU Machines โดยมีเป้าหมายเพื่อให้บริการ AI/ML inference ที่ใช้ GPU
Fly GPU Machines เป็น VM ที่รันคอนเทนเนอร์ Docker/OCI และออกแบบมาให้แมป NVIDIA GPU โดยตรงเพื่อให้สามารถทำงาน CUDA ได้อย่างรวดเร็ว
ความสำคัญของ AI/ML นั้นมากกว่าที่คาดไว้ แต่ดูเหมือนว่าผลิตภัณฑ์ GPU จะยังไม่สะท้อนความต้องการของตลาดได้อย่างเหมาะสม

ความยากทางเทคนิคในการนำ GPU มาใช้

Fly GPU Machines ถูกออกแบบให้ใช้ Intel Cloud Hypervisor แทน Firecracker เพื่อรองรับ PCI passthrough
ecosystem ของ NVIDIA ไม่รองรับ micro VM hypervisor ทำให้การเพิ่มประสิทธิภาพด้านความปลอดภัยและประสิทธิภาพของ GPU ทำได้ยาก
GPU เป็นสิ่งที่ทีมความปลอดภัยกังวล เนื่องจากรองรับการรับส่ง DMA (Direct Memory Access) ได้หลายทิศทางและการประมวลผลที่ผู้ใช้ควบคุมได้ จึงก่อให้เกิดความเสี่ยงด้านความปลอดภัยสูง
เพื่อแยก workload ที่ใช้ GPU และไม่ใช้ GPU ออกจากกัน จึงต้องใช้ฮาร์ดแวร์เซิร์ฟเวอร์แยกต่างหาก ส่งผลให้โครงสร้างต้นทุนไม่มีประสิทธิภาพ
มีการทำการประเมินความปลอดภัยขนาดใหญ่ร่วมกับ Atredis และ Tetrel เพื่อการตรวจสอบด้านความปลอดภัย ซึ่งใช้ทั้งต้นทุนและเวลาสูง

การลองผิดลองถูกทางเทคนิค

ไม่ได้ทำตามแนวทางที่ NVIDIA แนะนำ (สร้างคลัสเตอร์ K8s หรือใช้ QEMU) แต่พยายามรักษาความเร็วในการเริ่มต้นของ Fly Machines เอาไว้
พยายามใช้ไดรเวอร์ virtual GPU (vGPU) ของ NVIDIA บน Intel Cloud Hypervisor แต่ไม่สำเร็จ
ด้วยสภาพแวดล้อมไดรเวอร์แบบปิดของ NVIDIA จึงยากที่จะสร้างสถาปัตยกรรมที่ใช้ GPU ได้อย่างมีประสิทธิภาพ
จำเป็นต้องปรับปรุงการโหลด model weights โดยใช้ GPU แต่แก้ปัญหานี้ได้ยากในขณะที่ยังต้องรักษา developer experience (DX) เอาไว้
ซื้อ GPU มาจำนวนมาก แต่ไม่ได้ผลลัพธ์ตามที่คาดหวัง

สาเหตุที่โมเดลธุรกิจ GPU ล้มเหลว

นักพัฒนาทั่วไปต้องการ LLM มากกว่า GPU
- การใช้ LLM API ของ OpenAI, Anthropic และรายอื่น ๆ สะดวกกว่าการปรับแต่งโมเดล AI/ML และความแตกต่างด้านประสิทธิภาพก็ไม่ได้มากนัก
- นักพัฒนาส่วนใหญ่ให้ความสำคัญกับประสิทธิภาพในหน่วย "tokens per second" และไม่ได้สนใจมากนักกับการปรับแต่งระดับมิลลิวินาทีที่ GPU มอบให้
บริษัทที่ทำงาน AI ขนาดใหญ่ต้องการพลังประมวลผล GPU มหาศาล และแม้แต่ A100 GPU เดี่ยวก็ยังไม่เพียงพอ
- ห้องวิจัย AI และบริษัทขนาดใหญ่ต้องการคลัสเตอร์ H100 แบบ SXM
อาจมีตลาด GPU ขนาดเล็กสำหรับงาน ML น้ำหนักเบา แต่การใช้ NVIDIA MIG ในสภาพแวดล้อม virtualized เต็มรูปแบบทำได้ยาก
แม้ L40S GPU จะถูกใช้งานอย่างมีประโยชน์ แต่ก็ไม่สามารถกลายเป็นปัจจัยหลักในการเติบโตของธุรกิจหลักของ Fly.io ได้

บทเรียนที่ได้รับ

ในช่วงแรก (2022) คาดว่าจะมีโมเดล AI หลากหลายรูปแบบเกิดขึ้น แต่ปัจจุบันกลับค่อย ๆ รวมศูนย์ไปที่ LLM ไม่กี่รุ่น เช่น OpenAI และ Anthropic
Fly.io ยึดหลักว่า "ออกแบบฟีเจอร์สำหรับนักพัฒนา 10,000 คน"
- GPU เป็นเพียงฟีเจอร์สำหรับนักพัฒนาคนที่ 10,001 จึงยากที่จะกลายเป็นผลิตภัณฑ์หลัก
สตาร์ตอัปคือกระบวนการเรียนรู้ผ่านการลองหลายครั้ง และการนำ GPU มาใช้ก็เป็นหนึ่งในการเดิมพันที่ล้มเหลว
การลงทุนที่เกี่ยวข้องกับ GPU ไม่ได้สูญเปล่าทั้งหมด เพราะฮาร์ดแวร์บางส่วนยังสามารถขายต่อได้ในภายหลัง
สามารถปรับลดการรองรับ GPU ลงได้ โดยยังคงรักษาความปลอดภัยและ developer experience ของ Fly Machines เอาไว้
เช่นเดียวกับที่ผลิตภัณฑ์แรกของ Fly.io อย่าง JavaScript edge computing runtime ไม่เป็นที่ต้องการของตลาด และสุดท้ายต้องเปลี่ยนไปสนับสนุนคอนเทนเนอร์ GPU ก็เป็นอีกทางเลือกหนึ่งที่ไม่สอดคล้องกับความต้องการของตลาด
สตาร์ตอัปมักค้นหาคำตอบที่ถูกต้องผ่านสมมติฐานที่ผิดพลาด และกรณีของ GPU ครั้งนี้ก็เป็นส่วนหนึ่งของกระบวนการนั้น

1 ความคิดเห็น

GN⁺ 2025-02-15

ความคิดเห็นจาก Hacker News

นักพัฒนาต้องการ LLMs มากกว่า GPU หรือโมเดล AI/ML ฝั่งวิศวกรระบบสนใจ CUDA และ GPU แต่ฝั่งนักพัฒนาซอฟต์แวร์ไม่ได้สนใจแบบนั้น
- มีความแตกแยกขนาดใหญ่ในหมู่นักพัฒนาซอฟต์แวร์ บางคนอยากเข้าใจว่าโค้ดรันที่ไหนและทำงานอย่างไร
- อีกกลุ่มแค่อยากให้จบด้วย git push และไม่อยากทำความเข้าใจเรื่องอย่าง DNS หรือ Linux
- บริษัทอย่าง fly.io น่าดึงดูดสำหรับคนกลุ่มหลัง ส่วน GPU instances น่าดึงดูดสำหรับคนกลุ่มแรก
- ต้องเข้าหาทั้งสองตลาดต่างกัน สำหรับกลุ่มหลังสามารถขาย abstraction และ automation ได้มาก
กฎของมัวร์สิ้นสุดลงโดยพฤตินัยตั้งแต่ปี 2012 การประมวลผลแบบ single-thread หยุดอยู่ที่ 2GHz
- ช่วงปี 2012-2022 การย้ายไปคลาวด์ทำให้คนไม่ทันสังเกตว่าประสิทธิภาพ single-thread ชะงักงัน
- ในปี 2022 ดาต้าเซ็นเตอร์ตระหนักว่าไม่จำเป็นต้องซื้อชิปรุ่นถัดไปที่มีคอร์มากขึ้นอีก
- LLMs ประมวลผลแบบขนานได้ 100% จึงสามารถกลับมาลงทุนด้านทุนได้อีกครั้ง
- ในปี 2024 จะมี wafer-scale silicon ออกมา ซึ่งสามารถรันโมเดล Llama ได้เร็วกว่า A100 ถึง 10 เท่า
- ซอฟต์แวร์ต้องหาวิธีใช้ประโยชน์จากประสิทธิภาพนี้
เครื่อง GPU ของ fly เร็วมากและเชื่อถือได้ และราคาไม่ได้แพงเมื่อเทียบกับทางเลือกอื่น
- DX ยอดเยี่ยม ไม่จำเป็นต้องเรียนรู้คำสั่งใหม่
- อยากให้ราคาถูกลงและใช้ได้ในภูมิภาคมากกว่านี้
ซื้อ 4090 มาแล้ว แต่ VRAM 24GB ยังไม่เพียงพอ
- การใช้ 3090 ตั้งแต่ 2 ใบขึ้นไปพร้อมแหล่งจ่ายไฟแบบปรับแต่งเองน่าจะดีกว่า
- ประสิทธิภาพและคุณภาพยังไม่ดีพอ
ลูกค้าที่เลือก Fly น่าจะเป็นคนกลุ่มสุดท้ายที่ยังใช้เซิร์ฟเวอร์ GPU แบบ dedicated ระยะยาว
- มีแนวโน้มจะใช้โซลูชันแบบ serverless มากกว่า
เสียดายที่ไม่มี GPU slices เพราะค่าใช้จ่ายเดือนละ $1,000 ยากจะหาเหตุผลมารองรับ
- การต่อ AMD consumer GPU เข้ากับ Raspberry Pi อาจคุ้มค่าทางเศรษฐกิจกว่า
"เราผิดไปแล้ว" เป็นหนึ่งในประโยคที่สูงส่งและงดงามที่สุดในภาษาอังกฤษ
Fly.io ดึงดูดนักพัฒนาในลักษณะคล้ายกับแพลตฟอร์ม Workers ของ Cloudflare
- ต้องการความเร็วในการพัฒนาแบบสภาพแวดล้อม PaaS
- Cloudflare ยังคงแนวทางแบบ PaaS ควบคู่กับ GPU และสร้าง Workers AI ขึ้นมา
ใช้เวลาหนึ่งเดือนในการตั้งค่า serverless endpoint บน Runpod และทั้งแพงทั้งไม่น่าเชื่อถือ
- สามารถใช้ Google Cloud credits เพื่อนำผลิตภัณฑ์ส่งมอบให้ลูกค้าได้
- มีความต้องการผู้ให้บริการ GPU อยู่ และยังไม่แน่ชัดว่า Fly จะเข้าสู่ตลาดนี้ได้หรือไม่

ความเข้าใจผิดเกี่ยวกับ GPU

ความยากทางเทคนิคในการนำ GPU มาใช้

การลองผิดลองถูกทางเทคนิค

สาเหตุที่โมเดลธุรกิจ GPU ล้มเหลว

บทเรียนที่ได้รับ

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News