7 คะแนน โดย GN⁺ 2025-02-15 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Fly.io กำลังสร้างพับลิกคลาวด์ที่ใช้ฮาร์ดแวร์ของตนเอง และพัฒนา Fly GPU Machines โดยมีเป้าหมายเพื่อให้บริการ AI/ML inference ที่ใช้ GPU
  • Fly GPU Machines เป็น VM ที่รันคอนเทนเนอร์ Docker/OCI และออกแบบมาให้แมป NVIDIA GPU โดยตรงเพื่อให้สามารถทำงาน CUDA ได้อย่างรวดเร็ว
  • ความสำคัญของ AI/ML นั้นมากกว่าที่คาดไว้ แต่ดูเหมือนว่าผลิตภัณฑ์ GPU จะยังไม่สะท้อนความต้องการของตลาดได้อย่างเหมาะสม

ความยากทางเทคนิคในการนำ GPU มาใช้

  • Fly GPU Machines ถูกออกแบบให้ใช้ Intel Cloud Hypervisor แทน Firecracker เพื่อรองรับ PCI passthrough
  • ecosystem ของ NVIDIA ไม่รองรับ micro VM hypervisor ทำให้การเพิ่มประสิทธิภาพด้านความปลอดภัยและประสิทธิภาพของ GPU ทำได้ยาก
  • GPU เป็นสิ่งที่ทีมความปลอดภัยกังวล เนื่องจากรองรับการรับส่ง DMA (Direct Memory Access) ได้หลายทิศทางและการประมวลผลที่ผู้ใช้ควบคุมได้ จึงก่อให้เกิดความเสี่ยงด้านความปลอดภัยสูง
  • เพื่อแยก workload ที่ใช้ GPU และไม่ใช้ GPU ออกจากกัน จึงต้องใช้ฮาร์ดแวร์เซิร์ฟเวอร์แยกต่างหาก ส่งผลให้โครงสร้างต้นทุนไม่มีประสิทธิภาพ
  • มีการทำการประเมินความปลอดภัยขนาดใหญ่ร่วมกับ Atredis และ Tetrel เพื่อการตรวจสอบด้านความปลอดภัย ซึ่งใช้ทั้งต้นทุนและเวลาสูง

การลองผิดลองถูกทางเทคนิค

  • ไม่ได้ทำตามแนวทางที่ NVIDIA แนะนำ (สร้างคลัสเตอร์ K8s หรือใช้ QEMU) แต่พยายามรักษาความเร็วในการเริ่มต้นของ Fly Machines เอาไว้
  • พยายามใช้ไดรเวอร์ virtual GPU (vGPU) ของ NVIDIA บน Intel Cloud Hypervisor แต่ไม่สำเร็จ
  • ด้วยสภาพแวดล้อมไดรเวอร์แบบปิดของ NVIDIA จึงยากที่จะสร้างสถาปัตยกรรมที่ใช้ GPU ได้อย่างมีประสิทธิภาพ
  • จำเป็นต้องปรับปรุงการโหลด model weights โดยใช้ GPU แต่แก้ปัญหานี้ได้ยากในขณะที่ยังต้องรักษา developer experience (DX) เอาไว้
  • ซื้อ GPU มาจำนวนมาก แต่ไม่ได้ผลลัพธ์ตามที่คาดหวัง

สาเหตุที่โมเดลธุรกิจ GPU ล้มเหลว

  • นักพัฒนาทั่วไปต้องการ LLM มากกว่า GPU
    • การใช้ LLM API ของ OpenAI, Anthropic และรายอื่น ๆ สะดวกกว่าการปรับแต่งโมเดล AI/ML และความแตกต่างด้านประสิทธิภาพก็ไม่ได้มากนัก
    • นักพัฒนาส่วนใหญ่ให้ความสำคัญกับประสิทธิภาพในหน่วย "tokens per second" และไม่ได้สนใจมากนักกับการปรับแต่งระดับมิลลิวินาทีที่ GPU มอบให้
  • บริษัทที่ทำงาน AI ขนาดใหญ่ต้องการพลังประมวลผล GPU มหาศาล และแม้แต่ A100 GPU เดี่ยวก็ยังไม่เพียงพอ
    • ห้องวิจัย AI และบริษัทขนาดใหญ่ต้องการคลัสเตอร์ H100 แบบ SXM
  • อาจมีตลาด GPU ขนาดเล็กสำหรับงาน ML น้ำหนักเบา แต่การใช้ NVIDIA MIG ในสภาพแวดล้อม virtualized เต็มรูปแบบทำได้ยาก
  • แม้ L40S GPU จะถูกใช้งานอย่างมีประโยชน์ แต่ก็ไม่สามารถกลายเป็นปัจจัยหลักในการเติบโตของธุรกิจหลักของ Fly.io ได้

บทเรียนที่ได้รับ

  • ในช่วงแรก (2022) คาดว่าจะมีโมเดล AI หลากหลายรูปแบบเกิดขึ้น แต่ปัจจุบันกลับค่อย ๆ รวมศูนย์ไปที่ LLM ไม่กี่รุ่น เช่น OpenAI และ Anthropic
  • Fly.io ยึดหลักว่า "ออกแบบฟีเจอร์สำหรับนักพัฒนา 10,000 คน"
    • GPU เป็นเพียงฟีเจอร์สำหรับนักพัฒนาคนที่ 10,001 จึงยากที่จะกลายเป็นผลิตภัณฑ์หลัก
  • สตาร์ตอัปคือกระบวนการเรียนรู้ผ่านการลองหลายครั้ง และการนำ GPU มาใช้ก็เป็นหนึ่งในการเดิมพันที่ล้มเหลว
  • การลงทุนที่เกี่ยวข้องกับ GPU ไม่ได้สูญเปล่าทั้งหมด เพราะฮาร์ดแวร์บางส่วนยังสามารถขายต่อได้ในภายหลัง
  • สามารถปรับลดการรองรับ GPU ลงได้ โดยยังคงรักษาความปลอดภัยและ developer experience ของ Fly Machines เอาไว้
  • เช่นเดียวกับที่ผลิตภัณฑ์แรกของ Fly.io อย่าง JavaScript edge computing runtime ไม่เป็นที่ต้องการของตลาด และสุดท้ายต้องเปลี่ยนไปสนับสนุนคอนเทนเนอร์ GPU ก็เป็นอีกทางเลือกหนึ่งที่ไม่สอดคล้องกับความต้องการของตลาด
  • สตาร์ตอัปมักค้นหาคำตอบที่ถูกต้องผ่านสมมติฐานที่ผิดพลาด และกรณีของ GPU ครั้งนี้ก็เป็นส่วนหนึ่งของกระบวนการนั้น

1 ความคิดเห็น

 
GN⁺ 2025-02-15
ความคิดเห็นจาก Hacker News
  • นักพัฒนาต้องการ LLMs มากกว่า GPU หรือโมเดล AI/ML ฝั่งวิศวกรระบบสนใจ CUDA และ GPU แต่ฝั่งนักพัฒนาซอฟต์แวร์ไม่ได้สนใจแบบนั้น

    • มีความแตกแยกขนาดใหญ่ในหมู่นักพัฒนาซอฟต์แวร์ บางคนอยากเข้าใจว่าโค้ดรันที่ไหนและทำงานอย่างไร
    • อีกกลุ่มแค่อยากให้จบด้วย git push และไม่อยากทำความเข้าใจเรื่องอย่าง DNS หรือ Linux
    • บริษัทอย่าง fly.io น่าดึงดูดสำหรับคนกลุ่มหลัง ส่วน GPU instances น่าดึงดูดสำหรับคนกลุ่มแรก
    • ต้องเข้าหาทั้งสองตลาดต่างกัน สำหรับกลุ่มหลังสามารถขาย abstraction และ automation ได้มาก
  • กฎของมัวร์สิ้นสุดลงโดยพฤตินัยตั้งแต่ปี 2012 การประมวลผลแบบ single-thread หยุดอยู่ที่ 2GHz

    • ช่วงปี 2012-2022 การย้ายไปคลาวด์ทำให้คนไม่ทันสังเกตว่าประสิทธิภาพ single-thread ชะงักงัน
    • ในปี 2022 ดาต้าเซ็นเตอร์ตระหนักว่าไม่จำเป็นต้องซื้อชิปรุ่นถัดไปที่มีคอร์มากขึ้นอีก
    • LLMs ประมวลผลแบบขนานได้ 100% จึงสามารถกลับมาลงทุนด้านทุนได้อีกครั้ง
    • ในปี 2024 จะมี wafer-scale silicon ออกมา ซึ่งสามารถรันโมเดล Llama ได้เร็วกว่า A100 ถึง 10 เท่า
    • ซอฟต์แวร์ต้องหาวิธีใช้ประโยชน์จากประสิทธิภาพนี้
  • เครื่อง GPU ของ fly เร็วมากและเชื่อถือได้ และราคาไม่ได้แพงเมื่อเทียบกับทางเลือกอื่น

    • DX ยอดเยี่ยม ไม่จำเป็นต้องเรียนรู้คำสั่งใหม่
    • อยากให้ราคาถูกลงและใช้ได้ในภูมิภาคมากกว่านี้
  • ซื้อ 4090 มาแล้ว แต่ VRAM 24GB ยังไม่เพียงพอ

    • การใช้ 3090 ตั้งแต่ 2 ใบขึ้นไปพร้อมแหล่งจ่ายไฟแบบปรับแต่งเองน่าจะดีกว่า
    • ประสิทธิภาพและคุณภาพยังไม่ดีพอ
  • ลูกค้าที่เลือก Fly น่าจะเป็นคนกลุ่มสุดท้ายที่ยังใช้เซิร์ฟเวอร์ GPU แบบ dedicated ระยะยาว

    • มีแนวโน้มจะใช้โซลูชันแบบ serverless มากกว่า
  • เสียดายที่ไม่มี GPU slices เพราะค่าใช้จ่ายเดือนละ $1,000 ยากจะหาเหตุผลมารองรับ

    • การต่อ AMD consumer GPU เข้ากับ Raspberry Pi อาจคุ้มค่าทางเศรษฐกิจกว่า
  • "เราผิดไปแล้ว" เป็นหนึ่งในประโยคที่สูงส่งและงดงามที่สุดในภาษาอังกฤษ

  • Fly.io ดึงดูดนักพัฒนาในลักษณะคล้ายกับแพลตฟอร์ม Workers ของ Cloudflare

    • ต้องการความเร็วในการพัฒนาแบบสภาพแวดล้อม PaaS
    • Cloudflare ยังคงแนวทางแบบ PaaS ควบคู่กับ GPU และสร้าง Workers AI ขึ้นมา
  • ใช้เวลาหนึ่งเดือนในการตั้งค่า serverless endpoint บน Runpod และทั้งแพงทั้งไม่น่าเชื่อถือ

    • สามารถใช้ Google Cloud credits เพื่อนำผลิตภัณฑ์ส่งมอบให้ลูกค้าได้
    • มีความต้องการผู้ให้บริการ GPU อยู่ และยังไม่แน่ชัดว่า Fly จะเข้าสู่ตลาดนี้ได้หรือไม่