- SF Compute เป็นกลุ่มที่รวบรวมสตาร์ตอัปและสถาบันวิจัยเพื่อร่วมกันซื้อและแบ่งปันทรัพยากรคอมพิวต์สำหรับการฝึกโมเดลขนาดใหญ่
- แทนที่สตาร์ตอัปแต่ละรายจะต้องซื้อ GPU cluster ของตนเอง กลุ่มจะซื้อคลัสเตอร์ที่มีจำนวน GPU รวมเป็นสัดส่วนกับจำนวนสตาร์ตอัป
- ตัวจัดตารางงานจะจัดสรรทรัพยากรคอมพิวต์ให้สตาร์ตอัปทุกแห่งอย่างเป็นธรรมตามสัดส่วนความเป็นเจ้าของ
- ด้วยวิธีนี้ สตาร์ตอัปสามารถใช้ GPU 512 ตัวเพื่อเร่งการฝึกโมเดลภายในหนึ่งสัปดาห์ และหลีกเลี่ยงความยุ่งยากจากการต้องใช้งาน GPU 128 ตัวอย่างต่อเนื่องตลอดหนึ่งเดือน
- หากมีทรัพยากรคอมพิวต์ว่างอยู่ ตัวจัดตารางงานสามารถจัดสรรทรัพยากรให้สตาร์ตอัปมากกว่าโควตาที่ยุติธรรมได้
- โมเดลนี้คล้ายกับที่สถาบันวิจัยขนาดใหญ่อย่าง OpenAI และ DeepMind ใช้ แต่โดยทั่วไปเข้าถึงได้ง่ายกว่าสำหรับสตาร์ตอัปที่มีคลัสเตอร์ขนาดเล็กและสัญญาระยะยาว
- เป้าหมายคือการให้บริการทรัพยากรคอมพิวต์ในราคาราว $2.00 ต่อ H100 GPU 1 ตัว พร้อมการจัดสรรแบบระเบิดโหลดและสัญญาระยะสั้น
- สตาร์ตอัปสามารถเข้าร่วมกลุ่มได้โดยกรอกแบบฟอร์มหรือติดต่อผู้จัด
- สตาร์ตอัปสามารถถอนตัวออกจากคลัสเตอร์ได้โดยแจ้งล่วงหน้า และสามารถเพิ่มสตาร์ตอัปรายใหม่เข้าเป็นชุดได้
- กลุ่มอาจจัดเตรียมทรัพยากรเกินไว้เล็กน้อยเพื่อรองรับการทดลองขนาดเล็กหรือคำขอจากเพื่อนในราคาที่ดี
- การเงินสำหรับการซื้อคลัสเตอร์สามารถกระจายความเสี่ยงได้ด้วยความช่วยเหลือจากธนาคาร
- กลุ่มมีแผนจะนำ H100 GPU จำนวน 512 ตัวขึ้นออนไลน์ภายใน 4-6 สัปดาห์ และอาจเพิ่มทรัพยากรเพิ่มเติมหากมีความต้องการสูง
- มี mailing list สำหรับดีบักโครงสร้างพื้นฐานและกลุ่ม Slack เพื่อให้สมาชิกขอความช่วยเหลือเกี่ยวกับปัญหาโครงสร้างพื้นฐานได้
1 ความคิดเห็น
ความคิดเห็นบน Hacker News