- tinygrad คือ เฟรมเวิร์กโครงข่ายประสาทเทียม ที่ผสานความเรียบง่ายและประสิทธิภาพเข้าด้วยกัน โดยสามารถสร้างโมเดลที่ซับซ้อนได้ด้วยโครงสร้างการคำนวณขั้นต่ำ
- tinybox ที่สร้างขึ้นบนพื้นฐานนี้คือ คอมพิวเตอร์ AI ออฟไลน์ประสิทธิภาพสูง สำหรับการฝึกและการอนุมานดีปเลิร์นนิง โดยมีให้เลือก 3 รุ่นคือ red, green และ exa
- รุ่นระดับสูง green v2 blackwell ให้ประสิทธิภาพ 3086 TFLOPS ด้วย GPU RTX PRO 6000 จำนวน 4 ตัว และพร้อมจัดส่งทันทีในราคา $65,000
- รุ่นสูงสุด exabox ตั้งเป้าประสิทธิภาพประมาณ 1 EXAFLOP มีกำหนดเปิดตัวในปี 2027 และมีราคาอยู่ที่ ประมาณ 10 ล้านดอลลาร์
- tiny corp ผู้ผลิตมีเป้าหมายคือ ทำให้ petaflop กลายเป็นเชิงพาณิชย์และทำให้ AI เข้าถึงได้สำหรับทุกคน
ภาพรวม tinygrad
- tinygrad คือ เฟรมเวิร์กโครงข่ายประสาทเทียม ที่ให้ความสำคัญกับความเรียบง่ายและประสิทธิภาพ และเป็นโปรเจกต์ที่กำลังเติบโตอย่างรวดเร็ว
- โครงข่ายที่ซับซ้อนถูกประกอบขึ้นด้วย OpType เพียง 3 ประเภท: ElementwiseOps, ReduceOps, MovementOps
- ElementwiseOps ทำการคำนวณแบบรายองค์ประกอบกับเทนเซอร์ 1~3 ตัว และรวมถึง SQRT, LOG2, ADD, MUL, WHERE เป็นต้น
- ReduceOps รับเทนเซอร์หนึ่งตัวเป็นอินพุตและคืนค่าเป็นเทนเซอร์ที่เล็กลง เช่น SUM, MAX
- MovementOps คือการดำเนินการเสมือนสำหรับย้ายข้อมูลโดยไม่คัดลอก โดยใช้ ShapeTracker เพื่อทำ RESHAPE, PERMUTE, EXPAND เป็นต้น
- สามารถตรวจสอบการนำ CONV หรือ MATMUL ไปใช้งานได้โดยตรงในโค้ด
ไลน์อัปผลิตภัณฑ์ tinybox
- tinybox คือคอมพิวเตอร์ประสิทธิภาพสูงสำหรับดีปเลิร์นนิง โดยประกอบด้วย 3 รุ่นคือ red, green, exa
- สเปกหลักของแต่ละรุ่นมีดังนี้
-
red v2
- GPU: 4x 9070XT
- ประสิทธิภาพ FP16(FP32 acc): 778 TFLOPS
- GPU RAM: 64GB, แบนด์วิดท์ 2560 GB/s
- CPU: AMD EPYC 32 คอร์
- RAM ระบบ: 128GB, แบนด์วิดท์ 204.8 GB/s
- ดิสก์: 2TB NVMe, ความเร็วอ่าน 7.3 GB/s
- เครือข่าย: 2x 1GbE + OCP3.0
- พลังงาน: 1600W
- ระดับเสียง: ต่ำกว่า 50dB
- ราคา: $12,000, พร้อมจัดส่งทันที
-
green v2 blackwell
- GPU: 4x RTX PRO 6000 Blackwell
- ประสิทธิภาพ FP16(FP32 acc): 3086 TFLOPS
- GPU RAM: 384GB, แบนด์วิดท์ 7168 GB/s
- CPU: AMD GENOA 32 คอร์
- RAM ระบบ: 192GB, แบนด์วิดท์ 460.8 GB/s
- ดิสก์: 4TB RAID + 1TB สำหรับบูต, ความเร็วอ่าน 59.3 GB/s
- เครือข่าย: 2x 10GbE + OCP3.0
- พลังงาน: 2x 1600W
- ระดับเสียง: 65dB (วัดที่ระยะ 10 เมตร)
- ราคา: $65,000, พร้อมจัดส่งทันที
-
exabox
- GPU: 720x RDNA5 AT0 XL
- ประสิทธิภาพ FP16(FP32 acc): ประมาณ 1 EXAFLOP
- GPU RAM: 25,920GB, แบนด์วิดท์ 1244 TB/s
- CPU: AMD GENOA 32 คอร์ จำนวน 120 ตัว
- RAM ระบบ: 23,040GB, แบนด์วิดท์ 55.2 TB/s
- ดิสก์: 480TB RAID, ความเร็วอ่าน 7.1 TB/s
- เครือข่าย: รองรับการขยาย PCIe5 3.2 TB/s
- พลังงาน: 600kW
- ขนาด: 20x8x8.5 ft, น้ำหนัก 20,000 lbs
- กำหนดเปิดตัว: ปี 2027, ราคาโดยประมาณ ราว $10M
- ทุกรุ่นใช้ระบบปฏิบัติการ Ubuntu 24.04 และติดตั้งได้ทั้งแบบ สแตนด์อโลนหรือแบบแร็กเมานต์
- การอัปเดตสินค้าและสต็อกจะให้ผ่าน เมลลิงลิสต์
FAQ
-
ภาพรวม tinybox
-
เป็นคอมพิวเตอร์ประสิทธิภาพสูงสำหรับดีปเลิร์นนิงที่ให้ความคุ้มค่าต่อราคาสูงมาก
- มีการทดสอบเปรียบเทียบกับระบบที่แพงกว่าถึง 10 เท่าในเบนช์มาร์ก MLPerf Training 4.0
- ไม่ได้ทำได้แค่การฝึกเท่านั้น แต่ยังทำ การอนุมาน (inference) ได้ด้วย
-
การสั่งซื้อและการจัดส่ง
- สามารถสั่งซื้อได้จากเว็บไซต์ และ จัดส่งภายใน 1 สัปดาห์หลังชำระเงิน
- รองรับ รับสินค้าที่ซานดิเอโก หรือ จัดส่งทั่วโลก
-
การปรับแต่งและการชำระเงิน
-
ไม่รองรับการปรับแต่งเพื่อรักษาราคาและคุณภาพ
- การชำระเงินรองรับเฉพาะการโอนเงินผ่านธนาคาร (wire transfer)
- แบบฟอร์ม W-9 มีให้ที่ ลิงก์ดาวน์โหลด
-
การใช้งาน tinygrad
- ใช้ใน openpilot เพื่อรันโมเดลการขับขี่บน Snapdragon 845 GPU
- ใช้แทน Qualcomm SNPE และให้ความเร็วที่ดีกว่า พร้อมรองรับ การโหลด ONNX, การฝึก, และ ฟังก์ชัน attention
-
ฟังก์ชันและประสิทธิภาพ
- ไม่ได้จำกัดเฉพาะการอนุมาน และรองรับทั้ง forward/backward pass บนพื้นฐาน autodiff
- มี API คล้าย PyTorch แต่โครงสร้างเรียบง่ายกว่า
- ปัจจุบันเป็น เวอร์ชันอัลฟา จึงยังไม่เสถียรมากนัก แต่ช่วงหลังค่อนข้างเสถียรขึ้น
- มีแผนจะพ้นจากสถานะอัลฟาเมื่อสามารถ ทำซ้ำงานวิจัยได้เร็วกว่า PyTorch 2 เท่า
- ปัจจัยที่ทำให้เร็วขึ้น
- คอมไพล์ เคอร์เนลแบบปรับแต่งเฉพาะแต่ละโอเปอเรชัน เพื่อเพิ่มประสิทธิภาพตามรูปแบบ
- ใช้โครงสร้าง lazy tensor เพื่อทำ fusion ของโอเปอเรชันอย่างจริงจัง
- ด้วย แบ็กเอนด์ที่กระชับ การปรับแต่งเคอร์เนลจึงช่วยเพิ่มประสิทธิภาพโดยรวมได้
-
การพัฒนาและชุมชน
- การพัฒนาดำเนินอยู่บน GitHub และ Discord
- การมีส่วนร่วมกับ tinygrad (PR) ถือเป็นเส้นทางสำคัญสำหรับการรับเข้าทำงานและการเข้าร่วมลงทุน
- เป้าหมายของ tiny corp คือ ทำให้ petaflop กลายเป็นเชิงพาณิชย์และทำให้ AI เข้าถึงได้สำหรับทุกคน
1 ความคิดเห็น
ความเห็นจาก Hacker News
เว็บไซต์นี้ให้ความรู้สึกแรงมากว่า ทำด้วยมือโดยมนุษย์ ไม่ใช่ AI เลยรู้สึกประชดนิดๆ
ทั้งดีไซน์และโทนการเขียนดูเป็นมนุษย์มาก
ถึงอย่างนั้นไอเดียก็ดีมาก และคิดว่าอนาคตแบบนี้ที่ใช้ โมเดลฝึกบนเครื่องโลคัล จะช่วยลดการพึ่งพาโมเดลของบริษัทยักษ์ใหญ่ได้
แต่อยากให้เสียบเข้าวงจร 240V ได้ตรงๆ เลยมากกว่า การต้องหาวงจร 120V สองชุดนี่ค่อนข้างยุ่งยาก
คิดว่าน่าจะเพราะคนในวงการไวต่อการแยกสัญญาณออกจาก noise
น่าจะเป็นเพราะปริมาณ PR ไม่มากพอที่ทำให้เป็นปัญหา PR คุณภาพต่ำก็คงแค่ปฏิเสธอย่างสุภาพได้ ดังนั้นวิธีสร้างอาจไม่สำคัญ
โมเดลพื้นฐานราคา 12,000 ดอลลาร์นี่แพงเกินไป
ฉันรันโมเดล 120B พารามิเตอร์บน Apple M3 Max (RAM 128GB) ได้ที่ 15~20 โทเคนต่อวินาที ใช้ไฟ 80W
มันไม่สมบูรณ์แบบ แต่ก็ยังรู้สึกว่าดีกว่าเครื่องราคา 12,000 ดอลลาร์
เอามารัน gpt-oss-120b Q8 ได้ราว 30 โทเคนต่อวินาที
red v2 ไม่น่าจะรันโมเดล 120B ได้อย่างเหมาะสม
ฉันประกอบ dual A100 AI homelab เอง โดยเอา VRAM 80GB มาต่อด้วย NVLink
โมเดล 120B เป็นไปไม่ได้ถ้าไม่ quantize หนักมาก และถ้าทำขนาดนั้นโมเดลก็จะไม่เสถียร
พื้นที่ KV cache ก็ไม่พอ ทำให้แถวๆ context 4k ก็ OOM แล้ว
ตอนนี้แค่รันโมเดล 70B ก็ยังตึงมาก อุปกรณ์ของฉันมี VRAM มากกว่า red v2 อยู่ 16GB
แถมยังไม่เข้าใจว่าทำไมต้อง 12U ด้วย เครื่องของฉัน 4U
ส่วน green v2 GPU ดีกว่าก็จริง แต่ถ้าราคา 65,000 ดอลลาร์ CPU กับ RAM ก็ควรดีกว่านี้มาก
ดีใจที่มีของแบบนี้ออกมา แต่พูดตรงๆ คือ สัดส่วนการจัดสเปกมันชวนงง
ฉันใช้กล่อง Epyc Milan รัน gpt-oss-120b Q4 แบบแบ่งระหว่าง RAM กับ GPU ได้ประมาณ 30~50 โทเคนต่อวินาที
สเปก 64G VRAM/128G RAM ไม่มีประสิทธิภาพนัก แม้แต่ โมเดล MoE ก็ต้องใช้แค่ราว 20B สำหรับ router ส่วน VRAM ที่เหลือก็เปลือง
คำตอบคงประมาณว่า “เพื่อกดราคาและรักษาคุณภาพ เราไม่รองรับการปรับแต่งขนาดเซิร์ฟเวอร์”
ฉันใช้เซิร์ฟเวอร์ 8 GPU (5 RTX 8000, 3 RTX 6000 Ada) ซึ่งสำหรับงาน inference พื้นฐาน 8000 ก็พอแล้ว
รุ่น green น่าจะเร็วกว่า แต่ค่าเพิ่มอีก 25,000 ดอลลาร์มันฟังไม่ขึ้น
Blackwell 6000 สี่ใบราคา 32,000~36,000 ดอลลาร์ แล้วอีก 30,000 ดอลลาร์ที่เหลือหายไปไหน
local AI framework บางตัวรองรับ นโยบาย LRU ที่ใช้ VRAM แค่บางส่วนเป็น cache ทำให้ overhead ยังพอรับได้
exabox น่าสนใจ
สงสัยว่าใครจะเป็นลูกค้า หลังจากดูวิดีโอเปิดตัว Vera Rubin แล้ว ก็แทบนึกภาพไม่ออกว่าจะไป แข่งกับ NVIDIA ในตลาด hyperscale ได้ยังไง
น่าจะเล็งไปที่สตาร์ทอัป ML ที่ให้ความสำคัญกับความคุ้มค่า
ดูจากราคาแล้ว Vera Rubin อยู่ที่ประมาณครึ่งหนึ่งของราคาสำหรับระดับ GPU RAM ใกล้เคียงกัน
แม้จะสู้คุณภาพ interconnect ของ NV ไม่ได้ก็ตาม
แต่ก็ยังไม่รู้ว่าใครจะซื้อ เพราะ NV ส่งของได้อยู่แล้ว
ถ้าจับช่องว่างนั้นก็ยังแข่งได้ ถ้าส่วนแบ่งตลาดต่ำกว่า 0.01% บริษัทใหญ่ก็คงไม่สนใจ
ทำให้นึกว่า นี่คือ เครื่องขุดคริปโตแบบใหม่ หรือเปล่า
เมื่อก่อนขายฮาร์ดแวร์สำหรับขุด ตอนนี้เหมือนเปลี่ยนมาขายสำหรับ AI
Tinybox เท่ดี แต่ตลาดน่าจะต้องการผลิตภัณฑ์แบบ การันตีประสิทธิภาพชัดเจน มากกว่า เช่น “รัน Kimi 2.5 ได้ที่ 50 โทเคนต่อวินาที”
ทำให้นึกถึงแนวคิด Decoy effect
สงสัยว่าเครื่องนี้ จัดการระบบระบายความร้อนยังไง
เรื่องเงื่อนไขที่ tinygrad บอกว่าจะพ้นอัลฟาเมื่อ “เร็วกว่า pytorch 2 เท่า”
อยากได้คำอธิบายที่ชัดกว่านี้ว่า pytorch ช้ากว่าฮาร์ดแวร์เกิน 2 เท่าใน workload แบบไหน
งานวิจัยส่วนใหญ่ก็ใช้คอมโพเนนต์มาตรฐาน และ pytorch เองก็รีดประสิทธิภาพ GPU ได้เกิน 50% อยู่แล้ว
ถ้าเป็นกรณีพิเศษที่ต้องเขียน custom kernel เองถึงจะได้ประสิทธิภาพ แบบนั้นก็เป็นอีกเรื่อง
ไม่เข้าใจว่าทำไมถึงเลิกทำสเปก 6 GPU
สเปก 4 GPU (9070, RTX6000) เป็นดีไซน์ 2 สล็อต เลย ประกอบบนเมนบอร์ดทั่วไปได้
ส่วน 6 GPU ต้องมี riser, PCIe retimer, dual PSU และเคสแบบ custom เลยซับซ้อนกว่า
แต่ถึงอย่างนั้นก็ยังคิดว่า ความคุ้มค่าต่อราคาดีกว่า