Tinybox – เครื่อง AI ออฟไลน์ที่รองรับพารามิเตอร์ 120B

(tinygrad.org)

6 คะแนน โดย GN⁺ 2026-03-22 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

tinygrad คือ เฟรมเวิร์กโครงข่ายประสาทเทียม ที่ผสานความเรียบง่ายและประสิทธิภาพเข้าด้วยกัน โดยสามารถสร้างโมเดลที่ซับซ้อนได้ด้วยโครงสร้างการคำนวณขั้นต่ำ
tinybox ที่สร้างขึ้นบนพื้นฐานนี้คือ คอมพิวเตอร์ AI ออฟไลน์ประสิทธิภาพสูง สำหรับการฝึกและการอนุมานดีปเลิร์นนิง โดยมีให้เลือก 3 รุ่นคือ red, green และ exa
รุ่นระดับสูง green v2 blackwell ให้ประสิทธิภาพ 3086 TFLOPS ด้วย GPU RTX PRO 6000 จำนวน 4 ตัว และพร้อมจัดส่งทันทีในราคา $65,000
รุ่นสูงสุด exabox ตั้งเป้าประสิทธิภาพประมาณ 1 EXAFLOP มีกำหนดเปิดตัวในปี 2027 และมีราคาอยู่ที่ ประมาณ 10 ล้านดอลลาร์
tiny corp ผู้ผลิตมีเป้าหมายคือ ทำให้ petaflop กลายเป็นเชิงพาณิชย์และทำให้ AI เข้าถึงได้สำหรับทุกคน

ภาพรวม tinygrad

tinygrad คือ เฟรมเวิร์กโครงข่ายประสาทเทียม ที่ให้ความสำคัญกับความเรียบง่ายและประสิทธิภาพ และเป็นโปรเจกต์ที่กำลังเติบโตอย่างรวดเร็ว
โครงข่ายที่ซับซ้อนถูกประกอบขึ้นด้วย OpType เพียง 3 ประเภท: ElementwiseOps, ReduceOps, MovementOps
- ElementwiseOps ทำการคำนวณแบบรายองค์ประกอบกับเทนเซอร์ 1~3 ตัว และรวมถึง SQRT, LOG2, ADD, MUL, WHERE เป็นต้น
- ReduceOps รับเทนเซอร์หนึ่งตัวเป็นอินพุตและคืนค่าเป็นเทนเซอร์ที่เล็กลง เช่น SUM, MAX
- MovementOps คือการดำเนินการเสมือนสำหรับย้ายข้อมูลโดยไม่คัดลอก โดยใช้ ShapeTracker เพื่อทำ RESHAPE, PERMUTE, EXPAND เป็นต้น
สามารถตรวจสอบการนำ CONV หรือ MATMUL ไปใช้งานได้โดยตรงในโค้ด

ไลน์อัปผลิตภัณฑ์ tinybox

tinybox คือคอมพิวเตอร์ประสิทธิภาพสูงสำหรับดีปเลิร์นนิง โดยประกอบด้วย 3 รุ่นคือ red, green, exa
สเปกหลักของแต่ละรุ่นมีดังนี้
- red v2
  - GPU: 4x 9070XT
  - ประสิทธิภาพ FP16(FP32 acc): 778 TFLOPS
  - GPU RAM: 64GB, แบนด์วิดท์ 2560 GB/s
  - CPU: AMD EPYC 32 คอร์
  - RAM ระบบ: 128GB, แบนด์วิดท์ 204.8 GB/s
  - ดิสก์: 2TB NVMe, ความเร็วอ่าน 7.3 GB/s
  - เครือข่าย: 2x 1GbE + OCP3.0
  - พลังงาน: 1600W
  - ระดับเสียง: ต่ำกว่า 50dB
  - ราคา: $12,000, พร้อมจัดส่งทันที
- green v2 blackwell
  - GPU: 4x RTX PRO 6000 Blackwell
  - ประสิทธิภาพ FP16(FP32 acc): 3086 TFLOPS
  - GPU RAM: 384GB, แบนด์วิดท์ 7168 GB/s
  - CPU: AMD GENOA 32 คอร์
  - RAM ระบบ: 192GB, แบนด์วิดท์ 460.8 GB/s
  - ดิสก์: 4TB RAID + 1TB สำหรับบูต, ความเร็วอ่าน 59.3 GB/s
  - เครือข่าย: 2x 10GbE + OCP3.0
  - พลังงาน: 2x 1600W
  - ระดับเสียง: 65dB (วัดที่ระยะ 10 เมตร)
  - ราคา: $65,000, พร้อมจัดส่งทันที
- exabox
  - GPU: 720x RDNA5 AT0 XL
  - ประสิทธิภาพ FP16(FP32 acc): ประมาณ 1 EXAFLOP
  - GPU RAM: 25,920GB, แบนด์วิดท์ 1244 TB/s
  - CPU: AMD GENOA 32 คอร์ จำนวน 120 ตัว
  - RAM ระบบ: 23,040GB, แบนด์วิดท์ 55.2 TB/s
  - ดิสก์: 480TB RAID, ความเร็วอ่าน 7.1 TB/s
  - เครือข่าย: รองรับการขยาย PCIe5 3.2 TB/s
  - พลังงาน: 600kW
  - ขนาด: 20x8x8.5 ft, น้ำหนัก 20,000 lbs
  - กำหนดเปิดตัว: ปี 2027, ราคาโดยประมาณ ราว $10M
  - ทุกรุ่นใช้ระบบปฏิบัติการ Ubuntu 24.04 และติดตั้งได้ทั้งแบบ สแตนด์อโลนหรือแบบแร็กเมานต์
  - การอัปเดตสินค้าและสต็อกจะให้ผ่าน เมลลิงลิสต์

FAQ

ภาพรวม tinybox
- เป็นคอมพิวเตอร์ประสิทธิภาพสูงสำหรับดีปเลิร์นนิงที่ให้ความคุ้มค่าต่อราคาสูงมาก
  - มีการทดสอบเปรียบเทียบกับระบบที่แพงกว่าถึง 10 เท่าในเบนช์มาร์ก MLPerf Training 4.0
  - ไม่ได้ทำได้แค่การฝึกเท่านั้น แต่ยังทำ การอนุมาน (inference) ได้ด้วย
การสั่งซื้อและการจัดส่ง
- สามารถสั่งซื้อได้จากเว็บไซต์ และ จัดส่งภายใน 1 สัปดาห์หลังชำระเงิน
- รองรับ รับสินค้าที่ซานดิเอโก หรือ จัดส่งทั่วโลก
การปรับแต่งและการชำระเงิน
- ไม่รองรับการปรับแต่งเพื่อรักษาราคาและคุณภาพ
  - การชำระเงินรองรับเฉพาะการโอนเงินผ่านธนาคาร (wire transfer)
  - แบบฟอร์ม W-9 มีให้ที่ ลิงก์ดาวน์โหลด
การใช้งาน tinygrad
- ใช้ใน openpilot เพื่อรันโมเดลการขับขี่บน Snapdragon 845 GPU
- ใช้แทน Qualcomm SNPE และให้ความเร็วที่ดีกว่า พร้อมรองรับ การโหลด ONNX, การฝึก, และ ฟังก์ชัน attention
ฟังก์ชันและประสิทธิภาพ
- ไม่ได้จำกัดเฉพาะการอนุมาน และรองรับทั้ง forward/backward pass บนพื้นฐาน autodiff
- มี API คล้าย PyTorch แต่โครงสร้างเรียบง่ายกว่า
- ปัจจุบันเป็น เวอร์ชันอัลฟา จึงยังไม่เสถียรมากนัก แต่ช่วงหลังค่อนข้างเสถียรขึ้น
- มีแผนจะพ้นจากสถานะอัลฟาเมื่อสามารถ ทำซ้ำงานวิจัยได้เร็วกว่า PyTorch 2 เท่า
- ปัจจัยที่ทำให้เร็วขึ้น
  - คอมไพล์ เคอร์เนลแบบปรับแต่งเฉพาะแต่ละโอเปอเรชัน เพื่อเพิ่มประสิทธิภาพตามรูปแบบ
  - ใช้โครงสร้าง lazy tensor เพื่อทำ fusion ของโอเปอเรชันอย่างจริงจัง
  - ด้วย แบ็กเอนด์ที่กระชับ การปรับแต่งเคอร์เนลจึงช่วยเพิ่มประสิทธิภาพโดยรวมได้
การพัฒนาและชุมชน
- การพัฒนาดำเนินอยู่บน GitHub และ Discord
- การมีส่วนร่วมกับ tinygrad (PR) ถือเป็นเส้นทางสำคัญสำหรับการรับเข้าทำงานและการเข้าร่วมลงทุน
- เป้าหมายของ tiny corp คือ ทำให้ petaflop กลายเป็นเชิงพาณิชย์และทำให้ AI เข้าถึงได้สำหรับทุกคน

1 ความคิดเห็น

GN⁺ 2026-03-22

ความเห็นจาก Hacker News

เว็บไซต์นี้ให้ความรู้สึกแรงมากว่า ทำด้วยมือโดยมนุษย์ ไม่ใช่ AI เลยรู้สึกประชดนิดๆ
ทั้งดีไซน์และโทนการเขียนดูเป็นมนุษย์มาก
ถึงอย่างนั้นไอเดียก็ดีมาก และคิดว่าอนาคตแบบนี้ที่ใช้ โมเดลฝึกบนเครื่องโลคัล จะช่วยลดการพึ่งพาโมเดลของบริษัทยักษ์ใหญ่ได้
แต่อยากให้เสียบเข้าวงจร 240V ได้ตรงๆ เลยมากกว่า การต้องหาวงจร 120V สองชุดนี่ค่อนข้างยุ่งยาก
- ในบทความเกี่ยวกับ AI พวกที่ได้รับความเคารพจริงๆ ส่วนใหญ่แทบจะ ไม่มีร่องรอยว่า AI เขียน
  คิดว่าน่าจะเพราะคนในวงการไวต่อการแยกสัญญาณออกจาก noise
- แปลกใจที่เปิดรับ code contribution แบบสาธารณะด้วยคำว่า “Invest with your PRs” แต่กลับ ไม่มีนโยบายเกี่ยวกับโค้ดที่สร้างด้วย AI
  น่าจะเป็นเพราะปริมาณ PR ไม่มากพอที่ทำให้เป็นปัญหา PR คุณภาพต่ำก็คงแค่ปฏิเสธอย่างสุภาพได้ ดังนั้นวิธีสร้างอาจไม่สำคัญ
- สำหรับคนที่ซื้ออุปกรณ์ราคา 65,000 ดอลลาร์ การต้องหาวงจรสองชุดคงเป็นปัญหาเล็กน้อย
- จริงๆ แล้ววงจร 240V ในอเมริกาก็คือ การเอา 120V สองชุดมามัดรวมกัน ดังนั้นการเดินสายใหม่ไม่ได้ยากมาก
โมเดลพื้นฐานราคา 12,000 ดอลลาร์นี่แพงเกินไป
ฉันรันโมเดล 120B พารามิเตอร์บน Apple M3 Max (RAM 128GB) ได้ที่ 15~20 โทเคนต่อวินาที ใช้ไฟ 80W
มันไม่สมบูรณ์แบบ แต่ก็ยังรู้สึกว่าดีกว่าเครื่องราคา 12,000 ดอลลาร์
- สมรรถนะ tflops ของ M3 Max เทียบกับกล่องราคา 12k ไม่ได้เลย มันน้อยกว่ามาก
- เครื่องแบบนี้มีไว้สำหรับคนไม่รู้เรื่อง ปีที่แล้วฉันซื้อ VRAM 160GB ได้ในราคา 1,000 ดอลลาร์ และ VRAM P40 96GB ก็ต่ำกว่า 1,000 ดอลลาร์เหมือนกัน
  เอามารัน gpt-oss-120b Q8 ได้ราว 30 โทเคนต่อวินาที
red v2 ไม่น่าจะรันโมเดล 120B ได้อย่างเหมาะสม
ฉันประกอบ dual A100 AI homelab เอง โดยเอา VRAM 80GB มาต่อด้วย NVLink
โมเดล 120B เป็นไปไม่ได้ถ้าไม่ quantize หนักมาก และถ้าทำขนาดนั้นโมเดลก็จะไม่เสถียร
พื้นที่ KV cache ก็ไม่พอ ทำให้แถวๆ context 4k ก็ OOM แล้ว
ตอนนี้แค่รันโมเดล 70B ก็ยังตึงมาก อุปกรณ์ของฉันมี VRAM มากกว่า red v2 อยู่ 16GB
แถมยังไม่เข้าใจว่าทำไมต้อง 12U ด้วย เครื่องของฉัน 4U
ส่วน green v2 GPU ดีกว่าก็จริง แต่ถ้าราคา 65,000 ดอลลาร์ CPU กับ RAM ก็ควรดีกว่านี้มาก
ดีใจที่มีของแบบนี้ออกมา แต่พูดตรงๆ คือ สัดส่วนการจัดสเปกมันชวนงง
- ประสิทธิภาพโอเค แต่ไม่ได้ระดับบ้าคลั่ง
  ฉันใช้กล่อง Epyc Milan รัน gpt-oss-120b Q4 แบบแบ่งระหว่าง RAM กับ GPU ได้ประมาณ 30~50 โทเคนต่อวินาที
  สเปก 64G VRAM/128G RAM ไม่มีประสิทธิภาพนัก แม้แต่ โมเดล MoE ก็ต้องใช้แค่ราว 20B สำหรับ router ส่วน VRAM ที่เหลือก็เปลือง
- ที่เป็น 12U น่าจะเพราะ ใช้ SKU ของเคสแบบเดียว
  คำตอบคงประมาณว่า “เพื่อกดราคาและรักษาคุณภาพ เราไม่รองรับการปรับแต่งขนาดเซิร์ฟเวอร์”
- พูดตรงๆ ฉันว่า RTX 8000 สองใบ ให้ ROI ดีกว่า red v2
  ฉันใช้เซิร์ฟเวอร์ 8 GPU (5 RTX 8000, 3 RTX 6000 Ada) ซึ่งสำหรับงาน inference พื้นฐาน 8000 ก็พอแล้ว
  รุ่น green น่าจะเร็วกว่า แต่ค่าเพิ่มอีก 25,000 ดอลลาร์มันฟังไม่ขึ้น
- สงสัยว่ามันถูกกว่า Blackwell 6000 หรือเปล่า
  Blackwell 6000 สี่ใบราคา 32,000~36,000 ดอลลาร์ แล้วอีก 30,000 ดอลลาร์ที่เหลือหายไปไหน
- ฉันคิดว่า ถ้า offload KV ไปที่ system RAM หรือ storage ก็น่าจะใช้ context ที่ยาวขึ้นได้ไม่ใช่เหรอ
  local AI framework บางตัวรองรับ นโยบาย LRU ที่ใช้ VRAM แค่บางส่วนเป็น cache ทำให้ overhead ยังพอรับได้
exabox น่าสนใจ
สงสัยว่าใครจะเป็นลูกค้า หลังจากดูวิดีโอเปิดตัว Vera Rubin แล้ว ก็แทบนึกภาพไม่ออกว่าจะไป แข่งกับ NVIDIA ในตลาด hyperscale ได้ยังไง
น่าจะเล็งไปที่สตาร์ทอัป ML ที่ให้ความสำคัญกับความคุ้มค่า
ดูจากราคาแล้ว Vera Rubin อยู่ที่ประมาณครึ่งหนึ่งของราคาสำหรับระดับ GPU RAM ใกล้เคียงกัน
แม้จะสู้คุณภาพ interconnect ของ NV ไม่ได้ก็ตาม
แต่ก็ยังไม่รู้ว่าใครจะซื้อ เพราะ NV ส่งของได้อยู่แล้ว
- อินฟราของบริษัทยักษ์หลายแห่งมีอายุเกิน 5 ปีแล้ว และ ต้นทุนอัปเกรดสูงมาก จนเปลี่ยนง่ายๆ ไม่ได้
  ถ้าจับช่องว่างนั้นก็ยังแข่งได้ ถ้าส่วนแบ่งตลาดต่ำกว่า 0.01% บริษัทใหญ่ก็คงไม่สนใจ
- มีมุกตอบคำว่า “exabox น่าสนใจ” ว่า “มันรัน Crysis ได้ไหม”
ทำให้นึกว่า นี่คือ เครื่องขุดคริปโตแบบใหม่ หรือเปล่า
เมื่อก่อนขายฮาร์ดแวร์สำหรับขุด ตอนนี้เหมือนเปลี่ยนมาขายสำหรับ AI
- คล้ายกันอยู่ แต่ต่างกันตรงที่ ไม่มีบล็อกรางวัล
Tinybox เท่ดี แต่ตลาดน่าจะต้องการผลิตภัณฑ์แบบ การันตีประสิทธิภาพชัดเจน มากกว่า เช่น “รัน Kimi 2.5 ได้ที่ 50 โทเคนต่อวินาที”
ทำให้นึกถึงแนวคิด Decoy effect
สงสัยว่าเครื่องนี้ จัดการระบบระบายความร้อนยังไง
เรื่องเงื่อนไขที่ tinygrad บอกว่าจะพ้นอัลฟาเมื่อ “เร็วกว่า pytorch 2 เท่า”
อยากได้คำอธิบายที่ชัดกว่านี้ว่า pytorch ช้ากว่าฮาร์ดแวร์เกิน 2 เท่าใน workload แบบไหน
งานวิจัยส่วนใหญ่ก็ใช้คอมโพเนนต์มาตรฐาน และ pytorch เองก็รีดประสิทธิภาพ GPU ได้เกิน 50% อยู่แล้ว
ถ้าเป็นกรณีพิเศษที่ต้องเขียน custom kernel เองถึงจะได้ประสิทธิภาพ แบบนั้นก็เป็นอีกเรื่อง
ไม่เข้าใจว่าทำไมถึงเลิกทำสเปก 6 GPU
สเปก 4 GPU (9070, RTX6000) เป็นดีไซน์ 2 สล็อต เลย ประกอบบนเมนบอร์ดทั่วไปได้
ส่วน 6 GPU ต้องมี riser, PCIe retimer, dual PSU และเคสแบบ custom เลยซับซ้อนกว่า
แต่ถึงอย่างนั้นก็ยังคิดว่า ความคุ้มค่าต่อราคาดีกว่า

Tinybox – เครื่อง AI ออฟไลน์ที่รองรับพารามิเตอร์ 120B

ภาพรวม tinygrad

ไลน์อัปผลิตภัณฑ์ tinybox

red v2

green v2 blackwell

exabox

FAQ

ภาพรวม tinybox

เป็นคอมพิวเตอร์ประสิทธิภาพสูงสำหรับดีปเลิร์นนิงที่ให้ความคุ้มค่าต่อราคาสูงมาก

การสั่งซื้อและการจัดส่ง

การปรับแต่งและการชำระเงิน

ไม่รองรับการปรับแต่งเพื่อรักษาราคาและคุณภาพ

การใช้งาน tinygrad

ฟังก์ชันและประสิทธิภาพ

การพัฒนาและชุมชน

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นจาก Hacker News