- Taalas พัฒนา แพลตฟอร์มที่แปลงโมเดล AI ให้เป็นชิปซิลิคอนแบบกำหนดเอง โดยใช้เวลาเพียง 2 เดือนในการทำให้โมเดลถูกนำไปใช้งานบนฮาร์ดแวร์
- ผลิตภัณฑ์แรก Llama 3.1 8B แบบ hardwired ประมวลผลได้ 17K โทเค็นต่อวินาที เร็วกว่าเดิม 10 เท่า ถูกกว่า 20 เท่า และใช้พลังงานเพียงหนึ่งในสิบ
- ทำให้ การอนุมานที่ใช้พลังงานต่ำ ต้นทุนต่ำ และความเร็วสูง เป็นไปได้ พร้อมตัดความซับซ้อนของระบบที่อิง GPU เดิมออกด้วยสถาปัตยกรรมชิปแบบใหม่ที่รวมหน่วยความจำและการประมวลผลเข้าด้วยกัน
- Taalas ใช้แนวทางนี้เพื่อเร่ง การทำให้ AI ทำงานได้แบบเรียลไทม์และแพร่หลายสู่คนทั่วไป และเปิดโอกาสให้นักพัฒนาทดลองแอปพลิเคชันใหม่ ๆ ในสภาพแวดล้อมที่มีความหน่วงต่ำมากและต้นทุนต่ำมาก
ข้อจำกัดของ AI ในปัจจุบันและสิ่งที่จำเป็น
- แม้ AI จะ เหนือกว่ามนุษย์ในบางด้าน แล้ว แต่ ความหน่วง (latency) และ ต้นทุน (cost) ยังถูกมองว่าเป็นข้อจำกัดใหญ่ที่สุดต่อการใช้งานในวงกว้าง
- การโต้ตอบกับโมเดลภาษาเกิดขึ้นช้ากว่าความเร็วในการคิดของมนุษย์ และเครื่องมือช่วยเขียนโค้ดทำให้ต้องรอคำตอบนานหลายนาที
- AI แบบเอเจนต์อัตโนมัติต้องการการตอบสนองระดับมิลลิวินาที แต่ระบบปัจจุบันยังทำไม่ได้
- การนำโมเดลสมัยใหม่ไปใช้งานต้องอาศัยโครงสร้างพื้นฐานระดับซูเปอร์คอมพิวเตอร์ขนาดใหญ่ที่ต้องใช้ พลังงานหลายร้อย kW และระบบระบายความร้อน แพ็กเกจจิง และโครงสร้างหน่วยความจำที่ซับซ้อน
- โครงสร้างเช่นนี้ขยายไปเป็นดาต้าเซ็นเตอร์ระดับเมืองและเครือข่ายดาวเทียม ส่งผลให้ ต้นทุนการดำเนินงานพุ่งสูง
- Taalas เน้นย้ำว่า เช่นเดียวกับการเปลี่ยนผ่านจาก ENIAC ไปสู่ทรานซิสเตอร์ในอดีต AI ก็ต้องวิวัฒน์ไปสู่โครงสร้างที่มีประสิทธิภาพและต้นทุนต่ำกว่า
ปรัชญาด้านเทคโนโลยีของ Taalas
- ภายในเวลา 2 ปีครึ่งหลังการก่อตั้ง Taalas ได้สร้าง แพลตฟอร์มที่แปลงโมเดล AI เป็นซิลิคอนแบบกำหนดเอง เสร็จสมบูรณ์
- หลังได้รับโมเดลใหม่ ก็สามารถ ทำให้เป็นฮาร์ดแวร์ได้ภายใน 2 เดือน
- ผลลัพธ์ที่เรียกว่า Hardcore Models ให้ การปรับปรุงด้านความเร็ว ต้นทุน และประสิทธิภาพพลังงานราว 10 เท่า เมื่อเทียบกับแบบซอฟต์แวร์เดิม
- เสนอหลักการสำคัญ 3 ข้อ
- การปรับให้เฉพาะทางอย่างสมบูรณ์ (Total specialization)
- สร้างซิลิคอนที่ปรับให้เหมาะกับ AI แต่ละโมเดลเพื่อให้ได้ประสิทธิภาพสูงสุด
- การรวมการจัดเก็บและการประมวลผลเข้าด้วยกัน (Merging storage and computation)
- กำจัดคอขวดที่เกิดจากการแยก DRAM ออกจากชิปประมวลผล และสร้าง โครงสร้างรวมในชิปเดียวที่มีความหนาแน่นระดับ DRAM
- การลดความซับซ้อนแบบสุดขั้ว (Radical simplification)
- ตัดเทคโนโลยีที่ซับซ้อนอย่าง HBM, 3D stacking และการระบายความร้อนด้วยของเหลวออก เพื่อ ลดต้นทุนระบบลงเหลือระดับเลขหลักเดียว
ผลิตภัณฑ์แรก: Llama 3.1 8B แบบ hardwired
- ถูกแนะนำว่าเป็น แพลตฟอร์มการอนุมานที่เร็วที่สุด ต้นทุนต่ำที่สุด และใช้พลังงานต่ำที่สุดในโลก
- นำโมเดล Llama 3.1 8B ไปสร้างลงบนซิลิคอนโดยตรง ทำให้ ประมวลผลได้ 17K โทเค็นต่อวินาที เร็วขึ้น 10 เท่า ต้นทุนการผลิตถูกลง 20 เท่า และใช้พลังงานน้อยลง 10 เท่า
- ใช้ โมเดลโอเพนซอร์ส เป็นฐาน เพื่อให้ใช้งานได้จริงและพัฒนาได้ง่าย
- รองรับการปรับขนาด context window และ การ fine-tuning ด้วย LoRA
- ชิปรุ่นแรกใช้ การควอนไทซ์แบบผสม 3 บิตและ 6 บิต จึงยังมีคุณภาพลดลงบางส่วนเมื่อเทียบกับ GPU
- ซิลิคอนรุ่นที่สอง (HC2) ใช้ รูปแบบ floating point 4 บิตมาตรฐาน เพื่อยกระดับทั้งคุณภาพและประสิทธิภาพ
โรดแมปของโมเดลในอนาคต
- โมเดลตัวที่สอง จะเป็น LLM สำหรับงาน reasoning ขนาดกลาง โดยจะเสร็จจากห้องวิจัยในช่วงฤดูใบไม้ผลิและถูกรวมเข้ากับบริการอนุมาน
- โมเดลตัวที่สาม จะเป็น LLM ระดับ frontier บนแพลตฟอร์ม HC2 ที่ให้ความหนาแน่นและความเร็วสูงขึ้น และมีกำหนดเปิดใช้งานในฤดูหนาว
การเข้าถึงสำหรับนักพัฒนาและโครงสร้างทีม
- โมเดล Llama ที่เปิดให้ใช้แบบเบต้าในตอนนี้ ถูกนำเสนอในรูปแบบที่ทำให้สัมผัสได้ถึง สภาพแวดล้อมความหน่วงต่ำมากและต้นทุนต่ำมาก
- Taalas ระบุว่าได้สร้างผลิตภัณฑ์แรกสำเร็จด้วย ทีม 24 คนและต้นทุน 30 ล้านดอลลาร์ ซึ่งถูกยกให้เป็นผลลัพธ์ของ การตั้งเป้าหมายที่แม่นยำและการลงมือทำอย่างมีสมาธิ
- ทีมประกอบด้วยผู้เชี่ยวชาญกลุ่มเล็กที่ทำงานร่วมกันมานานกว่า 20 ปี และให้ความสำคัญกับ คุณภาพ ความแม่นยำ และความประณีตแบบช่างฝีมือ
บทสรุป: การทำให้ AI เป็นแบบเรียลไทม์และเข้าถึงคนทั่วไป
- เทคโนโลยีของ Taalas มอบ การก้าวกระโดดแบบเป็นขั้นในด้านประสิทธิภาพ ประสิทธิภาพพลังงาน และต้นทุน
- นำเสนอ ปรัชญาสถาปัตยกรรมระบบ AI แบบใหม่ ที่แตกต่างจากโครงสร้างที่ยึด GPU เป็นศูนย์กลาง
- ด้วยการ ขจัดกำแพงด้านความหน่วงและต้นทุน จึงมอบสภาพแวดล้อมให้นักพัฒนาสามารถใช้ AI ได้แบบเรียลไทม์
- ในอนาคตจะขยายไปสู่โมเดลที่ทรงพลังยิ่งขึ้น และพัฒนาไปในทิศทางของ การทำให้ AI เข้าถึงได้อย่างทั่วถึง
2 ความคิดเห็น
ไม่แน่ใจว่ามันจะมีความหมายมากแค่ไหนนะครับ แต่เพราะตลาดชอบกระแส Hype ก็เลยน่าจะระดมทุนได้ดีอยู่แล้ว ทว่าในเมื่อแต่ละเจ้าต่างก็รีบปล่อยโมเดลใหม่ออกมาแข่งกัน แค่ 2 เดือนก็ให้ความรู้สึกว่าไกลมากแล้ว
ความเห็นจาก Hacker News
ชิปนี้ไม่ได้เป็นแบบอเนกประสงค์ แต่เป็นการออกแบบที่เฉพาะทางสำหรับ inference ความเร็วสูงและ latency ต่ำ
สำหรับ 8B dense 3bit quant (Llama 3.1) ประมวลผลได้ 15k โทเคนต่อวินาที, ใช้กระบวนการผลิต 6nm, ไดขนาด 880mm², 53B ทรานซิสเตอร์, ใช้พลังงานราว 200W, ต้นทุนการผลิตถูกลง 20 เท่า และใช้พลังงานต่อโทเคนน้อยลง 10 เท่า
ทีมผู้ก่อตั้งมาจาก AMD และ Nvidia มีประสบการณ์ 25 ปี และระดมทุน VC ได้ 200 ล้านดอลลาร์
ถ้าคิดที่ประมาณ 0.2 ดอลลาร์ต่อ 1mm² จะอยู่ที่ราว 20 ดอลลาร์ต่อ 1 พันล้านพารามิเตอร์ และไดขนาดใหญ่จะมี yield ต่ำลง
รายละเอียดเพิ่มเติมดูได้จาก บทสัมภาษณ์ผู้ก่อตั้ง
เหมาะกับ แอปพลิเคชัน latency ต่ำมาก ที่ใช้ต่ำกว่า 10k โทเคน และมีโอกาสสูงที่เงิน VC จะไหลเข้ามาเมื่อวางขายในฤดูใบไม้ผลิ
Nvidia H200 ได้ประมาณ 12k tok/s แต่เป็นการประมวลผลแบบ batch จึงมี latency ของโทเคนแรกสูงกว่ามาก
Taalas ตอบสนองในระดับมิลลิวินาที จึงเหมาะกับ การสร้างเสียงและวิดีโอแบบเรียลไทม์
แต่การผลิตชิปภายใน 2 เดือนนั้นมองโลกในแง่ดีเกินไป ถึงอย่างนั้นก็ยังคาดว่าเวอร์ชัน v3 จะไปถึงระดับที่รองรับคำขอ API จริงได้
แม้จะกินโทเคนมาก แต่ถ้าโทเคนราคาถูก ก็อาจช่วยเพิ่มความแม่นยำได้
เมื่อไดใหญ่ขึ้น yield จะต่ำลง จึงสงสัยว่าความผิดพลาดระดับไม่กี่บิตอาจไม่ใช่ปัญหาใหญ่นักหรือไม่
หลายคอมเมนต์พูดถึงความแม่นยำของโมเดล แต่ดูเหมือนจะไม่เข้าใจว่านี่คือโมเดล Llama 3.1 8B
ประเด็นสำคัญไม่ใช่ตัวโมเดล แต่คือ ประสิทธิภาพของฮาร์ดแวร์แบบสั่งทำเฉพาะ
ถ้าใส่โมเดลใหม่อย่าง GLM-5 ลงไปก็น่าจะน่าทึ่งมาก
การตอบสนองเร็วในระดับ ‘กด Enter ปุ๊บก็มาปั๊บ’
แต่โครงสร้างที่ต้องเปลี่ยนฮาร์ดแวร์ทั้งชุดเมื่อเปลี่ยนโมเดล อาจส่งผลต่อศักยภาพทางการตลาด
ดูเหมือนยังเป็นนโยบายการตั้งราคาเชิงสำรวจเพื่อดูการตอบรับจากตลาด
เลือก เร่งความเร็วให้สุด แทนความยืดหยุ่น แต่ระบุว่ายังรองรับการ fine-tuning แบบ LoRA
น่าจะมีประโยชน์มากกับงานติดแท็กข้อมูลแบบง่าย ๆ หรือการประมวลผลขนานจำนวนมาก
ลองเดโม ChatJimmy แล้ว ตกใจมากที่คำตอบออกมาแทบทันทีที่พริบตา
chatjimmy.ai
เนื้อหากลับละเอียดและมีประโยชน์กว่าที่คิด
ดูเหมือนจะเปิดทางสู่วิธีพัฒนาแบบใหม่ทั้งหมด
หลายคนยังสงสัย แต่ก็ยังมีความต้องการสูงมากสำหรับ โมเดลที่ไม่ใช่ frontier model
แค่ดูกราฟกิจกรรมของ Llama 3.1 ก็เห็นว่ากำลังเติบโต 22% ต่อสัปดาห์
ถ้า latency ลดลง ก็อาจใช้ LLM ได้แม้กระทั่งในระดับความเร็วการโหลดเว็บเพจ
ชิปนี้เปลี่ยน LLM ให้กลายเป็น อินเทอร์เฟซแบบเรียลไทม์
มีมุกว่าปกติไม่ค่อยเห็นคำตอบผิดเร็วขนาดนี้มาก่อน แต่เทคโนโลยีนี้ดูมีอนาคตมาก
โมเดล 8B อาจเล็ก แต่ในระยะยาวน่าจะเป็นตลาดใหญ่
ตอนนี้ยังไม่ค่อยมีประโยชน์ แต่เป็นเทคโนโลยีที่ให้ความรู้สึกใหม่จริง ๆ
ในงานจริงไม่จำเป็นต้องใช้ frontier model เสมอไป
ตั้งแต่ 80B ขึ้นไปความต่างจะเริ่มน้อยลง
มีคนจินตนาการว่าจะเสียบการ์ดแบบนี้เข้ากับพีซีส่วนตัวเพื่อแทน Claude Code ได้หรือไม่
ที่ 17k โทเคนต่อวินาที น่าจะรัน agent pipeline หลายชุดพร้อมกันได้
ให้แต่ละเอเจนต์รับบทแก้โค้ดและตรวจสอบ เพื่อวนปรับปรุงอย่างรวดเร็ว
จึงสงสัยว่าถึงไม่ใช่โมเดลระดับสูงสุด ก็อาจได้ผลดีกว่าด้วยการหมุนโมเดลระดับกลางหลายรอบหรือไม่
ถ้ารวมการปล่อยโทเคนเร็วเข้ากับ tooling ที่ดี ก็อาจลดช่องว่างกับ frontier model ได้
จากข้อมูลที่แก้ไขเพิ่มเติม จริง ๆ แล้วเป็นโครงสร้างแบบ single chip ที่สลักโมเดลลงบนซิลิคอน
ดูเหมือนเป็นการสลักโมเดล Llama 8B q3 พร้อมคอนเท็กซ์ 1k ลงไป และต้องใช้ 10 ชิป (รวม 2.4kW)
เพราะเปลี่ยนโมเดลไม่ได้ จึงเหมาะกับงานที่ คงที่ระยะยาว เท่านั้น
17k โทเคนต่อวินาทีไม่ใช่แค่ความเร็วในการ deploy แต่เป็นระดับความเร็วที่ เปลี่ยนวิธีประเมินผลไปเลย
benchmark แบบคงที่อย่าง MMLU เดิมตั้งอยู่บนสมมติฐานความเร็วระดับมนุษย์ แต่ที่ throughput ระดับนี้สามารถทดสอบแบบโต้ตอบได้หลายหมื่นครั้ง
ยิ่งเร็วเท่าไร ก็ยิ่งแสดงให้เห็นว่าการประเมินแบบเดิมไม่เหมาะสมมากขึ้นเท่านั้น
มีคนลองแชตบอตแล้วช็อกที่คำตอบยาว ๆ ออกมาทันทีที่ 15k tok/s
อยากได้เวอร์ชัน frontier model ไว้ใช้เขียนโค้ดบนเครื่องตัวเอง
แม้จะมีเสียงตอบรับด้านลบ แต่ก็มีแอปพลิเคชันจำนวนมากที่ต้องการ โมเดล latency ต่ำ
ตัวอย่างเช่น งานแปลงการค้นหาแบบพิมพ์อิสระให้เป็น structured query เดิมทีทำไม่ได้เพราะ latency ของโมเดลทั่วไปสูงเกินไป
ชิปแบบนี้ทำให้เกิดการตอบสนองของ AI ในระดับ ฉับพลันทันทีที่ผู้ใช้รู้สึกได้