เส้นทางสู่การทำให้ AI เข้าถึงได้อย่างทั่วถึง (17K โทเค็นต่อวินาที)

(taalas.com)

5 คะแนน โดย GN⁺ 2026-02-21 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

Taalas พัฒนา แพลตฟอร์มที่แปลงโมเดล AI ให้เป็นชิปซิลิคอนแบบกำหนดเอง โดยใช้เวลาเพียง 2 เดือนในการทำให้โมเดลถูกนำไปใช้งานบนฮาร์ดแวร์
ผลิตภัณฑ์แรก Llama 3.1 8B แบบ hardwired ประมวลผลได้ 17K โทเค็นต่อวินาที เร็วกว่าเดิม 10 เท่า ถูกกว่า 20 เท่า และใช้พลังงานเพียงหนึ่งในสิบ
ทำให้ การอนุมานที่ใช้พลังงานต่ำ ต้นทุนต่ำ และความเร็วสูง เป็นไปได้ พร้อมตัดความซับซ้อนของระบบที่อิง GPU เดิมออกด้วยสถาปัตยกรรมชิปแบบใหม่ที่รวมหน่วยความจำและการประมวลผลเข้าด้วยกัน
Taalas ใช้แนวทางนี้เพื่อเร่ง การทำให้ AI ทำงานได้แบบเรียลไทม์และแพร่หลายสู่คนทั่วไป และเปิดโอกาสให้นักพัฒนาทดลองแอปพลิเคชันใหม่ ๆ ในสภาพแวดล้อมที่มีความหน่วงต่ำมากและต้นทุนต่ำมาก

ข้อจำกัดของ AI ในปัจจุบันและสิ่งที่จำเป็น

แม้ AI จะ เหนือกว่ามนุษย์ในบางด้าน แล้ว แต่ ความหน่วง (latency) และ ต้นทุน (cost) ยังถูกมองว่าเป็นข้อจำกัดใหญ่ที่สุดต่อการใช้งานในวงกว้าง
- การโต้ตอบกับโมเดลภาษาเกิดขึ้นช้ากว่าความเร็วในการคิดของมนุษย์ และเครื่องมือช่วยเขียนโค้ดทำให้ต้องรอคำตอบนานหลายนาที
- AI แบบเอเจนต์อัตโนมัติต้องการการตอบสนองระดับมิลลิวินาที แต่ระบบปัจจุบันยังทำไม่ได้
การนำโมเดลสมัยใหม่ไปใช้งานต้องอาศัยโครงสร้างพื้นฐานระดับซูเปอร์คอมพิวเตอร์ขนาดใหญ่ที่ต้องใช้ พลังงานหลายร้อย kW และระบบระบายความร้อน แพ็กเกจจิง และโครงสร้างหน่วยความจำที่ซับซ้อน
- โครงสร้างเช่นนี้ขยายไปเป็นดาต้าเซ็นเตอร์ระดับเมืองและเครือข่ายดาวเทียม ส่งผลให้ ต้นทุนการดำเนินงานพุ่งสูง
Taalas เน้นย้ำว่า เช่นเดียวกับการเปลี่ยนผ่านจาก ENIAC ไปสู่ทรานซิสเตอร์ในอดีต AI ก็ต้องวิวัฒน์ไปสู่โครงสร้างที่มีประสิทธิภาพและต้นทุนต่ำกว่า

ปรัชญาด้านเทคโนโลยีของ Taalas

ภายในเวลา 2 ปีครึ่งหลังการก่อตั้ง Taalas ได้สร้าง แพลตฟอร์มที่แปลงโมเดล AI เป็นซิลิคอนแบบกำหนดเอง เสร็จสมบูรณ์
- หลังได้รับโมเดลใหม่ ก็สามารถ ทำให้เป็นฮาร์ดแวร์ได้ภายใน 2 เดือน
- ผลลัพธ์ที่เรียกว่า Hardcore Models ให้ การปรับปรุงด้านความเร็ว ต้นทุน และประสิทธิภาพพลังงานราว 10 เท่า เมื่อเทียบกับแบบซอฟต์แวร์เดิม
เสนอหลักการสำคัญ 3 ข้อ
1. การปรับให้เฉพาะทางอย่างสมบูรณ์ (Total specialization)
  - สร้างซิลิคอนที่ปรับให้เหมาะกับ AI แต่ละโมเดลเพื่อให้ได้ประสิทธิภาพสูงสุด
2. การรวมการจัดเก็บและการประมวลผลเข้าด้วยกัน (Merging storage and computation)
  - กำจัดคอขวดที่เกิดจากการแยก DRAM ออกจากชิปประมวลผล และสร้าง โครงสร้างรวมในชิปเดียวที่มีความหนาแน่นระดับ DRAM
3. การลดความซับซ้อนแบบสุดขั้ว (Radical simplification)
  - ตัดเทคโนโลยีที่ซับซ้อนอย่าง HBM, 3D stacking และการระบายความร้อนด้วยของเหลวออก เพื่อ ลดต้นทุนระบบลงเหลือระดับเลขหลักเดียว

ผลิตภัณฑ์แรก: Llama 3.1 8B แบบ hardwired

ถูกแนะนำว่าเป็น แพลตฟอร์มการอนุมานที่เร็วที่สุด ต้นทุนต่ำที่สุด และใช้พลังงานต่ำที่สุดในโลก
- นำโมเดล Llama 3.1 8B ไปสร้างลงบนซิลิคอนโดยตรง ทำให้ ประมวลผลได้ 17K โทเค็นต่อวินาที เร็วขึ้น 10 เท่า ต้นทุนการผลิตถูกลง 20 เท่า และใช้พลังงานน้อยลง 10 เท่า
ใช้ โมเดลโอเพนซอร์ส เป็นฐาน เพื่อให้ใช้งานได้จริงและพัฒนาได้ง่าย
- รองรับการปรับขนาด context window และ การ fine-tuning ด้วย LoRA
ชิปรุ่นแรกใช้ การควอนไทซ์แบบผสม 3 บิตและ 6 บิต จึงยังมีคุณภาพลดลงบางส่วนเมื่อเทียบกับ GPU
- ซิลิคอนรุ่นที่สอง (HC2) ใช้ รูปแบบ floating point 4 บิตมาตรฐาน เพื่อยกระดับทั้งคุณภาพและประสิทธิภาพ

โรดแมปของโมเดลในอนาคต

โมเดลตัวที่สอง จะเป็น LLM สำหรับงาน reasoning ขนาดกลาง โดยจะเสร็จจากห้องวิจัยในช่วงฤดูใบไม้ผลิและถูกรวมเข้ากับบริการอนุมาน
โมเดลตัวที่สาม จะเป็น LLM ระดับ frontier บนแพลตฟอร์ม HC2 ที่ให้ความหนาแน่นและความเร็วสูงขึ้น และมีกำหนดเปิดใช้งานในฤดูหนาว

การเข้าถึงสำหรับนักพัฒนาและโครงสร้างทีม

โมเดล Llama ที่เปิดให้ใช้แบบเบต้าในตอนนี้ ถูกนำเสนอในรูปแบบที่ทำให้สัมผัสได้ถึง สภาพแวดล้อมความหน่วงต่ำมากและต้นทุนต่ำมาก
- ใช้งานได้ผ่านเดโม chatjimmy.ai และ API service
Taalas ระบุว่าได้สร้างผลิตภัณฑ์แรกสำเร็จด้วย ทีม 24 คนและต้นทุน 30 ล้านดอลลาร์ ซึ่งถูกยกให้เป็นผลลัพธ์ของ การตั้งเป้าหมายที่แม่นยำและการลงมือทำอย่างมีสมาธิ
ทีมประกอบด้วยผู้เชี่ยวชาญกลุ่มเล็กที่ทำงานร่วมกันมานานกว่า 20 ปี และให้ความสำคัญกับ คุณภาพ ความแม่นยำ และความประณีตแบบช่างฝีมือ

บทสรุป: การทำให้ AI เป็นแบบเรียลไทม์และเข้าถึงคนทั่วไป

เทคโนโลยีของ Taalas มอบ การก้าวกระโดดแบบเป็นขั้นในด้านประสิทธิภาพ ประสิทธิภาพพลังงาน และต้นทุน
นำเสนอ ปรัชญาสถาปัตยกรรมระบบ AI แบบใหม่ ที่แตกต่างจากโครงสร้างที่ยึด GPU เป็นศูนย์กลาง
ด้วยการ ขจัดกำแพงด้านความหน่วงและต้นทุน จึงมอบสภาพแวดล้อมให้นักพัฒนาสามารถใช้ AI ได้แบบเรียลไทม์
ในอนาคตจะขยายไปสู่โมเดลที่ทรงพลังยิ่งขึ้น และพัฒนาไปในทิศทางของ การทำให้ AI เข้าถึงได้อย่างทั่วถึง

2 ความคิดเห็น

colus001 2026-02-21

ไม่แน่ใจว่ามันจะมีความหมายมากแค่ไหนนะครับ แต่เพราะตลาดชอบกระแส Hype ก็เลยน่าจะระดมทุนได้ดีอยู่แล้ว ทว่าในเมื่อแต่ละเจ้าต่างก็รีบปล่อยโมเดลใหม่ออกมาแข่งกัน แค่ 2 เดือนก็ให้ความรู้สึกว่าไกลมากแล้ว

GN⁺ 2026-02-21

ความเห็นจาก Hacker News

ชิปนี้ไม่ได้เป็นแบบอเนกประสงค์ แต่เป็นการออกแบบที่เฉพาะทางสำหรับ inference ความเร็วสูงและ latency ต่ำ
สำหรับ 8B dense 3bit quant (Llama 3.1) ประมวลผลได้ 15k โทเคนต่อวินาที, ใช้กระบวนการผลิต 6nm, ไดขนาด 880mm², 53B ทรานซิสเตอร์, ใช้พลังงานราว 200W, ต้นทุนการผลิตถูกลง 20 เท่า และใช้พลังงานต่อโทเคนน้อยลง 10 เท่า
ทีมผู้ก่อตั้งมาจาก AMD และ Nvidia มีประสบการณ์ 25 ปี และระดมทุน VC ได้ 200 ล้านดอลลาร์
ถ้าคิดที่ประมาณ 0.2 ดอลลาร์ต่อ 1mm² จะอยู่ที่ราว 20 ดอลลาร์ต่อ 1 พันล้านพารามิเตอร์ และไดขนาดใหญ่จะมี yield ต่ำลง
รายละเอียดเพิ่มเติมดูได้จาก บทสัมภาษณ์ผู้ก่อตั้ง
เหมาะกับ แอปพลิเคชัน latency ต่ำมาก ที่ใช้ต่ำกว่า 10k โทเคน และมีโอกาสสูงที่เงิน VC จะไหลเข้ามาเมื่อวางขายในฤดูใบไม้ผลิ
- การคำนวณทางคณิตศาสตร์มีประโยชน์มาก 16k โทเคนต่อวินาทีเป็นความเร็วที่น่าทึ่ง และอาจมองได้ว่าเป็น หมวดหมู่ผลิตภัณฑ์ใหม่
  Nvidia H200 ได้ประมาณ 12k tok/s แต่เป็นการประมวลผลแบบ batch จึงมี latency ของโทเคนแรกสูงกว่ามาก
  Taalas ตอบสนองในระดับมิลลิวินาที จึงเหมาะกับ การสร้างเสียงและวิดีโอแบบเรียลไทม์
  แต่การผลิตชิปภายใน 2 เดือนนั้นมองโลกในแง่ดีเกินไป ถึงอย่างนั้นก็ยังคาดว่าเวอร์ชัน v3 จะไปถึงระดับที่รองรับคำขอ API จริงได้
- ถ้าไดราคา 20 ดอลลาร์ ก็อาจขายเหมือน ตลับเกมบอย แยกตามโมเดลได้ เป็นมุกขำ ๆ
- สงสัยว่าถ้าใช้ Recursive Language Model (ลิงก์งานวิจัย) จะช่วยชดเชยข้อจำกัดด้านคอนเท็กซ์ได้หรือไม่
  แม้จะกินโทเคนมาก แต่ถ้าโทเคนราคาถูก ก็อาจช่วยเพิ่มความแม่นยำได้
- 880mm² ใหญ่กว่า M1 Ultra และยังใหญ่กว่า H100 ด้วย
  เมื่อไดใหญ่ขึ้น yield จะต่ำลง จึงสงสัยว่าความผิดพลาดระดับไม่กี่บิตอาจไม่ใช่ปัญหาใหญ่นักหรือไม่
- น่าสนใจว่าชิปแบบนี้จะช่วยผลักดัน หุ่นยนต์อัจฉริยะ ได้อย่างไร
หลายคอมเมนต์พูดถึงความแม่นยำของโมเดล แต่ดูเหมือนจะไม่เข้าใจว่านี่คือโมเดล Llama 3.1 8B
ประเด็นสำคัญไม่ใช่ตัวโมเดล แต่คือ ประสิทธิภาพของฮาร์ดแวร์แบบสั่งทำเฉพาะ
ถ้าใส่โมเดลใหม่อย่าง GLM-5 ลงไปก็น่าจะน่าทึ่งมาก
การตอบสนองเร็วในระดับ ‘กด Enter ปุ๊บก็มาปั๊บ’
แต่โครงสร้างที่ต้องเปลี่ยนฮาร์ดแวร์ทั้งชุดเมื่อเปลี่ยนโมเดล อาจส่งผลต่อศักยภาพทางการตลาด
- ข้อมูลราคาอยู่ในภาพนี้
  ดูเหมือนยังเป็นนโยบายการตั้งราคาเชิงสำรวจเพื่อดูการตอบรับจากตลาด
  เลือก เร่งความเร็วให้สุด แทนความยืดหยุ่น แต่ระบุว่ายังรองรับการ fine-tuning แบบ LoRA
  น่าจะมีประโยชน์มากกับงานติดแท็กข้อมูลแบบง่าย ๆ หรือการประมวลผลขนานจำนวนมาก
- ส่วนตัวคิดว่า Cerebras นำหน้าไปไกลกว่ามาก การเทียบกันด้วย tok/s จึงไม่เหมาะ
ลองเดโม ChatJimmy แล้ว ตกใจมากที่คำตอบออกมาแทบทันทีที่พริบตา
chatjimmy.ai
- ลองให้ช่วยออกแบบเรือดำน้ำสำหรับแมว แล้วมันตอบกลับมาทันที
  เนื้อหากลับละเอียดและมีประโยชน์กว่าที่คิด
- ด้วยความเร็วระดับนี้ น่าจะทำ การสร้างโค้ดวนซ้ำอัตโนมัติ ได้จนกว่าจะผ่านการทดสอบ
  ดูเหมือนจะเปิดทางสู่วิธีพัฒนาแบบใหม่ทั้งหมด
- ถ้าเป็นนักลงทุน อาจควรลงทุนใน ChatJimmy แทน OpenAI
- แต่ฟีเจอร์แนบไฟล์ใช้ไม่ได้ และการเข้าใจบริบทก็ดูคลาดเคลื่อนไปเล็กน้อย
- มีคนทึ่งพร้อมบอกว่าตรวจสอบเองแล้วว่าได้ 16,000 โทเคนต่อวินาทีจริง
หลายคนยังสงสัย แต่ก็ยังมีความต้องการสูงมากสำหรับ โมเดลที่ไม่ใช่ frontier model
แค่ดูกราฟกิจกรรมของ Llama 3.1 ก็เห็นว่ากำลังเติบโต 22% ต่อสัปดาห์
ถ้า latency ลดลง ก็อาจใช้ LLM ได้แม้กระทั่งในระดับความเร็วการโหลดเว็บเพจ
- แม้แต่ frontier model เองก็อาจมีตลาด เช่น ถ้า Anthropic สลัก Opus 4.6 ลงบนชิป ก็อาจลดต้นทุน inference ได้
- โมเดลเก่ายังคงเก่งในงาน สร้างสรรค์ อยู่มาก ขณะที่โมเดลใหม่ถูกปรับจูนไปทางโค้ดและการให้เหตุผล จนความสร้างสรรค์ลดลง
- เหมาะอย่างยิ่งกับงานอย่างการดึงเนื้อหาแบบมีโครงสร้างหรือการแปลงเป็น Markdown
  ชิปนี้เปลี่ยน LLM ให้กลายเป็น อินเทอร์เฟซแบบเรียลไทม์
- ยังเหมาะกับงานที่ต้องการ latency ต่ำและเส้นทางงานแคบ อย่างหุ่นยนต์ด้วย
มีมุกว่าปกติไม่ค่อยเห็นคำตอบผิดเร็วขนาดนี้มาก่อน แต่เทคโนโลยีนี้ดูมีอนาคตมาก
โมเดล 8B อาจเล็ก แต่ในระยะยาวน่าจะเป็นตลาดใหญ่
- มีคนบอกว่ามันตอบคำถามไม่ได้ แต่ก็ ตอบไม่ได้เร็วอย่างไม่น่าเชื่อ
  ตอนนี้ยังไม่ค่อยมีประโยชน์ แต่เป็นเทคโนโลยีที่ให้ความรู้สึกใหม่จริง ๆ
- ถ้ามีเวอร์ชันสำหรับ Qwen 2.5 ก็น่าจะซื้อทันที
  ในงานจริงไม่จำเป็นต้องใช้ frontier model เสมอไป
- โมเดล 7~9B ก็ถือว่าดีพอแล้ว สิ่งสำคัญคือยิงถามหลายโมเดลพร้อมกันเพื่อเพิ่มความแม่นยำแบบ อิงฉันทามติ
  ตั้งแต่ 80B ขึ้นไปความต่างจะเริ่มน้อยลง
- มีคนชี้จุดสะกดผิดพร้อมตอบกลับแบบขำ ๆ
มีคนจินตนาการว่าจะเสียบการ์ดแบบนี้เข้ากับพีซีส่วนตัวเพื่อแทน Claude Code ได้หรือไม่
ที่ 17k โทเคนต่อวินาที น่าจะรัน agent pipeline หลายชุดพร้อมกันได้
ให้แต่ละเอเจนต์รับบทแก้โค้ดและตรวจสอบ เพื่อวนปรับปรุงอย่างรวดเร็ว
จึงสงสัยว่าถึงไม่ใช่โมเดลระดับสูงสุด ก็อาจได้ผลดีกว่าด้วยการหมุนโมเดลระดับกลางหลายรอบหรือไม่
- สิ่งที่กำหนดคุณภาพผลลัพธ์ไม่ใช่แค่ตัวโมเดล แต่คือ เครื่องมือและ harness
  ถ้ารวมการปล่อยโทเคนเร็วเข้ากับ tooling ที่ดี ก็อาจลดช่องว่างกับ frontier model ได้
- แต่โมเดลไม่สามารถปรับปรุงตัวเองจากผลลัพธ์ของตัวเองได้ ต้องมี การเรียนรู้จากโลกจริง
จากข้อมูลที่แก้ไขเพิ่มเติม จริง ๆ แล้วเป็นโครงสร้างแบบ single chip ที่สลักโมเดลลงบนซิลิคอน
ดูเหมือนเป็นการสลักโมเดล Llama 8B q3 พร้อมคอนเท็กซ์ 1k ลงไป และต้องใช้ 10 ชิป (รวม 2.4kW)
เพราะเปลี่ยนโมเดลไม่ได้ จึงเหมาะกับงานที่ คงที่ระยะยาว เท่านั้น
- เหมาะอย่างยิ่งกับปัญหาสั้น ๆ ไม่เกิน 100 โทเคน เช่น การติดแท็กข้อมูล
- อาจออกแบบโมเดลที่ทำ RAG หรือ การค้นหาแบบเอเจนต์ มากขึ้นก็ได้
- ในยุคที่รอบเปลี่ยนโมเดลเร็วมาก การผลิตชิปที่ใช้เวลาเกิน 6 เดือนจึงยากในทางปฏิบัติ
- น่าจะประยุกต์ใช้กับงาน NLP ได้โดยรวม
- อาจเหมาะเป็น ชิปสำหรับ NPC ในวิดีโอเกมด้วย
17k โทเคนต่อวินาทีไม่ใช่แค่ความเร็วในการ deploy แต่เป็นระดับความเร็วที่ เปลี่ยนวิธีประเมินผลไปเลย
benchmark แบบคงที่อย่าง MMLU เดิมตั้งอยู่บนสมมติฐานความเร็วระดับมนุษย์ แต่ที่ throughput ระดับนี้สามารถทดสอบแบบโต้ตอบได้หลายหมื่นครั้ง
ยิ่งเร็วเท่าไร ก็ยิ่งแสดงให้เห็นว่าการประเมินแบบเดิมไม่เหมาะสมมากขึ้นเท่านั้น
มีคนลองแชตบอตแล้วช็อกที่คำตอบยาว ๆ ออกมาทันทีที่ 15k tok/s
อยากได้เวอร์ชัน frontier model ไว้ใช้เขียนโค้ดบนเครื่องตัวเอง
- ข้อความที่ต้องใช้เวลาอ่าน 2 นาที ถูกสร้างเสร็จในเวลาไม่ถึง 1 วินาที เป็นภาพที่ เหนือจริงมาก
- ทำให้นึกถึงมุกที่ว่าเหตุผลที่เราหาอารยธรรมนอกโลกไม่เจอ อาจเป็นเพราะพวกเขา ทำงานอยู่บนสเกลเวลาคนละแบบ
- ถ้านำความเร็วแบบนี้ไปใช้กับ inference loop หรือ harness สร้างโค้ด ก็อาจเกิดนวัตกรรม AI ครั้งใหญ่
แม้จะมีเสียงตอบรับด้านลบ แต่ก็มีแอปพลิเคชันจำนวนมากที่ต้องการ โมเดล latency ต่ำ
ตัวอย่างเช่น งานแปลงการค้นหาแบบพิมพ์อิสระให้เป็น structured query เดิมทีทำไม่ได้เพราะ latency ของโมเดลทั่วไปสูงเกินไป
ชิปแบบนี้ทำให้เกิดการตอบสนองของ AI ในระดับ ฉับพลันทันทีที่ผู้ใช้รู้สึกได้