5 คะแนน โดย GN⁺ 2026-02-21 | 2 ความคิดเห็น | แชร์ทาง WhatsApp
  • Taalas พัฒนา แพลตฟอร์มที่แปลงโมเดล AI ให้เป็นชิปซิลิคอนแบบกำหนดเอง โดยใช้เวลาเพียง 2 เดือนในการทำให้โมเดลถูกนำไปใช้งานบนฮาร์ดแวร์
  • ผลิตภัณฑ์แรก Llama 3.1 8B แบบ hardwired ประมวลผลได้ 17K โทเค็นต่อวินาที เร็วกว่าเดิม 10 เท่า ถูกกว่า 20 เท่า และใช้พลังงานเพียงหนึ่งในสิบ
  • ทำให้ การอนุมานที่ใช้พลังงานต่ำ ต้นทุนต่ำ และความเร็วสูง เป็นไปได้ พร้อมตัดความซับซ้อนของระบบที่อิง GPU เดิมออกด้วยสถาปัตยกรรมชิปแบบใหม่ที่รวมหน่วยความจำและการประมวลผลเข้าด้วยกัน
  • Taalas ใช้แนวทางนี้เพื่อเร่ง การทำให้ AI ทำงานได้แบบเรียลไทม์และแพร่หลายสู่คนทั่วไป และเปิดโอกาสให้นักพัฒนาทดลองแอปพลิเคชันใหม่ ๆ ในสภาพแวดล้อมที่มีความหน่วงต่ำมากและต้นทุนต่ำมาก

ข้อจำกัดของ AI ในปัจจุบันและสิ่งที่จำเป็น

  • แม้ AI จะ เหนือกว่ามนุษย์ในบางด้าน แล้ว แต่ ความหน่วง (latency) และ ต้นทุน (cost) ยังถูกมองว่าเป็นข้อจำกัดใหญ่ที่สุดต่อการใช้งานในวงกว้าง
    • การโต้ตอบกับโมเดลภาษาเกิดขึ้นช้ากว่าความเร็วในการคิดของมนุษย์ และเครื่องมือช่วยเขียนโค้ดทำให้ต้องรอคำตอบนานหลายนาที
    • AI แบบเอเจนต์อัตโนมัติต้องการการตอบสนองระดับมิลลิวินาที แต่ระบบปัจจุบันยังทำไม่ได้
  • การนำโมเดลสมัยใหม่ไปใช้งานต้องอาศัยโครงสร้างพื้นฐานระดับซูเปอร์คอมพิวเตอร์ขนาดใหญ่ที่ต้องใช้ พลังงานหลายร้อย kW และระบบระบายความร้อน แพ็กเกจจิง และโครงสร้างหน่วยความจำที่ซับซ้อน
    • โครงสร้างเช่นนี้ขยายไปเป็นดาต้าเซ็นเตอร์ระดับเมืองและเครือข่ายดาวเทียม ส่งผลให้ ต้นทุนการดำเนินงานพุ่งสูง
  • Taalas เน้นย้ำว่า เช่นเดียวกับการเปลี่ยนผ่านจาก ENIAC ไปสู่ทรานซิสเตอร์ในอดีต AI ก็ต้องวิวัฒน์ไปสู่โครงสร้างที่มีประสิทธิภาพและต้นทุนต่ำกว่า

ปรัชญาด้านเทคโนโลยีของ Taalas

  • ภายในเวลา 2 ปีครึ่งหลังการก่อตั้ง Taalas ได้สร้าง แพลตฟอร์มที่แปลงโมเดล AI เป็นซิลิคอนแบบกำหนดเอง เสร็จสมบูรณ์
    • หลังได้รับโมเดลใหม่ ก็สามารถ ทำให้เป็นฮาร์ดแวร์ได้ภายใน 2 เดือน
    • ผลลัพธ์ที่เรียกว่า Hardcore Models ให้ การปรับปรุงด้านความเร็ว ต้นทุน และประสิทธิภาพพลังงานราว 10 เท่า เมื่อเทียบกับแบบซอฟต์แวร์เดิม
  • เสนอหลักการสำคัญ 3 ข้อ
    1. การปรับให้เฉพาะทางอย่างสมบูรณ์ (Total specialization)
      • สร้างซิลิคอนที่ปรับให้เหมาะกับ AI แต่ละโมเดลเพื่อให้ได้ประสิทธิภาพสูงสุด
    2. การรวมการจัดเก็บและการประมวลผลเข้าด้วยกัน (Merging storage and computation)
      • กำจัดคอขวดที่เกิดจากการแยก DRAM ออกจากชิปประมวลผล และสร้าง โครงสร้างรวมในชิปเดียวที่มีความหนาแน่นระดับ DRAM
    3. การลดความซับซ้อนแบบสุดขั้ว (Radical simplification)
      • ตัดเทคโนโลยีที่ซับซ้อนอย่าง HBM, 3D stacking และการระบายความร้อนด้วยของเหลวออก เพื่อ ลดต้นทุนระบบลงเหลือระดับเลขหลักเดียว

ผลิตภัณฑ์แรก: Llama 3.1 8B แบบ hardwired

  • ถูกแนะนำว่าเป็น แพลตฟอร์มการอนุมานที่เร็วที่สุด ต้นทุนต่ำที่สุด และใช้พลังงานต่ำที่สุดในโลก
    • นำโมเดล Llama 3.1 8B ไปสร้างลงบนซิลิคอนโดยตรง ทำให้ ประมวลผลได้ 17K โทเค็นต่อวินาที เร็วขึ้น 10 เท่า ต้นทุนการผลิตถูกลง 20 เท่า และใช้พลังงานน้อยลง 10 เท่า
  • ใช้ โมเดลโอเพนซอร์ส เป็นฐาน เพื่อให้ใช้งานได้จริงและพัฒนาได้ง่าย
    • รองรับการปรับขนาด context window และ การ fine-tuning ด้วย LoRA
  • ชิปรุ่นแรกใช้ การควอนไทซ์แบบผสม 3 บิตและ 6 บิต จึงยังมีคุณภาพลดลงบางส่วนเมื่อเทียบกับ GPU
    • ซิลิคอนรุ่นที่สอง (HC2) ใช้ รูปแบบ floating point 4 บิตมาตรฐาน เพื่อยกระดับทั้งคุณภาพและประสิทธิภาพ

โรดแมปของโมเดลในอนาคต

  • โมเดลตัวที่สอง จะเป็น LLM สำหรับงาน reasoning ขนาดกลาง โดยจะเสร็จจากห้องวิจัยในช่วงฤดูใบไม้ผลิและถูกรวมเข้ากับบริการอนุมาน
  • โมเดลตัวที่สาม จะเป็น LLM ระดับ frontier บนแพลตฟอร์ม HC2 ที่ให้ความหนาแน่นและความเร็วสูงขึ้น และมีกำหนดเปิดใช้งานในฤดูหนาว

การเข้าถึงสำหรับนักพัฒนาและโครงสร้างทีม

  • โมเดล Llama ที่เปิดให้ใช้แบบเบต้าในตอนนี้ ถูกนำเสนอในรูปแบบที่ทำให้สัมผัสได้ถึง สภาพแวดล้อมความหน่วงต่ำมากและต้นทุนต่ำมาก
  • Taalas ระบุว่าได้สร้างผลิตภัณฑ์แรกสำเร็จด้วย ทีม 24 คนและต้นทุน 30 ล้านดอลลาร์ ซึ่งถูกยกให้เป็นผลลัพธ์ของ การตั้งเป้าหมายที่แม่นยำและการลงมือทำอย่างมีสมาธิ
  • ทีมประกอบด้วยผู้เชี่ยวชาญกลุ่มเล็กที่ทำงานร่วมกันมานานกว่า 20 ปี และให้ความสำคัญกับ คุณภาพ ความแม่นยำ และความประณีตแบบช่างฝีมือ

บทสรุป: การทำให้ AI เป็นแบบเรียลไทม์และเข้าถึงคนทั่วไป

  • เทคโนโลยีของ Taalas มอบ การก้าวกระโดดแบบเป็นขั้นในด้านประสิทธิภาพ ประสิทธิภาพพลังงาน และต้นทุน
  • นำเสนอ ปรัชญาสถาปัตยกรรมระบบ AI แบบใหม่ ที่แตกต่างจากโครงสร้างที่ยึด GPU เป็นศูนย์กลาง
  • ด้วยการ ขจัดกำแพงด้านความหน่วงและต้นทุน จึงมอบสภาพแวดล้อมให้นักพัฒนาสามารถใช้ AI ได้แบบเรียลไทม์
  • ในอนาคตจะขยายไปสู่โมเดลที่ทรงพลังยิ่งขึ้น และพัฒนาไปในทิศทางของ การทำให้ AI เข้าถึงได้อย่างทั่วถึง

2 ความคิดเห็น

 
colus001 2026-02-21

ไม่แน่ใจว่ามันจะมีความหมายมากแค่ไหนนะครับ แต่เพราะตลาดชอบกระแส Hype ก็เลยน่าจะระดมทุนได้ดีอยู่แล้ว ทว่าในเมื่อแต่ละเจ้าต่างก็รีบปล่อยโมเดลใหม่ออกมาแข่งกัน แค่ 2 เดือนก็ให้ความรู้สึกว่าไกลมากแล้ว

 
GN⁺ 2026-02-21
ความเห็นจาก Hacker News
  • ชิปนี้ไม่ได้เป็นแบบอเนกประสงค์ แต่เป็นการออกแบบที่เฉพาะทางสำหรับ inference ความเร็วสูงและ latency ต่ำ
    สำหรับ 8B dense 3bit quant (Llama 3.1) ประมวลผลได้ 15k โทเคนต่อวินาที, ใช้กระบวนการผลิต 6nm, ไดขนาด 880mm², 53B ทรานซิสเตอร์, ใช้พลังงานราว 200W, ต้นทุนการผลิตถูกลง 20 เท่า และใช้พลังงานต่อโทเคนน้อยลง 10 เท่า
    ทีมผู้ก่อตั้งมาจาก AMD และ Nvidia มีประสบการณ์ 25 ปี และระดมทุน VC ได้ 200 ล้านดอลลาร์
    ถ้าคิดที่ประมาณ 0.2 ดอลลาร์ต่อ 1mm² จะอยู่ที่ราว 20 ดอลลาร์ต่อ 1 พันล้านพารามิเตอร์ และไดขนาดใหญ่จะมี yield ต่ำลง
    รายละเอียดเพิ่มเติมดูได้จาก บทสัมภาษณ์ผู้ก่อตั้ง
    เหมาะกับ แอปพลิเคชัน latency ต่ำมาก ที่ใช้ต่ำกว่า 10k โทเคน และมีโอกาสสูงที่เงิน VC จะไหลเข้ามาเมื่อวางขายในฤดูใบไม้ผลิ

    • การคำนวณทางคณิตศาสตร์มีประโยชน์มาก 16k โทเคนต่อวินาทีเป็นความเร็วที่น่าทึ่ง และอาจมองได้ว่าเป็น หมวดหมู่ผลิตภัณฑ์ใหม่
      Nvidia H200 ได้ประมาณ 12k tok/s แต่เป็นการประมวลผลแบบ batch จึงมี latency ของโทเคนแรกสูงกว่ามาก
      Taalas ตอบสนองในระดับมิลลิวินาที จึงเหมาะกับ การสร้างเสียงและวิดีโอแบบเรียลไทม์
      แต่การผลิตชิปภายใน 2 เดือนนั้นมองโลกในแง่ดีเกินไป ถึงอย่างนั้นก็ยังคาดว่าเวอร์ชัน v3 จะไปถึงระดับที่รองรับคำขอ API จริงได้
    • ถ้าไดราคา 20 ดอลลาร์ ก็อาจขายเหมือน ตลับเกมบอย แยกตามโมเดลได้ เป็นมุกขำ ๆ
    • สงสัยว่าถ้าใช้ Recursive Language Model (ลิงก์งานวิจัย) จะช่วยชดเชยข้อจำกัดด้านคอนเท็กซ์ได้หรือไม่
      แม้จะกินโทเคนมาก แต่ถ้าโทเคนราคาถูก ก็อาจช่วยเพิ่มความแม่นยำได้
    • 880mm² ใหญ่กว่า M1 Ultra และยังใหญ่กว่า H100 ด้วย
      เมื่อไดใหญ่ขึ้น yield จะต่ำลง จึงสงสัยว่าความผิดพลาดระดับไม่กี่บิตอาจไม่ใช่ปัญหาใหญ่นักหรือไม่
    • น่าสนใจว่าชิปแบบนี้จะช่วยผลักดัน หุ่นยนต์อัจฉริยะ ได้อย่างไร
  • หลายคอมเมนต์พูดถึงความแม่นยำของโมเดล แต่ดูเหมือนจะไม่เข้าใจว่านี่คือโมเดล Llama 3.1 8B
    ประเด็นสำคัญไม่ใช่ตัวโมเดล แต่คือ ประสิทธิภาพของฮาร์ดแวร์แบบสั่งทำเฉพาะ
    ถ้าใส่โมเดลใหม่อย่าง GLM-5 ลงไปก็น่าจะน่าทึ่งมาก
    การตอบสนองเร็วในระดับ ‘กด Enter ปุ๊บก็มาปั๊บ’
    แต่โครงสร้างที่ต้องเปลี่ยนฮาร์ดแวร์ทั้งชุดเมื่อเปลี่ยนโมเดล อาจส่งผลต่อศักยภาพทางการตลาด

    • ข้อมูลราคาอยู่ในภาพนี้
      ดูเหมือนยังเป็นนโยบายการตั้งราคาเชิงสำรวจเพื่อดูการตอบรับจากตลาด
      เลือก เร่งความเร็วให้สุด แทนความยืดหยุ่น แต่ระบุว่ายังรองรับการ fine-tuning แบบ LoRA
      น่าจะมีประโยชน์มากกับงานติดแท็กข้อมูลแบบง่าย ๆ หรือการประมวลผลขนานจำนวนมาก
    • ส่วนตัวคิดว่า Cerebras นำหน้าไปไกลกว่ามาก การเทียบกันด้วย tok/s จึงไม่เหมาะ
  • ลองเดโม ChatJimmy แล้ว ตกใจมากที่คำตอบออกมาแทบทันทีที่พริบตา
    chatjimmy.ai

    • ลองให้ช่วยออกแบบเรือดำน้ำสำหรับแมว แล้วมันตอบกลับมาทันที
      เนื้อหากลับละเอียดและมีประโยชน์กว่าที่คิด
    • ด้วยความเร็วระดับนี้ น่าจะทำ การสร้างโค้ดวนซ้ำอัตโนมัติ ได้จนกว่าจะผ่านการทดสอบ
      ดูเหมือนจะเปิดทางสู่วิธีพัฒนาแบบใหม่ทั้งหมด
    • ถ้าเป็นนักลงทุน อาจควรลงทุนใน ChatJimmy แทน OpenAI
    • แต่ฟีเจอร์แนบไฟล์ใช้ไม่ได้ และการเข้าใจบริบทก็ดูคลาดเคลื่อนไปเล็กน้อย
    • มีคนทึ่งพร้อมบอกว่าตรวจสอบเองแล้วว่าได้ 16,000 โทเคนต่อวินาทีจริง
  • หลายคนยังสงสัย แต่ก็ยังมีความต้องการสูงมากสำหรับ โมเดลที่ไม่ใช่ frontier model
    แค่ดูกราฟกิจกรรมของ Llama 3.1 ก็เห็นว่ากำลังเติบโต 22% ต่อสัปดาห์
    ถ้า latency ลดลง ก็อาจใช้ LLM ได้แม้กระทั่งในระดับความเร็วการโหลดเว็บเพจ

    • แม้แต่ frontier model เองก็อาจมีตลาด เช่น ถ้า Anthropic สลัก Opus 4.6 ลงบนชิป ก็อาจลดต้นทุน inference ได้
    • โมเดลเก่ายังคงเก่งในงาน สร้างสรรค์ อยู่มาก ขณะที่โมเดลใหม่ถูกปรับจูนไปทางโค้ดและการให้เหตุผล จนความสร้างสรรค์ลดลง
    • เหมาะอย่างยิ่งกับงานอย่างการดึงเนื้อหาแบบมีโครงสร้างหรือการแปลงเป็น Markdown
      ชิปนี้เปลี่ยน LLM ให้กลายเป็น อินเทอร์เฟซแบบเรียลไทม์
    • ยังเหมาะกับงานที่ต้องการ latency ต่ำและเส้นทางงานแคบ อย่างหุ่นยนต์ด้วย
  • มีมุกว่าปกติไม่ค่อยเห็นคำตอบผิดเร็วขนาดนี้มาก่อน แต่เทคโนโลยีนี้ดูมีอนาคตมาก
    โมเดล 8B อาจเล็ก แต่ในระยะยาวน่าจะเป็นตลาดใหญ่

    • มีคนบอกว่ามันตอบคำถามไม่ได้ แต่ก็ ตอบไม่ได้เร็วอย่างไม่น่าเชื่อ
      ตอนนี้ยังไม่ค่อยมีประโยชน์ แต่เป็นเทคโนโลยีที่ให้ความรู้สึกใหม่จริง ๆ
    • ถ้ามีเวอร์ชันสำหรับ Qwen 2.5 ก็น่าจะซื้อทันที
      ในงานจริงไม่จำเป็นต้องใช้ frontier model เสมอไป
    • โมเดล 7~9B ก็ถือว่าดีพอแล้ว สิ่งสำคัญคือยิงถามหลายโมเดลพร้อมกันเพื่อเพิ่มความแม่นยำแบบ อิงฉันทามติ
      ตั้งแต่ 80B ขึ้นไปความต่างจะเริ่มน้อยลง
    • มีคนชี้จุดสะกดผิดพร้อมตอบกลับแบบขำ ๆ
  • มีคนจินตนาการว่าจะเสียบการ์ดแบบนี้เข้ากับพีซีส่วนตัวเพื่อแทน Claude Code ได้หรือไม่
    ที่ 17k โทเคนต่อวินาที น่าจะรัน agent pipeline หลายชุดพร้อมกันได้
    ให้แต่ละเอเจนต์รับบทแก้โค้ดและตรวจสอบ เพื่อวนปรับปรุงอย่างรวดเร็ว
    จึงสงสัยว่าถึงไม่ใช่โมเดลระดับสูงสุด ก็อาจได้ผลดีกว่าด้วยการหมุนโมเดลระดับกลางหลายรอบหรือไม่

    • สิ่งที่กำหนดคุณภาพผลลัพธ์ไม่ใช่แค่ตัวโมเดล แต่คือ เครื่องมือและ harness
      ถ้ารวมการปล่อยโทเคนเร็วเข้ากับ tooling ที่ดี ก็อาจลดช่องว่างกับ frontier model ได้
    • แต่โมเดลไม่สามารถปรับปรุงตัวเองจากผลลัพธ์ของตัวเองได้ ต้องมี การเรียนรู้จากโลกจริง
  • จากข้อมูลที่แก้ไขเพิ่มเติม จริง ๆ แล้วเป็นโครงสร้างแบบ single chip ที่สลักโมเดลลงบนซิลิคอน
    ดูเหมือนเป็นการสลักโมเดล Llama 8B q3 พร้อมคอนเท็กซ์ 1k ลงไป และต้องใช้ 10 ชิป (รวม 2.4kW)
    เพราะเปลี่ยนโมเดลไม่ได้ จึงเหมาะกับงานที่ คงที่ระยะยาว เท่านั้น

    • เหมาะอย่างยิ่งกับปัญหาสั้น ๆ ไม่เกิน 100 โทเคน เช่น การติดแท็กข้อมูล
    • อาจออกแบบโมเดลที่ทำ RAG หรือ การค้นหาแบบเอเจนต์ มากขึ้นก็ได้
    • ในยุคที่รอบเปลี่ยนโมเดลเร็วมาก การผลิตชิปที่ใช้เวลาเกิน 6 เดือนจึงยากในทางปฏิบัติ
    • น่าจะประยุกต์ใช้กับงาน NLP ได้โดยรวม
    • อาจเหมาะเป็น ชิปสำหรับ NPC ในวิดีโอเกมด้วย
  • 17k โทเคนต่อวินาทีไม่ใช่แค่ความเร็วในการ deploy แต่เป็นระดับความเร็วที่ เปลี่ยนวิธีประเมินผลไปเลย
    benchmark แบบคงที่อย่าง MMLU เดิมตั้งอยู่บนสมมติฐานความเร็วระดับมนุษย์ แต่ที่ throughput ระดับนี้สามารถทดสอบแบบโต้ตอบได้หลายหมื่นครั้ง
    ยิ่งเร็วเท่าไร ก็ยิ่งแสดงให้เห็นว่าการประเมินแบบเดิมไม่เหมาะสมมากขึ้นเท่านั้น

  • มีคนลองแชตบอตแล้วช็อกที่คำตอบยาว ๆ ออกมาทันทีที่ 15k tok/s
    อยากได้เวอร์ชัน frontier model ไว้ใช้เขียนโค้ดบนเครื่องตัวเอง

    • ข้อความที่ต้องใช้เวลาอ่าน 2 นาที ถูกสร้างเสร็จในเวลาไม่ถึง 1 วินาที เป็นภาพที่ เหนือจริงมาก
    • ทำให้นึกถึงมุกที่ว่าเหตุผลที่เราหาอารยธรรมนอกโลกไม่เจอ อาจเป็นเพราะพวกเขา ทำงานอยู่บนสเกลเวลาคนละแบบ
    • ถ้านำความเร็วแบบนี้ไปใช้กับ inference loop หรือ harness สร้างโค้ด ก็อาจเกิดนวัตกรรม AI ครั้งใหญ่
  • แม้จะมีเสียงตอบรับด้านลบ แต่ก็มีแอปพลิเคชันจำนวนมากที่ต้องการ โมเดล latency ต่ำ
    ตัวอย่างเช่น งานแปลงการค้นหาแบบพิมพ์อิสระให้เป็น structured query เดิมทีทำไม่ได้เพราะ latency ของโมเดลทั่วไปสูงเกินไป
    ชิปแบบนี้ทำให้เกิดการตอบสนองของ AI ในระดับ ฉับพลันทันทีที่ผู้ใช้รู้สึกได้