23 คะแนน โดย GN⁺ 2026-02-23 | 5 ความคิดเห็น | แชร์ทาง WhatsApp
  • Taalas เป็นสตาร์ทอัพที่สลักโมเดล Llama 3.1 8B ลงบน ชิป ASIC โดยตรง และทำความเร็วในการอนุมานได้ 17,000 โทเค็นต่อวินาที
  • อ้างว่ามีต้นทุน ถูกกว่า 10 เท่า ใช้พลังงานน้อยกว่า 10 เท่า และมี ประสิทธิภาพการอนุมานเร็วกว่า 10 เท่า เมื่อเทียบกับระบบที่ใช้ GPU
  • ใช้สถาปัตยกรรมที่ สลักน้ำหนักของโมเดลลงเป็นทรานซิสเตอร์ซิลิคอนโดยตรง เพื่อตัดคอขวดด้านหน่วยความจำของ GPU
  • โดยไม่ใช้ DRAM/HBM ภายนอก แต่ใช้เพียง SRAM ภายในชิปในการจัดการ KV cache และ LoRA adapter
  • การผลิตชิปสำหรับแต่ละโมเดลใช้วิธีปรับแต่งเฉพาะสองเลเยอร์บนสุดเท่านั้น และสามารถ สร้างชิปสำหรับ Llama 3.1 ได้เสร็จภายใน 2 เดือน

ภาพรวมของชิป Taalas

  • Taalas เป็นบริษัทที่ก่อตั้งมาได้ 2.5 ปี และชิปตัวนี้คือ ผลิตภัณฑ์ตัวแรก ของบริษัท
  • ชิปเป็น ASIC แบบฟังก์ชันตายตัว ที่เก็บได้เพียงโมเดลเดียวและไม่สามารถเขียนใหม่ได้
    • มีโครงสร้างแบบ เฉพาะสำหรับโมเดลเดียว คล้าย CD-ROM หรือเกมคาร์ทริดจ์

ความไม่มีประสิทธิภาพของการอนุมาน LLM บน GPU

  • LLM ประกอบด้วย หลายเลเยอร์ (layer) และตัวอย่างเช่น Llama 3.1 8B มี 32 เลเยอร์
  • GPU จะทำงานโดยดึง เมทริกซ์น้ำหนัก ของแต่ละเลเยอร์จาก VRAM มาคำนวณ แล้วเก็บกลับซ้ำไปมา
    • กระบวนการนี้ต้องทำซ้ำ 32 ครั้งทุกครั้งที่สร้างโทเค็นหนึ่งตัว
  • การไปกลับของหน่วยความจำ แบบนี้ทำให้เกิดความหน่วงและการใช้พลังงานสูง ซึ่งเรียกว่า คอขวดแบนด์วิดท์หน่วยความจำ หรือ คอขวดแบบ Von Neumann

แนวทางแบบ ‘ฮาร์ดไวร์’ ของ Taalas

  • Taalas สลัก 32 เลเยอร์ของ Llama 3.1 เรียงลำดับต่อเนื่องลงบนซิลิคอน
    • น้ำหนักของโมเดลถูกทำให้เป็น ทรานซิสเตอร์จริงทางกายภาพ
  • เมื่อเวกเตอร์อินพุตเข้ามา มันจะผ่านทรานซิสเตอร์ของแต่ละเลเยอร์และถูก ประมวลผลต่อเนื่องในรูปแบบสัญญาณไฟฟ้า
    • โดยไม่ต้องเก็บผลลัพธ์ระหว่างทางลง VRAM แต่ส่งต่อไปยังเลเยอร์ถัดไปทันทีตาม สายส่ง (pipeline registers)
  • บริษัทระบุว่าได้พัฒนาโครงสร้าง ‘magic multiplier’ ที่สามารถ เก็บข้อมูล 4 บิตและทำการคูณได้ด้วยทรานซิสเตอร์เพียงตัวเดียว

โครงสร้างหน่วยความจำ

  • ไม่ใช้ DRAM/HBM ภายนอก แต่ติดตั้ง SRAM ปริมาณเล็กน้อย ไว้ภายในชิปแทน
    • เพราะการผลิต DRAM ร่วมกับลอจิกเกตในกระบวนการเดียวกันทำได้ยาก
  • SRAM บนชิป นี้ใช้สำหรับเก็บ KV cache (หน่วยความจำชั่วคราวระหว่างการสนทนา) และ LoRA adapter

วิธีสร้างชิปสำหรับแต่ละโมเดล

  • โดยทั่วไปการสร้างชิปใหม่สำหรับแต่ละโมเดลมี ต้นทุนสูง
  • Taalas ออกแบบ โครงสร้างชิปพื้นฐานให้ใช้ร่วมกัน แล้วปรับแก้เฉพาะ สองเลเยอร์บนสุด (mask) ให้ตรงกับโมเดลนั้น
    • เป็นวิธีที่เร็วกว่าการสร้างชิปใหม่ทั้งหมดมาก
  • การพัฒนาชิปสำหรับ Llama 3.1 8B ใช้เวลา ประมาณ 2 เดือน
    • แม้จะช้าถ้ามองตามมาตรฐานอุตสาหกรรม AI แต่ถือว่า เร็วมากในแง่ความเร็วของการผลิตชิปแบบคัสตอม

ความคาดหวังในอนาคต

  • สำหรับผู้ใช้ที่ต้องการรันโมเดลแบบโลคัลโดยไม่พึ่ง GPU ก็มีความหวังว่าจะได้เห็น การผลิตฮาร์ดแวร์ลักษณะนี้ในปริมาณมาก

5 ความคิดเห็น

 
GN⁺ 2026-02-23
ความเห็นจาก Hacker News
  • ค่าสัมประสิทธิ์ (coefficients) 8B ถูกแพ็กอยู่ในทรานซิสเตอร์ 53B ตัว เท่ากับใช้ทรานซิสเตอร์ประมาณ 6.5 ตัวต่อค่าสัมประสิทธิ์
    ดูเหมือนว่าจะใช้ block quantization เช่น ถ้าเป็นบล็อกที่มีค่าสัมประสิทธิ์ 3 บิต 4 ตัว ก็จะต้องมีบล็อกที่แตกต่างกันเพียง 330 แบบ
    เมทริกซ์ของ Llama 3.1 มีขนาด 4096x4096 หรือก็คือมีค่าสัมประสิทธิ์ 16 ล้านตัว ซึ่งมองว่าสามารถบีบอัดลงเหลือ 330 บล็อกได้
    ถ้าสมมติว่างบทรานซิสเตอร์ต่อบล็อกอยู่ที่ประมาณ 250,000 ตัว ก็จะคำนวณได้ว่าประมาณ 5 ทรานซิสเตอร์ต่อค่าสัมประสิทธิ์ แม้ในระดับ FP4 ก็ดูทำได้จริงเพียงพอ

    • หวังว่า PyTorch จะมีฟีเจอร์อย่าง model.toVHDL()
  • กลับรู้สึกแปลกใจกว่าที่คนยังประหลาดใจกับความเป็นไปได้ของเรื่องนี้
    ที่ GPU เกิดขึ้นมาได้ก็สุดท้ายเป็นผลจากการ ย้ายการคำนวณในซอฟต์แวร์ไปไว้บนฮาร์ดแวร์ LLM ก็มีโครงสร้างทางคณิตศาสตร์แบบเดียวกัน จึงมองว่านี่เป็นวิวัฒนาการที่เป็นธรรมดา

    • เหตุผลที่คนแปลกใจน่าจะเป็นเรื่อง จังหวะของ ROI มากกว่า จุดสำคัญคือเมื่อไรการ tape-out ชิปเฉพาะสำหรับโมเดลจะเริ่มคุ้มทุน และสถาปัตยกรรม MoE ก็น่าจะโยนโจทย์ใหม่เข้ามาในกระบวนการนี้
    • นี่ไม่ใช่การเทียบ CPU กับ GPU แต่เป็นการเทียบ CPU/GPU กับ ASIC ASIC ได้เปรียบด้านความเร็ว พลังงาน และต้นทุน แต่ก็ออกแบบยากและโปรแกรมใหม่ไม่ได้ สำหรับฟังก์ชันที่ไวต่อประสิทธิภาพอย่าง LLM นั้น ASIC เหมาะมาก
    • วิธี ฝัง weights ลงไปในเกตโดยตรง นั้นเป็นแนวทางใหม่ชัดเจน คำว่า “Weights to gates” เข้ากับมันดี
    • แต่ปัญหาคือความยืดหยุ่นต่ำ รับมือกับความต้องการของดาต้าเซ็นเตอร์ที่เปลี่ยนไปหรือโมเดลใหม่ได้ยาก ถึงอย่างนั้นในงานอย่าง โดรนหรือกลาโหม ที่ประสิทธิภาพพลังงานและความเร็วสำคัญมาก มันก็ดูใช้งานได้จริง
    • คิดว่า Nvidia ก็น่าจะทดลองอะไรแบบนี้อยู่แน่นอน ตอนนี้อาจยังเร็วเกินไปในเชิงพาณิชย์ แต่ทิศทางไปสู่ ฮาร์ดแวร์ AI ที่เน้นประสิทธิภาพ นั้นชัดเจนแล้ว
  • มากกว่าฟอร์มแฟกเตอร์ นวัตกรรมที่แท้จริงคือ latency
    การทำ inference บนคลาวด์มีแค่ overhead ของเครือข่ายก็ 50~200ms แล้ว แต่ ASIC เฉพาะทางที่เสียบผ่าน PCIe สามารถปล่อยโทเค็นแรกได้ในระดับไมโครวินาที
    สำหรับการสร้างวิดีโอแบบเรียลไทม์หรือเอเจนต์ที่ต้องการการตอบสนองต่ำกว่า 100ms เรื่องนี้ชี้ขาดได้เลย ต้นทุนอาจสูงกว่า GPU แต่ก็ทำให้เกิด แอปพลิเคชันเรียลไทม์แบบใหม่ ได้

    • ไม่ใช่แค่ latency แต่ ความน่าเชื่อถือของแบนด์วิดท์และอำนาจการควบคุม ก็สำคัญเช่นกัน การประมวลผลแบบรวมศูนย์กับแบบโลคัลแข่งขันกันมาตลอด บริษัทต้องการการควบคุม ส่วนผู้ใช้ต้องการอิสระ สุดท้ายตลาดก็จะยังมีความต้องการแบบ “ฉันอยากควบคุมคอมพิวเตอร์ของตัวเองได้ทั้งหมด” อยู่เสมอ
    • สงสัยว่าในความเป็นจริงบริการ AI ถูกเสิร์ฟจากที่ไหนกันแน่ เช่น เวลาใช้ Claude จากลอนดอน ก็ยากจะรู้ว่าคำขอถูกส่งไปที่ไหน ถ้ามี เครือข่าย edge สำหรับ LLM ก็คงจะดีมาก และ ASIC อาจทำให้เรื่องนั้นเป็นไปได้
  • อนาคตที่โมเดลอย่าง Gemma 5 Mini รันตรงบนฮาร์ดแวร์โลคัล นั้นน่าสนใจมาก
    อาจมี “AI core” สำหรับโมเดลเฉพาะแบบเดียวกับ H.264 หรือ AV1 encoder ก็ได้
    ต้นทุนก็อาจลดลงได้ด้วย Structured ASIC platform ที่อาจเปิดยุคของ ASIC เชิงโครงสร้างขึ้นมาอีกครั้ง

    • เหตุผลที่บริษัทใหญ่ยังไม่ค่อยสนใจเรื่องนี้น่าจะมีสองข้อ ข้อแรกคือความก้าวหน้าของ AI เร็วมาก จนกว่าชิปจะผลิตจำนวนมากได้ มันอาจ ล้าสมัยไปแล้ว ข้อสองคือโครงสร้างธุรกิจที่เน้น โมเดลสมัครสมาชิกบนคลาวด์ และการเก็บข้อมูลนั้นไม่ค่อยเข้ากับชิปออฟไลน์
    • คิดว่า Apple ควร เริ่มทำเรื่องนี้ตั้งแต่เมื่อวานแล้ว อนาคตที่ต้องการจริง ๆ คือ AI ที่รันแบบโลคัลเต็มรูปแบบบนมือถือหรือ MacBook ของฉัน ส่วน AI บนคลาวด์นั้นดูเหมือนเศษซากจากยุค AOL
    • แม้แต่ ASIC แบบโปรแกรมได้ อย่าง Cerebras หรือ Groq ที่เร็วกว่า GPU หลายเท่าก็ยังแทบไม่ถูกตลาดตอบรับ
  • มันทำให้นึกถึงชิปที่บรรจุได้แค่โมเดลเดียว เหมือน CD-ROM หรือเกมคาร์ทริดจ์ โดยเปลี่ยนโมเดลด้วยการเสียบสลอตเข้าคอมพิวเตอร์

    • สลอตนั้นในทางปฏิบัติก็คงเป็น USB-C นี่เอง นึกภาพการเสียบ inference ASIC ในรูปแบบ power bank แล้วใช้งาน
    • อยากได้ อุปกรณ์โมเดลโลคัลที่วางไว้ใต้โต๊ะ แบบ eGPU สมัยก่อน ออฟไลน์เต็มรูปแบบและความเป็นส่วนตัวสมบูรณ์
    • ฮาร์ดแวร์แบบนี้จะช่วยสนับสนุน โมเดล open-weight และเพิ่มความเป็นส่วนตัวได้ด้วย แถมยังอาจทำ MoE แบบฮาร์ดแวร์ ได้ เช่น หุ่นยนต์เปลี่ยนคาร์ทริดจ์โมเดลตามงานที่ทำ
    • คาร์ทริดจ์โมเดลเฉพาะน่าจะให้ประสิทธิภาพ/พลังงานดีกว่ามาก แต่ก็ยังสงสัยว่าจะคุ้มในตลาดผู้บริโภคหรือไม่
    • การใช้พลังงานคืออีกตัวแปรหนึ่ง ถ้าสำหรับใช้งานในบ้านทำได้ที่ 2.5W และ 170 โทเค็นต่อวินาทีก็คงยอดเยี่ยมมาก และความก้าวหน้าแบบนี้วันหนึ่งอาจพาไปถึง สมองโพซิโทรนิก ได้
  • ถ้า พิมพ์ ASIC ได้ในราคาถูก จริง วิธีใช้โมเดลก็คงเปลี่ยนไปโดยสิ้นเชิง
    โมเดลอาจถูกขายในรูปอุปกรณ์ USB และถ้าเป็นโมเดลหนาแน่นที่มีพารามิเตอร์ต่ำกว่า 20B ก็เพียงพอสำหรับผู้ช่วยส่วนตัวแล้ว
    มันให้ความรู้สึกเหมือน การกลับมาของการ์ดจอ ตอนนี้มีโมเดล open-weight มากขึ้น และตลาดใหญ่ก็อาจเปิดกว้างได้แม้ต้นทุนซื้อและต้นทุนใช้งานจะต่ำ

  • สงสัยว่าถ้าเป็นสถาปัตยกรรม MoE จะทำงานอย่างไร
    LLM แบบหนาแน่นได้ประโยชน์จากการวางน้ำหนักทั้งหมดไว้ใกล้กัน แต่ MoE เป็นงานที่ เน้นการเข้าถึงหน่วยความจำ จึงเกิดความไม่สมดุลระหว่าง MAC กับหน่วยความจำ และสุดท้ายมีโอกาสสูงที่จะย้อนกลับไปใช้ แนวทาง chiplet

    • TPUv4 ของ Google ใช้ Optical Circuit Switch สร้างโครงแบบ 3D torus และรีไวร์แบบไดนามิกให้เข้ากับแพตเทิร์นการสื่อสารของ MoE เชื่อมชิป 4,096 ตัวเป็นพ็อดเดียว และใช้ SparseCore จัดการการเข้าถึงหน่วยความจำแบบไม่ต่อเนื่อง เรื่องนี้เป็นสเกลดาต้าเซ็นเตอร์ก็จริง แต่ก็น่าสนใจในฐานะ ตัวอย่างของความสามารถในการขยายสเกล
    • ถ้าสลักแต่ละโมเดล Expert ลงในซิลิคอน ความเร็วคงมหาศาลมาก สุดท้ายข้อจำกัดใหญ่ที่สุดก็คือ ต้นทุนการพิมพ์ ASIC
  • คิดว่าสักวันหนึ่ง การ์ดขยาย PCIe สำหรับ AI โดยเฉพาะ จะกลายเป็นกระแสหลัก
    เหมือนการ์ดจอหรือการ์ดเสียงในอดีต พอมีโมเดลใหม่ออกมาก็เปลี่ยนการ์ดเพื่ออัปเกรด “สติปัญญา” ของพีซี

    • มองว่าทิศทางนี้แทบจะเป็น วิวัฒนาการที่หลีกเลี่ยงไม่ได้ ภาครัฐหรือองค์กรใหญ่จะเป็นฝ่ายต้องการก่อน แล้วสุดท้ายก็กระจายมาสู่ตลาดผู้บริโภค
      โลกคอมพิวติ้งวนอยู่กับวัฏจักร โลคัล vs เซิร์ฟเวอร์ มาตลอด แต่ความต้องการแบบ on-premises จะไม่มีวันหายไป
  • สุดท้ายก็คงได้เห็นเมนบอร์ดที่มี สล็อตชิป AI หรือไม่ก็อุปกรณ์ต่อพ่วง AI ที่เสียบเข้าพอร์ตความเร็วสูง

  • สงสัยว่าผู้ผลิตอย่าง Apple จะสามารถ ฝังชิปแบบนี้ในตัวเครื่องโดยตรง ได้ภายใน 3 ปีหรือไม่ อยากเห็นประสิทธิภาพแบบโลคัลที่เร็วมากในระดับโมเดลปัจจุบัน

    • จะอัปเดตโมเดลด้วย หน่วยความจำแบบโมดูลาร์ (diff) ได้หรือเปล่า? สงสัยว่าประสิทธิภาพจะลดลงมากไหม
    • แต่การรัน โมเดลที่ล้าสมัย ไปอีก 3 ปีอาจไม่มีความหมายเลยก็ได้ เพราะความก้าวหน้ามันเร็วเกินไป
 
dolsangodkimchi 2026-03-04

ทำให้นึกถึงความแตกต่างระหว่างการทำแคลคูลัสแบบดิจิทัลกับการทำแคลคูลัสแบบแอนะล็อกเลยครับ

 
chcv0313 2026-03-04

ถ้าใช้วิธีนี้ทำโมเดล text embedding แทนโมเดล LLM ก็น่าจะดีนะครับ

 
bungker 2026-03-04

จริงครับ พอทำครั้งเดียวก็ใช้ต่อได้เรื่อย ๆ

 
parkindani 2026-02-23

ถ้า AI ช่วยเร่งความเร็วในการออกแบบและพัฒนาชิปใหม่ได้ นี่อาจเป็นอนาคตจริง ๆ ก็ได้นะครับ ทำให้นึกถึงช่วงราว 25 ปีก่อนตอนที่ประสิทธิภาพฮาร์ดแวร์พุ่งขึ้นแบบแข่งขันกันเลยด้วย