8 คะแนน โดย GN⁺ 2026-03-30 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • ใช้ โมเดล AI ขนาดจิ๋วที่ถูกสร้างลงบนชิปซิลิคอนโดยตรง เพื่อกรองข้อมูลปริมาณมหาศาลที่เกิดจากเครื่องชนอนุภาคขนาดใหญ่ และคัดเลือกเฉพาะเหตุการณ์ที่มีความหมายทางวิทยาศาสตร์แบบเรียลไทม์
  • เพื่อประมวลผลสตรีมข้อมูลระดับหลายร้อยเทราไบต์ต่อวินาที จึงใช้ ฮาร์ดแวร์บน FPGA·ASIC แทน GPU หรือ TPU และตัดสินใจได้ด้วย ค่าหน่วงระดับนาโนวินาที
  • ผ่าน เครื่องมือ HLS4ML ที่แปลงโมเดล PyTorch หรือ TensorFlow เป็น โค้ด C++ ที่สามารถนำไปสังเคราะห์ได้ เพื่อนำไปติดตั้งบนชิปโดยตรง และสร้างผลลัพธ์ได้ทันทีด้วย โครงสร้างแบบ lookup table โดยไม่ต้องคำนวณ floating point
  • Level-1 Trigger ของ LHC ประกอบด้วย FPGA ราว 1,000 ตัวสำหรับประเมินข้อมูลภายใน 50 นาโนวินาที และในขั้นถัดไปจะมี CPU 25,600 ตัวและ GPU 400 ตัว ทำการกรองเพิ่มเติม
  • CERN กำลังพัฒนาโมเดล AI ขนาดจิ๋วรุ่นถัดไปเพื่อรองรับการอัปเกรด High-Luminosity LHC ในปี 2031 และแนวทางนี้ยังมีศักยภาพขยายไปสู่ ระบบอัตโนมัติ การถ่ายภาพทางการแพทย์ และงานประยุกต์ที่ต้องการค่าหน่วงต่ำมาก

ภาพรวม

  • CERN นำโมเดลปัญญาประดิษฐ์ขนาดจิ๋วไป สร้างลงบนชิปซิลิคอนโดยตรง เพื่อกรองข้อมูลปริมาณมหาศาลที่เกิดขึ้นใน เครื่องชนอนุภาคขนาดใหญ่ (LHC) แบบเรียลไทม์
    • เลือกเก็บเฉพาะเหตุการณ์จากการชนที่มีความหมายทางวิทยาศาสตร์ และทิ้งข้อมูลที่เหลือทันที
    • เพื่อจัดการกับสตรีมข้อมูลระดับหลายร้อยเทราไบต์ต่อวินาที จึงใช้ ฮาร์ดแวร์แบบกำหนดเองบน FPGA และ ASIC แทน GPU หรือ TPU
  • โมเดล AI ที่ฝังอยู่ในฮาร์ดแวร์ เหล่านี้สามารถตัดสินใจได้ที่ระดับตัวตรวจจับด้วย ค่าหน่วงระดับไมโครวินาทีถึงนาโนวินาที
    • กระบวนการคัดเลือกแบบเรียลไทม์นี้ถูกมองว่าเป็นหนึ่งในงานที่มีความต้องการด้านการประมวลผลสูงที่สุดในวิทยาศาสตร์สมัยใหม่

ความท้าทายด้านการประมวลผลข้อมูล

  • LHC สร้างข้อมูลดิบประมาณ 40,000 เอกซะไบต์ ต่อปี ซึ่งมีขนาดราวหนึ่งในสี่ของอินเทอร์เน็ตทั้งโลกในปัจจุบัน
    • มัดโปรตอนเคลื่อนที่ภายในวงแหวนยาว 27 กม. ด้วยความเร็วใกล้แสง และ ตัดกันทุก ๆ 25 นาโนวินาที
    • แม้การชนจริงจะเกิดไม่บ่อย แต่แต่ละครั้งสามารถสร้างข้อมูลได้หลายเมกะไบต์
  • การจัดเก็บหรือประมวลผลข้อมูลทั้งหมดเป็นไปไม่ได้ จึงมีการเก็บรักษาเหตุการณ์ไว้เพียงประมาณ 0.02% เท่านั้น
    • ขั้นตอนการกรองแรกอย่าง Level-1 Trigger ประกอบด้วย FPGA ประมาณ 1,000 ตัว และประเมินข้อมูลได้ภายใน 50 นาโนวินาที
    • อัลกอริทึม AXOL1TL ทำงานโดยตรงบนชิปเหล่านี้ เพื่อระบุเหตุการณ์ที่มีแนวโน้มสำคัญทางวิทยาศาสตร์ และทิ้งที่เหลือทันที

แนวทาง AI และเทคโนโลยีสแต็ก

  • โมเดล AI ของ CERN ถูกออกแบบให้ มีขนาดเล็กมากและมีประสิทธิภาพสูง ต่างจากโมเดลขนาดใหญ่ในอุตสาหกรรมทั่วไป โดยมุ่งเน้น การอนุมานที่ค่าหน่วงต่ำมากในระดับตัวตรวจจับ
    • โมเดลถูกแปลงจาก PyTorch หรือ TensorFlow เป็น โค้ด C++ ที่สามารถนำไปสังเคราะห์ได้ ผ่านเครื่องมือโอเพนซอร์ส HLS4ML
    • โค้ดที่แปลงแล้วสามารถนำไปติดตั้งลงบน FPGA, SoC, ASIC ได้โดยตรง และใช้พลังงานกับพื้นที่ซิลิคอนน้อยกว่า GPU หรือ TPU มาก
  • ทรัพยากรบนชิปส่วนใหญ่ถูกใช้ไปกับการทำ lookup table ที่คำนวณไว้ล่วงหน้า แทนชั้นของโครงข่ายประสาท
    • ตารางเหล่านี้เก็บผลลัพธ์ของรูปแบบอินพุตที่พบบ่อยไว้ล่วงหน้า ทำให้สร้างเอาต์พุตได้ทันทีสำหรับสัญญาณจากตัวตรวจจับส่วนใหญ่ โดย ไม่ต้องคำนวณ floating point
    • แนวคิดการออกแบบที่ให้ฮาร์ดแวร์มาก่อน นี้เองที่ทำให้บรรลุค่าหน่วงระดับนาโนวินาทีได้
  • ขั้นตอนการกรองที่สองอย่าง High-Level Trigger ทำงานบนคอมพิวต์ฟาร์มที่ประกอบด้วย CPU 25,600 ตัวและ GPU 400 ตัว
    • แม้ผ่าน Level-1 Trigger แล้ว ระบบยังต้องประมวลผลข้อมูลระดับหลายเทราไบต์ต่อวินาที และบีบอัดให้เหลือข้อมูลวิทยาศาสตร์ประมาณ 1 เพตะไบต์ต่อวัน

แผนในอนาคต

  • LHC กำลังเตรียมพร้อมสำหรับการอัปเกรด High-Luminosity LHC (HL-LHC) ซึ่งมีกำหนดเริ่มเดินเครื่องใน ปี 2031
    • ปริมาณข้อมูลต่อการชนคาดว่าจะเพิ่มขึ้นประมาณ 10 เท่า จากปัจจุบัน และขนาดของแต่ละเหตุการณ์ก็จะใหญ่ขึ้นมาก
  • เพื่อรองรับสิ่งนี้ CERN กำลังพัฒนา โมเดล AI ขนาดจิ๋วรุ่นถัดไป และ การปรับแต่งการติดตั้งบน FPGA·ASIC ให้เหมาะสมยิ่งขึ้น
    • เป้าหมายคือเสริมความแข็งแกร่งให้ระบบทริกเกอร์แบบเรียลไทม์ทั้งหมด เพื่อคง สมรรถนะค่าหน่วงต่ำมาก ไว้ได้แม้ที่อัตราข้อมูลสูงกว่ามาก
  • การเตรียมความพร้อมนี้ถูกมองว่าเป็น โครงสร้างพื้นฐานสำคัญ ที่จะทำให้การค้นพบใหม่ ๆ ในฟิสิกส์อนุภาคเกิดขึ้นต่อเนื่องในอีกหลายทศวรรษข้างหน้า

ความหมายและผลกระทบ

  • ขณะที่อุตสาหกรรม AI ทั่วโลกมุ่งไปที่การขยายโมเดลขนาดใหญ่ CERN กลับกำลังพัฒนา โมเดล AI ที่เล็กที่สุด เร็วที่สุด และมีประสิทธิภาพที่สุด
    • โมเดลเหล่านี้ถูกสร้างลงบน FPGA และ ASIC โดยตรง และถูกมองว่าเป็นกรณีใช้งานจริงของ “Tiny AI”
  • ในระบบทริกเกอร์ของ LHC โมเดลเหล่านี้ทำผลงานได้ในระดับที่ ตัวเร่ง AI ทั่วไปไม่สามารถทำได้
    • ในสภาพแวดล้อมสุดขั้วที่ต้องตัดสินใจระดับนาโนวินาที ระบบสามารถทำ ประสิทธิภาพสูงสุดด้วยทรัพยากรขั้นต่ำ
  • แนวทางนี้ยังมีโอกาสต่อยอดไปไกลกว่าฟิสิกส์อนุภาค เช่น ระบบอัตโนมัติ การซื้อขายความถี่สูง การถ่ายภาพทางการแพทย์ และอวกาศยาน ซึ่งล้วนต้องการการอนุมานแบบเรียลไทม์ที่มีค่าหน่วงต่ำมาก
    • ในยุคที่ ประสิทธิภาพพลังงานและการลดการใช้ทรัพยากรคอมพิวต์ มีความสำคัญมากขึ้น โมเดลของ CERN จึงเสนอทางเลือกของ การปรับแต่งเฉพาะทางอย่างสุดขั้วและการเพิ่มประสิทธิภาพในระดับฮาร์ดแวร์ แทนการขยายขนาดโมเดล

1 ความคิดเห็น

 
GN⁺ 2026-03-30
ความเห็นจาก Hacker News
  • ฉันเป็นผู้เขียนของหนึ่งในสองโมเดลในงานวิจัยนี้
    ขอแก้ความเข้าใจผิดนิดหน่อย: โมเดลเหล่านี้ไม่ได้ถูกสลักลงบนซิลิคอนโดยตรง แต่ถูกนำไปวางบน FPGA
    สำหรับ axol1tl นั้น ค่าน้ำหนักถูก hardwire อยู่ใน fabric แต่ก็ยังสามารถโปรแกรมใหม่ได้
    โปรเจ็กต์อย่าง smartpixel หรือ HG-Cal readout ของ CERN กำลังดำเนินการโดยมีซิลิคอนจริงเป็นเป้าหมาย
    สไลด์ที่เกี่ยวข้อง: เอกสารนำเสนอของ CERN
    ขั้นตอนอนุมัติบทความใช้เวลานาน แต่คาดว่าจะมีเวอร์ชันที่ครอบคลุมกว่านี้ออกมาในอีกไม่กี่เดือน
    ตอนแรกโมเดลเป็นเพียง MLP ที่อิงกับ VAE แบบเรียบง่าย และตั้งแต่ v5 เป็นต้นมาก็เพิ่ม บล็อก VICREG เข้าไป ทำให้ทำงานได้ภายใน 2 clock ที่ 40MHz
    หลังจากนั้นก็นำไปวางบน FPGA ผ่าน hls4ml-da4ml, บทความที่เกี่ยวข้อง
    โมเดล CICADA อิงกับ VAE และกลั่นคะแนนการตรวจจับความผิดปกติแบบมีผู้สอนด้วยสถาปัตยกรรมครู-นักเรียน
    สไลด์อ้างอิง: เอกสารนำเสนอ CICADA
    งานวิจัยของฉันเน้นที่ QAT (การฝึก quantization ความแม่นยำคงที่) และการ deploy NN บนพื้นฐาน distributed arithmetic
    บทความที่เกี่ยวข้อง: arXiv:2405.00645, arXiv:2507.04535

    • น่าสนใจมากจริงๆ
      ตอนเริ่มเรียนปริญญาเอกฉันก็เคยนำ ตัวเร่ง GNN ไปทำบน FPGA และเคยร่วมงานกับฝั่ง CERN/Fermilab ด้วย
      ตอนนี้เปลี่ยนมาทำวิจัยด้าน HLS และ EDA แล้ว เลยอยากรู้ว่า ข้อจำกัดหลักของการทำระบบ trigger เป็นฮาร์ดแวร์ ทุกวันนี้คืออะไร
      บั๊กในเครื่องมือ HLS เชิงพาณิชย์ ความยากในการดีบัก และเวลา build ที่ยาวนาน ดูจะเป็นข้อจำกัดใหญ่
      เลยอยากรู้ว่า เครื่องมือ EDA เป็นคอขวดหลักหรือไม่ หรือมีปัจจัยทางเทคนิคอื่นที่ใหญ่กว่านั้น
  • พวกเขาใช้โครงข่ายประสาทแบบออโตเอนโค้ดเดอร์ที่มี convolution layer และฝึกจากข้อมูลการทดลองก่อนหน้า
    บทความที่เกี่ยวข้อง
    ถ้าอธิบายให้ชัดกว่านี้ว่าใช้อัลกอริทึม AI แบบไหน บทความนี้น่าจะดีขึ้นมาก

    • ทุกวันนี้บางทีก็ใช้คำว่า “โมเดล AI” ทั้งที่จริงๆ หมายถึงแค่linear regression
    • การนำไปใช้จริงส่วนใหญ่ก็อิงกับ FPGA ดังนั้นคำว่า “สลักลงบนซิลิคอน” จึงดูเกินจริง
    • บรรยากาศตอนนี้เหมือนถ้าไม่ใช่ LLM ก็ไม่ค่อยมีใครสนใจ เลยรู้สึกว่าคำว่า “AI” ถูกใช้เป็นเครื่องมือทางการตลาด
    • การละอัลกอริทึมหลักออกจากบทความเชิงเทคนิคนี่น่าหงุดหงิดจริงๆ
    • พอรู้ว่าสุดท้ายแล้วมันเป็นปัญหา anomaly detection ก็เข้าใจได้ง่ายขึ้นมาก
  • จริงๆ แล้ว branch predictor ของ CPU สมัยใหม่ก็ใช้ perceptron เช่นกัน

    • ดูตัวอย่างได้จาก บทความเรื่อง NN ภายในชิป Samsung Galaxy S7 และ บทความ IEEE
    • ฉันไม่เคยรู้เลยว่ามีโครงสร้างแบบนี้อยู่ เลยอยากรู้เพิ่มว่าออกแบบและฝึกมันอย่างไร
    • ทุกวันนี้น่าเสียดายที่คำว่า “AI” มักถูกใช้เหมือนหมายถึง “ไม่เข้าใจปัญหา เลยโยนกล่องดำเข้าไป”
    • perceptron นั้นจริงๆ ก็เป็นเพียงตัวทำนายเชิงเส้น จึงค่อนข้างเรียบง่าย
    • วงการ HEP ใช้ FPGA กับ L0 trigger มาตั้งแต่หลายสิบปีก่อนแล้ว
      ตั้งแต่ยุค Delphi ก็มีบทความเรื่อง ANN สำหรับคัดเลือก Higgs และแนวทางพวกนี้ก็ต่อยอดมาจนถึง LHC
  • ขอแชร์วิดีโอที่เกี่ยวข้อง
    Big Data and AI at the CERN LHC
    Nanosecond AI at the Large Hadron Collider
    หน้า Tech Talk ของ ScyllaDB

  • โปรเจ็กต์นี้ทำงานที่ 40MHz แต่เครื่องมือ CflexHDL ที่ฉันทำสามารถทำray tracing แบบเรียลไทม์ที่ 148MHz ได้
    วิดีโอสาธิต
    เครื่องมือนี้ได้รับการสนับสนุนจาก Nlnet Foundation และมีแผนจะผสานรวมกับเครื่องมือ AI ของ CERN ด้วย
    อยากเน้นย้ำความสำคัญของโอเพนซอร์ส toolchain

  • บทความนี้มีการพูดเกินจริงเรื่อง AI อยู่บ้าง
    โดยพื้นฐานแล้วมันอาจมองได้ว่าเป็นชิปที่ใส่ลอจิกแบบ hardcode ซึ่งได้มาจาก machine learning

    • เดิมที ML ก็เป็นส่วนหนึ่งของ AI อยู่แล้ว ไม่ใช่แนวคิดที่เพิ่งเกิดหลัง ChatGPT
    • แม้แต่น้ำหนักของ LLM ก็สุดท้ายแล้วบรรจุตรรกะที่เรียนรู้มาไว้เช่นกัน
    • คำว่า “AI” ฟังดูเหมือนภาษาการตลาด
      ในทางปฏิบัติมันใกล้เคียงกับstate machine สำหรับ inference โดยเฉพาะ มากกว่า และถ้าสภาพแวดล้อมเปลี่ยนก็ต้องทำhardware respin ไม่ใช่ฝึกใหม่
      ในสถานการณ์แบบนี้จะรู้สึกได้ชัดว่าคำว่า “AI” ไม่ใช่แค่คำประดับ
  • จุดที่น่าสนใจคือ ตรงกันข้ามกับ AI ทั่วไป โมเดลต้องพิสูจน์เหตุผลของการมีอยู่ด้วยการทนต่อข้อจำกัดของฮาร์ดแวร์
    ในสภาพแวดล้อมแบบนี้ ไม่ใช่แค่ latency เท่านั้น แต่ยังมี determinism, งบพลังงาน และความเสถียรภายใต้โหลดสุดขั้ว ที่สำคัญยิ่งกว่า

  • คำว่า “FPGAs ถูกสลักลงบนซิลิคอน” ฟังดูแปลกมาก
    ถ้า CERN tape-out ASIC เองได้ก็น่าทึ่งทีเดียว

    • จริงๆ แล้ว CERN ก็ออกแบบ custom ASIC สำหรับงานอื่นอยู่
      เอกสารนำเสนอที่เกี่ยวข้อง
    • หรืออาจจ้างผู้ผลิตภายนอกก็ได้
    • สุดท้ายดูเหมือนว่าพาดหัวบทความจะถูกแก้แล้ว
  • นี่ไม่ใช่ LLM ตามความหมายที่พูดกันทุกวันนี้ แต่เป็นโครงข่ายประสาทที่ทำงานบน FPGA

    • การตลาดของบริษัท LLM แรงมากจนตอนแรกฉันก็นึกไปทางนั้นเหมือนกัน
    • ถ้าเป็น FPGA คำว่า “สลักลงบนซิลิคอน” ก็ไม่ถูกต้อง
      และก็ไม่แน่ใจว่า ASIC จะเหมาะกับกรณีนี้หรือไม่
  • ขอบคุณสำหรับฟีดแบ็ก
    ฉันได้แก้เนื้อหาบทความเป็นสถาปัตยกรรม AXOL1TL ที่อิงกับ VAE และเพิ่ม บทความ arXiv ที่เกี่ยวข้อง รวมถึงวิดีโอการบรรยายของ Thea Aarrestad แล้ว

    • อย่างไรก็ตาม ประโยคที่ว่า “CERN เลิกใช้ AI บน GPU/TPU แล้ว” นั้นไม่เป็นความจริง
      CERN ยังคงใช้ GPU อย่างกว้างขวาง และยังใช้งาน COTS GPU/CPU อย่างจริงจังตามความเหมาะสม