- ใช้ โมเดล AI ขนาดจิ๋วที่ถูกสร้างลงบนชิปซิลิคอนโดยตรง เพื่อกรองข้อมูลปริมาณมหาศาลที่เกิดจากเครื่องชนอนุภาคขนาดใหญ่ และคัดเลือกเฉพาะเหตุการณ์ที่มีความหมายทางวิทยาศาสตร์แบบเรียลไทม์
- เพื่อประมวลผลสตรีมข้อมูลระดับหลายร้อยเทราไบต์ต่อวินาที จึงใช้ ฮาร์ดแวร์บน FPGA·ASIC แทน GPU หรือ TPU และตัดสินใจได้ด้วย ค่าหน่วงระดับนาโนวินาที
- ผ่าน เครื่องมือ HLS4ML ที่แปลงโมเดล PyTorch หรือ TensorFlow เป็น โค้ด C++ ที่สามารถนำไปสังเคราะห์ได้ เพื่อนำไปติดตั้งบนชิปโดยตรง และสร้างผลลัพธ์ได้ทันทีด้วย โครงสร้างแบบ lookup table โดยไม่ต้องคำนวณ floating point
- Level-1 Trigger ของ LHC ประกอบด้วย FPGA ราว 1,000 ตัวสำหรับประเมินข้อมูลภายใน 50 นาโนวินาที และในขั้นถัดไปจะมี CPU 25,600 ตัวและ GPU 400 ตัว ทำการกรองเพิ่มเติม
- CERN กำลังพัฒนาโมเดล AI ขนาดจิ๋วรุ่นถัดไปเพื่อรองรับการอัปเกรด High-Luminosity LHC ในปี 2031 และแนวทางนี้ยังมีศักยภาพขยายไปสู่ ระบบอัตโนมัติ การถ่ายภาพทางการแพทย์ และงานประยุกต์ที่ต้องการค่าหน่วงต่ำมาก
ภาพรวม
- CERN นำโมเดลปัญญาประดิษฐ์ขนาดจิ๋วไป สร้างลงบนชิปซิลิคอนโดยตรง เพื่อกรองข้อมูลปริมาณมหาศาลที่เกิดขึ้นใน เครื่องชนอนุภาคขนาดใหญ่ (LHC) แบบเรียลไทม์
- เลือกเก็บเฉพาะเหตุการณ์จากการชนที่มีความหมายทางวิทยาศาสตร์ และทิ้งข้อมูลที่เหลือทันที
- เพื่อจัดการกับสตรีมข้อมูลระดับหลายร้อยเทราไบต์ต่อวินาที จึงใช้ ฮาร์ดแวร์แบบกำหนดเองบน FPGA และ ASIC แทน GPU หรือ TPU
- โมเดล AI ที่ฝังอยู่ในฮาร์ดแวร์ เหล่านี้สามารถตัดสินใจได้ที่ระดับตัวตรวจจับด้วย ค่าหน่วงระดับไมโครวินาทีถึงนาโนวินาที
- กระบวนการคัดเลือกแบบเรียลไทม์นี้ถูกมองว่าเป็นหนึ่งในงานที่มีความต้องการด้านการประมวลผลสูงที่สุดในวิทยาศาสตร์สมัยใหม่
ความท้าทายด้านการประมวลผลข้อมูล
- LHC สร้างข้อมูลดิบประมาณ 40,000 เอกซะไบต์ ต่อปี ซึ่งมีขนาดราวหนึ่งในสี่ของอินเทอร์เน็ตทั้งโลกในปัจจุบัน
- มัดโปรตอนเคลื่อนที่ภายในวงแหวนยาว 27 กม. ด้วยความเร็วใกล้แสง และ ตัดกันทุก ๆ 25 นาโนวินาที
- แม้การชนจริงจะเกิดไม่บ่อย แต่แต่ละครั้งสามารถสร้างข้อมูลได้หลายเมกะไบต์
- การจัดเก็บหรือประมวลผลข้อมูลทั้งหมดเป็นไปไม่ได้ จึงมีการเก็บรักษาเหตุการณ์ไว้เพียงประมาณ 0.02% เท่านั้น
- ขั้นตอนการกรองแรกอย่าง Level-1 Trigger ประกอบด้วย FPGA ประมาณ 1,000 ตัว และประเมินข้อมูลได้ภายใน 50 นาโนวินาที
- อัลกอริทึม AXOL1TL ทำงานโดยตรงบนชิปเหล่านี้ เพื่อระบุเหตุการณ์ที่มีแนวโน้มสำคัญทางวิทยาศาสตร์ และทิ้งที่เหลือทันที
แนวทาง AI และเทคโนโลยีสแต็ก
- โมเดล AI ของ CERN ถูกออกแบบให้ มีขนาดเล็กมากและมีประสิทธิภาพสูง ต่างจากโมเดลขนาดใหญ่ในอุตสาหกรรมทั่วไป โดยมุ่งเน้น การอนุมานที่ค่าหน่วงต่ำมากในระดับตัวตรวจจับ
- โมเดลถูกแปลงจาก PyTorch หรือ TensorFlow เป็น โค้ด C++ ที่สามารถนำไปสังเคราะห์ได้ ผ่านเครื่องมือโอเพนซอร์ส HLS4ML
- โค้ดที่แปลงแล้วสามารถนำไปติดตั้งลงบน FPGA, SoC, ASIC ได้โดยตรง และใช้พลังงานกับพื้นที่ซิลิคอนน้อยกว่า GPU หรือ TPU มาก
- ทรัพยากรบนชิปส่วนใหญ่ถูกใช้ไปกับการทำ lookup table ที่คำนวณไว้ล่วงหน้า แทนชั้นของโครงข่ายประสาท
- ตารางเหล่านี้เก็บผลลัพธ์ของรูปแบบอินพุตที่พบบ่อยไว้ล่วงหน้า ทำให้สร้างเอาต์พุตได้ทันทีสำหรับสัญญาณจากตัวตรวจจับส่วนใหญ่ โดย ไม่ต้องคำนวณ floating point
- แนวคิดการออกแบบที่ให้ฮาร์ดแวร์มาก่อน นี้เองที่ทำให้บรรลุค่าหน่วงระดับนาโนวินาทีได้
- ขั้นตอนการกรองที่สองอย่าง High-Level Trigger ทำงานบนคอมพิวต์ฟาร์มที่ประกอบด้วย CPU 25,600 ตัวและ GPU 400 ตัว
- แม้ผ่าน Level-1 Trigger แล้ว ระบบยังต้องประมวลผลข้อมูลระดับหลายเทราไบต์ต่อวินาที และบีบอัดให้เหลือข้อมูลวิทยาศาสตร์ประมาณ 1 เพตะไบต์ต่อวัน
แผนในอนาคต
- LHC กำลังเตรียมพร้อมสำหรับการอัปเกรด High-Luminosity LHC (HL-LHC) ซึ่งมีกำหนดเริ่มเดินเครื่องใน ปี 2031
- ปริมาณข้อมูลต่อการชนคาดว่าจะเพิ่มขึ้นประมาณ 10 เท่า จากปัจจุบัน และขนาดของแต่ละเหตุการณ์ก็จะใหญ่ขึ้นมาก
- เพื่อรองรับสิ่งนี้ CERN กำลังพัฒนา โมเดล AI ขนาดจิ๋วรุ่นถัดไป และ การปรับแต่งการติดตั้งบน FPGA·ASIC ให้เหมาะสมยิ่งขึ้น
- เป้าหมายคือเสริมความแข็งแกร่งให้ระบบทริกเกอร์แบบเรียลไทม์ทั้งหมด เพื่อคง สมรรถนะค่าหน่วงต่ำมาก ไว้ได้แม้ที่อัตราข้อมูลสูงกว่ามาก
- การเตรียมความพร้อมนี้ถูกมองว่าเป็น โครงสร้างพื้นฐานสำคัญ ที่จะทำให้การค้นพบใหม่ ๆ ในฟิสิกส์อนุภาคเกิดขึ้นต่อเนื่องในอีกหลายทศวรรษข้างหน้า
ความหมายและผลกระทบ
- ขณะที่อุตสาหกรรม AI ทั่วโลกมุ่งไปที่การขยายโมเดลขนาดใหญ่ CERN กลับกำลังพัฒนา โมเดล AI ที่เล็กที่สุด เร็วที่สุด และมีประสิทธิภาพที่สุด
- โมเดลเหล่านี้ถูกสร้างลงบน FPGA และ ASIC โดยตรง และถูกมองว่าเป็นกรณีใช้งานจริงของ “Tiny AI”
- ในระบบทริกเกอร์ของ LHC โมเดลเหล่านี้ทำผลงานได้ในระดับที่ ตัวเร่ง AI ทั่วไปไม่สามารถทำได้
- ในสภาพแวดล้อมสุดขั้วที่ต้องตัดสินใจระดับนาโนวินาที ระบบสามารถทำ ประสิทธิภาพสูงสุดด้วยทรัพยากรขั้นต่ำ
- แนวทางนี้ยังมีโอกาสต่อยอดไปไกลกว่าฟิสิกส์อนุภาค เช่น ระบบอัตโนมัติ การซื้อขายความถี่สูง การถ่ายภาพทางการแพทย์ และอวกาศยาน ซึ่งล้วนต้องการการอนุมานแบบเรียลไทม์ที่มีค่าหน่วงต่ำมาก
- ในยุคที่ ประสิทธิภาพพลังงานและการลดการใช้ทรัพยากรคอมพิวต์ มีความสำคัญมากขึ้น โมเดลของ CERN จึงเสนอทางเลือกของ การปรับแต่งเฉพาะทางอย่างสุดขั้วและการเพิ่มประสิทธิภาพในระดับฮาร์ดแวร์ แทนการขยายขนาดโมเดล
1 ความคิดเห็น
ความเห็นจาก Hacker News
ฉันเป็นผู้เขียนของหนึ่งในสองโมเดลในงานวิจัยนี้
ขอแก้ความเข้าใจผิดนิดหน่อย: โมเดลเหล่านี้ไม่ได้ถูกสลักลงบนซิลิคอนโดยตรง แต่ถูกนำไปวางบน FPGA
สำหรับ axol1tl นั้น ค่าน้ำหนักถูก hardwire อยู่ใน fabric แต่ก็ยังสามารถโปรแกรมใหม่ได้
โปรเจ็กต์อย่าง smartpixel หรือ HG-Cal readout ของ CERN กำลังดำเนินการโดยมีซิลิคอนจริงเป็นเป้าหมาย
สไลด์ที่เกี่ยวข้อง: เอกสารนำเสนอของ CERN
ขั้นตอนอนุมัติบทความใช้เวลานาน แต่คาดว่าจะมีเวอร์ชันที่ครอบคลุมกว่านี้ออกมาในอีกไม่กี่เดือน
ตอนแรกโมเดลเป็นเพียง MLP ที่อิงกับ VAE แบบเรียบง่าย และตั้งแต่ v5 เป็นต้นมาก็เพิ่ม บล็อก VICREG เข้าไป ทำให้ทำงานได้ภายใน 2 clock ที่ 40MHz
หลังจากนั้นก็นำไปวางบน FPGA ผ่าน hls4ml-da4ml, บทความที่เกี่ยวข้อง
โมเดล CICADA อิงกับ VAE และกลั่นคะแนนการตรวจจับความผิดปกติแบบมีผู้สอนด้วยสถาปัตยกรรมครู-นักเรียน
สไลด์อ้างอิง: เอกสารนำเสนอ CICADA
งานวิจัยของฉันเน้นที่ QAT (การฝึก quantization ความแม่นยำคงที่) และการ deploy NN บนพื้นฐาน distributed arithmetic
บทความที่เกี่ยวข้อง: arXiv:2405.00645, arXiv:2507.04535
ตอนเริ่มเรียนปริญญาเอกฉันก็เคยนำ ตัวเร่ง GNN ไปทำบน FPGA และเคยร่วมงานกับฝั่ง CERN/Fermilab ด้วย
ตอนนี้เปลี่ยนมาทำวิจัยด้าน HLS และ EDA แล้ว เลยอยากรู้ว่า ข้อจำกัดหลักของการทำระบบ trigger เป็นฮาร์ดแวร์ ทุกวันนี้คืออะไร
บั๊กในเครื่องมือ HLS เชิงพาณิชย์ ความยากในการดีบัก และเวลา build ที่ยาวนาน ดูจะเป็นข้อจำกัดใหญ่
เลยอยากรู้ว่า เครื่องมือ EDA เป็นคอขวดหลักหรือไม่ หรือมีปัจจัยทางเทคนิคอื่นที่ใหญ่กว่านั้น
พวกเขาใช้โครงข่ายประสาทแบบออโตเอนโค้ดเดอร์ที่มี convolution layer และฝึกจากข้อมูลการทดลองก่อนหน้า
บทความที่เกี่ยวข้อง
ถ้าอธิบายให้ชัดกว่านี้ว่าใช้อัลกอริทึม AI แบบไหน บทความนี้น่าจะดีขึ้นมาก
จริงๆ แล้ว branch predictor ของ CPU สมัยใหม่ก็ใช้ perceptron เช่นกัน
ตั้งแต่ยุค Delphi ก็มีบทความเรื่อง ANN สำหรับคัดเลือก Higgs และแนวทางพวกนี้ก็ต่อยอดมาจนถึง LHC
ขอแชร์วิดีโอที่เกี่ยวข้อง
Big Data and AI at the CERN LHC
Nanosecond AI at the Large Hadron Collider
หน้า Tech Talk ของ ScyllaDB
โปรเจ็กต์นี้ทำงานที่ 40MHz แต่เครื่องมือ CflexHDL ที่ฉันทำสามารถทำray tracing แบบเรียลไทม์ที่ 148MHz ได้
วิดีโอสาธิต
เครื่องมือนี้ได้รับการสนับสนุนจาก Nlnet Foundation และมีแผนจะผสานรวมกับเครื่องมือ AI ของ CERN ด้วย
อยากเน้นย้ำความสำคัญของโอเพนซอร์ส toolchain
บทความนี้มีการพูดเกินจริงเรื่อง AI อยู่บ้าง
โดยพื้นฐานแล้วมันอาจมองได้ว่าเป็นชิปที่ใส่ลอจิกแบบ hardcode ซึ่งได้มาจาก machine learning
ในทางปฏิบัติมันใกล้เคียงกับstate machine สำหรับ inference โดยเฉพาะ มากกว่า และถ้าสภาพแวดล้อมเปลี่ยนก็ต้องทำhardware respin ไม่ใช่ฝึกใหม่
ในสถานการณ์แบบนี้จะรู้สึกได้ชัดว่าคำว่า “AI” ไม่ใช่แค่คำประดับ
จุดที่น่าสนใจคือ ตรงกันข้ามกับ AI ทั่วไป โมเดลต้องพิสูจน์เหตุผลของการมีอยู่ด้วยการทนต่อข้อจำกัดของฮาร์ดแวร์
ในสภาพแวดล้อมแบบนี้ ไม่ใช่แค่ latency เท่านั้น แต่ยังมี determinism, งบพลังงาน และความเสถียรภายใต้โหลดสุดขั้ว ที่สำคัญยิ่งกว่า
คำว่า “FPGAs ถูกสลักลงบนซิลิคอน” ฟังดูแปลกมาก
ถ้า CERN tape-out ASIC เองได้ก็น่าทึ่งทีเดียว
เอกสารนำเสนอที่เกี่ยวข้อง
นี่ไม่ใช่ LLM ตามความหมายที่พูดกันทุกวันนี้ แต่เป็นโครงข่ายประสาทที่ทำงานบน FPGA
และก็ไม่แน่ใจว่า ASIC จะเหมาะกับกรณีนี้หรือไม่
ขอบคุณสำหรับฟีดแบ็ก
ฉันได้แก้เนื้อหาบทความเป็นสถาปัตยกรรม AXOL1TL ที่อิงกับ VAE และเพิ่ม บทความ arXiv ที่เกี่ยวข้อง รวมถึงวิดีโอการบรรยายของ Thea Aarrestad แล้ว
CERN ยังคงใช้ GPU อย่างกว้างขวาง และยังใช้งาน COTS GPU/CPU อย่างจริงจังตามความเหมาะสม