อนาคตของตลาดเซมิคอนดักเตอร์ที่ขับเคลื่อนโดยตัวเร่งความเร็วดีปเลิร์นนิง

(facebook.com)

13 คะแนน โดย xguru 2021-10-02 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

หากจะให้ยกตัวอย่างบริษัท IT ที่ราคาหุ้นปรับตัวขึ้นมากที่สุดในช่วง 10 ปีที่ผ่านมาในระดับโลก ก็คงต้องมี Apple และ NVIDIA อยู่ในนั้น Apple ครองตลาดสมาร์ตโฟนระดับพรีเมียมมาอย่างแท้จริงนานกว่าทศวรรษพร้อมกับการมาของ iPhone ขณะที่ NVIDIA มีราคาหุ้นพุ่งขึ้นอย่างมากจากการเติบโตแบบก้าวกระโดดของตลาด GPU สำหรับเกมประสิทธิภาพสูง และหลังจากช่วงกลางทศวรรษ 2010 ก็รวมถึงตลาดตัวเร่งสำหรับดีปเลิร์นนิงและการขุดคริปโตด้วย

NVIDIA คือบริษัทที่เปิดตัว GPU ที่มีความหมายอย่างแท้จริงเป็นครั้งแรกของโลกในปี 1999 ภายใต้แบรนด์ GeForce แน่นอนว่าในช่วงปลายยุค 90 ถึงปลายยุค 2000 ธุรกิจที่ NVIDIA มุ่งเน้นคือ GPU สำหรับเกมประสิทธิภาพสูง แต่ราวกับว่าบริษัทมองเห็นการมาถึงของยุค AI ล่วงหน้า NVIDIA ได้แนะนำ GUGPU (or GPGPU) สู่โลกในปี 2007 ตลาดที่ NVIDIA ต้องการสร้างขึ้นใหม่ไม่ใช่เพียงตลาดการ์ดกราฟิกสมรรถนะสูงสำหรับเกม แต่เป็นตลาดตัวเร่งแบบอเนกประสงค์ (general purpose) ต่างหาก กลยุทธ์ของ NVIDIA เพื่อเร่งการเติบโตของตลาดคือการเปิดตัว CUDA ซึ่งเป็น SDK ที่ช่วยให้นักพัฒนาออกแบบชิปทั่วโลกสามารถใช้ GUGPU ของตนได้ และกลยุทธ์นั้นก็ได้ผลอย่างเต็มที่ ประกอบกับการเดินหน้าควบคู่กันของ openCL ทำให้ GPU ก้าวเข้าสู่ยุคของ GUGPU อย่างแท้จริง และ NVIDIA ก็ค่อย ๆ ก้าวพ้นจากตลาดการ์ดจอสำหรับเกม เข้าสู่ตลาดตัวเร่งอย่างจริงจัง

อย่างที่ทราบกันดี ความแตกต่างที่ใหญ่ที่สุดระหว่าง CPU กับ GPU คือ serial vs parallel ใน GPU มีการรวม core จำนวนมากกว่าบนชิปเมื่อเทียบกับ CPU อย่างมาก แล้วกระจายงานคำนวณอย่างการคูณหรือการบวกที่ต้องการประมวลผลแบบขนานไปยังแต่ละ core เพื่อให้เสร็จสิ้น “ในพริบตา” ในทางตรงกันข้าม CPU ด้วยข้อจำกัดของสถาปัตยกรรม จึงแทบเลี่ยงไม่ได้ที่จะต้องรับข้อมูลและสร้างผลลัพธ์แบบ serial ทำให้ความเร็วในการคำนวณช้ากว่าการประมวลผลแบบขนานของ GPU อย่างเทียบกันไม่ติด แต่มีสิ่งหนึ่งที่ไม่ควรเข้าใจผิด คืออาจมีคนสงสัยว่า “ถ้าอย่างนั้นจะซื้อ CPU ราคาแพงไปทำไมอีกล่ะ ใช้แต่ GPU ไปเลยไม่ได้หรือ?” จริง ๆ แล้วหากจะเปรียบเทียบ มันคล้ายกับงานแกะสลักของช่างฝีมือ หากเปรียบ CPU เป็นช่างฝีมือหนึ่งคนที่ใช้เวลาหนึ่งเดือนในการแกะไม้ ทาสี และเก็บรายละเอียดชิ้นงานด้วยตัวเอง GPU ก็อาจเปรียบได้กับช่างฝีมือที่แบ่งงานให้ลูกศิษย์ 10 คนทำคนละส่วน จนผลิตงานแกะสลักได้ 10 ชิ้นในหนึ่งเดือน กล่าวได้ว่าเป็นความต่างระหว่างงานหัตถกรรมในครัวเรือนกับการแบ่งงานกันทำ ลองเทียบให้แม่นยำขึ้นอีกนิด เหตุผลที่ GPU ได้รับความสนใจจากสมรรถนะการคำนวณแบบขนานตั้งแต่ช่วงกลางถึงปลายยุค 2000 ก็เพราะการออกแบบชิปที่ทำให้แต่ละ core ที่กระจายอยู่บน GPU สามารถคำนวณลักษณะคล้ายกันได้พร้อมกัน และรวบรวมผลลัพธ์ออกมาได้ทีเดียว ยกตัวอย่างให้พิจารณาการคูณเมทริกซ์ระหว่าง B = [55] และ C = [51] หากจะทำด้วย CPU

for ii=1:จำนวนแถว

for jj=1:จำนวนคอลัมน์

A = B(ii,jj)*C(jj);

A(ii) = A(ii) + A;

end

ก็ต้องวน for loop สองรอบ แต่ถ้าทำด้วย GPU ก็แค่แจกจ่าย index ของแต่ละองค์ประกอบของเมทริกซ์ B และแต่ละองค์ประกอบของเมทริกซ์ C ไปยัง GPU core แต่ละตัวล่วงหน้าเท่านั้น ยกตัวอย่างเช่น การคูณเมทริกซ์ BC ต้องมีการคูณแต่ละองค์ประกอบทั้งหมด 55 = 25 ครั้ง โดยสามารถกำหนดองค์ประกอบ B(i,j) และองค์ประกอบ C(k) ให้กับ core ลำดับที่ [จำนวนแถว*(i-1) + j] บน GPU ได้ล่วงหน้า เท่านี้แต่ละ core ก็ทำเพียงงานคูณที่ได้รับมอบหมาย แล้วค่อยรวบรวมผลลงหน่วยความจำเพื่อทำการบวกเพิ่มเติม กล่าวคือ หากกำหนดลำดับการแจกจ่ายและการรวบรวมให้ดีตั้งแต่ต้น งานคำนวณซ้ำ ๆ แบบคูณ/บวกอย่างง่าย GPU จะเร็วกว่าอย่างมาก เมื่อเทียบกับ GPU แล้ว CPU แทบไม่สามารถทำงานขนานลักษณะนี้ได้ แต่กลับรองรับจำนวนหลักของ floating point ได้มากกว่า นั่นคือสามารถคำนวณที่ต้องการความละเอียดแม่นยำได้ดีกว่าแต่ละ core ของ GPU ดังนั้นการคำนวณ ALU ที่ต้องการความแม่นยำจึงเป็นสิ่งที่ CPU ทำได้ดีกว่า GPU มาก อย่างไรก็ตาม งานคำนวณซ้ำ ๆ ส่วนใหญ่มักไม่ต้องการความละเอียดสูงขนาดนั้น จึงทำให้การคำนวณแบบขนานของ GPU ได้เปรียบกว่ามาก

แล้วเหตุใด GPGPU ที่เหมาะอย่างยิ่งกับการทำงานแบบขนาน จึงได้รับความสนใจมากขึ้นยิ่งกว่าเดิมหลังช่วงกลางทศวรรษ 2010 เมื่อยุค AI โดยเฉพาะยุคของดีปเลิร์นนิงเปิดฉากขึ้นอย่างจริงจัง? หากเข้าใจว่าดีปเลิร์นนิงทำงานอย่างไรตั้งแต่ต้น ก็จะเข้าใจได้ไม่ยาก หนึ่งในปฏิบัติการพื้นฐานที่มักเรียนกันช่วงแรกเมื่อศึกษาดีปเลิร์นนิงก็คือ convolution ซึ่งเป็น matrix operation ที่นำ kernel ซึ่งเป็นเมทริกซ์อีกชุดหนึ่ง มาเลื่อนตำแหน่งไปบน input data ที่อยู่ในรูปเมทริกซ์แล้วคำนวณซ้ำไปเรื่อย ๆ แต่พอมองดี ๆ แล้ว มันก็เป็นเพียงการทำซ้ำของการคูณและการบวกองค์ประกอบของเมทริกซ์เท่านั้น แน่นอนว่าผลลัพธ์ของ input matrix จะเปลี่ยนไปตามชนิดของ kernel ที่ใช้ ตัวอย่างเช่น อย่างที่มักอธิบายในวิชาประมวลผลภาพ หากใช้ Laplacian kernel ก็จะได้ความสามารถในการแยกขอบภาพ ความชันของขอบ หรือแยกแยะรูปแบบบางอย่างได้ ไม่ว่าจะเป็น kernel ชนิดใด เมื่อผ่านกระบวนการ convolution แล้ว สุดท้ายก็ยังเป็นการทำซ้ำของการคูณ/การบวกแบบง่าย ๆ อยู่ดี ดังนั้น GUGPU ที่ออกแบบมาเฉพาะทางกับงานเช่นนี้จึงอยู่ในตำแหน่งที่ได้เปรียบกว่าอย่างชัดเจน นอกจากนี้ หากลองคิดดูว่าการฝึกและการอนุมานในดีปเลิร์นนิงเกิดขึ้นอย่างไร ก็จะเข้าใจได้ด้วยว่าทำไมดีปเลิร์นนิงที่อาศัย CPU เป็นฐานจึงแทบเป็นไปไม่ได้ตั้งแต่แรก อย่างที่กล่าวไปก่อนหน้านี้ GPU ไม่ได้ต้องการความแม่นยำระดับเดียวกับ CPU และก็ไม่ได้ถูกออกแบบมาเพื่อสิ่งนั้น กระบวนการเรียนรู้จาก training data ในดีปเลิร์นนิงคล้ายกับคนที่ปิดตาแล้วพยายามหาทางโดยใช้เพียงมือและเท้า บางครั้งถ้าโชคดี มือที่ยื่นออกไปอาจเจอวัตถุที่ใช้เป็นจุดอ้างอิงได้ แต่ถ้าโชคร้าย เท้าที่ก้าวออกไปอาจตกลงไปในกับดักก็ได้ กล่าวคือ ในทุกครั้งที่ลองย่อมมี error เกิดขึ้นอย่างหลีกเลี่ยงไม่ได้ และที่จริงแล้วความถูกต้องหรือความละเอียดของ error นั้นไม่ได้สำคัญมากนัก ตรงกันข้าม หากมัวแต่ใส่ใจกับความละเอียดของ error มากเกินไป ความเร็วในการเรียนรู้ก็จะช้าลง คำตอบจะชัดเจนทันทีหากลองเปรียบเทียบระหว่างคนที่ทำ trial-and-error ได้ 100 ครั้งต่อวินาที กับคนที่ลองอย่างระมัดระวังและสำเร็จเพียง 1 ครั้งต่อวินาที ว่าใครจะหาทางเจอได้เร็วกว่ากัน วิธีการเรียนรู้ของดีปเลิร์นนิงนี้สอดคล้องอย่างลงตัวกับสถาปัตยกรรมที่ GPU ถูกออกแบบมา และด้วยเหตุนี้ GPU จึงเริ่มถูกมองว่าไม่ใช่อุปกรณ์สำหรับเกมประสิทธิภาพสูงอีกต่อไป แต่เป็นเครื่องเร่งสำหรับดีปเลิร์นนิงแทน

สิ่งหนึ่งที่ไม่ควรมองข้ามก็คือ GUGPU ยังคงถูกปรับแต่งมาอย่างเหมาะสมสำหรับการยกระดับประสิทธิภาพเกมด้วย เดิมทีเมื่อพิจารณาว่า GPU มีประสิทธิภาพที่เชี่ยวชาญด้านการประมวลผลเมทริกซ์เป็นพิเศษ เรื่องนี้ก็ถือเป็นเรื่องธรรมดา ก่อนช่วงต้นทศวรรษ 90 เกมแทบไม่มีแนวคิดเรื่องภาพ 3D เลย และถึงจะมี ก็เป็นเพียงการแสดงผลแบบ 2D projection จากทิศทางใดทิศทางหนึ่งซ้ำๆ เท่านั้น จะมองว่าเป็น 2D only โดยแทบไม่ผิดนัก ในการคำนวณพีชคณิตเชิงเส้นเกี่ยวกับเมทริกซ์ เมทริกซ์สองมิติถือว่าเป็นการคำนวณที่ค่อนข้างง่าย แต่ปัญหาอยู่ที่การคำนวณเมทริกซ์สามมิติ โลกที่เราอาศัยอยู่เป็นโลกสามมิติ และปรากฏการณ์ทางกายภาพทั้งหมดที่เราเห็น ได้ยิน และรับรู้ ล้วนเกิดขึ้นในปริภูมิ 3 มิติ + เวลา 1 มิติ เหตุการณ์ในโลกสามมิติเปลี่ยนแปลงทุกวินาที แต่ดวงตาของเราจำเป็นต้องแมปข้อมูลเหล่านั้นลงสู่ 2 มิติเพื่อรับรู้ นี่จึงเป็นเหตุผลว่าทำไมสมองมนุษย์ถึงใช้ทรัพยากรจำนวนมากอย่างยิ่งในการประมวลผลข้อมูลการมองเห็น เรื่องนี้ใช้กับการคำนวณได้เช่นกัน ลองนึกถึงงานที่ต้องนำภาพของวัตถุสามมิติไปแสดงบนปริภูมิสองมิติที่เรามองเห็นได้ นั่นคือบนจอมอนิเตอร์ ตัวอย่างเช่น ต้องแสดงภาพของโมเดลที่ประกอบด้วย polygon แบบสามมิติ เมื่อมองจากมุมหนึ่งบนจอ 2 มิติ การทำเช่นนี้ต้องอาศัยการคำนวณ matrix transformation ต้องมีการคำนวณอย่างการหมุน การ stretching และการจัดการจุดหายตัว หากต้องการมากกว่านั้นอีกหน่อย ก็ต้องทำ ray tracing ด้วย กล่าวคือ ต้องคำนวณเอฟเฟกต์แสงและเงาด้วย ซึ่งต้องใช้การคำนวณมากยิ่งขึ้นไปอีก เพราะต้องมีการคำนวณด้านทัศนศาสตร์เชิงเรขาคณิตกับทุกจุดมวลของทุก polygon แต่การคำนวณมหาศาลเหล่านี้ไม่ได้ทำเพียงวินาทีละครั้ง ต้องทำอย่างน้อยราว 30 ถึง 60 ครั้งต่อวินาที มนุษย์จึงจะรับรู้ว่าปรากฏการณ์นี้เกิดขึ้นแบบเรียลไทม์อย่างเป็นธรรมชาติ นี่คงเป็นงานระดับฝันร้ายสำหรับวิศวกรคอมพิวเตอร์อย่างแท้จริง หากในช่วงต้นทศวรรษ 90 ใช้ CPU ทำงานแบบนี้ ก็คงแสดงภาพได้อย่างมากเพียงประมาณหนึ่งฉากต่อนาทีเท่านั้น สำหรับเกมเมอร์ที่ไม่ชอบรอ นั่นคืออาการแลกร้ายแรงที่ทนไม่ได้ แต่ GPU สามารถประมวลผลซ้ำๆ เหล่านี้แบบขนานบนพื้นฐานของเมทริกซ์ได้ ดังนั้น CPU จึงไม่จำเป็นต้องแบกรับภาระงานเหล่านี้เพียงลำพังอีกต่อไป การคำนวณ matrix transformation และการคำนวณทัศนศาสตร์เชิงเรขาคณิตของ ray tracing ส่วนใหญ่ถูกย้ายไปให้ GPU รับผิดชอบ ส่วน CPU ทำเพียงการคำนวณต่อเนื่องภายหลังเท่านั้น กล่าวคือ ในมุมมองของเกมเมอร์ จึงรู้สึกได้ว่าการคำนวณนี้ถูก “เร่งความเร็ว” ขึ้น และนี่ก็เป็นที่มาที่ทำให้มันถูกเรียกว่า accelerator

หากเป็นข้อมูลที่สามารถแทนได้ด้วยเมทริกซ์แบบนี้ ไม่ว่าจะเป็นภาพ 3D ความละเอียดสูงสำหรับเกม, 3D voxel data ทางการแพทย์ หรือ multi-feature tensor data สำหรับการฝึกดีปเลิร์นนิง ก็แทบไม่เกินจริงที่จะบอกว่ายุครุ่งเรืองของ GUGPU ได้มาถึงจุด peak อย่างชัดเจนแล้ว แต่ปัญหาก็คือ ข้อดีของ GUGPU ในขณะเดียวกันก็เป็นข้อเสียของมันด้วย วิธีปรับปรุงความเร็วของการประมวลผลแบบขนานก็คือเพิ่มจำนวนคอร์ให้มากขึ้น หรือทำให้ความเร็ว I/O ของข้อมูลระหว่างคอร์สูงขึ้น เพื่อสิ่งนี้ อาจรวมหน่วยความจำเข้ากับแต่ละคอร์ หรือเพิ่ม bandwidth ให้มากขึ้นก็ได้ แต่มีต้นทุนหนึ่งอย่างที่ไม่เปลี่ยนแปลง นั่นคือการใช้พลังงานที่เพิ่มขึ้นตามไปด้วย นอกจากพลังงานที่คอร์ใช้เองแล้ว ยังมีพลังงานที่ต้องใช้สำหรับการระบายความร้อน เมื่อพลังงานที่ใช้ในคอร์ถูกแปรเปลี่ยนเป็นความร้อน อีกทั้งวงจรการเกิดความร้อน-การระบายความร้อนซ้ำๆ ยังส่งผลต่ออายุการใช้งานของชิปด้วย GPU ก็เป็นชิปเซมิคอนดักเตอร์ที่ทำจากซิลิคอนเช่นกัน ดังนั้นท้ายที่สุด การใช้พลังงานอย่างเข้มข้นและการคำนวณหนักๆ ย่อมทำให้อายุของวัสดุและอุปกรณ์ที่ประกอบเป็นคอร์สั้นลง เพราะอาจเกิด mechanical failure, thermal failure และ electrical failure ได้ เรื่องที่ว่าชีวิตการใช้งานของ GUGPU ที่ถูกใช้ในฟาร์มขุดบล็อกเชนแบบกึ่งโรงงานนั้นอยู่ไม่ถึง 6 เดือน จึงไม่ใช่เรื่องที่พูดกันลอยๆ และแม้แต่ high performance GPU ที่ใช้ในร้านอินเทอร์เน็ตคาเฟ่ทั่วไป อายุการใช้งานก็มักอยู่ที่ราว 2 ปี หรืออย่างมากก็เพียง 3-4 ปีเท่านั้น แน่นอนว่าปัญหาเรื่องอายุการใช้งานมักถูกกลบไปเพราะมี GPU รุ่นถัดไปออกมาก่อน แต่ในตัวมันเองแล้ว อายุการใช้งานที่สั้นกว่า CPU ก็เป็นข้อเสียที่หลีกเลี่ยงได้ยาก

ถึงอย่างนั้น ยุค AI เพิ่งเริ่มเติบโตและกำลังจะผลิบาน แต่หากไม่ใช้ accelerator อย่าง GPU ก็แทบไม่มีทางรับมือกับการคำนวณมหาศาลเหล่านั้นได้ อย่างไรก็ตาม หากพึ่งพา GPU เพียงอย่างเดียว ปริมาณพลังงานที่ GPU ใช้เพื่อการฝึกก็ยิ่งมีแนวโน้มพุ่งสูงขึ้นเรื่อยๆ จึงจำเป็นต้องมีทางเลือกอื่นโดยธรรมชาติ และหนึ่งในโซลูชันที่ปรากฏขึ้นตั้งแต่ปลายทศวรรษ 2010 ต่อเนื่องสู่ทศวรรษ 2020 ก็คือ FPGA และ NPU ในปี 2019 AMD ซึ่งเป็นหนึ่งในสองยักษ์ใหญ่ผู้ผลิต CPU ร่วมกับ Intel ได้เข้าซื้อ Xilinx ผู้ผลิต FPGA อันดับ 1 ของโลกอย่างสายฟ้าแลบ มุมมองของอุตสาหกรรมคือสิ่งที่ควรจะมาก็มาถึง เพราะคู่แข่งอย่าง Intel ได้เข้าซื้อ Altera ซึ่งเป็นเบอร์ 2 ของตลาด FPGA ไปตั้งแต่ปี 2015 ด้วยมูลค่า 16.7 พันล้านดอลลาร์ แล้วเหตุใดบริษัทยักษ์ใหญ่ผู้ผลิต CPU แบบดั้งเดิมจึงแย่งกันซื้อ FGPA ซึ่งแตกต่างจาก CPU อย่างมากเช่นนี้? FPGA คือชิปประมวลผลที่ผู้ใช้สามารถ reprogramming ให้เหมาะกับวัตถุประสงค์ได้ตามเวลาจริงตามชื่อของมัน การที่ผู้ใช้สามารถรีโปรแกรมได้ หมายความว่า ชิปจะคงไว้เพียงฟังก์ชันขั้นต่ำที่จำเป็นต่อการทำงาน ส่วนการจัดวางหรือการออกแบบของยูนิตที่เหลือนั้นผู้ใช้สามารถเปลี่ยนได้ ถ้าเป็นเช่นนั้น เมื่อเทียบกับชิปเซมิคอนดักเตอร์ที่ผลิตด้วยกระบวนการมาตรฐานอย่าง CPU หรือ DRAM ต้นทุนก็ย่อมต้องสูงกว่าอย่างหลีกเลี่ยงไม่ได้ เพราะต้องเปิด degree of freedom ไว้มากกว่า ก่อนยุคดีปเลิร์นนิง ด้วยเหตุนี้ชิปที่ใช้ FPGA จึงถูกนำไปใช้หลักๆ ในงานเฉพาะทาง เช่น โรงไฟฟ้านิวเคลียร์หรือยานสำรวจอวกาศ และแทบไม่ถูกใช้เป็นงานทั่วไปเลย

แต่เมื่อยุคดีปเลิร์นนิงเริ่มต้นอย่างจริงจัง ตลาดที่เคยดูเหมือนว่า GPU จะครองอย่างเบ็ดเสร็จก็ค่อยๆ เริ่มมีความหลากหลายมากขึ้น แนวโน้มนี้ไม่ได้เป็นข่าวดีสำหรับ GPU เสมอไป ตัวอย่างเช่น หากดีปเลิร์นนิงเป็นเพียงชุดของการคำนวณที่ทำซ้ำแต่ convolution อย่างเดียว ก็คงไม่ใช่ปัญหา แต่เมื่อขอบเขตของการนำดีปเลิร์นนิงไปใช้กว้างขึ้น ขนาดและลักษณะของข้อมูลที่เอนจินดีปเลิร์นนิงต้องเรียนรู้ก็หลากหลายมากขึ้นด้วย เพียงแค่รู้จำตัวเลขจากภาพหรือแยกสุนัขกับแมวได้ย่อมทำให้ขอบเขตการประยุกต์ใช้งานจำกัด จึงเริ่มเปิดตลาดที่มีการใช้งานและสเปกหลากหลายมากขึ้น เช่น การประมวลผลภาษาธรรมชาติ, การตรวจจับข้อผิดพลาดจากข้อมูลกระบวนการเคมีที่ซับซ้อนซึ่งมี feature มากกว่า 1,000 รายการ, การออกแบบเครือข่ายของเซ็นเซอร์ IoT, การอนุมานและจำลองการไหลของของไหลที่ซับซ้อนภายใน porous media ซึ่ง CFD ไม่สามารถครอบคลุมได้ หรือการสร้างเอนจินขับขี่อัตโนมัติแบบเรียลไทม์ สำหรับฝั่งที่ต้องการประยุกต์ใช้ดีปเลิร์นนิงในภาคอุตสาหกรรม ความหลากหลายของตลาดเช่นนี้ถือเป็นเรื่องน่ายินดี แต่สำหรับฝั่งที่พยายามครอบคลุมทุกอย่างด้วย GPU อเนกประสงค์ นี่กลับกลายเป็นโจทย์ชวนปวดหัว เพราะในแต่ละการใช้งาน น้ำหนักความสำคัญระหว่างการจำแนก การอนุมาน การพยากรณ์ หรือการตรวจจับนั้นต่างกันไป จึงยากขึ้นที่จะคงโครงสร้างการประมวลผลที่ปรับให้เหมาะกับอัลกอริทึมนิวรัลเน็ตแบบเดียวกันทั้งหมดไว้ต่อไป ในช่วงแรกที่ดีปเลิร์นนิงเพิ่งเกิดขึ้น ฮาร์ดแวร์ที่มีให้ใช้งานแทบมีเพียง GUGPU เท่านั้น ดังนั้นนักพัฒนาอัลกอริทึมดีปเลิร์นนิงจึงไม่มีทางเลือกนอกจากสร้างอัลกอริทึมบนพื้นฐานของสเปก GUGPU ที่มีอยู่ แต่เมื่อชนิดและปริมาณของข้อมูลที่ดีปเลิร์นนิงต้องจัดการเพิ่มขึ้นแบบทวีคูณ กลับกลายเป็นว่าปัจจุบันอัลกอริทึมดีปเลิร์นนิงเริ่มมีอิทธิพลต่อการออกแบบสถาปัตยกรรมของ GPU มากขึ้น ตัวอย่างเช่น การกำหนด precision ของคอร์แต่ละคอร์ใน GPU ให้เป็น FP16 หรือการออกแบบคอร์ที่ยอมให้ความแม่นยำเปลี่ยนแปลงได้ (multi-precision) ก็จัดอยู่ในกรณีเช่นนี้ อย่างไรก็ตาม แม้แต่การออกแบบ GPU ที่ขับเคลื่อนด้วยดีปเลิร์นนิงเช่นนี้ก็ยังมีข้อจำกัดที่ชัดเจน เพราะ GPU เองเมื่อผลิตออกมาแล้วก็แทบเป็นไปไม่ได้ที่จะเปลี่ยนโครงสร้าง และไม่มีพื้นที่ให้ reprogramming ได้จริง ต่อให้จะใช้ขวานโกนหนวดก็ใช่ว่าจะทำไม่ได้ แต่การโหยหาเครื่องโกนหนวดที่คุ้นมือก็คงเป็นเรื่องธรรมดา

ในทางกลับกัน ตลาดกำลังยอมรับมากขึ้นเรื่อย ๆ ว่า FPGA อาจเหมาะกับวัตถุประสงค์เหล่านี้มากกว่า ตามที่กล่าวไปก่อนหน้านี้ FPGA จะถูกส่งมอบให้ลูกค้าทั้งที่การออกแบบลอจิกยังไม่เสร็จสมบูรณ์ทั้งหมด แต่จะมีการให้ SDK ชนิดหนึ่งที่ลูกค้าสามารถนำไปโปรแกรมต่อให้ตรงกับเป้าหมายของตนเองได้ กล่าวคือ ลูกค้าอาจสร้างชิปดีปเลิร์นนิงเฉพาะทางสำหรับการจำลองพลศาสตร์ของไหลก็ได้ และถึงแม้ช่วงแรกจะมีข้อผิดพลาดในการออกแบบจนทำงานได้ไม่สมบูรณ์ ก็ยังสามารถ reprogramming ได้ จึงแก้ไขได้มากเท่าที่ต้องการ และช่วยลดการสูญเสียต้นทุนในกระบวนการทดสอบระยะแรกได้ แม้จะเทียบประสิทธิภาพการประมวลผลแบบขนานในระดับฮาร์ดแวร์ที่ GPU ทำได้ไม่ได้ แต่ FPGA ก็สามารถทำ parallel processing ได้เช่นกัน ซึ่งก็เป็นผลมาจากลักษณะเฉพาะของ FPGA เอง บน FPGA สามารถทำ parallel processing ในระดับซอฟต์แวร์ได้ โดยสามารถออกแบบอัลกอริทึมที่ให้คอร์เดี่ยวรับหลายคำสั่ง (multiple instruction) และสร้างหลายเอาต์พุตได้ วิธีนี้เรียกว่า Multiple instruction multiple data (MIMD) ในขณะที่คอร์แต่ละคอร์ของ GPU นั้น กระแสข้อมูลถูกออกแบบมาเป็น single instruction multiple data (SIMD) ตั้งแต่ต้น เพื่อให้เหมาะที่สุดกับการประมวลผลแบบขนานผ่านงานที่ทำซ้ำ ๆ หากชุดคำสั่งถูกวางมาอย่างดีและรูปแบบข้อมูลเป็นมาตรฐาน GPU ก็แทบจะทำ parallel processing ระดับเทพในชั้นฮาร์ดแวร์ได้เลย แต่ถ้ารูปแบบข้อมูลเปลี่ยนไป หรือมีการคำนวณที่ยากจะครอบคลุมด้วยชุดคำสั่งที่มีอยู่ ก็หลีกเลี่ยงไม่ได้ที่จะเกิดอาการสะดุด ตรงกันข้าม FPGA แม้จะทำ parallel processing ในระดับฮาร์ดแวร์ได้ยากกว่า แต่ข้อดีที่สำคัญที่สุดคือความ flexible เพราะแม้รูปแบบข้อมูล (width) จะเปลี่ยนไป ก็ไม่จำเป็นต้องยึดติดกับชุดคำสั่งที่ define ไว้ล่วงหน้า และยังใช้ multiple instruction set ได้ จึงไม่เป็นปัญหา คุณลักษณะที่ flexible แบบนี้หมายความว่า ในยุคดีปเลิร์นนิงปัจจุบันซึ่งชุดข้อมูลมีความหลากหลายและแอปพลิเคชันปลายทางกำลังได้รับความนิยมสูงขึ้น ศักยภาพทางการตลาดของ FPGA ก็จะเพิ่มขึ้นตามไปด้วย.

ยิ่งไปกว่านั้น FPGA ซึ่งโดยพื้นฐานแล้วไม่จำเป็นต้องขับเคลื่อนคอร์หลายพันคอร์พร้อมกัน (แม้ประสิทธิภาพอาจด้อยลงบ้าง) เมื่อเทียบกับ GPU แล้วจะมีการใช้พลังงานต่ำกว่ามาก ๆ (ดูตารางแนบ 1) นอกจากนี้ เมื่ออัลกอริทึมดีปเลิร์นนิงในตลาดได้รับการปรับปรุง FPGA ก็ยังสามารถปรับวิธีการใช้พลังงานได้ด้วย จึงสามารถทำ energy efficiency ให้เหมาะสมที่สุดได้ตลอดเวลา เพราะเป็นแนวทางที่เพียงปิดสวิตช์ที่ไม่จำเป็นและเปิดเฉพาะสวิตช์ที่ต้องใช้ ด้วยเหตุนี้เอง ก่อนที่ยุคดีปเลิร์นนิงจะมาถึงเต็มตัว Intel และ AMD ซึ่งไม่ได้ประสบความสำเร็จนักกับ GPU จึงรีบเข้าซื้อกิจการผู้ผลิต FPGA อันดับ 1 และ 2 ของอุตสาหกรรมด้วยมูลค่ามหาศาล แน่นอนว่า Nvidia ซึ่งเป็นเจ้าตลาด GPU เดิมก็ไม่ได้อยู่นิ่ง แม้ FPGA จะมีข้อดีมากมาย แต่ก็ยังมีจุดอ่อนสำคัญในการทำดีปเลิร์นนิงเมื่อเทียบกับ GPU นั่นคือความเร็วในการ training ที่ช้ากว่า ซึ่งเป็นข้อเสียที่หลีกเลี่ยงได้ยาก เพราะโครงสร้างเดิมไม่ได้เป็นแบบ built-in ที่เพิ่มจำนวนคอร์ที่ใช้งานได้ในระดับฮาร์ดแวร์อย่างเต็มที่ตั้งแต่แรก Intel และ AMD วางแผนจะใช้ FPGA เข้ามาแย่งส่วนแบ่งในตลาดตัวเร่งความเร็ว AI ที่ GPU ครองอยู่ Intel เปิดตัว Agilex และ PAC (programmable acceleration card) ขณะที่ AMD (Xilinx) ก็เปิดตัวการ์ดเร่งความเร็ว Alveo เพื่อท้าชิงเช่นกัน โดยเฉพาะ Xilinx ยังหันไปทำผลิตภัณฑ์อย่าง Versal ซึ่งเป็นผลิตภัณฑ์ที่ผสาน HBM (high-bandwidth memory) เข้ากับ FPGA โดยตรง ซึ่งเป็นเทคโนโลยีที่เริ่มทำได้จริงเมื่อเทคโนโลยีการทำแพตเทิร์นระดับละเอียดพิเศษของเซมิคอนดักเตอร์ต่ำกว่า 10 นาโนเข้าสู่ระยะสุกงอม (สำหรับ Versal ผลิตด้วยกระบวนการ 7 นาโน) หลังจาก Intel เข้าซื้อ Altera รายได้จากตัวเร่งความเร็วบน FPGA ของ Intel ไม่ได้เติบโตโดดเด่นมากนัก ในขณะที่รายได้ของ Xilinx เติบโตอย่างต่อเนื่องและแข็งแกร่ง ซึ่งสะท้อนว่าโครงสร้าง FPGA + HBM แบบของ Xilinx กำลังค่อย ๆ ลดช่องว่างด้านประสิทธิภาพของตัวเร่งดีปเลิร์นนิงลงไปอีก Xilinx ยังขยายการพัฒนาไปสู่โปรเซสเซอร์ xDNN ที่ปรับให้เหมาะกับ deep neural network เพื่อเจาะตลาดตัวเร่งดีปเลิร์นนิงแบบ flexible เพิ่มเติมด้วย.

ที่จริงแล้ว ในกระบวนการฝึกดีปเลิร์นนิง สิ่งที่สำคัญไม่แพ้การคำนวณเมทริกซ์คือกระบวนการ integration ผลการเรียนรู้จากข้อมูลปริมาณมหาศาล และเพื่อให้ทำเช่นนั้นได้ เมื่อข้อมูลเรียงต่อกันเป็นแถว ก็จำเป็นต้องมีกระบวนการลดเวลารอคอย กล่าวคือ การลด latency ของข้อมูลกำลังกลายเป็นเรื่องสำคัญมากขึ้นเรื่อย ๆ ทั้งในแง่การใช้พลังงานและความเร็วในการฝึก เทคโนโลยีที่ Nvidia หยิบขึ้นมาต่อกรกับฝั่ง FPGA ก็คือ InfiniBand ซึ่งเป็นเทคโนโลยีสำหรับลด latency ของข้อมูลนี้เอง เพื่อจุดประสงค์ดังกล่าว Nvidia ชนะศึกเข้าซื้อกิจการเหนือ Intel และ AMD และในปี 2019 ก็เข้าซื้อ Mellanox ผู้นำระดับโลกด้าน network-interface card (NIC) และ InfiniBand ด้วยมูลค่า 6.9 พันล้านดอลลาร์ ทำให้ได้มาซึ่งเทคโนโลยีการเพิ่มประสิทธิภาพ NPU ของตน เทคโนโลยีที่ Nvidia เล็งไปไกลกว่าการเป็นเจ้าตลาด GPU สู่ตลาดดีปเลิร์นนิง และต่อเนื่องไปถึงตลาดตัวเร่ง AI โดยรวม คือ SoC แบบ Xavier ซึ่งเป็นตัวเร่งดีปเลิร์นนิงแบบอเนกประสงค์ และถูกวางตำแหน่งให้เป็นผลิตภัณฑ์หลักสำหรับตลาดรถยนต์ไร้คนขับที่ความต้องการตัวเร่ง AI กำลังพุ่งสูง CUDA ของ Nvidia เองก็มี cuDNN ที่ออกแบบมาสำหรับดีปเลิร์นนิงโดยเฉพาะ โดยได้เตรียมยูนิตที่แทบทุก deep neural network ต้องใช้ไว้ล่วงหน้าแล้ว ไม่ว่าชุดข้อมูลหรือขนาดจะเป็นแบบใด จึงอาจกล่าวได้ว่าได้วางหัวหาดสู่ตลาด NPU (Neural processing unit) ในอนาคตไว้แล้วเช่นกัน โดยเฉพาะ NPU เป็นชิปที่มีการทำ DNN สำหรับชุดข้อมูลเฉพาะไว้ล่วงหน้าในระดับฮาร์ดแวร์ (พูดตรงตัวคือ ชิปที่ทำแต่ละชั้นของเครือข่ายดีปเลิร์นนิงให้สอดคล้องแบบ 1:1 กับลอจิกยูนิตบนซิลิคอนชิป กล่าวอีกนัยหนึ่งคือเป็นการทำ neuron ขึ้นมาในระดับฮาร์ดแวร์โดยตรง) ดังนั้นเมื่อคำนึงถึงคุณลักษณะที่เหมาะกับการรวมเข้าไปใน mobile AP จึงมีความเป็นไปได้สูงว่าจะยังคงอิทธิพลไว้ได้ต่อไปในตลาด AP ที่จะเติบโตอย่างมากในอนาคต NPU อาจมองได้ว่าเป็นชิปที่ตรึงฟังก์ชันไว้ในระดับที่สามารถทำ 'inference' บนอุปกรณ์ปลายทาง (เช่น สมาร์ตโฟน) ได้ แทนที่จะทำบน GPU เนื่องจากไม่สามารถยัด GPU ที่มีขนาดใหญ่ระดับหนังสือหนา ๆ ลงในสมาร์ตโฟนได้ จึงต้องสร้าง NPU ในลักษณะที่มีโครงสร้างที่ผ่านการฝึกมาแล้วแบบ built-in ให้มากที่สุด กล่าวคือ ให้เซิร์ฟเวอร์ GPU รับหน้าที่ฝึกโมเดล ส่วน NPU รับหน้าที่เฉพาะการอนุมานคุณลักษณะจากข้อมูลนำเข้าตามโมเดลที่ฝึกแล้วเท่านั้น หากมีการแบ่งบทบาทเช่นนี้ ก็ไม่จำเป็นต้องใช้พลังงานมาก และไม่จำเป็นต้องมีขนาดใหญ่ จึงสามารถผสานรวมแบบเฉพาะทางเข้ากับสมาร์ตโฟนหรือชิปเซมิคอนดักเตอร์สำหรับยานยนต์ได้ด้วย นี่อาจมองได้ว่าเป็นยุทธศาสตร์ที่อ้อมผ่านความ flexible ที่ FPGA พยายามไล่ตามมาโดยตลอด Nvidia จึงเปิดตัว Jetson series ซึ่งเป็นเทคโนโลยีต่อจาก Xavier โดยเล็งเป้าไปยังตลาด NPU นี้โดยตรง และยังลดราคาลงอีกด้วย.

คู่แข่งในตลาด NPU อาจเป็น Google โดย Google ได้เปิดตัว Coral ซึ่งเป็นชิปซีรีส์ TPU (tensor processing unit) ที่ออกแบบเอง และตั้งราคาไว้ต่ำกว่า Jetson ของ Nvidia ถึงไม่ถึง 1 ใน 5 เพื่อแข่งขันด้านต้นทุน แน่นอนว่าประสิทธิภาพกับราคาย่อมแปรผันกัน โดยมีข้อมูลว่า Coral มีประสิทธิภาพอยู่ที่ราว 1/5 ถึง 1/3 ของ Xavier หรือ Jetson อย่างไรก็ตาม TPU รุ่นถัด ๆ ไปที่ Google จะออกมานั้น คาดว่าจะถูกนำไปใช้ได้ในขอบเขตที่กว้างขึ้นโดยอาศัย feedback จากตลาด ซึ่งพอจะตีความได้ว่าตั้งอยู่บนความได้เปรียบด้านความเร็วในการอัปเดตโมเดลการเรียนรู้ผ่าน GPU cloud server ที่ Google กำลังวางภาพไว้ ผู้เล่นดั้งเดิมด้าน mobile AP อย่าง Samsung และ Qualcomm เองก็ใช้กลยุทธ์ยัด NPU เข้าไปเช่นกัน เพราะด้วยข้อจำกัดของการทำแพตเทิร์นระดับละเอียดพิเศษ ทำให้ประสิทธิภาพของชิป AP เองมีช่องให้พัฒนาน้อยลงเรื่อย ๆ Qualcomm เริ่มใส่ NPU ตั้งแต่ Snapdragon series 845 เป็นต้นมา ส่วน Samsung เริ่มใส่ NPU ตั้งแต่ Exynos series 9 เป็นต้นมา บริษัทที่พยายามรวม NPU เข้าไว้หรือใช้งานควบคู่กัน ย่อมจะค่อย ๆ ขยายขอบเขตการใช้งานออกไปจากการครอบครองข้อมูลบนชิปมือถือ และตลาดถัดไปก็น่าจะขยายไปเรื่อย ๆ สู่เซมิคอนดักเตอร์ยานยนต์ (ชิปรถยนต์ไร้คนขับหรือชิปเซมิคอนดักเตอร์ยานยนต์), ชิปประมวลผลสัญญาณสำหรับ IoT, ชิปเรดาร์ผสมสำหรับการทหาร เป็นต้น.

แต่ที่น่าขันก็คือ การแข่งขันในตลาด FPGA และ NPU/TPU/cuDNN กลับไม่ได้ขึ้นอยู่กับฮาร์ดแวร์ แต่อยู่ที่ซอฟต์แวร์ โดยเฉพาะแนวโน้มการเปลี่ยนแปลงของอัลกอริทึมดีปเลิร์นนิงว่าจะเป็นอย่างไร ทุกวันนี้ในสาขาอัลกอริทึมดีปเลิร์นนิงก็ยังมีวิธีวิทยาใหม่ ทฤษฎีใหม่ และโมเดลใหม่ ๆ หลั่งไหลออกมาแทบทุกวัน และการทำให้บทความวิจัยได้รับการตอบรับใน 4 งานประชุมวิชาการด้าน AI ชั้นนำของแต่ละปีก็ยิ่งยากขึ้นเรื่อย ๆ อย่างไรก็ตาม เช่นเดียวกับเทคโนโลยีในสาขาอื่น ๆ เมื่อดีปเลิร์นนิงค่อย ๆ เข้าสู่ระยะเติบโตเต็มที่ หากความเร็วของนวัตกรรมด้านอัลกอริทึมเริ่มช้าลง ข้อได้เปรียบด้าน flexibility เฉพาะตัวของ FPGA ก็จะค่อย ๆ เจือจางลงเช่นกัน เพราะข้อดีที่สามารถ reprogramming ให้สอดรับกับอัลกอริทึมที่เร็วขึ้นและมีประสิทธิภาพมากขึ้นนั้น หากวงจรการเปลี่ยนอัลกอริทึมค่อย ๆ ช้าลง ก็จะไม่ใช่ข้อได้เปรียบที่เด่นชัดอีกต่อไป ตัวอย่างเช่น ตอนนี้ในด้านความสามารถอย่างการรู้จำภาพนั้น อัลกอริทึมอาจกล่าวได้ว่าไปถึง saturated state แล้วจนแทบไม่มีพื้นที่ให้ปรับปรุงอีก (อัตราการรู้จำของมนุษย์ถูกแซงไปนานแล้ว และอัลกอริทึมส่วนใหญ่ในตอนนี้ก็มีอัตราการรู้จำภาพเกิน 95%) ตรงกันข้าม แนวทางที่ปรับแต่ง DNN แบบใช้งานทั่วไปอย่างต่อเนื่องเพื่อลดช่องว่างระหว่างฮาร์ดแวร์กับอัลกอริทึมล่าสุด อาจกลายเป็นแนวทางที่ได้เปรียบกว่าในภายหลัง

ตลาดตัวเร่งความเร็วดังกล่าวจะยังเติบโตต่อไปในอนาคต และอุปสงค์ก็น่าจะยังเพิ่มขึ้นแม้หลังปี 2030 แต่รูปแบบใดจะเป็นผู้ครองตลาดนั้นยังต้องติดตามกันต่อไป ไม่มีใครคาดการณ์ได้ว่าช่วงที่อัลกอริทึมดีปเลิร์นนิงเข้าสู่ระยะเติบโตเต็มที่จะมาถึงเมื่อใด แต่ท้ายที่สุดมันต้องมาถึง และเมื่อถึงตอนนั้นก็ยากจะทำนายว่าเทคโนโลยีใดจะอยู่ในสภาพที่เหมาะแก่การทำ optimization มากกว่า FPGA เองก็ยังมีพื้นที่ให้สร้างนวัตกรรมได้อีกมาก งานวิจัยด้านการออกแบบชิปด้วย reinforcement learning ของ Google ที่เผยแพร่ใน Nature เมื่อเดือนมิถุนายนปีนี้* (*https://www.nature.com/articles/s41586-021-03544-w) เป็นตัวอย่างที่ดีที่แสดงให้เห็นถึงความเป็นไปได้ของนวัตกรรมเช่นนี้ การจัดวางยูนิตหลายล้านถึงหลายสิบล้านตัวบนพื้นที่ชิปไดขนาดจำกัด พร้อมออกแบบให้ข้อมูล input และ output ระหว่างยูนิตมี latency ต่ำที่สุดและลดการใช้พลังงานลง ถือเป็นหนึ่งในส่วนที่ยากที่สุดของการออกแบบชิปเซมิคอนดักเตอร์ บริษัท fabless ได้อาศัยองค์ความรู้ที่สั่งสมมาเพื่อทำ optimization ลักษณะนี้มาโดยตลอด แต่ผลลัพธ์ที่ Google เปิดเผยนั้นน่าตกใจไม่น้อย เพราะให้การปรับปรุงที่ทำให้ความชำนาญที่สะสมมาก่อนหน้านี้ดูด้อยลงไป ราวกับเป็นการจัดวางเฟอร์นิเจอร์และเครื่องใช้ไฟฟ้าจำนวนนับไม่ถ้วนในผังอพาร์ตเมนต์ที่ซับซ้อน โดยต้องหาทางสัญจรที่เหมาะที่สุดให้ร่างกายเคลื่อนไหวน้อยที่สุดและใช้แรงให้น้อยที่สุด Google ทำการออกแบบแบบ optimization ได้สำเร็จในปริภูมิสถานะการจัดวางยูนิต (~10^2500) ซึ่งใหญ่กว่าปริภูมิสถานะของเกมโกะ (~10^360) มาก โดยใช้วิธีที่สืบทอดแนวคิดของ AlphaGo ในรูปแบบที่พัฒนาก้าวหน้ายิ่งกว่าเดิม วิธีการออกแบบเช่นนี้ย่อมนำไปใช้กับการ optimization ของ FPGA ได้โดยตรงเช่นกัน เพราะการทำให้ประสิทธิภาพที่กำหนดไว้เหมาะที่สุดภายใต้ degree of freedom ของ instruction set ที่มีอยู่ ก็เป็นงานที่ทำได้ในบริบทเดียวกัน

แล้วจะมีเทคโนโลยีที่แตกต่างจากแนวทางเดิมที่ NVIDIA, Google, Intel, AMD และ Qualcomm ใช้อยู่โดยสิ้นเชิงหรือไม่? แน่นอนว่ามีความเป็นไปได้เช่นนั้น ตามชื่อ neural net นั่นเอง เราอาจจินตนาการถึงเทคโนโลยีที่ไม่ได้เพียงเลียนแบบโครงข่ายประสาทของสมองมนุษย์ แต่ถึงขั้น copy & phaste แล้วเชื่อมต่อเข้ากับชิปเซมิคอนดักเตอร์โดยตรง มุมมองที่นักวิทยาศาสตร์ชาวเกาหลีจาก Samsung และ Harvard เปิดเผยเมื่อไม่นานมานี้ก็เป็นตัวอย่างเช่นนั้น** (**https://www.nature.com/articles/s41928-021-00646-1...) เทคโนโลยีทางเลือกที่บทความนี้มองไว้ก็คือ neuromorphic chip ซึ่งเป็นแนวคิดที่รู้จักกันดีอยู่แล้ว แต่เหตุผลที่ชิป neuromorphic กลับมาได้รับความสนใจอีกครั้งก็เพราะมีการแสดงให้เห็นในระดับเทคโนโลยีที่มีอยู่จริงว่า สามารถเชื่อมต่อสัญญาณไฟฟ้าที่ส่งหากันในโครงข่ายประสาทของสมองมนุษย์เข้ากับนาโนอิเล็กโทรด แล้วทำการคัดลอก (copy) แบบตรง ๆ และคัดลอก (phaste) ลงสู่หน่วยความจำที่เชื่อมอยู่ด้านล่างได้ นั่นหมายความว่าสามารถย้ายทุกฟังก์ชันที่เหลืออยู่ หลังจากตัดเนื้อเยื่ออ่อนอย่างสมองออกไปแล้ว ลงสู่ชิปเซมิคอนดักเตอร์ได้โดยตรง เทคโนโลยีเซมิคอนดักเตอร์หน่วยความจำสำหรับทำ neuromorphic chip นั้นมีอยู่แล้วหรือถูกใช้งานจริงแล้วในรูปแบบต่าง ๆ เช่น SRAM, RRAM, MRAM และ memristor ดังนั้นประเด็นสำคัญจึงเหลือเพียงว่าจะย้ายสัญญาณที่เกิดจากนิวรอนหลายล้านล้านตัวเข้าสู่หน่วยความจำแบบเรียลไทม์โดยลด latency ให้ต่ำที่สุดได้อย่างไรเท่านั้น และการเชื่อมต่อแบบ copy & phaste ก็ดูเหมือนจะไม่ใช่สิ่งที่เป็นไปไม่ได้ทางเทคนิคอีกต่อไป

ต่อจากนี้ไป ตลาดเซมิคอนดักเตอร์ที่ขับเคลื่อนโดยตัวเร่งความเร็วดังกล่าวจะเติบโตอย่างหลากหลายและทรงพลังยิ่งขึ้น ขนาดของตลาดและเทคโนโลยีที่ครองตลาดจะถูกกำหนดโดยความสามารถของการประมวลผลข้อมูลบนพื้นฐานดีปเลิร์นนิงว่าจะเจาะตลาดที่หลากหลายได้มากเพียงใด และจะรองรับข้อมูลไร้โครงสร้างที่มีขนาดใหญ่ยิ่งขึ้นได้มากเพียงใด สิ่งที่ต้องจับตาจึงไม่ใช่แค่ความก้าวหน้าของเทคโนโลยีคีย์เพลเยอร์ในปัจจุบัน แต่รวมถึงเทคโนโลยีแนวคิดใหม่ที่อาจเข้ามาแทนที่มันจากคนละทิศทางโดยสิ้นเชิงด้วย นอกจาก neuromorphic แล้ว ยังเป็นไปได้ที่จะมี neural network ที่อิง photonics ซึ่งหมายความว่า latency เองจะลดลงไปสู่ระดับความเร็วแสง และอาจเป็นสัญญาณของการมาถึงของ NPU ที่ทรงพลังยิ่งกว่าเดิม ในกรณีของ spintronics ก็อาจยกระดับสมรรถนะการประมวลผลแบบขนานได้มากขึ้น และอัลกอริทึมดีปเลิร์นนิงสำหรับคอมพิวเตอร์ควอนตัมโดยเฉพาะอย่าง TFQ ที่ Google เปิดเผย ก็อาจนิยามคำว่า "การอนุมาน" ขึ้นใหม่ในรูปแบบที่แตกต่างจากแนวทางที่ผ่านมาโดยสิ้นเชิง ตลาดเซมิคอนดักเตอร์ในอนาคตก็เช่นกัน ในท้ายที่สุดโมเมนตัมสำคัญจะถูกสร้างขึ้นจาก AI accelerator ที่ขับเคลื่อนโดยดีปเลิร์นนิง และนวัตกรรมของอัลกอริทึมที่สอดรับกับมัน ขณะเดียวกันในช่วงที่บริษัท fabless จำนวนมากขึ้นนำสถาปัตยกรรมที่หลากหลายออกสู่ตลาดราวดอกเห็ด ความสามารถในการคัดแยกว่าเทคโนโลยีใดมีศักยภาพจริง และการครอบครองเทคโนโลยีกระบวนการผลิตที่สามารถกำหนดขีดจำกัดของการนำเทคโนโลยีไปใช้งานจริงได้ จะเป็นตัวตัดสินอำนาจการครองตลาดที่จะเกิดขึ้นในอนาคตในท้ายที่สุด

เป็นโพสต์ Facebook ของศาสตราจารย์ควอนซอกจุน แห่งมหาวิทยาลัยซองกยุนกวาน ที่อธิบายพัฒนาการของ CPU/GPU ที่ผ่านมาได้อย่างน่าสนใจ เลยนำมาฝากกัน

1 ความคิดเห็น

xguru 2021-10-02

มีบางท่านที่ไม่มีบัญชี Facebook เลยนำข้อความเต็มมาฝากครับ ในคอมเมนต์บน Facebook ก็มีข้อมูลที่น่าอ้างอิงอยู่ด้วย แนะนำให้เข้าไปอ่านกันครับ

อนาคตของตลาดเซมิคอนดักเตอร์ที่ขับเคลื่อนโดยตัวเร่งความเร็วดีปเลิร์นนิง

บทความที่เกี่ยวข้อง

1 ความคิดเห็น