ดีปนิวรัลเน็ต: หน้าตาเมื่อ 33 ปีก่อนและอีก 33 ปีให้หลัง (2022)

(karpathy.github.io)

2 คะแนน โดย GN⁺ 2023-08-27 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

งานวิจัยปี 1989 เรื่อง การรู้จำรหัสไปรษณีย์ที่เขียนด้วยลายมือ ของ Yann LeCun และคณะ เป็นหนึ่งในกรณีใช้งานจริงยุคแรกของโครงข่ายประสาทที่ฝึกแบบ end-to-end ด้วย backpropagation และมีทั้งชุดข้อมูล สถาปัตยกรรม ฟังก์ชัน loss การทำ optimization และวิธีรายงานอัตราความผิดพลาดที่คล้ายกับงานวิจัยดีปเลิร์นนิงยุคปัจจุบัน
การนำกลับมาทำใหม่ด้วย PyTorch ใช้เครือข่ายขนาดเล็กกับภาพตัวเลขโทนเทา 16x16 จำนวน 7,291 ภาพ และมีขนาดประมาณ 1,000 นิวรอน โดยเวลาฝึก 3 วันในงานต้นฉบับลดเหลือราว 90 วินาทีบน CPU ของ M1 MacBook Air
งานต้นฉบับรายงานความผิดพลาดบนชุดฝึก 0.14% และชุดทดสอบ 5.00% ส่วนการทำซ้ำแม้จะไม่ตรงกันเป๊ะเพราะใช้ข้อมูลทดแทนจากการย่อ MNIST ลงเป็น 16x16 ก็ยังได้ความผิดพลาดบนชุดฝึก 0.62% และชุดทดสอบ 4.09%
เมื่อนำเทคนิคแบบปี 2022 อย่าง cross-entropy, AdamW, data augmentation, Dropout และ ReLU มาใช้ ความผิดพลาดบนชุดทดสอบลดจาก 4.09% เหลือ 1.59% โดยเวลาเทรนเพิ่มขึ้นราว 4 เท่า แต่ latency ตอน inference ไม่เปลี่ยน
ตลอด 33 ปี โครงสร้างระดับมหภาคยังแทบไม่เปลี่ยน แต่ขนาดของข้อมูล โมเดล และคอมพิวต์เพิ่มขึ้นอย่างมหาศาล และกระแสของ foundation model กับ fine-tuning ก็กำลังทำให้แนวทางฝึกโครงข่ายสำหรับงานเฉพาะตั้งแต่ศูนย์ล้าสมัยลงอย่างรวดเร็ว

เหตุผลที่นำงานวิจัยปี 1989 กลับมาสร้างใหม่ในปี 2022

งานวิจัยปี 1989 ของ Yann LeCun และคณะ Backpropagation Applied to Handwritten Zip Code Recognition เป็นกรณีสำคัญทางประวัติศาสตร์ของ การประยุกต์ใช้ backpropagation ในงานจริง
- ได้รับการมองว่าเป็นหนึ่งในงานยุคแรกที่นำโครงข่ายประสาทซึ่งฝึกแบบ end-to-end ด้วย backpropagation ไปใช้กับปัญหาจริง
- ชุดข้อมูลในเวลานั้นมีภาพตัวเลขโทนเทา 16x16 จำนวน 7,291 ภาพ และเครือข่ายมีขนาดประมาณ 1,000 นิวรอน
โครงสร้างของงานวิจัยคล้ายกับงานวิจัยดีปเลิร์นนิงสมัยใหม่มาก
- นิยามชุดข้อมูล
- อธิบายสถาปัตยกรรมของโครงข่ายประสาท
- กล่าวถึงฟังก์ชัน loss และการทำ optimization
- รายงานอัตราความผิดพลาดของการจำแนกบนชุดฝึกและชุดทดสอบ
โค้ดที่นำกลับมาสร้างใหม่เขียนด้วย PyTorch และเผยแพร่ไว้ที่ karpathy/lecun1989-repro
เครือข่ายต้นฉบับถูกเขียนด้วย Lisp และใช้ backpropagation simulator SN จากปี 1988 ของ Bottou และ LeCun
โดยทั่วไปการออกแบบไลบรารีดีปเลิร์นนิงสมัยใหม่จะแบ่งเป็น 3 ส่วน
- ไลบรารี Tensor ความเร็วสูงที่อิงกับ C/CUDA
- เอนจิน autograd ที่ติดตาม computational graph ของการคำนวณแบบ forward และสร้างการคำนวณ backpropagation
- API ระดับสูงที่เขียนสคริปต์ได้ด้วย Python รวมถึงเลเยอร์ สถาปัตยกรรม optimizer และฟังก์ชัน loss

ความเร็วในการฝึกและข้อจำกัดของการทำซ้ำ

การฝึกต้นฉบับส่งตัวอย่างฝึก 7,291 ตัวอย่างผ่านเครือข่าย 23 รอบ รวมเป็นคู่ข้อมูลเข้าและเลเบลทั้งหมด 167,693 คู่
เครือข่ายปี 1989 ฝึกอยู่ 3 วันบนเวิร์กสเตชัน SUN-4/260
การทำซ้ำด้วย PyTorch ใช้เวลาราว 90 วินาทีบน CPU ของ MacBook Air M1 ซึ่งถ้าเทียบแบบตรงไปตรงมาจะเร็วขึ้นราว 3,000 เท่า
- conda ใช้บิลด์ native arm64 ไม่ใช่การจำลองผ่าน Rosetta
- หาก PyTorch ใช้งาน GPU และ NPU ของ M1 ได้เต็มที่ การเพิ่มขึ้นของความเร็วน่าจะมากกว่านี้
แต่เมื่อรันบน GPU A100 แบบตรง ๆ กลับช้าลง
- เพราะเครือข่ายมีขนาดเล็กมาก เป็น convnet 4 ชั้น มีได้มากสุด 12 แชนเนล พารามิเตอร์รวม 9,760 ตัว, 64K MACs และ 1K activations
- โครงสร้างของ SGD ใช้ตัวอย่างครั้งละเพียง 1 ตัวอย่าง
- หากต้องการใช้ A100, CUDA และ PyTorch ให้คุ้ม ควรเพิ่มการใช้ GPU ด้วยการฝึกแบบ full-batch แทน per-example SGD
ประสิทธิภาพที่งานต้นฉบับรายงานมีดังนี้
- ชุดฝึก: loss 2.5e-3, error 0.14%, miss 10
- ชุดทดสอบ: loss 1.8e-2, error 5.00%, miss 102
ผลจากสคริปต์ทำซ้ำใน pass ที่ 23 มีดังนี้
- ชุดฝึก: loss 4.073383e-03, error 0.62%, miss 45
- ชุดทดสอบ: loss 2.838382e-02, error 4.09%, miss 82
การทำซ้ำให้ตรงเป๊ะทำได้ยากด้วยหลายเหตุผล
- ชุดข้อมูลต้นฉบับน่าจะสูญหายไปตามกาลเวลา
- จึงใช้ตัวเลข 28x28 จาก MNIST มาย่อเป็น 16x16 ด้วย bilinear interpolation และสุ่มเลือกตามจำนวนที่ต้องการแบบไม่คืนกลับ
- คำอธิบายเรื่องการกำหนดค่าเริ่มต้นของน้ำหนักค่อนข้างเป็นนามธรรม และอาจมีปัญหาจากฟอร์แมต PDF ที่ทำให้จุดทศนิยมหรือสัญลักษณ์รากที่สองหายไป
- โครงสร้างการเชื่อมต่อแบบ sparse ระหว่าง H1 และ H2 ไม่ได้อธิบายไว้อย่างละเอียดในงานวิจัย จึงต้องอาศัยการคาดเดาอย่างสมเหตุสมผล
- ยังมีความกังวลว่า tanh ในงานต้นฉบับอาจเป็น normalized tanh ที่นิยมกันในยุคนั้น
- งานต้นฉบับใช้อัลกอริทึม Newton แบบพิเศษที่ใช้การประมาณแนวทแยงบวกของ Hessian แต่การทำซ้ำใช้ SGD ที่ง่ายกว่า

ลดอัตราความผิดพลาดด้วยเทคนิคหลังผ่านไป 33 ปี

การเปลี่ยนแปลงแรกคือเปลี่ยนจากแนวทางรีเกรสชันด้วย MSE ไปเป็นการจำแนกหลายคลาสแบบสมัยใหม่
- เดิมทีการจำแนก 10 คลาสถูกโมเดลเป็นรีเกรสชันด้วย MSELoss ต่อเป้าหมายค่า -1 หรือ +1
- จากนั้นตัด tanh ที่ชั้นเอาต์พุตออกเพื่อให้ได้ class logits และใช้ CrossEntropyLoss
- โมเดลสามารถ overfit ชุดฝึกได้เต็มที่จนความผิดพลาดบนชุดฝึกเป็น 0.00% และบนชุดทดสอบเป็น 4.38%
ขั้นต่อมาคือเปลี่ยนจาก SGD ไปใช้ตระกูล Adam
- ใช้ AdamW โดยเริ่มที่ learning rate 3e-4 และลดลงเป็น 1e-4 ระหว่างฝึก
- ได้ผลเป็นความผิดพลาดบนชุดฝึก 0.00% และบนชุดทดสอบ 3.59%
- weight decay จากพารามิเตอร์ตั้งต้นก็ช่วยลด overfitting ไปพร้อมกัน
data augmentation ใช้วิธีเลื่อนภาพอินพุตในแนวนอนหรือแนวตั้งได้สูงสุด 1 พิกเซล
- เพราะเป็นการจำลองการเพิ่มขนาดชุดข้อมูล จึงเพิ่มจำนวน pass จาก 23 เป็น 60
- การเพิ่มเพียงจำนวน pass ในการตั้งค่าเดิมไม่ได้ช่วยให้ผลดีขึ้นมากนัก
- ผลลัพธ์คือความผิดพลาดบนชุดฝึก 1.70% และบนชุดทดสอบ 2.19%
การจับคู่ Dropout กับ ReLU ให้ผลดีขึ้นอีก
- เพิ่ม Dropout แบบเบาที่ค่า 0.25 ไว้ก่อนเลเยอร์ H3 ซึ่งมีพารามิเตอร์มากที่สุด
- เพราะ Dropout ทำให้ activation บางตัวเป็น 0 จึงมองว่าเข้ากับ ReLU ได้ดีกว่า tanh ที่มีช่วง activation เป็น [-1, 1]
- เปลี่ยน nonlinearity ทั้งหมดจาก tanh เป็น ReLU และเพิ่มจำนวน pass เป็น 80
- ผลลัพธ์คือความผิดพลาดบนชุดฝึก 1.47%, บนชุดทดสอบ 1.59% และ test miss 32
การเปลี่ยนจาก tanh เป็น ReLU อย่างเดียวไม่ได้ช่วยมากนัก และการปรับปรุงส่วนใหญ่มาจาก การเพิ่ม Dropout
หากนำเทคนิคนี้ย้อนกลับไปใช้ในปี 1989 จำนวนความผิดพลาดอาจลดจากราว 80 เหลือราว 30 และอัตราความผิดพลาดบนชุดทดสอบอาจลดลงเหลือประมาณ 1.5%
- แต่เวลาเทรนจะเพิ่มขึ้นเกือบ 4 เท่า จาก 3 วันในปี 1989 เป็นเกือบ 12 วัน
- latency ตอน inference ไม่ได้รับผลกระทบ

ผลจากการขยายข้อมูลมาก่อนโมเดลที่ใหญ่ขึ้น

หลังจากนั้นช่องทางปรับปรุงแบบง่าย ๆ ก็เริ่มเหลือน้อยลง
- เทคนิคเพิ่มเติมอย่าง weight normalization ไม่ได้ให้ผลดีมาก
- แม้แต่ “micro-ViT” ที่ปรับให้จำนวนพารามิเตอร์และปริมาณการคำนวณใกล้เคียงกัน ก็ยังสู้ประสิทธิภาพของ convnet ไม่ได้
แม้จะมีนวัตกรรมมากมายในช่วง 33 ปีที่ผ่านมา แต่บางอย่างมีความหมายหลักกับโมเดลขนาดใหญ่มากกว่า
- residual connection, layer normalization และ batch normalization เกี่ยวข้องกับการทำให้การ optimize ในสเกลใหญ่มีเสถียรภาพมากกว่า
การเพิ่มประสิทธิภาพแบบก้าวกระโดดเพิ่มเติมน่าจะมาจากการขยายขนาดเครือข่าย แต่สิ่งนี้จะเพิ่ม latency ตอน inference ในช่วงทดสอบ
การเพิ่มข้อมูลก็ช่วยให้ประสิทธิภาพดีขึ้นเช่นกัน
- ใช้ MNIST ทั้งชุดเพื่อขยายชุดฝึกจาก 7,291 เป็น 50,000 ตัวอย่าง หรือเพิ่มขึ้นราว 7 เท่า
- เมื่อนำ baseline เดิมมาฝึก 100 pass ความผิดพลาดบนชุดทดสอบลดลงเหลือ 2.74% และ miss 54
ผลที่ดีที่สุดมาจากการผสานการขยายข้อมูลเข้ากับเทคนิคสมัยใหม่
- ความผิดพลาดบนชุดฝึก 1.07%, บนชุดทดสอบ 1.25% และ test miss 24
- แค่เพิ่มขนาดชุดข้อมูลในปี 1989 ก็อาจยกระดับประสิทธิภาพของระบบได้โดยไม่เพิ่ม latency ตอน inference

จากปี 1989 ถึง 2022 และต่อไปถึง 2055

ตลอด 33 ปี โครงสร้างระดับมหภาคแทบไม่เปลี่ยน
- เรายังคงสร้างสถาปัตยกรรมโครงข่ายประสาทที่ปรับค่าได้และประกอบด้วยหลายเลเยอร์ แล้วทำ optimization แบบ end-to-end ด้วย backpropagation และ stochastic gradient descent
- ความต่างคือขนาดในยุคนั้นเล็กกว่ามาก
ชุดข้อมูลและโมเดลในปี 1989 มีขนาดเล็กมากเมื่อมองด้วยมาตรฐานปัจจุบัน
- ชุดฝึกมีเพียงภาพโทนเทา 16x16 จำนวน 7,291 ภาพ
- ชุดข้อมูลด้านวิชันยุคใหม่ใช้ภาพสีความละเอียดสูงจากเว็บได้ถึงระดับหลายร้อยล้านภาพ
- ตัวอย่างเช่น Google JFT-300M หรือ OpenAI CLIP ที่ฝึกบนภาพ 400M ภาพ
- หากคิดตามข้อมูลพิกเซลอินพุต จะมากกว่าราว 100,000,000 เท่า
เครือข่ายปี 1989 มีพารามิเตอร์ราว 9,760 ตัว, 64K MACs และ 1K activations
- โครงข่ายวิชันสมัยใหม่มีขนาดถึงระดับหลายพันล้านพารามิเตอร์และราว 1e12 MACs
- โมเดลภาษาธรรมชาติอาจไปถึงระดับล้านล้านพารามิเตอร์
หากมองย้อนกลับจากปี 2055 มายังปี 2022 รูปแบบคล้ายกันอาจเกิดซ้ำอีก
- โครงข่ายประสาทในปี 2055 อาจยังแทบเหมือนกับของปี 2022 ในระดับมหภาค แต่ใหญ่กว่าเดิม
- ชุดข้อมูลและโมเดลของวันนี้อาจถูกมองว่าเล็กกว่าราว 10,000,000 เท่า
- อาจจินตนาการได้ว่าแม้แต่โมเดลล้ำสมัยในปี 2022 ก็สามารถฝึกได้ในเวลาประมาณ 1 นาทีบนอุปกรณ์คอมพิวเตอร์ส่วนบุคคลแบบโปรเจกต์สุดสัปดาห์
- และเพียงแค่ปรับรายละเอียดของโมเดล ฟังก์ชัน loss การทำ augmentation และ optimizer ก็อาจลดความผิดพลาดลงได้ราวครึ่งหนึ่ง
วิธีฝึกโครงข่ายประสาทจากศูนย์สำหรับงานเฉพาะกำลังล้าสมัยอย่างรวดเร็ว
- foundation model อย่าง GPT ถูกฝึกโดยองค์กรไม่กี่แห่งที่มีทรัพยากรคอมพิวต์ขนาดใหญ่
- แอปพลิเคชันส่วนใหญ่สามารถสร้างได้ด้วยการทำ fine-tuning แบบเบา ๆ กับบางส่วนของเครือข่าย, prompt engineering หรือการกลั่นข้อมูลและโมเดลไปเป็นโครงข่ายสำหรับอนุมานงานเฉพาะขนาดเล็ก
- ในภาพสุดโต่ง ปี 2055 ผู้ใช้อาจเพียงพูดหรือคิดเป็นภาษาอังกฤษเพื่อขอให้นิวรัลเน็ต “megabrain” ที่ใหญ่กว่าเดิม 10,000,000 เท่าทำงานให้ และความจำเป็นในการฝึกโครงข่ายประสาทด้วยตนเองจะลดลง

1 ความคิดเห็น

GN⁺ 2023-08-27

ความคิดเห็นบน Hacker News

มีอีกจุดหนึ่งที่น่าสนใจ เดิมทีการเทรนใช้เวลา 3 วันบน เวิร์กสเตชัน Sun 4/260 และแม้จะหาสเปกที่แน่ชัดไม่ได้ แต่ถ้าเป็นยุคเวิร์กสเตชัน SPARC รุ่นแรก ๆ ก็น่าจะกินไฟทั้งระบบราว 200W
ตัว CPU เองไม่ได้กินไฟสูงมาก แต่ถ้ารวมทั้งดิสก์และมอนิเตอร์ ระบบทั้งชุดก็น่าจะอยู่ประมาณนั้น ดังนั้น 200W × 72 ชั่วโมง = 14,400Wh
Karpathy รันการเทรนระดับเดียวกันบน MacBook ได้ใน 90 วินาที แถมยังไม่ได้ใช้เครื่องเต็มที่ด้วย ถ้าคิดคร่าว ๆ ว่า 20W × 0.025 ชั่วโมง = 0.5Wh ก็เท่ากับว่า ประสิทธิภาพด้านพลังงานดีขึ้นเกือบ 30,000 เท่า
- เรื่องนี้ค่อนข้างน่าสนใจ เพราะผมคิดมาตลอดว่าประสิทธิภาพของโครงข่ายประสาทควรถูกวัดเป็น หน่วยที่มีพลังงานเป็นตัวหาร
- ถ้านึกถึงกฎของมัวร์ 30,000 เท่า ก็ไม่ได้ฟังดูใหญ่มากนัก ถ้านับตั้งแต่ปี 1989 ผมน่าจะคาดหวังการพัฒนาที่มากกว่านี้ และสมรรถนะซูเปอร์คอมพิวเตอร์ก็เพิ่มขึ้นมากกว่ายุคนั้นเกินล้านเท่าแล้ว
- ถ้าเป็น Wh ก็ไม่ได้หมายถึง จูล (J) หรอกหรือ แค่ต่างกันด้วยค่าคงที่เท่านั้น?
บทความดีมากจริง ๆ แต่เสียดายที่การคาดการณ์ปี 2055 มีลักษณะ เมตา-เชิงเส้น อยู่บ้าง ผู้เขียนหลีกเลี่ยงข้อผิดพลาดที่พบบ่อยอย่างการเอาเทคโนโลยีปัจจุบันไว้คงเดิมแล้วถดถอยเชิงเส้นตัวเลขไปอีก 33 ปีได้แล้วก็จริง แต่ก็ยังดูเหมือนตั้งสมมติฐานถึงสมมาตรของ worldline บางอย่างที่มีปัจจุบันเป็นจุดกำเนิด
ช่วงเวลายาวพอสมควรจนความก้าวหน้าแบบทะลุกรอบและอุปสรรคที่คาดไม่ถึงอาจทำให้คำทำนายเหล่านี้ไม่ถูกเลยสักข้อก็ได้ อาจมีใครบางคนค้นพบโครงสร้างพื้นฐานที่เรียบง่ายกว่า “perceptron++” มาก ทุกคนอาจกำลังเทรนกลุ่มเมฆ Gaussian 3D อยู่ หรือคอมพิวเตอร์ควอนตัมอาจแจ้งเกิดจริง ๆ จนเรายังไม่มีแม้แต่คำนามสำหรับเรียกองค์ประกอบที่จะใช้กันก็ได้
ในทางกลับกัน เราอาจชน ขีดจำกัดการสเกล ที่ไม่เคยพบมาก่อนในฮาร์ดแวร์หรือการเทรน หรืออารยธรรมอาจถดถอยก็ได้ ถึงอย่างนั้นถ้าผมเป็นนักเดิมพัน ก็คงไม่แทงสวนข้อสรุปของบทความนี้นัก ถ้ารู้แค่อดีตกับปัจจุบันแล้วต้อง extrapolate ผมคิดว่านี่น่าจะใกล้เคียงข้อสรุปที่ดีที่สุดแล้ว
- ผมว่าเป็นคำพูดที่ถูกต้อง 33 ปีข้างหน้าน่าจะต่างจากตอนนี้มากทีเดียว
  ผมเอนเอียงไปทางว่าการเปลี่ยนแปลงจะรุนแรงกว่านี้ เพราะยังมีพื้นที่ให้ ปรับปรุงอัลกอริทึม ได้มาก ไม่ใช่แค่เรื่องทรัพยากร
  ในด้านที่เห็นได้ชัดกว่า ไลบรารีส่วนใหญ่ยังใช้เทคนิคเพิ่มประสิทธิภาพ gradient หลายอย่างที่รู้จักกันอยู่แล้วได้ไม่เต็มที่ การเติมข้อมูลและ throughput เข้าไปเฉย ๆ นั้นง่ายเกินไป จึงยังมีเครื่องมือจำนวนมากรอให้นำมาใช้
  และโมเดลขนาดใหญ่ที่ประสบความสำเร็จก็กำลังให้เบาะแสสำคัญ เช่น โมเดลภาษาเรียนรู้ ตรรกะทางภาษา บางอย่างที่คล้ายกับวิธีที่เราประมวลผลความคิด และเห็นได้ชัดว่าสามารถเชื่อมโยงข้อมูลที่แตกต่างกันมาก ๆ ให้ดูสมเหตุสมผลได้
  สักวันหนึ่งถ้าเราเข้าใจแก่นของการประมวลผลนั้น การประมวลผลภาษาอาจถูกทำให้เรียบง่ายลงอย่างฉับพลัน นี่เป็นเพียงหนึ่งในโอกาสของความก้าวหน้าด้านสถาปัตยกรรมและอัลกอริทึมแบบสุดขั้ว และมันจะเป็นการปฏิวัติจริง ๆ
ถ้าอย่างนั้นอีก 33 ปีข้างหน้า เราแค่ทำสิ่งเดิมต่อไปแต่เพิ่ม ข้อมูลและพลังประมวลผล ก็พอหรือ? ถ้าผลักตรรกะของกระแสตื่นเต้นตอน LLM เพิ่งออกมาแบบ “ในที่สุดก็ได้เห็นสิ่งนี้เกิดขึ้นในช่วงชีวิตเรา” และบรรยากาศว่า “แค่ขยายโมเดลกับข้อมูลให้ใหญ่ขึ้นก็พอ” ไปจนสุด ก็จะได้ข้อสรุปแบบนั้น แต่เราจะไปถึง AGI ได้ด้วย brute force จริง ๆ หรือ?
เมื่อ 33 ปีก่อน “AI แบบ connectionist” ไม่ได้เป็นพาราไดม์หลัก และ “AI แบบ symbolic” ก็ไม่ใช่แนวทางทางเลือกเพียงอย่างเดียว ยังมีแนวทางอย่าง “robot functionalism” ที่เชื่อว่าไม่อาจมีสติปัญญาที่แท้จริงได้หากไม่ปฏิสัมพันธ์กับโลกกายภาพ
อีก 33 ปีข้างหน้า แนวทางอื่น ๆ เหล่านี้อาจกลับมาเกิดใหม่โดยผสานกับ connectionism หรืออาจมีแนวทางใหม่ทั้งหมดเกิดขึ้นก็ได้
เป็นบทความที่ยอดเยี่ยม ผมได้สัมผัสยุคแรก ๆ ของโครงข่ายประสาทเทียมด้วยตัวเอง ช่วงกลางทศวรรษ 1980 ผมอยู่ใน คณะกรรมการที่ปรึกษาเครื่องมือโครงข่ายประสาท ของ DARPA เขียนเวอร์ชันแรกของผลิตภัณฑ์เชิงพาณิชย์ SAIC ANSim และยังสร้างโมเดล backpropagation แบบง่ายที่นำไปใช้ในเครื่องตรวจจับระเบิดที่บริษัททำภายใต้สัญญากับ FAA ด้วย
เมื่อ 5–6 ปีก่อน ผมยังเคยบริหารทีม deep learning “แบบดั้งเดิม” ที่ Capital One ช่วง 18 เดือนที่ผ่านมาเป็นช่วงเวลาที่น่าตื่นเต้นมาก ผมใช้เวลาให้มากที่สุดเท่าที่ทำได้สำรวจ LLM แบบ self-hosted รวมถึง API ของ Hugging Face, OpenAI และอื่น ๆ
แค่คิดถึง เทคโนโลยีในอีก 33 ปีข้างหน้า ก็แทบหัวระเบิดแล้ว
การเปลี่ยนแปลงที่พื้นฐานที่สุดคือความต่างว่าโมเดลถูกเทรนด้วย อะไร
ภาพตัวอักษรขนาดเล็กเป็นปัญหาคล้ายแบบทดสอบ และแตกต่างโดยสิ้นเชิงจากการเรียนรู้แทบทั้งหมดของการสื่อสารเชิงภาษาและภาพของมนุษยชาติ
แม้ทรัพยากรคอมพิวติ้งจะขยายขึ้นในอีก 33 ปีข้างหน้า เราก็คงไม่หยุดอยู่ที่ขั้นเทรนโมเดลให้เลียนแบบพฤติกรรมและความรู้ของมนุษยชาติ ปัญหานั้น—ก็คือตัวเราเอง—จะถูกลดรูปเป็นปัญหาของเล่นไปนานก่อนหน้านั้นแล้ว
- ผมคิดว่าโมเดล AI จะวิวัฒน์ด้วยการสร้าง ข้อมูลสังเคราะห์ กรองและปรับปรุง แล้วนำกลับไปเทรนอีกครั้ง ระบบภายนอกอย่างการรันโค้ด การค้นหา มนุษย์ ซิมูเลชัน และหุ่นยนต์ ก็อาจเข้ามาอยู่ในลูปได้
  คุณภาพจะไม่ตก เพราะจะมีความพยายามอย่างมากในการกรองข้อมูลและรักษาความหลากหลาย และเราสามารถปรับปรุงได้เสมอด้วยการให้เวลาโมเดลมากขึ้น
  โครงสร้างโมเดลไม่สำคัญเมื่อเทียบกับชุดข้อมูล โมเดลใด ๆ ในตระกูลเดียวกันสามารถเรียนรู้ความสามารถเดียวกันจากข้อมูลเดียวกันได้ แต่ถ้าเปลี่ยนข้อมูล ความสามารถของทั้งหมดก็จะเปลี่ยนไป สติปัญญาอยู่ในข้อมูล
  อนาคตไม่ใช่การออกแบบโครงสร้างโมเดล แต่คือวิศวกรรมข้อมูล เปรียบเทียบได้ว่า วัฒนธรรมมนุษย์วิวัฒน์เร็วกว่าชีววิทยามนุษย์ ข้อมูลกำลังวิวัฒน์เร็วกว่าโมเดล
  ใน AI ช่วงหลัง เราเห็นว่าสถาปัตยกรรมใหม่ ๆ ลดลงอย่างรวดเร็ว และชุดข้อมูลที่หลากหลายถูกนำไปใช้กับโมเดล Transformer แบบเดียวกัน แม้ภายใน Transformer เอง รูปแบบย่อยที่ใช้กันแพร่หลายก็มีน้อยมาก ส่วนอีกเป็นพัน ๆ แบบถูกทิ้งไป
  ผมอยากคิดว่าเครื่องยนต์ที่แท้จริงของสติปัญญาคือวิวัฒนาการทางภาษาผ่านมีม เรากับ AI กำลังร่วมกันโต้คลื่น การเติบโตแบบทวีคูณของภาษา
- ก่อนอื่นขอให้แก้ปัญหาของเล่นอย่าง รถขับเคลื่อนอัตโนมัติ ให้เกือบสำเร็จก่อนเถอะ ยังรออยู่
ยังไม่ชัดเจนว่าพลังประมวลผลจะขยายตัวต่อเนื่องไปอีก 33 ปีข้างหน้าเหมือนที่ผ่านมาไหม แต่ก็ไม่จำเป็นต้องเป็นแบบนั้นเสมอไป
ตอนอ่านบทความ ผมคิดขึ้นมาว่า “ให้ตายสิ จำได้เลยว่าโปรเจกต์แมชชีนเลิร์นนิงเล่น ๆ ช่วงสุดสัปดาห์นั้นผมใช้ MSE แล้วผลไม่ดี ที่แท้ก็เลือก loss function ผิดนี่เอง”
LLM ในปัจจุบัน หรือ LLM ในปีหน้า น่าจะบอกได้มากพอว่าจะปรับปรุงโค้ดและกราฟของผมได้อย่างไร แบบนั้นผมก็จะสามารถใช้เทคนิคระดับผู้เชี่ยวชาญที่เดิมทีถูกปิดกั้นสำหรับผมเพราะต้องอาศัย การสั่งสมความชำนาญ 50,000 ชั่วโมง
ส่วนหนึ่งในตัวผมบอกว่ามนุษย์จบแล้ว และอีก 33 ปีข้างหน้าเราคงสร้างโลกที่มนุษย์ไม่มีความหมายขึ้นมา แต่ก็มีอีกส่วนหนึ่งบอกว่าถ้าเราหลีกเลี่ยงชะตากรรมนั้นและหายนะอื่น ๆ ทั้งหมดได้ อนาคตก็อาจค่อนข้างสดใส
- เรื่องอย่าง “LLM ในปีหน้า” เราได้ยินกันมามากแล้ว และก็จะได้ยินต่อไปเรื่อย ๆ 5 หลาสุดท้าย นั้นยากที่สุด และถ้าไม่มีมัน 5 ไมล์ก่อนหน้าก็มีประโยชน์จำกัด
- สักวันหนึ่งน่าจะถึงจุดที่เราต้องชะลอ AI ลงอย่างมาก ๆ เพื่อหลีกเลี่ยงผลลัพธ์ที่เลวร้าย ผมเห็นด้วยกับมุมมองของ Zvi Mowshowitz ว่าในทุกสาขายกเว้นพื้นที่ที่มีความเสี่ยงต่อการสูญพันธุ์ เราควรส่งเสริมความก้าวหน้าและการยอมรับความเสี่ยง
  การนำ LLM ในปัจจุบันไปใช้กับสารพัดปัญหาไม่ได้ทำให้เราถึงจุดจบ แต่ AGI ที่มีสำนึกและวางแผนได้อาจเกิดขึ้นภายในไม่กี่ปี และเราก็ไม่รู้ด้วยว่าขีดบนของความฉลาดที่เราสามารถทำให้พวกมันมีได้นั้นอยู่ตรงไหน
  ผมมองว่าเรามีความรับผิดชอบต่อสิ่งมีปัญญาทุกชนิดที่เรานำเข้ามาในโลกนี้ บางคนคร่ำครวญว่าไม่มีการสอบเพื่อเป็นพ่อแม่ แล้วการสร้างสมองเสมือนแบบใหม่ทั้งหมดขึ้นมาเป็นล้านสำเนาล่ะ? แถมยังเท่ากับให้พวกมันเกิดมาเพื่อใช้แรงงานไปตลอดชีวิตด้วย
ยอดเยี่ยมจริง ๆ แม้ไม่ได้กล่าวถึงโดยตรง แต่ผมคิดว่าความแตกต่างหลังผ่านไป 33 ปีคือ อินพุต ที่โมเดลจัดการ โมเดลล้ำสมัยในปี 1989 ใช้ภาพขาวดำระดับเทา 16×16 ส่วนตอนนี้เรามีภาพสีระดับเมกะพิกเซลหลักเดียว
อีก 30 ปีข้างหน้า เดสก์ท็อปอาจฝึก CLIP ได้ภายใน 90 วินาที แต่โมเดลล้ำสมัยในตอนนั้นจะถูกฝึกด้วยอะไร?
- น่าจะเป็น พฤติกรรมมนุษย์ ในความหมายที่ทั่วไปกว่าการเดาว่าจะพิมพ์โทเค็นถัดไปอะไร หากต้องการเลียนแบบมนุษย์ให้ใกล้ที่สุดด้วยวิธี deep learning พื้นฐาน ก็ต้องฝึกอะไรบางอย่างที่ทำนายพฤติกรรมมนุษย์โดยรวมได้
  นั่นคงต้องใช้วิดีโอและเสียงตั้งแต่หลายพันล้านถึงหลายล้านล้านชั่วโมงของผู้คนหลากหลายที่ทำกิจกรรมมนุษย์สารพัดแบบ และอาจรวมถึงอินพุตอื่น ๆ อีกมากมาย
- เรามีภาพระดับเมกะพิกเซลที่หาได้ง่ายจากกล้องมือถือ แต่โมเดล vision แทบทั้งหมดที่ใช้กันจริงอย่างแพร่หลายรับอินพุตที่ความละเอียด 224×224 หรือประมาณ 384×384 ความละเอียดที่สูงกว่านั้นสุดท้ายก็ถูก downsample
  ตอนนี้ดูเหมือนว่าการใช้ budget การประมวลผลไปกับ “สมอง” ที่ใหญ่ขึ้นจะคุ้มกว่าการใช้กับ “ดวงตา” ที่ดีขึ้น
- อาจเป็น ข้อมูลหลายล้านชั่วโมง ที่เก็บด้วยเฮดเซ็ตอย่าง Vision Pro
  ผมไม่รู้แน่ชัดว่ามันจับอะไรบ้าง แต่คงสามารถฝึกโมเดลด้วยการผสมผสานอินพุตหลายอย่าง เช่น เสียง วิดีโอ ข้อมูลเชิงพื้นที่ ม่านตา ฯลฯ
น่าสนใจที่ในช่วงเวลานั้น ความสนใจต่อโครงข่ายประสาทเกือบหายไปหมด แล้วจึงกลับมาอีกครั้ง
- ตอนมหาวิทยาลัย ผมต้องลงเรียนวิชา AI ซ้ำหลายครั้ง เพราะไม่เห็นด้วยกับมุมมองที่ว่า “AI คือการค้นหาเชิงสัญลักษณ์”
  ตอนนี้แน่นอนว่าผู้คนคงกำลังเอา LLM มาต่อกันเพื่อให้ทำ reasoning ทั้งแบบไปข้างหน้าและย้อนกลับ
- กรณีนี้มีเหตุผลที่ดีพอให้ฟื้นกลับมา แต่จริง ๆ แล้วเรื่องคล้ายกันเกิดซ้ำในแทบทุกอย่างที่เกี่ยวกับซอฟต์แวร์ เพียงแต่เทคโนโลยีที่เป็นกระแสหลักกว่าจะมีวงจรความนิยมสั้นกว่า
- เรื่องนั้นต้องขอบคุณ Hinton น่าเสียดายที่ซอฟต์แวร์ไม่มี รางวัลโนเบล
  แต่ Turing Award ก็ยอดเยี่ยมมากเช่นกัน
น่าทึ่งพร้อมกันทั้งในแง่ที่ว่ามันเปลี่ยนไปน้อยแค่ไหนและเปลี่ยนไปมากแค่ไหน ผมจำได้ว่าตอนอ่าน “The Unreasonable Effectiveness of RNNs” มันให้ความรู้สึกเหมือนการเปิดตาแค่ไหน และตอนนี้รู้สึกเหมือนอยู่ในโลกคนละใบโดยสิ้นเชิง
- ถ้าใช้งานนั้นในปี 2015 เป็นเส้นฐานอย่างหนึ่ง ผมคิดว่าเราน่าจะคุยกันได้อย่างสร้างสรรค์และสงบมากขึ้น
  เทคโนโลยีใหม่นั้นดีกว่ามาก และนัยต่ออนาคตก็ใหญ่หลวง แต่สำหรับคนที่ติดตามมาตั้งแต่ตอนนั้น มีจุดอ้างอิงที่ทำให้ “ดีขึ้นแบบเหลือเชื่อ” ไม่ได้เชื่อมไปเป็น “ควบคุมไม่ได้” โดยทันที
  มันดีขึ้นมากจริง ๆ
งานเขียนของ Andrej Karpathy สดใหม่เสมอ ยิ่งรู้มากขึ้น เขายิ่งสำรวจ พื้นฐาน ของวิทยาศาสตร์แมชชีนเลิร์นนิงอย่างตรงไปตรงมาและเรียบง่ายมากขึ้น
วงการนี้เต็มไปด้วย论文ที่เสนอโปรแกรมสร้างใหม่ซับซ้อนเพื่อการปรับปรุงเล็ก ๆ ที่แม้แต่ทำซ้ำยังยาก และพยายามยัดเนื้อหาไร้ประโยชน์ 50 หน้าเพื่อให้ผลงานของตนดู “จริงจัง” ด้วยความหวังว่าจะเอาชนะผลลัพธ์ล่าสุดได้

ดีปนิวรัลเน็ต: หน้าตาเมื่อ 33 ปีก่อนและอีก 33 ปีให้หลัง (2022)

เหตุผลที่นำงานวิจัยปี 1989 กลับมาสร้างใหม่ในปี 2022

ความเร็วในการฝึกและข้อจำกัดของการทำซ้ำ

ลดอัตราความผิดพลาดด้วยเทคนิคหลังผ่านไป 33 ปี

ผลจากการขยายข้อมูลมาก่อนโมเดลที่ใหญ่ขึ้น

จากปี 1989 ถึง 2022 และต่อไปถึง 2055

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นบน Hacker News