ผู้ร่วมเขียนบทความ "Attention is all you need" เผยว่าตอนนี้ "เบื่อหน่าย" ทรานส์ฟอร์เมอร์แล้ว
(venturebeat.com)- Llion Jones ผู้ร่วมพัฒนาสถาปัตยกรรม Transformers และเป็นผู้ตั้งชื่อนี้ ระบุว่า “งานวิจัย AI แคบลงมากเกินไป” และประกาศว่าจะ ก้าวออกจากกระบวนทัศน์ที่ยึดทรานส์ฟอร์เมอร์เป็นศูนย์กลาง
- เขาวินิจฉัยอย่างวิพากษ์ตนเองว่า ทรานส์ฟอร์เมอร์ ซึ่งเป็น เทคโนโลยีพื้นฐานของระบบ AI สำคัญ อย่าง ChatGPT และ Claude กลับกำลัง ขัดขวางนวัตกรรมรุ่นถัดไป
- เขาเตือนว่า วงการเลือกแต่หัวข้อที่ปลอดภัยจนความสร้างสรรค์หายไป และอยู่ในสภาวะ “เอนเอียงไปทาง exploitation (การใช้ประโยชน์) มากกว่า exploration (การสำรวจ)” ทำให้ อุตสาหกรรม AI อาจกำลังพลาดนวัตกรรมที่ใหญ่กว่า
- เขาวิจารณ์ว่า ในยุคที่บทความทรานส์ฟอร์เมอร์ถือกำเนิดนั้นมี สภาพแวดล้อมการทดลองที่เป็นอิสระ แต่ตอนนี้แม้เงินเดือนสูงลิ่วก็ยังไม่อาจรับประกันเสรีภาพในการวิจัยได้
- เขาต้องการสร้าง วัฒนธรรมการวิจัยที่เน้นการสำรวจอย่างอิสระ ขึ้นใหม่ที่ Sakana AI และย้ำว่า “นวัตกรรมระดับทรานส์ฟอร์เมอร์ครั้งต่อไปอาจอยู่ใกล้แค่เอื้อม”
การวิจารณ์ตนเองของผู้ให้กำเนิดทรานส์ฟอร์เมอร์และคำประกาศครั้งใหม่
- Llion Jones ผู้ร่วมเขียนบทความปี 2017 เรื่อง "Attention Is All You Need" และเป็น ผู้คิดชื่อคำว่า Transformer ด้วยตนเอง วิจารณ์อย่างรุนแรงถึง ปัญหาความเป็นแบบแผนเดียวกันของงานวิจัย AI ในงานประชุม TED AI ที่ซานฟรานซิสโก
- เป็นถ้อยแถลงที่ไม่ธรรมดา เมื่อผู้เขียนบทความประวัติศาสตร์ที่ ถูกอ้างอิงมากกว่า 100,000 ครั้ง ออกมาพูดต่อสาธารณะว่าเขา “เอียนกับสิ่งนี้แล้ว” ต่อผลงานที่ตนเองสร้างขึ้น
- ปัจจุบันเขาเป็น CTO และผู้ร่วมก่อตั้งของ Sakana AI ซึ่งมีฐานอยู่ที่โตเกียว
- เขาระบุว่า “งานวิจัย AI ติดอยู่กับโครงสร้างแบบเดียว” และบอกว่ากำลัง ลดเวลาที่ใช้กับงานวิจัยทรานส์ฟอร์เมอร์ แล้วหันไปสำรวจสถาปัตยกรรมใหม่
- เขาเน้นว่า “แม้ตอนนี้วงการ AI จะมีทั้งคนเก่งและเงินทุนมากกว่าที่เคย แต่การวิจัยกลับแคบลง”
- เขาอธิบายว่าสาเหตุของปรากฏการณ์นี้มาจาก แรงกดดันด้านผลตอบแทนของนักลงทุนและการแข่งขันที่รุนแรงเกินไป ทำให้นักวิจัยสูญเสียความคิดสร้างสรรค์และตกอยู่ในสภาพแวดล้อมที่ “ต้องรีบออกบทความ”
ยิ่งมีทรัพยากรมาก แต่ความคิดสร้างสรรค์กลับลดลง
- ปัจจุบันนักวิจัย AI ต้องทำงานโดยสมมติว่า มีกลุ่มอื่นอีก 3-4 กลุ่มที่ทำเรื่องเดียวกันอยู่พร้อมกัน และต้องคอยตรวจสอบตลอดว่าถูกทีมอื่น “ชิงทำไปก่อนแล้วหรือยัง”
- นักวิจัยในแวดวงวิชาการมีแนวโน้มเลือก หัวข้อที่ตีพิมพ์ได้อย่างปลอดภัย มากกว่าโครงการที่เสี่ยงแต่สร้างนวัตกรรม
- แรงกดดันจากการแข่งขันทำให้ต้องรีบส่งบทความ จน ความเข้มงวดทางวิทยาศาสตร์ลดลง และความคิดสร้างสรรค์ถดถอย
- นักวิจัยกำลังเอนเอียงไปทาง "exploitation(การใช้ประโยชน์)" มากกว่า "exploration(การสำรวจ)"
- หากนำแนวคิดเรื่อง trade-off ระหว่าง exploration กับ exploitation ในอัลกอริทึม AI มาใช้ ก็อาจตีความได้ว่าอุตสาหกรรม AI ตอนนี้ ใช้ประโยชน์จากสิ่งเดิมมากเกินไปจนติดอยู่กับ local optimum ธรรมดา ๆ และอาจกำลังพลาดทางเลือกที่ดีกว่า
- เช่นเดียวกับช่วงก่อนทรานส์ฟอร์เมอร์ถือกำเนิด ที่นักวิจัยมัวแต่ ปรับปรุง recurrent neural network (RNN) แบบค่อยเป็นค่อยไป ปัจจุบันก็มีความเสี่ยงเช่นกันว่าเราจะมัวแต่สนใจเพียงการดัดแปลงสถาปัตยกรรมเดียว จน พลาดนวัตกรรมที่กำลังใกล้เข้ามา
“ถ้านักวิจัยยุคก่อนทรานส์ฟอร์เมอร์รู้ว่าการปฏิวัติครั้งถัดไปกำลังจะมา พวกเขาคงไม่เสียเวลาไปมากขนาดนั้น”
เบื้องหลังการถือกำเนิดของทรานส์ฟอร์เมอร์: นวัตกรรมที่เกิดจากอิสรภาพ
- Jones ย้อนความว่า ตอนที่งานวิจัยทรานส์ฟอร์เมอร์ถือกำเนิด มันเริ่มขึ้นใน บรรยากาศที่เป็นอิสระเต็มที่และไม่มีแรงกดดันจากเบื้องบนเลย
- เขากล่าวว่า “มันเริ่มจากการคุยกันตอนพักเที่ยงหรือการขีดเขียนบนไวท์บอร์ด”
- ทีมวิจัยยังไม่มีไอเดียที่ชัดเจน แต่ได้รับ ทั้งเวลาและอิสระอย่างเพียงพอ และไม่มี แรงกดดันจากผู้บริหาร เกี่ยวกับโครงการเฉพาะหรือ KPI ใด ๆ เลย
- ไม่มีข้อกำหนดว่าต้องตีพิมพ์กี่บทความ
- ไม่มีแรงกดดันให้ต้องปรับปรุงตัวชี้วัด
- สามารถสำรวจแนวทางต่าง ๆ ได้อย่างอิสระผ่านการทดลองและลองผิดลองถูก
- ทุกวันนี้ แม้แต่นักวิจัยที่ถูกดึงตัวมาด้วย เงินเดือนมากกว่า 1 ล้านดอลลาร์ต่อปี ก็อาจรู้สึกถึง แรงกดดันว่าต้องพิสูจน์คุณค่าของตัวเอง มากกว่าจะลองไอเดียที่กล้าหาญ
“พวกเขาเลือก งานวิจัยที่ปลอดภัย เพื่อพิสูจน์ว่าตัวเองเป็นบุคลากรที่มีคุณค่า”
การทดลองของ Sakana AI: เมื่ออิสรภาพมีพลังเหนือค่าตอบแทนสูง
- Jones กำลังพยายาม จำลองสภาพแวดล้อมการวิจัยที่เป็นอิสระแบบก่อนยุคทรานส์ฟอร์เมอร์ ขึ้นใหม่ที่ Sakana AI
- มุ่งทำวิจัยที่ได้แรงบันดาลใจจากธรรมชาติ
- ลดแรงกดดันเรื่องการตีพิมพ์บทความหรือการแข่งขันโดยตรงกับคู่แข่งให้น้อยที่สุด
- เขาแชร์คำแนะนำจากวิศวกร Brian Cheung ว่า “คุณควรทำเฉพาะงานวิจัยที่ถ้าคุณไม่ทำ มันก็จะไม่เกิดขึ้น”
- เขายกตัวอย่างโครงการ "continuous thought machine"
- เป็นงานวิจัยที่ผสานกลไกการซิงโครไนซ์ของสมองเข้ากับโครงข่ายประสาทเทียม
- เขาระบุว่าหากเป็นที่ทำงานเก่าหรือในวงวิชาการ ผู้เสนอไอเดียนี้คงเจอทั้งความสงสัยและแรงกดดันว่าอย่าเสียเวลา
- แต่ที่ Sakana พวกเขาให้เวลาสำรวจ 1 สัปดาห์ และสุดท้ายโครงการก็พัฒนาไปเป็นกรณีความสำเร็จที่ได้รับความสนใจในงานประชุมใหญ่ของ NeurIPS
- เขาเสนอว่าสภาพแวดล้อมที่เอื้อต่อการสำรวจเช่นนี้เอง อาจเป็น เครื่องมือทรงพลังในการดึงดูดบุคลากร
- คนที่มีความสามารถและความทะเยอทะยานย่อมมองหาสภาพแวดล้อมแบบนี้โดยธรรมชาติ
ความย้อนแย้งของความสำเร็จของทรานส์ฟอร์เมอร์: ความสมบูรณ์แบบที่ขัดขวางนวัตกรรม
- เขากล่าวว่าความสำเร็จของทรานส์ฟอร์เมอร์นั้น “ทรงพลังเกินไป จนกลับกลายเป็นว่า กำลังขัดขวางนวัตกรรมใหม่”
- เขาวิเคราะห์ว่า “ยิ่งเทคโนโลยีปัจจุบันสมบูรณ์แบบมากเท่าไร แรงจูงใจที่จะออกไปหาอะไรที่ดีกว่าก็ยิ่งหายไป”
- อย่างไรก็ตาม เขาไม่ได้ปฏิเสธงานวิจัยทรานส์ฟอร์เมอร์เสียทีเดียว และเสริมว่า “มันยังสร้างคุณค่าเชิงปฏิบัติได้อยู่”
- แต่เขาย้ำว่า “เมื่อมองจากทรัพยากรและบุคลากรมหาศาลที่มีอยู่ตอนนี้ เราน่าจะสำรวจได้กว้างกว่านี้มาก”
- บทสรุปของเขาคือ ความสำคัญของความร่วมมือและการสำรวจแบบเปิดกว้าง
- “เราควรเพิ่มระดับของการสำรวจด้วยความร่วมมือ ไม่ใช่ด้วยการแข่งขัน แบบนั้นถึงจะเกิดความก้าวหน้าที่แท้จริงได้”
นัยสำคัญของ ‘ปัญหาการสำรวจ’ ในอุตสาหกรรม AI
- คำเตือนของ Jones กำลังกระทบใจวงการอย่างมาก ในช่วงเวลาที่ผู้คนกำลังถกเถียงถึง ข้อจำกัดของการขยาย AI และความจำเป็นในการสำรวจสถาปัตยกรรมใหม่
- ในอุตสาหกรรมเองก็เริ่มมี ความตระหนักแพร่หลายว่าการขยายทรานส์ฟอร์เมอร์เพียงอย่างเดียวอาจใกล้ถึงขีดจำกัดแล้ว
- นักวิจัยชั้นนำเริ่มออกมาพูดอย่างเปิดเผยถึงข้อจำกัดเชิงพื้นฐานของกระบวนทัศน์ปัจจุบัน
- มีความเข้าใจแพร่หลายมากขึ้นว่า ไม่ใช่แค่ scale เท่านั้น แต่ นวัตกรรมด้านสถาปัตยกรรม ก็จำเป็นต่อการสร้างระบบ AI ที่ก้าวหน้ากว่าเดิม
- ขณะที่ มีการทุ่มเงินระดับหลายหมื่นล้านดอลลาร์ต่อปีให้กับการพัฒนา AI และการแข่งขันอย่างดุเดือดระหว่างห้องวิจัยต่าง ๆ ก็ยิ่งเร่งทั้งความลับทางงานวิจัยและรอบการตีพิมพ์ที่รวดเร็วขึ้น ความจริงที่ Jones บรรยายไว้ก็คือ งานวิจัยเชิงสำรวจอย่างอิสระกำลังลดน้อยลงเรื่อย ๆ
- เหตุผลที่มุมมองจากคนวงในของ Jones มีน้ำหนักเป็นพิเศษ
- ในฐานะผู้สร้างเทคโนโลยีที่ครองวงการอยู่ตอนนี้ด้วยตัวเอง เขาย่อมเข้าใจดีถึง เงื่อนไขที่จำเป็นต่อการค้นพบนวัตกรรม
- การที่เขา ตัดสินใจถอยออกจากทรานส์ฟอร์เมอร์ ซึ่งเป็นสิ่งที่สร้างชื่อให้ตัวเอง ยิ่งเพิ่มความน่าเชื่อถือให้กับสารที่เขาต้องการสื่อ
- ตอนนี้เรากำลังอยู่ตรงทางแยกสำคัญ ที่นวัตกรรมระดับทรานส์ฟอร์เมอร์รุ่นถัดไปอาจถูก ค้นพบโดยนักวิจัยที่มีอิสระในการสำรวจ หรืออาจ ยังคงไม่ถูกค้นพบต่อไป ในขณะที่นักวิจัยอีกหลายพันคนแข่งขันกันทำเพียงการปรับปรุงแบบค่อยเป็นค่อยไป
- สุดท้ายแล้ว Jones ในฐานะ หนึ่งในคนที่ศึกษาทรานส์ฟอร์เมอร์มาอย่างยาวนานที่สุด ย่อมรู้ดีกว่าใครว่า ถึงเวลาแล้วที่จะก้าวไปสู่ขั้นถัดไป
“ความก้าวหน้าระดับทรานส์ฟอร์เมอร์ อาจอยู่ใกล้ตัวเราอยู่แล้ว เพียงแต่ถูกการแข่งขันบดบังไว้”
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
สำหรับผม transformer เป็นหนึ่งในสิ่งประดิษฐ์ที่ทรงประสิทธิผลที่สุดชิ้นหนึ่งในประวัติศาสตร์ยุคหลัง
หลังจากปรากฏครั้งแรกในปี 2017 เพียง 8 ปี มันก็เปลี่ยนแปลงหลายสาขาไปอย่างสิ้นเชิง และยังมีส่วนช่วยทางอ้อมต่อการคว้ารางวัลโนเบลด้วย
ผมคิดว่าแก่นไอเดียที่สำคัญจริง ๆ คือ probabilistic graphical model การผสานความน่าจะเป็นเข้ากับลำดับ ต้นไม้ และกราฟ ยังเป็นแนวทางที่มีคุณค่าสำหรับการวิจัยต่อไปในอนาคต
transformer เป็น universal approximator ที่ยอดเยี่ยมมากอยู่แล้ว อาจยังปรับปรุงได้อีกเล็กน้อย แต่ในทางปฏิบัติจะหาสิ่งที่ “เป็นสากล” กว่านี้ได้ยาก
สิ่งที่ควรนำกลับมาคิดใหม่มากกว่าคือ auto-regressive task, cross entropy loss, และ gradient descent เอง
ในสาขาของผมมันก็มีผลกระทบอยู่เหมือนกัน แต่พูดตามตรง ผลกระทบนั้นเกือบทั้งหมดเป็น ด้านลบ
แต่ตอนนี้ยังไม่เห็นสัญญาณแบบนั้น ถึงอย่างนั้นก็ยังมีความหวัง
ยังไม่ได้เรียบเรียงเป็นงานวิจัย แต่เห็นความเคลื่อนไหวในหลายจุดที่กำลังมุ่งไปหาไอเดียนี้
อยากให้หนึ่งวันมีเวลามากกว่านี้
Jones ผู้ร่วมก่อตั้งและ CTO ของ Sakana AI บอกว่าเขากำลังวางมือจาก transformer แล้วออกตามหา “สิ่งใหญ่ถัดไป” แต่พูดตามตรง มันฟังดูเหมือน ประชาสัมพันธ์เพื่อระดมทุน มากกว่า
ถ้าพูดแบบขำ ๆ ผมเคยคิดว่า singularity จะมาถึงในปี 2024 แต่ตอนนี้เหมือนมันหยุดอยู่ตรงช่วงหน่วงเวลาระหว่าง “การทำเงิน” กับ “การปรับปรุงตัวเอง”
ดูเหมือนว่าเราจะอยู่กับโมเดล transformer ไปอีก 20 ปี จนกว่าจะรีดเงินจากมันได้หมด
มันไม่ได้มีไว้เพื่อ transformer อย่างเดียว ดังนั้นกลับกัน แรงจูงใจในการหา สถาปัตยกรรมใหม่ ที่ใช้ประโยชน์จากโครงสร้างพื้นฐานนี้ให้คุ้มที่สุดน่าจะเพิ่มขึ้น
แค่มันยังไม่เร็วพอที่มนุษย์จะสังเกตได้
สำหรับคนส่วนใหญ่ “AI” ก็คือ ผลิตภัณฑ์ซอฟต์แวร์ ที่มองเห็นได้
แต่โมเดลแกนกลางเป็นเพียงส่วนเล็กน้อยเท่านั้น ที่เหลือคือกระบวนการขัดเกลาด้วย human feedback จากแรงงานค่าจ้างต่ำหลายพันคน
ในความเป็นจริง การพัฒนาผลิตภัณฑ์มีสัดส่วน 90% ขณะที่ งานวิจัย ML มีเพียง 10%
งานวิจัยส่วนใหญ่ก็เป็น งานเพื่อเส้นทางอาชีพ สำหรับการจบปริญญาเอก และมีเพียงส่วนน้อยที่เป็นงานทดลองจริง ๆ
transformer ถูกออกแบบมาให้เข้ากับ GPU ได้ดีมาก จนถ้าจะสร้างโมเดลใหม่ก็เหมือนต้องโน้มน้าว ผู้ผลิตฮาร์ดแวร์ ไปพร้อมกันด้วย
สุดท้ายแล้วเราต้องการ วิวัฒนาการร่วมกันของฮาร์ดแวร์และซอฟต์แวร์
การเปลี่ยนแปลงระดับรากฐานคงจะเกิดขึ้นในระดับ หลายทศวรรษ
เพราะ อัลกอริทึมที่ทำงานแบบขนานได้ มีความเหนือกว่าในเชิงแก่นแท้ GPU จึงพัฒนามาให้สอดรับกับสิ่งนั้น
RNN ทำงานแบบลำดับจึงขนานได้ยาก แต่ transformer ได้ ขจัดคอขวด ตรงนั้นออกไป
รู้สึกว่างานวิจัยที่ไม่ได้อิง transformer ก็ยังคงคึกคักอยู่
เพียงแต่ไม่ค่อยเด่น เพราะเงินทุนไหลไปกองอยู่ที่ CRM แบบแชตบอต
ผมไม่คิดว่าสถาปัตยกรรมใหม่จะเป็นคำตอบ ตรงกันข้าม วิธีเพิ่ม ประสิทธิภาพการใช้ข้อมูล สำคัญกว่า
Ilya Sutskever ก็ย้ำเรื่อง “วิธีเรียนรู้ที่ไม่จำเป็นต้องมีทั้งอินเทอร์เน็ต” เช่นกัน
ถ้าจะเรียนรู้แบบมนุษย์ มันย่อมต้องต่างจากวิธีป้อนข้อมูลจากอินเทอร์เน็ตแบบตรง ๆ
แม้จำนวนนักวิจัยจะเพิ่มขึ้น แต่ สัดส่วนงานวิจัยที่ไม่ใช่ transformer น่าจะลดลงด้วยซ้ำ
มีคนแซวว่าช่วงท้าย ๆ ใช้ em dash (—) เยอะเกินไป จนเหมือนบทความนี้เขียนโดย transformer
transformer ดูดเอา ความสนใจและเงินทุนทั้งหมด ไปหมด
นักวิจัยเองก็ถูกดูดเข้าไปอยู่ในอุตสาหกรรม transformer แล้ว
คิดว่าสถานการณ์นี้จะยังดำเนินต่อไปจนกว่าจะชนเพดานข้อจำกัดใหญ่
หวังว่า การใช้พลังงาน จะกลายเป็นข้อจำกัดจริงที่บังคับให้ทิศทางการวิจัยเปลี่ยนไป
xAI แก้ปัญหาไฟฟ้าด้วยการติดตั้ง กังหันก๊าซ รอบศูนย์ข้อมูล แต่ก็สร้างปัญหาสุขภาพให้คนในพื้นที่
ผมคิดว่าวิธีแบบนี้คงถูกกำกับดูแลในไม่ช้า
ผู้คนมักหมกมุ่นกับนวัตกรรมด้านสถาปัตยกรรมโมเดลใหม่มากเกินไป
ท้ายที่สุด โมเดลก็เป็นเพียงเครื่องมือสำหรับสร้าง ตัวแทนเชิงบีบอัดของข้อมูล เท่านั้น
ต่อให้บีบอัดได้มีประสิทธิภาพขึ้นมาก ความสามารถก็อาจไม่ได้เปลี่ยนไปมากนัก
สิ่งสำคัญกว่าคือการเพิ่ม ประสิทธิภาพการฝึก ซึ่งทุกวันนี้ reinforcement learning (RL) ก็เป็นตัวอย่างหนึ่ง
การสำรวจโครงสร้างใหม่ไม่ใช่ความหมกมุ่นเกินเหตุ แต่คือการรักษา สมดุลระหว่างการสำรวจกับการใช้ประโยชน์
ผมคิดว่าโครงสร้างอุตสาหกรรมที่มี transformer เป็นศูนย์กลาง อาจก่อตัวขึ้นจาก ความสะดวกในการคำนวณของ GPU/NPU
อาจมีเทคโนโลยี AI ที่ดีกว่านี้อยู่ก็ได้ แต่บนฮาร์ดแวร์ที่มีอยู่เดิม ต้นทุนการคำนวณ อาจสูงเกินไป
สมองของเราไม่ได้ใช้พลังงาน 500 วัตต์ และบางทีนั่นอาจเป็นคำใบ้