Grok 3: อีกหนึ่งชัยชนะของ The Bitter Lesson

(thealgorithmicbridge.com)

3 คะแนน โดย GN⁺ 2025-02-21 | 3 ความคิดเห็น | แชร์ทาง WhatsApp

I. กฎการสเกลที่ครอบงำพัฒนาการของ AI

มีความเป็นไปได้สูงที่การที่ Elon Musk เรียก Grok 3 ว่า "AI ที่ฉลาดที่สุดบนโลก" จะไม่ใช่คำพูดเกินจริง
มันก้าวกระโดดอย่างมากเมื่อเทียบกับ Grok 2 และอยู่ในระดับเดียวกันหรือเหนือกว่าโมเดลจากแล็บที่เติบโตเต็มที่อย่าง OpenAI, Google DeepMind และ Anthropic ในบางด้าน
มันคว้า อันดับ 1 ในทุกหมวดหมู่ บน LMSys Arena และยังแสดงผลงานระดับสูง (ระดับ o3) ในโจทย์คณิตศาสตร์ การเขียนโค้ด และวิทยาศาสตร์
แม้จะยังด้อยกว่าโมเดลระดับท็อปในงานเฉพาะบางอย่าง แต่ในเกณฑ์ส่วนใหญ่ก็อยู่ในระดับ co-state-of-the-art
Grok 3 ไม่ได้เป็นเพียงความสำเร็จของ xAI เท่านั้น แต่ยังหมายถึง อีกหนึ่งชัยชนะของ The Bitter Lesson ที่ตอกย้ำความสำคัญของขนาดในงานวิจัย AI
ตรงกันข้ามกับมุมมองเชิงวิจารณ์หรือรายงานของสื่อ กฎการสเกล (Scaling Laws) ยังใช้ได้อยู่กับพัฒนาการของ AI และความสำคัญของมันยิ่งเพิ่มขึ้น

II. DeepSeek: ข้อยกเว้นที่พิสูจน์กฎ

เบื้องหลังความสำเร็จของ DeepSeek
- DeepSeek สามารถต่อกรกับคู่แข่งระดับแนวหน้าของอุตสาหกรรมได้ แม้จะมีทรัพยากรคอมพิวต์ค่อนข้างจำกัด (GPU Nvidia Hopper ราว 50K ตัว)
- ขณะที่แล็บในสหรัฐฯ ใช้ Nvidia H100 มากกว่า 100K ตัว DeepSeek กลับสร้างผลงานได้ด้วยการปรับแต่งทั้งเทคโนโลยีสแต็กให้เหมาะที่สุด
- เรื่องนี้ทำให้เกิดคำถามต่อ 'Bitter Lesson' และ 'Scaling Paradigm' ที่ชุมชนเคยเชื่อมั่น
ข้อสรุปที่ผิดพลาดและความหมายที่แท้จริงของ Bitter Lesson
- บางคนตีความความสำเร็จของ DeepSeek ว่าเป็นหลักฐานว่า "GPU ไม่สำคัญ และการปรับแต่งเชิงอัลกอริทึมสำคัญกว่า"
- แต่ Bitter Lesson ไม่ได้หมายความว่า "ไม่ต้องมีการปรับปรุงอัลกอริทึม" หากแต่หมายถึงว่า ถ้าทำได้ การใช้ทรัพยากรคอมพิวต์ให้มากขึ้นคือทางเลือกที่ดีที่สุด
- DeepSeek ต้องโฟกัสกับการปรับแต่งก็เพราะมันมี GPU ไม่พอ และถ้ามันฝึกด้วย 100K GPU ผลลัพธ์ก็น่าจะดีกว่านี้
- กล่าวอีกอย่าง DeepSeek พิสูจน์ศักยภาพของการปรับแต่ง ไม่ใช่ว่า "การสเกลไม่มีความหมาย"
จุดยืนของ CEO ของ DeepSeek
- แม้แต่ Liang Wenfeng ซึ่งเป็น CEO ก็ยังระบุว่ากฎควบคุมการส่งออกของสหรัฐฯ คืออุปสรรคหลักต่อการพัฒนาโมเดลที่ดีกว่า
- การพูดเช่นนี้ทั้งที่ใช้ Hopper GPU ถึง 50K ตัว มีความหมายตรงกันข้ามกับการตีความว่า "GPU ไม่สำคัญ"
- ความสำเร็จของ DeepSeek จึงอาจมองได้ว่าเป็นกรณีที่สนับสนุน Bitter Lesson และ Scaling Paradigm เพียงแต่เป็นกรณียกเว้นเท่านั้น

III. xAI พิสูจน์ว่า "การสเกล > การปรับแต่ง"

Grok 3 และแนวทางของ xAI
- ยังน่าสงสัยว่าผลงานของ xAI จะเปลี่ยนมุมมองของผู้สงสัยที่เชื่อว่า "การสเกลสำคัญกว่าการปรับแต่ง" ได้หรือไม่
- ยังไม่ชัดเจนว่า Grok 3 มีการเปลี่ยนสถาปัตยกรรมหรือปรับแต่งอินฟราระดับไหน แต่ที่แน่ชัดคือมันถูกฝึกบนซูเปอร์คอมพิวเตอร์ Colossus ของ Memphis ที่มี H100 GPU จำนวน 100K ตัว
- ซึ่งมากกว่าจำนวน GPU ที่ DeepSeek มีอย่างมาก
กลยุทธ์ที่ต่างจาก DeepSeek
- DeepSeek ต้องรีดประสิทธิภาพจากทรัพยากร GPU ที่จำกัดให้ถึงขีดสุด แต่ xAI ไม่จำเป็นต้องทำเช่นนั้น และทำเพียงการปรับแต่งในระดับมาตรฐานที่มีอยู่ก็พอ
- แก่นของ Bitter Lesson คือ "ถ้ามีทรัพยากรคอมพิวต์มากพอ ก็อย่าเสียเวลากับการปรับแต่งที่ไม่จำเป็น ให้สเกลขึ้นไปเลย"
- xAI ทุ่มทรัพยากรคอมพิวต์มากกว่า OpenAI เพื่อฝึก Grok 3 และผลก็คือได้โมเดลระดับล้ำสมัยออกมา
Bitter Lesson ไม่ได้จริงแค่กับ AI แต่เป็นสัจธรรมทั่วไป
- "ถ้าคุณมีทรัพยากรหลักมากพอ ก็ไม่จำเป็นต้องเสียเวลารีดทรัพยากรรองให้สุด"
- เหมือนกับชาว Fremen ในทะเลทรายที่ต้องรีไซเคิลเหงื่อ แทนที่จะไปอยู่บนดาวเคราะห์ที่มีฝนตกซึ่งมีประสิทธิภาพกว่ามาก
- ทั้งการปรับปรุงอัลกอริทึมและการเพิ่มพลังคอมพิวต์ต่างก็สำคัญ แต่หลังจากจุดหนึ่งไปแล้ว การทุ่มทรัพยากรเพิ่มจะมีประสิทธิผลกว่าการปรับแต่ง
- พลังคอมพิวต์แก้ได้ด้วยเงิน แต่ความก้าวหน้าเชิงอัลกอริทึมแบบพลิกเกมนั้นคาดเดาไม่ได้ และไม่มีอะไรรับประกันว่าจะขยายต่อได้ในอนาคต
สิ่งสำคัญคืออย่าหยุดสเกล
- เมื่อชนเพดาน สิ่งที่ต้องเปลี่ยนไม่ใช่การปรับแต่ง แต่คือองค์ประกอบที่คุณจะสเกล
- ทรัพยากรที่จำกัดอาจกระตุ้นนวัตกรรมได้ แต่ท้ายที่สุด "ทรัพยากรที่มากกว่า" ชนะ "การปรับแต่งที่ดีกว่า"
- DeepSeek จำเป็นต้องโฟกัสกับการปรับแต่ง แต่ xAI หรือ OpenAI คงไม่เลือกทำงานภายใต้ข้อจำกัดแบบเดียวกับ DeepSeek
- สุดท้าย xAI และ DeepSeek จึงเป็นตัวแทนของแนวทาง "ทุ่มทรัพยากรมหาศาล" เทียบกับ "ใช้ทรัพยากรจำกัดให้ถึงขีดสุด"
- ทั้งสองบริษัทต่างทำดีที่สุดภายใต้สภาพแวดล้อมของตน แต่ตราบใดที่ DeepSeek ยังขาดแคลนทรัพยากรคอมพิวต์ xAI ก็มีแนวโน้มจะรักษาความได้เปรียบไว้ได้
- ดังนั้นแม้ Bitter Lesson จะเป็นที่ถกเถียงในแวดวงวิชาการ แต่มันก็ได้รับการพิสูจน์ว่าเป็นกฎที่ใช้ได้จริงในการพัฒนา AI ตลอดกว่าทศวรรษที่ผ่านมา

IV. การเปลี่ยนพาราไดม์ที่ช่วย xAI และ DeepSeek

ความยากของผู้มาทีหลังในการแข่งขัน AI
- การเริ่มต้นช้าในการแข่งขัน AI เคยดูเหมือนเป็นแต้มต่อที่ยากจะเอาชนะ
- ในช่วงแรกยังไม่แน่ชัดว่า xAI จะไล่ทัน OpenAI หรือ Anthropic ได้หรือไม่
- แต่ระหว่างการพัฒนาจาก Grok 2 (สิงหาคม 2024) ไปสู่ Grok 3 (กุมภาพันธ์ 2025) นอกจากคลัสเตอร์ GPU Colossus แล้ว ยังมีอีกปัจจัยที่เป็นประโยชน์ต่อ xAI
- นั่นคือ การเปลี่ยนของพาราไดม์การสเกล AI
ยุค pre-training (2019-2024)
- พัฒนาการของ AI ในช่วงแรกหมายถึง การฝึกโมเดลที่ใหญ่ขึ้นด้วยชุดข้อมูลที่ใหญ่ขึ้นและทรัพยากรคอมพิวต์ที่แรงขึ้น
- ตัวอย่าง: GPT-2 (กุมภาพันธ์ 2019) มีพารามิเตอร์ 1.5 พันล้านตัว แต่ GPT-4 (มีนาคม 2023) อยู่ที่ราว 1.76 ล้านล้านตัว เพิ่มขึ้นมากกว่า 1,000 เท่า
- แนวทางนี้เอื้อประโยชน์ต่อผู้เล่นที่ออกตัวก่อนอย่าง OpenAI
  - เพราะมีเวลาสะสมข้อมูล ขยายโมเดล และจัดหา GPU ได้ยาวนานกว่า
- อีกทั้งการฝึกแต่ละโมเดลมักใช้เวลามากกว่าครึ่งปี ทำให้รอบการทำซ้ำระหว่างรุ่นช้า และยิ่งทำให้ผู้ตามไล่ทันได้ยาก
ยุค post-training (2024-???)
- ตั้งแต่ปี 2024 เป็นต้นมา อุตสาหกรรม AI เริ่มตระหนักว่า การขยายขนาดโมเดลเพียงอย่างเดียวทำให้การปรับปรุงประสิทธิภาพแบบค่อยเป็นค่อยไปเริ่มชะลอลง
- สื่อบางแห่งเข้าใจผิดว่านี่คือ "จุดจบของยุคการสเกล" แต่จริง ๆ แล้วเป็นเพียงการเปลี่ยนพาราไดม์เท่านั้น (ดูบรรยายของ Ilya Sutskever ที่ NeurIPS 2024)
- จุดที่โฟกัสเปลี่ยนไป:
  - "การขยาย test-time compute" → วิธีที่ทำให้โมเดลใช้เวลาคิดคำตอบได้ลึกขึ้น
  - การผสาน reinforcement learning (RLHF) + supervised fine-tuning (SFT) ได้ผลดี
  - โดยเฉพาะในโดเมนที่มีโครงสร้างอย่างคณิตศาสตร์และการเขียนโค้ด ซึ่งสามารถใช้ฟังก์ชันรางวัลที่ตรวจสอบได้ จะช่วยยกระดับประสิทธิภาพได้มาก
- OpenAI เป็นผู้นำแนวทางนี้ด้วย o1-preview และหลังจากนั้นบริษัท AI ต่าง ๆ ก็หันจากการขยายขนาดโมเดล ไปสู่การสร้าง "โมเดลที่มีความสามารถในการคิดที่ดีกว่า"
เหตุใดพาราไดม์ใหม่จึงเอื้อ xAI และ DeepSeek
- post-training ยังอยู่ในช่วงเริ่มต้น จึงยังสามารถยกระดับประสิทธิภาพได้เร็วด้วยต้นทุนที่ค่อนข้างต่ำ
- นี่คือเหตุผลที่ OpenAI พัฒนาจาก o1 ไปสู่ o3 ได้ในเวลาเพียง 3 เดือน
- และเป็นเหตุผลเดียวกันที่ DeepSeek สามารถไล่ขึ้นมาถึงระดับ R1 ได้ แม้จะมี GPU น้อยกว่าและด้อยกว่า
- Grok เองก็ขึ้นมาถึงระดับโมเดล AI ชั้นนำได้ในเวลาเพียง 2 ปี
การเปลี่ยนแปลงของโครงสร้างการแข่งขัน
- OpenAI ยังมีความได้เปรียบอยู่บ้าง แต่ไม่ใช่ในระดับที่ผู้มาทีหลังไม่มีทางไล่ทัน
- OpenAI ต้องสร้างสมดุลระหว่างงานวิจัยระดับล้ำสมัยกับการเดินระบบผลิตภัณฑ์ เพราะมีภาระจากการดูแล ChatGPT ที่มีผู้ใช้รายสัปดาห์ 300 ล้านคน (300M)
- ขณะที่ xAI และ DeepSeek มีความยืดหยุ่นกว่าในการโฟกัสกับนวัตกรรมทางเทคนิค
- การที่แอปของ DeepSeek เคยได้รับความนิยมแล้วตกลงมาอีกครั้ง ก็เพราะ ขาดทรัพยากรคอมพิวต์ที่จะรองรับ inference ในวงกว้าง
- เมื่อพาราไดม์ใหม่เปิดขึ้น ภูมิทัศน์การแข่งขันแบบใหม่ก็กำลังก่อตัว

V. ทำความเข้าใจผลงานของ xAI และ DeepSeek อย่างถูกต้อง

อย่าใช้ Bitter Lesson และการเปลี่ยนพาราไดม์มาลดทอนผลงาน
- แม้ Bitter Lesson และการเปลี่ยนของพาราไดม์การสเกลจะทำให้ความสำเร็จของ xAI และ DeepSeek ง่ายขึ้น แต่ ท้ายที่สุดพวกเขาก็ทำสำเร็จ
- บริษัทอื่นที่มีโอกาสคล้ายกัน (Mistral, Character, Inflection) กลับไม่ประสบความสำเร็จ
- Grok 3 คือชัยชนะของ Bitter Lesson ส่วน DeepSeek คือกรณียกเว้นที่พิสูจน์กฎ แต่ทั้งสองอย่างก็มีความหมายมากกว่านั้น
ทรัพยากรคอมพิวต์ไม่ใช่ทุกอย่าง
- เช่นเดียวกับที่ Bitter Lesson ไม่ได้ปฏิเสธคุณค่าของอัลกอริทึมและการปรับแต่งอินฟรา ทรัพยากรบุคคลและกลยุทธ์ของบริษัทก็สำคัญเช่นกัน
- ปัจจุบัน xAI มีพนักงานราว 1,000 คน ซึ่งใกล้เคียงกับ OpenAI (ราว 2,000 คน) และ Anthropic (ราว 700 คน)
- อีกทั้งด้วยเครือข่ายด้านเทคโนโลยีและการเงินของ Elon Musk ทำให้ xAI สามารถระดมทุนจำนวนมหาศาลได้ไม่ยาก
- DeepSeek เองก็คู่ควรกับการประเมินค่าสูง ในแง่ที่สร้างนวัตกรรมได้ภายใต้ข้อจำกัด
  - ระบบนิเวศ AI ในจีนมีทั้งความทะเยอทะยานและประสบการณ์ค่อนข้างน้อยกว่า และยังได้รับการสนับสนุนจากภาครัฐไม่มากนัก (แม้ส่วนนี้อาจเปลี่ยนในไม่ช้า)
ต้องมองในบริบททางประวัติศาสตร์
- OpenAI, Google DeepMind และ Anthropic ต้องพัฒนาโมเดลใน ยุค pre-training
  - ตอนนั้นการสเกล AI ยากกว่า ช้ากว่า และแพงกว่าปัจจุบันมาก
  - แม้แต่ความสำเร็จของผลิตภัณฑ์อย่าง ChatGPT เองก็ยังไม่แน่นอน และ OpenAI ก็ลังเลที่จะเปิดตัวด้วยซ้ำ (ตอนแรกเปิดเป็นเพียง research preview)
  - บริษัทเหล่านี้คือ ผู้บุกเบิก ที่ผลักดันนวัตกรรม AI ด้วยความเชื่อมั่นอย่างแรงกล้าท่ามกลางอนาคตที่ไม่แน่นอน
- ในทางกลับกัน DeepSeek และ xAI เริ่มต้นบนบ่าของยักษ์ใหญ่เหล่านี้
  - พวกเขาหลีกเลี่ยงการลองผิดลองถูกของงานวิจัยเดิม และใช้แนวทางที่ผ่านการพิสูจน์แล้วเพื่อพัฒนาได้เร็ว
  - ประจวบกับการที่พาราไดม์ AI เปลี่ยนเข้าสู่ยุค post-training ทำให้สร้างผลงานได้เร็วด้วยต้นทุนที่ต่ำกว่า
  - จึงแทบไม่ต้องเผชิญการลงทุนล่วงหน้าขนาดมหาศาลหรือความไม่แน่นอนแบบที่ผู้บุกเบิกยุคแรกต้องรับ
ยอมรับชัยชนะ แต่อย่าลืมเส้นทางที่พามาถึงจุดนี้
- ไม่จำเป็นต้องดูแคลนผลงานของ xAI และ DeepSeek แต่ก็ ไม่ควรลืมว่าพัฒนาการของ AI เดินทางมาถึงตรงนี้ได้อย่างไร
- หากไม่มีผู้บุกเบิกยุคแรกอย่าง OpenAI, DeepMind และ Anthropic ความสำเร็จในวันนี้ก็คงเป็นไปไม่ได้
- ดังนั้นความสำเร็จของ xAI และ DeepSeek จึงเหมาะจะมองว่าไม่ใช่ "โชคดี" แต่เป็น "ทำดีที่สุดในจังหวะเวลาที่เหมาะสม"

VI. post-training ตอนนี้ยังถูก แต่จะแพงในไม่ช้า

บทเรียนสำคัญที่ Grok 3 และ xAI แสดงให้เห็น
- ตอนนี้ post-training ยังมีต้นทุนค่อนข้างต่ำ แต่ในไม่ช้ามันจะต้องใช้ เงินลงทุนมหาศาลไม่ต่างจาก pre-training
- ทันทีที่บริษัทต่าง ๆ หาวิธีขยาย post-training ในระดับใหญ่ได้ การอยู่รอดในการแข่งขันจะต้องอาศัย เงินและทรัพยากรคอมพิวต์
- ตอนนี้บริษัท AI ต่างก็เริ่มสะสม GPU หลายแสนตัวและสร้างคลัสเตอร์ขนาดใหญ่กันแล้ว
- ตรงกันข้ามกับคำกล่าวที่ว่า "GPU ไม่สำคัญ" การแข่งขันเพื่อแย่งชิง GPU จะกลายเป็นปัจจัยหลักของการแข่งขัน AI
- ด้วยเหตุนี้ Dario Amodei (ผู้ร่วมก่อตั้ง OpenAI) และคนอื่น ๆ จึงย้ำถึง ความสำคัญของ export controls
สถานะที่แข็งแกร่งของ xAI
- ตอนนี้ xAI ไม่เพียงอยู่ในตำแหน่งที่ได้เปรียบกว่า DeepSeek แต่ยัง ได้เปรียบกว่า OpenAI และ Anthropic ด้วย
- เหตุผลคือ มีคลัสเตอร์ H100 GPU ขนาด 100K และมีแผนขยายเป็น 200K ในเร็ว ๆ นี้
- สิ่งนี้มอบข้อได้เปรียบมหาศาลในการแข่งขันพัฒนา AI รุ่นถัดไป
- Meta ก็เดินตามกลยุทธ์เดียวกัน โดยกำลังฝึก Llama 4 บนคลัสเตอร์ H100 ขนาด 100K+
ข้อจำกัดและความเป็นไปได้ของ DeepSeek
- ด้วยความสามารถทางวิศวกรรมที่ยอดเยี่ยมเพียงอย่างเดียว ตอนนี้ DeepSeek กำลังเข้าสู่ช่วงที่แข่งขันได้ยากขึ้น
- ต่อให้ปรับแต่งเทคโนโลยีสแต็กได้ดีแค่ไหน ก็เป็นไปไม่ได้ที่จะชดเชยช่องว่าง GPU 150K ตัว
- หากทำได้ DeepSeek ก็คงเลือกสเกลแบบ xAI ไปแล้ว แต่ กฎควบคุมการส่งออกของสหรัฐฯ เป็นปัจจัยที่จำกัดการเติบโต
- อย่างไรก็ตาม ก็ยังมีความเป็นไปได้ที่จะคลี่คลายปัญหานี้ผ่านความร่วมมือกับ Huawei
ข้อได้เปรียบเพิ่มเติมของ xAI
- แม้แต่ OpenAI และ Anthropic เองก็ยัง ไม่ได้อยู่ในสถานะที่มั่นคงเท่า xAI ในแง่การจัดหาคลัสเตอร์ GPU
- ด้วย การสนับสนุนจาก Nvidia ทำให้ xAI ได้รับฮาร์ดแวร์ AI รุ่นถัดไปก่อนใคร
- จากเครือข่ายของ Elon Musk และท่าทีที่เป็นมิตรของ Nvidia xAI จึงมีโอกาสสูงที่จะครองความได้เปรียบแบบโดดเด่นในการแข่งขัน AI ในอนาคต

VII. อีก 1 ปีข้างหน้า ใครจะนำอยู่?

ความได้เปรียบของผู้เล่นรายใหญ่เดิม
- ถึงอย่างนั้น OpenAI, Google DeepMind และ Anthropic ก็ยังคงมี ความได้เปรียบนำหน้าอยู่เล็กน้อย
- OpenAI: มีแผนเปิดตัว GPT-4.5/GPT-5 ในเร็ว ๆ นี้ และหลังจากนั้นก็ยังพัฒนาโมเดล o4 ต่อ
- Anthropic: มีแผนเปิดตัว Claude 4
- Google DeepMind: กำลังปรับปรุง Gemini 2.0 เวอร์ชัน "Thinking-model" พร้อมพยายามลดต้นทุนและขยาย context window
อนาคตที่ไม่แน่นอน
- ในปี 2024 หลายคนคาดว่า Google จะนำในการแข่งขัน AI แต่ตอนนี้ยังบอกไม่ได้อย่างมั่นใจ
- การแข่งขัน AI ดุเดือดกว่าที่เคย และในการแข่งขัน AGI ก็ยัง ไม่มีผู้ชนะที่ชัดเจน
- พาราไดม์ใหม่เอื้อให้ผู้มาทีหลัง และต้องการความสามารถในการปรับตัวอย่างรวดเร็ว
- ยังไม่แน่ชัดว่า Google มีความคล่องตัวเช่นนั้นหรือไม่
- หรืออีกทางหนึ่ง อาจเป็นแค่ Google สื่อสารผลงานของตัวเองได้ไม่ดีพอ
บทสรุป: การสเกลชนะในท้ายที่สุด
- บทสรุปของบทความนี้ไม่ใช่การทำนายผู้ชนะของการแข่งขัน AI
- บทเรียนสำคัญคือ ท้ายที่สุดแล้วการสเกลจะเอาชนะความเฉียบแหลมของมนุษย์ (ingenuity)
  - แม้จะน่าเสียดายที่ต้องบอกข่าวนี้ แต่บางเรื่องก็เกินกว่าที่เราจะต้านทานได้
- ความสำเร็จของ Grok 3 เตือนเราอีกครั้งว่า ไม่ใช่ "อัลกอริทึมที่ฉลาดกว่า" แต่เป็น "พลังการประมวลผลที่มากกว่า" ที่ขับเคลื่อนพัฒนาการของ AI

3 ความคิดเห็น

kobings 2025-02-23

"OpenAI มีผู้ใช้งาน ChatGPT รายสัปดาห์ 300 ล้านคน"
ดูต้นฉบับแล้วเป็น 300M รบกวนแก้เป็น 300 ล้านด้วย

doolayer 2025-02-22

ตั้งฉากกันแต่ไม่ออร์โธนอร์มัล

GN⁺ 2025-02-21

ความคิดเห็นจาก Hacker News

การเกิดขึ้นของโมเดลระดับ "co-state-of-the-art" ไม่ใช่ชัยชนะของกฎการสเกล
- แม้ xAI จะทุ่มคอมพิวต์ให้ Grok 3 มากขึ้น แต่ก็ไม่ได้แซงหน้าโมเดลเดิมอย่างชัดเจน ซึ่งอาจเป็นหลักฐานว่าการไฮเปอร์สเกลให้ผลเป็นเพียงการปรับปรุงแบบค่อยเป็นค่อยไป
- การที่พลังคอมพิวต์มากขึ้นทำให้คอมพิวเตอร์ดีขึ้น เป็นข้อสังเกตที่แทบเป็นเรื่องธรรมดา
- บทความนี้พยายามนำความต่างระหว่าง AI เชิงสัญลักษณ์ในยุค 70 กับโครงข่ายประสาทในยุค 2010 มาเทียบกับความต่างระหว่าง GPT-4 และ Grok 3
- หลายคนสงสัยในประสิทธิภาพจริงของ Grok 3 และสงสัยว่ามันถูกฝึกมาให้เหมาะกับ benchmark เฉพาะบางตัว
- Sabine Hossenfelder กล่าวถึงว่า Grok 3 ล้มเหลวในการอธิบายทฤษฎีบทของ Bell
- สิ่งนี้แสดงให้เห็นว่าการสเกลขนาดใหญ่ไม่ได้ช่วยเพิ่มความฉลาด
Deepseek ใช้เวลา 17 เดือนเพื่อให้ได้ผลลัพธ์ระดับ SOTA และโมเดลของ xAI ก็ไม่ได้เหนือกว่า Deepseek R1 อย่างมาก
- xAI จะลงทุน $2.5 billion จากทั้งหมด $3 billion ไปกับ GPU และอีก $0.5 billion ไปกับบุคลากร
- Deepseek จะลงทุน $1 billion ไปกับ GPU และ $2 billion ไปกับบุคลากร
- มีการอ้างว่าแนวทางของ Deepseek สามารถขยายต่อได้มากกว่า
มีความกังขาต่อผล 75% ของโมเดลที่ไม่ใช้การให้เหตุผลบน GPQA Diamond
- xAI จะเปิดให้ใช้ Grok 3 API ในสัปดาห์หน้า จึงอยากตรวจสอบประสิทธิภาพจริงผ่านการประเมินด้วยตนเอง
- ตัวเลขที่ว่า DeepSeek มี Hopper GPU 50k ตัวอาจเป็นตัวเลขที่พูดเกินจริง
- ประกาศรับนักศึกษาฝึกงานของ DeepSeek ระบุเพียงว่า "เข้าถึง A100s จำนวน 10k ได้แบบไม่จำกัด"
มีการสรุปข้อสรุปแปลก ๆ จากความเปลี่ยนแปลงล่าสุด
- แม้จะมีเงินทุนจำนวนมากไหลเข้าสู่กระแส AI แต่สิ่งนี้จะจบลงในไม่ช้า
- คนที่มีประสบการณ์ด้านการปรับปรุงเทคโนโลยีมากจะอยู่ในตำแหน่งที่ได้เปรียบที่สุดในระยะยาว
หาก Grok มีสติปัญญาใกล้เคียงกับโมเดลชั้นนำอื่น ๆ ก็มีคำถามว่าธุรกิจใดจะเปลี่ยนมาใช้ Grok
เมื่อการใส่คอมพิวต์เพิ่มขึ้นทำให้ต้นทุนพุ่งไปถึงระดับหลายพันล้าน "บทเรียนอันขมขื่น" อาจไม่ได้เกี่ยวกับฮาร์ดแวร์อีกต่อไป แต่เกี่ยวกับเงิน
- อาจมีเส้นทางที่โมเดลใช้พลังงานน้อยกว่าสามารถนำไปใช้งานได้จริงแม้ไม่มีเงินทุนจาก VC
ข้ออ้างของบทความเกี่ยวกับ "บทเรียนอันขมขื่น" พึ่งพาความผิดพลาดเชิงตรรกะ
- มันวางกรอบให้การสเกลและการเพิ่มประสิทธิภาพเป็นกลยุทธ์ที่排斥กัน
- นวัตกรรมเชิงอัลกอริทึมของ DeepSeek เข้ามาเสริมความพยายามด้านการสเกล
- ข้ออ้างที่ว่าคอมพิวต์จะครอง "ยุคหลังการฝึก" มองข้ามปัจจัยรบกวนที่อาจเกิดขึ้น
น่าสนใจว่าการแย่งชิงบุคลากรจะพัฒนาไปอย่างไร
- วิศวกรจำนวนมากรู้สึกผิดหวังกับ PR ที่เน้น DEI อย่างหนัก
- มีคำถามว่าคนที่หลีกเลี่ยงความสัมพันธ์ใกล้ชิดกับจีนด้วยเหตุผลด้านจริยธรรม จะใช้มาตรฐานเดียวกันกับสหรัฐฯ หรือไม่
อีกหนึ่งบล็อกโพสต์ปั่นกระแส AI
- ไม่มีแม้แต่การกล่าวถึงแท่งสีที่ต่างกันในผลลัพธ์ benchmark
- Grok-3 ไม่ได้พิสูจน์หรือหักล้างกฎการสเกลอย่างมีนัยสำคัญ