3 คะแนน โดย GN⁺ 2025-02-21 | 3 ความคิดเห็น | แชร์ทาง WhatsApp

I. กฎการสเกลที่ครอบงำพัฒนาการของ AI

  • มีความเป็นไปได้สูงที่การที่ Elon Musk เรียก Grok 3 ว่า "AI ที่ฉลาดที่สุดบนโลก" จะไม่ใช่คำพูดเกินจริง
  • มันก้าวกระโดดอย่างมากเมื่อเทียบกับ Grok 2 และอยู่ในระดับเดียวกันหรือเหนือกว่าโมเดลจากแล็บที่เติบโตเต็มที่อย่าง OpenAI, Google DeepMind และ Anthropic ในบางด้าน
  • มันคว้า อันดับ 1 ในทุกหมวดหมู่ บน LMSys Arena และยังแสดงผลงานระดับสูง (ระดับ o3) ในโจทย์คณิตศาสตร์ การเขียนโค้ด และวิทยาศาสตร์
  • แม้จะยังด้อยกว่าโมเดลระดับท็อปในงานเฉพาะบางอย่าง แต่ในเกณฑ์ส่วนใหญ่ก็อยู่ในระดับ co-state-of-the-art
  • Grok 3 ไม่ได้เป็นเพียงความสำเร็จของ xAI เท่านั้น แต่ยังหมายถึง อีกหนึ่งชัยชนะของ The Bitter Lesson ที่ตอกย้ำความสำคัญของขนาดในงานวิจัย AI
  • ตรงกันข้ามกับมุมมองเชิงวิจารณ์หรือรายงานของสื่อ กฎการสเกล (Scaling Laws) ยังใช้ได้อยู่กับพัฒนาการของ AI และความสำคัญของมันยิ่งเพิ่มขึ้น

II. DeepSeek: ข้อยกเว้นที่พิสูจน์กฎ

  • เบื้องหลังความสำเร็จของ DeepSeek
    • DeepSeek สามารถต่อกรกับคู่แข่งระดับแนวหน้าของอุตสาหกรรมได้ แม้จะมีทรัพยากรคอมพิวต์ค่อนข้างจำกัด (GPU Nvidia Hopper ราว 50K ตัว)
    • ขณะที่แล็บในสหรัฐฯ ใช้ Nvidia H100 มากกว่า 100K ตัว DeepSeek กลับสร้างผลงานได้ด้วยการปรับแต่งทั้งเทคโนโลยีสแต็กให้เหมาะที่สุด
    • เรื่องนี้ทำให้เกิดคำถามต่อ 'Bitter Lesson' และ 'Scaling Paradigm' ที่ชุมชนเคยเชื่อมั่น
  • ข้อสรุปที่ผิดพลาดและความหมายที่แท้จริงของ Bitter Lesson
    • บางคนตีความความสำเร็จของ DeepSeek ว่าเป็นหลักฐานว่า "GPU ไม่สำคัญ และการปรับแต่งเชิงอัลกอริทึมสำคัญกว่า"
    • แต่ Bitter Lesson ไม่ได้หมายความว่า "ไม่ต้องมีการปรับปรุงอัลกอริทึม" หากแต่หมายถึงว่า ถ้าทำได้ การใช้ทรัพยากรคอมพิวต์ให้มากขึ้นคือทางเลือกที่ดีที่สุด
    • DeepSeek ต้องโฟกัสกับการปรับแต่งก็เพราะมันมี GPU ไม่พอ และถ้ามันฝึกด้วย 100K GPU ผลลัพธ์ก็น่าจะดีกว่านี้
    • กล่าวอีกอย่าง DeepSeek พิสูจน์ศักยภาพของการปรับแต่ง ไม่ใช่ว่า "การสเกลไม่มีความหมาย"
  • จุดยืนของ CEO ของ DeepSeek
    • แม้แต่ Liang Wenfeng ซึ่งเป็น CEO ก็ยังระบุว่ากฎควบคุมการส่งออกของสหรัฐฯ คืออุปสรรคหลักต่อการพัฒนาโมเดลที่ดีกว่า
    • การพูดเช่นนี้ทั้งที่ใช้ Hopper GPU ถึง 50K ตัว มีความหมายตรงกันข้ามกับการตีความว่า "GPU ไม่สำคัญ"
    • ความสำเร็จของ DeepSeek จึงอาจมองได้ว่าเป็นกรณีที่สนับสนุน Bitter Lesson และ Scaling Paradigm เพียงแต่เป็นกรณียกเว้นเท่านั้น

III. xAI พิสูจน์ว่า "การสเกล > การปรับแต่ง"

  • Grok 3 และแนวทางของ xAI
    • ยังน่าสงสัยว่าผลงานของ xAI จะเปลี่ยนมุมมองของผู้สงสัยที่เชื่อว่า "การสเกลสำคัญกว่าการปรับแต่ง" ได้หรือไม่
    • ยังไม่ชัดเจนว่า Grok 3 มีการเปลี่ยนสถาปัตยกรรมหรือปรับแต่งอินฟราระดับไหน แต่ที่แน่ชัดคือมันถูกฝึกบนซูเปอร์คอมพิวเตอร์ Colossus ของ Memphis ที่มี H100 GPU จำนวน 100K ตัว
    • ซึ่งมากกว่าจำนวน GPU ที่ DeepSeek มีอย่างมาก
  • กลยุทธ์ที่ต่างจาก DeepSeek
    • DeepSeek ต้องรีดประสิทธิภาพจากทรัพยากร GPU ที่จำกัดให้ถึงขีดสุด แต่ xAI ไม่จำเป็นต้องทำเช่นนั้น และทำเพียงการปรับแต่งในระดับมาตรฐานที่มีอยู่ก็พอ
    • แก่นของ Bitter Lesson คือ "ถ้ามีทรัพยากรคอมพิวต์มากพอ ก็อย่าเสียเวลากับการปรับแต่งที่ไม่จำเป็น ให้สเกลขึ้นไปเลย"
    • xAI ทุ่มทรัพยากรคอมพิวต์มากกว่า OpenAI เพื่อฝึก Grok 3 และผลก็คือได้โมเดลระดับล้ำสมัยออกมา
  • Bitter Lesson ไม่ได้จริงแค่กับ AI แต่เป็นสัจธรรมทั่วไป
    • "ถ้าคุณมีทรัพยากรหลักมากพอ ก็ไม่จำเป็นต้องเสียเวลารีดทรัพยากรรองให้สุด"
    • เหมือนกับชาว Fremen ในทะเลทรายที่ต้องรีไซเคิลเหงื่อ แทนที่จะไปอยู่บนดาวเคราะห์ที่มีฝนตกซึ่งมีประสิทธิภาพกว่ามาก
    • ทั้งการปรับปรุงอัลกอริทึมและการเพิ่มพลังคอมพิวต์ต่างก็สำคัญ แต่หลังจากจุดหนึ่งไปแล้ว การทุ่มทรัพยากรเพิ่มจะมีประสิทธิผลกว่าการปรับแต่ง
    • พลังคอมพิวต์แก้ได้ด้วยเงิน แต่ความก้าวหน้าเชิงอัลกอริทึมแบบพลิกเกมนั้นคาดเดาไม่ได้ และไม่มีอะไรรับประกันว่าจะขยายต่อได้ในอนาคต
  • สิ่งสำคัญคืออย่าหยุดสเกล
    • เมื่อชนเพดาน สิ่งที่ต้องเปลี่ยนไม่ใช่การปรับแต่ง แต่คือองค์ประกอบที่คุณจะสเกล
    • ทรัพยากรที่จำกัดอาจกระตุ้นนวัตกรรมได้ แต่ท้ายที่สุด "ทรัพยากรที่มากกว่า" ชนะ "การปรับแต่งที่ดีกว่า"
    • DeepSeek จำเป็นต้องโฟกัสกับการปรับแต่ง แต่ xAI หรือ OpenAI คงไม่เลือกทำงานภายใต้ข้อจำกัดแบบเดียวกับ DeepSeek
    • สุดท้าย xAI และ DeepSeek จึงเป็นตัวแทนของแนวทาง "ทุ่มทรัพยากรมหาศาล" เทียบกับ "ใช้ทรัพยากรจำกัดให้ถึงขีดสุด"
    • ทั้งสองบริษัทต่างทำดีที่สุดภายใต้สภาพแวดล้อมของตน แต่ตราบใดที่ DeepSeek ยังขาดแคลนทรัพยากรคอมพิวต์ xAI ก็มีแนวโน้มจะรักษาความได้เปรียบไว้ได้
    • ดังนั้นแม้ Bitter Lesson จะเป็นที่ถกเถียงในแวดวงวิชาการ แต่มันก็ได้รับการพิสูจน์ว่าเป็นกฎที่ใช้ได้จริงในการพัฒนา AI ตลอดกว่าทศวรรษที่ผ่านมา

IV. การเปลี่ยนพาราไดม์ที่ช่วย xAI และ DeepSeek

  • ความยากของผู้มาทีหลังในการแข่งขัน AI
    • การเริ่มต้นช้าในการแข่งขัน AI เคยดูเหมือนเป็นแต้มต่อที่ยากจะเอาชนะ
    • ในช่วงแรกยังไม่แน่ชัดว่า xAI จะไล่ทัน OpenAI หรือ Anthropic ได้หรือไม่
    • แต่ระหว่างการพัฒนาจาก Grok 2 (สิงหาคม 2024) ไปสู่ Grok 3 (กุมภาพันธ์ 2025) นอกจากคลัสเตอร์ GPU Colossus แล้ว ยังมีอีกปัจจัยที่เป็นประโยชน์ต่อ xAI
    • นั่นคือ การเปลี่ยนของพาราไดม์การสเกล AI
  • ยุค pre-training (2019-2024)
    • พัฒนาการของ AI ในช่วงแรกหมายถึง การฝึกโมเดลที่ใหญ่ขึ้นด้วยชุดข้อมูลที่ใหญ่ขึ้นและทรัพยากรคอมพิวต์ที่แรงขึ้น
    • ตัวอย่าง: GPT-2 (กุมภาพันธ์ 2019) มีพารามิเตอร์ 1.5 พันล้านตัว แต่ GPT-4 (มีนาคม 2023) อยู่ที่ราว 1.76 ล้านล้านตัว เพิ่มขึ้นมากกว่า 1,000 เท่า
    • แนวทางนี้เอื้อประโยชน์ต่อผู้เล่นที่ออกตัวก่อนอย่าง OpenAI
      • เพราะมีเวลาสะสมข้อมูล ขยายโมเดล และจัดหา GPU ได้ยาวนานกว่า
    • อีกทั้งการฝึกแต่ละโมเดลมักใช้เวลามากกว่าครึ่งปี ทำให้รอบการทำซ้ำระหว่างรุ่นช้า และยิ่งทำให้ผู้ตามไล่ทันได้ยาก
  • ยุค post-training (2024-???)
    • ตั้งแต่ปี 2024 เป็นต้นมา อุตสาหกรรม AI เริ่มตระหนักว่า การขยายขนาดโมเดลเพียงอย่างเดียวทำให้การปรับปรุงประสิทธิภาพแบบค่อยเป็นค่อยไปเริ่มชะลอลง
    • สื่อบางแห่งเข้าใจผิดว่านี่คือ "จุดจบของยุคการสเกล" แต่จริง ๆ แล้วเป็นเพียงการเปลี่ยนพาราไดม์เท่านั้น (ดูบรรยายของ Ilya Sutskever ที่ NeurIPS 2024)
    • จุดที่โฟกัสเปลี่ยนไป:
      • "การขยาย test-time compute" → วิธีที่ทำให้โมเดลใช้เวลาคิดคำตอบได้ลึกขึ้น
      • การผสาน reinforcement learning (RLHF) + supervised fine-tuning (SFT) ได้ผลดี
      • โดยเฉพาะในโดเมนที่มีโครงสร้างอย่างคณิตศาสตร์และการเขียนโค้ด ซึ่งสามารถใช้ฟังก์ชันรางวัลที่ตรวจสอบได้ จะช่วยยกระดับประสิทธิภาพได้มาก
    • OpenAI เป็นผู้นำแนวทางนี้ด้วย o1-preview และหลังจากนั้นบริษัท AI ต่าง ๆ ก็หันจากการขยายขนาดโมเดล ไปสู่การสร้าง "โมเดลที่มีความสามารถในการคิดที่ดีกว่า"
  • เหตุใดพาราไดม์ใหม่จึงเอื้อ xAI และ DeepSeek
    • post-training ยังอยู่ในช่วงเริ่มต้น จึงยังสามารถยกระดับประสิทธิภาพได้เร็วด้วยต้นทุนที่ค่อนข้างต่ำ
    • นี่คือเหตุผลที่ OpenAI พัฒนาจาก o1 ไปสู่ o3 ได้ในเวลาเพียง 3 เดือน
    • และเป็นเหตุผลเดียวกันที่ DeepSeek สามารถไล่ขึ้นมาถึงระดับ R1 ได้ แม้จะมี GPU น้อยกว่าและด้อยกว่า
    • Grok เองก็ขึ้นมาถึงระดับโมเดล AI ชั้นนำได้ในเวลาเพียง 2 ปี
  • การเปลี่ยนแปลงของโครงสร้างการแข่งขัน
    • OpenAI ยังมีความได้เปรียบอยู่บ้าง แต่ไม่ใช่ในระดับที่ผู้มาทีหลังไม่มีทางไล่ทัน
    • OpenAI ต้องสร้างสมดุลระหว่างงานวิจัยระดับล้ำสมัยกับการเดินระบบผลิตภัณฑ์ เพราะมีภาระจากการดูแล ChatGPT ที่มีผู้ใช้รายสัปดาห์ 300 ล้านคน (300M)
    • ขณะที่ xAI และ DeepSeek มีความยืดหยุ่นกว่าในการโฟกัสกับนวัตกรรมทางเทคนิค
    • การที่แอปของ DeepSeek เคยได้รับความนิยมแล้วตกลงมาอีกครั้ง ก็เพราะ ขาดทรัพยากรคอมพิวต์ที่จะรองรับ inference ในวงกว้าง
    • เมื่อพาราไดม์ใหม่เปิดขึ้น ภูมิทัศน์การแข่งขันแบบใหม่ก็กำลังก่อตัว

V. ทำความเข้าใจผลงานของ xAI และ DeepSeek อย่างถูกต้อง

  • อย่าใช้ Bitter Lesson และการเปลี่ยนพาราไดม์มาลดทอนผลงาน
    • แม้ Bitter Lesson และการเปลี่ยนของพาราไดม์การสเกลจะทำให้ความสำเร็จของ xAI และ DeepSeek ง่ายขึ้น แต่ ท้ายที่สุดพวกเขาก็ทำสำเร็จ
    • บริษัทอื่นที่มีโอกาสคล้ายกัน (Mistral, Character, Inflection) กลับไม่ประสบความสำเร็จ
    • Grok 3 คือชัยชนะของ Bitter Lesson ส่วน DeepSeek คือกรณียกเว้นที่พิสูจน์กฎ แต่ทั้งสองอย่างก็มีความหมายมากกว่านั้น
  • ทรัพยากรคอมพิวต์ไม่ใช่ทุกอย่าง
    • เช่นเดียวกับที่ Bitter Lesson ไม่ได้ปฏิเสธคุณค่าของอัลกอริทึมและการปรับแต่งอินฟรา ทรัพยากรบุคคลและกลยุทธ์ของบริษัทก็สำคัญเช่นกัน
    • ปัจจุบัน xAI มีพนักงานราว 1,000 คน ซึ่งใกล้เคียงกับ OpenAI (ราว 2,000 คน) และ Anthropic (ราว 700 คน)
    • อีกทั้งด้วยเครือข่ายด้านเทคโนโลยีและการเงินของ Elon Musk ทำให้ xAI สามารถระดมทุนจำนวนมหาศาลได้ไม่ยาก
    • DeepSeek เองก็คู่ควรกับการประเมินค่าสูง ในแง่ที่สร้างนวัตกรรมได้ภายใต้ข้อจำกัด
      • ระบบนิเวศ AI ในจีนมีทั้งความทะเยอทะยานและประสบการณ์ค่อนข้างน้อยกว่า และยังได้รับการสนับสนุนจากภาครัฐไม่มากนัก (แม้ส่วนนี้อาจเปลี่ยนในไม่ช้า)
  • ต้องมองในบริบททางประวัติศาสตร์
    • OpenAI, Google DeepMind และ Anthropic ต้องพัฒนาโมเดลใน ยุค pre-training
      • ตอนนั้นการสเกล AI ยากกว่า ช้ากว่า และแพงกว่าปัจจุบันมาก
      • แม้แต่ความสำเร็จของผลิตภัณฑ์อย่าง ChatGPT เองก็ยังไม่แน่นอน และ OpenAI ก็ลังเลที่จะเปิดตัวด้วยซ้ำ (ตอนแรกเปิดเป็นเพียง research preview)
      • บริษัทเหล่านี้คือ ผู้บุกเบิก ที่ผลักดันนวัตกรรม AI ด้วยความเชื่อมั่นอย่างแรงกล้าท่ามกลางอนาคตที่ไม่แน่นอน
    • ในทางกลับกัน DeepSeek และ xAI เริ่มต้นบนบ่าของยักษ์ใหญ่เหล่านี้
      • พวกเขาหลีกเลี่ยงการลองผิดลองถูกของงานวิจัยเดิม และใช้แนวทางที่ผ่านการพิสูจน์แล้วเพื่อพัฒนาได้เร็ว
      • ประจวบกับการที่พาราไดม์ AI เปลี่ยนเข้าสู่ยุค post-training ทำให้สร้างผลงานได้เร็วด้วยต้นทุนที่ต่ำกว่า
      • จึงแทบไม่ต้องเผชิญการลงทุนล่วงหน้าขนาดมหาศาลหรือความไม่แน่นอนแบบที่ผู้บุกเบิกยุคแรกต้องรับ
  • ยอมรับชัยชนะ แต่อย่าลืมเส้นทางที่พามาถึงจุดนี้
    • ไม่จำเป็นต้องดูแคลนผลงานของ xAI และ DeepSeek แต่ก็ ไม่ควรลืมว่าพัฒนาการของ AI เดินทางมาถึงตรงนี้ได้อย่างไร
    • หากไม่มีผู้บุกเบิกยุคแรกอย่าง OpenAI, DeepMind และ Anthropic ความสำเร็จในวันนี้ก็คงเป็นไปไม่ได้
    • ดังนั้นความสำเร็จของ xAI และ DeepSeek จึงเหมาะจะมองว่าไม่ใช่ "โชคดี" แต่เป็น "ทำดีที่สุดในจังหวะเวลาที่เหมาะสม"

VI. post-training ตอนนี้ยังถูก แต่จะแพงในไม่ช้า

  • บทเรียนสำคัญที่ Grok 3 และ xAI แสดงให้เห็น
    • ตอนนี้ post-training ยังมีต้นทุนค่อนข้างต่ำ แต่ในไม่ช้ามันจะต้องใช้ เงินลงทุนมหาศาลไม่ต่างจาก pre-training
    • ทันทีที่บริษัทต่าง ๆ หาวิธีขยาย post-training ในระดับใหญ่ได้ การอยู่รอดในการแข่งขันจะต้องอาศัย เงินและทรัพยากรคอมพิวต์
    • ตอนนี้บริษัท AI ต่างก็เริ่มสะสม GPU หลายแสนตัวและสร้างคลัสเตอร์ขนาดใหญ่กันแล้ว
    • ตรงกันข้ามกับคำกล่าวที่ว่า "GPU ไม่สำคัญ" การแข่งขันเพื่อแย่งชิง GPU จะกลายเป็นปัจจัยหลักของการแข่งขัน AI
    • ด้วยเหตุนี้ Dario Amodei (ผู้ร่วมก่อตั้ง OpenAI) และคนอื่น ๆ จึงย้ำถึง ความสำคัญของ export controls
  • สถานะที่แข็งแกร่งของ xAI
    • ตอนนี้ xAI ไม่เพียงอยู่ในตำแหน่งที่ได้เปรียบกว่า DeepSeek แต่ยัง ได้เปรียบกว่า OpenAI และ Anthropic ด้วย
    • เหตุผลคือ มีคลัสเตอร์ H100 GPU ขนาด 100K และมีแผนขยายเป็น 200K ในเร็ว ๆ นี้
    • สิ่งนี้มอบข้อได้เปรียบมหาศาลในการแข่งขันพัฒนา AI รุ่นถัดไป
    • Meta ก็เดินตามกลยุทธ์เดียวกัน โดยกำลังฝึก Llama 4 บนคลัสเตอร์ H100 ขนาด 100K+
  • ข้อจำกัดและความเป็นไปได้ของ DeepSeek
    • ด้วยความสามารถทางวิศวกรรมที่ยอดเยี่ยมเพียงอย่างเดียว ตอนนี้ DeepSeek กำลังเข้าสู่ช่วงที่แข่งขันได้ยากขึ้น
    • ต่อให้ปรับแต่งเทคโนโลยีสแต็กได้ดีแค่ไหน ก็เป็นไปไม่ได้ที่จะชดเชยช่องว่าง GPU 150K ตัว
    • หากทำได้ DeepSeek ก็คงเลือกสเกลแบบ xAI ไปแล้ว แต่ กฎควบคุมการส่งออกของสหรัฐฯ เป็นปัจจัยที่จำกัดการเติบโต
    • อย่างไรก็ตาม ก็ยังมีความเป็นไปได้ที่จะคลี่คลายปัญหานี้ผ่านความร่วมมือกับ Huawei
  • ข้อได้เปรียบเพิ่มเติมของ xAI
    • แม้แต่ OpenAI และ Anthropic เองก็ยัง ไม่ได้อยู่ในสถานะที่มั่นคงเท่า xAI ในแง่การจัดหาคลัสเตอร์ GPU
    • ด้วย การสนับสนุนจาก Nvidia ทำให้ xAI ได้รับฮาร์ดแวร์ AI รุ่นถัดไปก่อนใคร
    • จากเครือข่ายของ Elon Musk และท่าทีที่เป็นมิตรของ Nvidia xAI จึงมีโอกาสสูงที่จะครองความได้เปรียบแบบโดดเด่นในการแข่งขัน AI ในอนาคต

VII. อีก 1 ปีข้างหน้า ใครจะนำอยู่?

  • ความได้เปรียบของผู้เล่นรายใหญ่เดิม
    • ถึงอย่างนั้น OpenAI, Google DeepMind และ Anthropic ก็ยังคงมี ความได้เปรียบนำหน้าอยู่เล็กน้อย
    • OpenAI: มีแผนเปิดตัว GPT-4.5/GPT-5 ในเร็ว ๆ นี้ และหลังจากนั้นก็ยังพัฒนาโมเดล o4 ต่อ
    • Anthropic: มีแผนเปิดตัว Claude 4
    • Google DeepMind: กำลังปรับปรุง Gemini 2.0 เวอร์ชัน "Thinking-model" พร้อมพยายามลดต้นทุนและขยาย context window
  • อนาคตที่ไม่แน่นอน
    • ในปี 2024 หลายคนคาดว่า Google จะนำในการแข่งขัน AI แต่ตอนนี้ยังบอกไม่ได้อย่างมั่นใจ
    • การแข่งขัน AI ดุเดือดกว่าที่เคย และในการแข่งขัน AGI ก็ยัง ไม่มีผู้ชนะที่ชัดเจน
    • พาราไดม์ใหม่เอื้อให้ผู้มาทีหลัง และต้องการความสามารถในการปรับตัวอย่างรวดเร็ว
    • ยังไม่แน่ชัดว่า Google มีความคล่องตัวเช่นนั้นหรือไม่
    • หรืออีกทางหนึ่ง อาจเป็นแค่ Google สื่อสารผลงานของตัวเองได้ไม่ดีพอ
  • บทสรุป: การสเกลชนะในท้ายที่สุด
    • บทสรุปของบทความนี้ไม่ใช่การทำนายผู้ชนะของการแข่งขัน AI
    • บทเรียนสำคัญคือ ท้ายที่สุดแล้วการสเกลจะเอาชนะความเฉียบแหลมของมนุษย์ (ingenuity)
      • แม้จะน่าเสียดายที่ต้องบอกข่าวนี้ แต่บางเรื่องก็เกินกว่าที่เราจะต้านทานได้
    • ความสำเร็จของ Grok 3 เตือนเราอีกครั้งว่า ไม่ใช่ "อัลกอริทึมที่ฉลาดกว่า" แต่เป็น "พลังการประมวลผลที่มากกว่า" ที่ขับเคลื่อนพัฒนาการของ AI

3 ความคิดเห็น

 
kobings 2025-02-23

"OpenAI มีผู้ใช้งาน ChatGPT รายสัปดาห์ 300 ล้านคน"
ดูต้นฉบับแล้วเป็น 300M รบกวนแก้เป็น 300 ล้านด้วย

 
doolayer 2025-02-22

ตั้งฉากกันแต่ไม่ออร์โธนอร์มัล

 
GN⁺ 2025-02-21
ความคิดเห็นจาก Hacker News
  • การเกิดขึ้นของโมเดลระดับ "co-state-of-the-art" ไม่ใช่ชัยชนะของกฎการสเกล

    • แม้ xAI จะทุ่มคอมพิวต์ให้ Grok 3 มากขึ้น แต่ก็ไม่ได้แซงหน้าโมเดลเดิมอย่างชัดเจน ซึ่งอาจเป็นหลักฐานว่าการไฮเปอร์สเกลให้ผลเป็นเพียงการปรับปรุงแบบค่อยเป็นค่อยไป
    • การที่พลังคอมพิวต์มากขึ้นทำให้คอมพิวเตอร์ดีขึ้น เป็นข้อสังเกตที่แทบเป็นเรื่องธรรมดา
    • บทความนี้พยายามนำความต่างระหว่าง AI เชิงสัญลักษณ์ในยุค 70 กับโครงข่ายประสาทในยุค 2010 มาเทียบกับความต่างระหว่าง GPT-4 และ Grok 3
    • หลายคนสงสัยในประสิทธิภาพจริงของ Grok 3 และสงสัยว่ามันถูกฝึกมาให้เหมาะกับ benchmark เฉพาะบางตัว
    • Sabine Hossenfelder กล่าวถึงว่า Grok 3 ล้มเหลวในการอธิบายทฤษฎีบทของ Bell
    • สิ่งนี้แสดงให้เห็นว่าการสเกลขนาดใหญ่ไม่ได้ช่วยเพิ่มความฉลาด
  • Deepseek ใช้เวลา 17 เดือนเพื่อให้ได้ผลลัพธ์ระดับ SOTA และโมเดลของ xAI ก็ไม่ได้เหนือกว่า Deepseek R1 อย่างมาก

    • xAI จะลงทุน $2.5 billion จากทั้งหมด $3 billion ไปกับ GPU และอีก $0.5 billion ไปกับบุคลากร
    • Deepseek จะลงทุน $1 billion ไปกับ GPU และ $2 billion ไปกับบุคลากร
    • มีการอ้างว่าแนวทางของ Deepseek สามารถขยายต่อได้มากกว่า
  • มีความกังขาต่อผล 75% ของโมเดลที่ไม่ใช้การให้เหตุผลบน GPQA Diamond

    • xAI จะเปิดให้ใช้ Grok 3 API ในสัปดาห์หน้า จึงอยากตรวจสอบประสิทธิภาพจริงผ่านการประเมินด้วยตนเอง
    • ตัวเลขที่ว่า DeepSeek มี Hopper GPU 50k ตัวอาจเป็นตัวเลขที่พูดเกินจริง
    • ประกาศรับนักศึกษาฝึกงานของ DeepSeek ระบุเพียงว่า "เข้าถึง A100s จำนวน 10k ได้แบบไม่จำกัด"
  • มีการสรุปข้อสรุปแปลก ๆ จากความเปลี่ยนแปลงล่าสุด

    • แม้จะมีเงินทุนจำนวนมากไหลเข้าสู่กระแส AI แต่สิ่งนี้จะจบลงในไม่ช้า
    • คนที่มีประสบการณ์ด้านการปรับปรุงเทคโนโลยีมากจะอยู่ในตำแหน่งที่ได้เปรียบที่สุดในระยะยาว
  • หาก Grok มีสติปัญญาใกล้เคียงกับโมเดลชั้นนำอื่น ๆ ก็มีคำถามว่าธุรกิจใดจะเปลี่ยนมาใช้ Grok

  • เมื่อการใส่คอมพิวต์เพิ่มขึ้นทำให้ต้นทุนพุ่งไปถึงระดับหลายพันล้าน "บทเรียนอันขมขื่น" อาจไม่ได้เกี่ยวกับฮาร์ดแวร์อีกต่อไป แต่เกี่ยวกับเงิน

    • อาจมีเส้นทางที่โมเดลใช้พลังงานน้อยกว่าสามารถนำไปใช้งานได้จริงแม้ไม่มีเงินทุนจาก VC
  • ข้ออ้างของบทความเกี่ยวกับ "บทเรียนอันขมขื่น" พึ่งพาความผิดพลาดเชิงตรรกะ

    • มันวางกรอบให้การสเกลและการเพิ่มประสิทธิภาพเป็นกลยุทธ์ที่排斥กัน
    • นวัตกรรมเชิงอัลกอริทึมของ DeepSeek เข้ามาเสริมความพยายามด้านการสเกล
    • ข้ออ้างที่ว่าคอมพิวต์จะครอง "ยุคหลังการฝึก" มองข้ามปัจจัยรบกวนที่อาจเกิดขึ้น
  • น่าสนใจว่าการแย่งชิงบุคลากรจะพัฒนาไปอย่างไร

    • วิศวกรจำนวนมากรู้สึกผิดหวังกับ PR ที่เน้น DEI อย่างหนัก
    • มีคำถามว่าคนที่หลีกเลี่ยงความสัมพันธ์ใกล้ชิดกับจีนด้วยเหตุผลด้านจริยธรรม จะใช้มาตรฐานเดียวกันกับสหรัฐฯ หรือไม่
  • อีกหนึ่งบล็อกโพสต์ปั่นกระแส AI

    • ไม่มีแม้แต่การกล่าวถึงแท่งสีที่ต่างกันในผลลัพธ์ benchmark
    • Grok-3 ไม่ได้พิสูจน์หรือหักล้างกฎการสเกลอย่างมีนัยสำคัญ