เปิดตัว Grok 4
(twitter.com/xai)- Grok 4 คือโมเดล AI รุ่นล่าสุดที่ xAI เปิดตัวหลังจากผ่านไปราว 2 ปี โดยระบุว่าสามารถแสดง สติปัญญา และ ความสามารถในการให้เหตุผล ที่เหนือกว่านักศึกษาระดับบัณฑิตศึกษาในทุกสาขา
- ขนาดการฝึก และ ทรัพยากรการประมวลผล เพิ่มขึ้นมากกว่า 100 เท่า และพัฒนาโดยเน้น reinforcement learning (RL) จนพิสูจน์ ความสามารถในการแก้ปัญหาที่เหนือกว่าระดับมนุษย์
- ทำคะแนน ARC-AGI ได้ 15.9% พร้อมผลงานเด่นในการประเมิน การให้เหตุผลเชิงนามธรรมและสติปัญญาทั่วไป ซึ่งอยู่ในระดับสูงสุดของ AI ที่มีอยู่ในปัจจุบัน
- ในเบนช์มาร์กหลายรายการ เช่น Humanity’s Last Exam (HLE) แสดงผลลัพธ์ก้าวกระโดดที่ 26.9% เมื่อไม่ใช้เครื่องมือภายนอก และ 41~50.7% เมื่อใช้เครื่องมือ
- เพิ่ม Native Voice Mode สำหรับการสนทนาแบบเรียลไทม์ การถ่ายทอดอารมณ์ และการตอบสนองที่มีความหน่วงต่ำ เพื่อมอบ ปฏิสัมพันธ์ที่ใกล้เคียงมนุษย์
Grok 4
- xAI ที่ก่อตั้งโดย Elon Musk เปิดตัว Grok 4 หลังจากผ่านไปราว 2 ปี พร้อมเน้นย้ำว่าเป็น “โมเดล AI ที่ดีที่สุดในโลก”
- ทำคะแนน เต็ม ในการทดสอบมาตรฐานอย่าง SAT และ GRE และยังแสดงผลงานที่โดดเด่นอย่างไม่เคยมีมาก่อนกับ โจทย์ระดับบัณฑิตศึกษาและปริญญาเอก ในทุกสาขาวิชา
> "สำหรับคำถามเชิงวิชาการ Grok 4 ฉลาดกว่านักศึกษาระดับบัณฑิตศึกษาในทุกวิชา" - Grok 2 เป็นโมเดลเชิงแนวคิด, Grok 3 เน้นการ pretraining จากแหล่งข้อมูลที่หลากหลาย ส่วน Grok 4 ถูกฝึกด้วยทรัพยากรการประมวลผลและข้อมูลมากกว่า Grok 2 ถึง 100 เท่า และมากกว่า Grok 3 ถึง 10 เท่า
- ฝึกบนซูเปอร์คอมพิวเตอร์ Colossus (GPU 200,000 ตัว) โดย เน้นทั้ง pretraining และ RL
- มุ่งเน้น reinforcement learning (RL) โดยใช้โครงสร้าง แก้ไขความผิดพลาดของตัวเอง ที่ทำให้โมเดลรับฟีดแบ็กระหว่างกระบวนการแก้ปัญหาและค่อย ๆ ปรับปรุงประสิทธิภาพ
- เน้นว่ามีความก้าวหน้าอย่างมากในเวลาสั้น ๆ จาก ความสามารถในการแก้ปัญหาเชิงตรรกะ และแนวคิดแบบ “first principles”
โมเดล 2 เวอร์ชัน
- โมเดลพื้นฐาน Grok 4 และเวอร์ชันประสิทธิภาพสูง Grok 4 Heavy
- Grok 4 Heavy ใช้วิธี multi-agent โดยมีหลายเอเจนต์ช่วยกันแก้ปัญหาพร้อมกัน และเปรียบเทียบผลลัพธ์ระหว่างกันเพื่อค้นหาคำตอบที่ดีที่สุด เป็นการสร้าง collective intelligence
- ใช้งานได้ผ่านบริการสมัครสมาชิก SuperGrok Heavy (300 ดอลลาร์ต่อเดือน)
AGI Scoring Breakthrough
- Grok 4 ทำคะแนน ARC-AGI test ได้ 15.9% ซึ่งเป็นระดับแนวหน้าของอุตสาหกรรม
- ARC-AGI ใช้ประเมิน สติปัญญาทั่วไปและความสามารถในการแก้ปัญหาเชิงนามธรรมของโมเดล โดยเน้นการวัดความสามารถในการรับรู้แพตเทิร์นภาพและการประยุกต์ใช้กับสถานการณ์ใหม่
ผลงานใน Humanity's Last Exam (HLE)
-
Humanity’s Last Exam (HLE) ซึ่งเปิดตัวในเดือนมกราคม 2025 เป็นเบนช์มาร์กความยากสูงมากที่ประกอบด้วย กว่า 100 สาขา และ 2,500 ข้อ ครอบคลุมคณิตศาสตร์ ชีววิทยา สังคมศาสตร์ ฟิสิกส์ AI วิศวกรรม เคมี และอื่น ๆ
-
ผลคะแนนของ Grok 4: "อยู่ในระดับที่มนุษย์จริงหรือ AI แบบเดิมไม่สามารถเข้าถึงได้"
- ไม่ใช้เครื่องมือ: 26.9%
- ใช้เครื่องมือ (Grok 4 Heavy): 41%
- เพิ่มการประมวลผลระหว่างทดสอบ (32 เท่า): สูงสุด 50.7%
-
การไม่ใช้เครื่องมือ คือการแก้ปัญหาด้วยความสามารถด้านภาษาและการให้เหตุผลในตัวเท่านั้น ส่วน การใช้เครื่องมือ คือการผสานกับ ระบบ multi-agent เช่น การรันโค้ด การค้นเว็บ และการใช้ข้อมูลภายนอก
-
training compute ใช้ซูเปอร์คอมพิวเตอร์ Colossus ที่มี GPU 200,000 ตัวเพื่อฝึกทั้งความรู้ของโมเดลและความสามารถในการใช้เครื่องมือ ส่วน test-time compute คือการรันหลายโมเดลแบบขนานระหว่างการทำโจทย์ พร้อมกระบวนการตรวจสอบผลลัพธ์
> “Grok 4 อยู่ในระดับ PhD หรือสูงกว่านั้นในทุกสาขา”
> "คาดหวังได้ในเร็ว ๆ นี้แม้กระทั่ง การค้นพบเทคโนโลยีใหม่/ฟิสิกส์ใหม่"
คะแนนใน AI benchmark สำคัญ
- AIME: ความสามารถในการแก้โจทย์คณิตศาสตร์ซับซ้อนระดับมัธยมปลาย
- GPQA: การประเมินการให้เหตุผลเชิงวิทยาศาสตร์ระดับบัณฑิตศึกษา เช่น ฟิสิกส์
- LiveCodeBench: การวัดทักษะการเขียนโค้ดจากความท้าทายด้านการเขียนโปรแกรม Python
- MMLU-Pro: ความสามารถในการทำข้อสอบปรนัยความยากสูงในหลายสาขาเฉพาะทาง
- LOFT: การประเมินความสามารถในการดึงข้อมูลที่จำเป็นต่อคำค้นซับซ้อนจากข้อความยาว
กรณีใช้งานจริงและการประยุกต์ใช้ในโลกจริง
- ใน business simulation (VendingBench) Grok 4 แสดงผลงานและความสม่ำเสมอ ดีกว่าโมเดลก่อนหน้ามากกว่า 2 เท่า พร้อมพิสูจน์ความสามารถในการวางกลยุทธ์ระยะยาว
- ใน ห้องปฏิบัติการวิทยาศาสตร์ชีวภาพ เป็นต้น ได้มีการนำไปใช้วิเคราะห์ล็อกการทดลองขนาดใหญ่ สร้างสมมติฐาน และอ่านผลภาพทางการแพทย์ จนพิสูจน์ประสิทธิภาพในการทำงานจริง
- ด้านการพัฒนาเกม ยังช่วยให้ นักพัฒนาเพียงคนเดียว สร้างเกม 3D ได้รวดเร็วขึ้น ตั้งแต่ การรวบรวมแอสเซตเกมอัตโนมัติ ไปจนถึงการสร้างโค้ด
นวัตกรรมของ Native Voice Mode
- Grok 4 รองรับ การสนทนาด้วยเสียงแบบเรียลไทม์ พร้อม การขัดจังหวะอย่างเป็นธรรมชาติ การเข้าใจและถ่ายทอดน้ำเสียงเชิงอารมณ์ และ การตอบสนองความหน่วงต่ำมาก มอบ ปฏิสัมพันธ์แบบมนุษย์ ที่เหนือกว่าระบบ TTS เดิม
- มีการเพิ่มเสียงหลายรูปแบบ (เช่น สำเนียงอังกฤษ, สไตล์ตัวอย่างหนัง เป็นต้น) และสาธิตสดให้เห็นความลื่นไหล ความรวดเร็ว และความยืดหยุ่นในการใช้งานของ การสนทนาแบบเรียลไทม์
API และการขยายระบบนิเวศ
- Grok 4 เปิดให้ใช้งานผ่าน API ด้วย ทำให้ทุกคนสามารถใช้ทดสอบ benchmark และประยุกต์ใช้ทางธุรกิจได้
- ขณะนี้มีพาร์ตเนอร์ใน หลากหลายสาขา เช่น การเงิน วิทยาศาสตร์ และบันเทิง ที่เริ่มนำไปใช้งานแล้ว ช่วยเพิ่มผลกระทบในโลกจริง
- รองรับ 256k context length เพื่อเสริมความสามารถในการจัดการงานที่เป็นข้อความยาวและซับซ้อน
ข้อจำกัดและการพัฒนาต่อจากนี้
- ในตอนนี้ จุดอ่อนที่ใหญ่ที่สุด ของ Grok 4 คือความสามารถด้าน multimodal ทั้งการเข้าใจและการสร้างภาพหรือวิดีโอที่ยังไม่เพียงพอ
- มีแผนปรับปรุงแบบรอบด้านทั้ง vision, video, audio ด้วย v7 foundation model ที่ใกล้ฝึกเสร็จ และ RL ที่เสริมความแข็งแกร่งยิ่งขึ้น
- มีการประกาศเตรียมพัฒนาและเปิดตัวโมเดล video generation โดยใช้ GPU 100,000+ GB200
โรดแมปถัดไปของ xAI
- สิงหาคม 2025: เตรียมเปิดตัวโมเดลสำหรับการเขียนโค้ด
- กันยายน 2025: เตรียมเปิดตัว multimodal agent
- ตุลาคม 2025: มีแผนประกาศโมเดลสร้างวิดีโอ
- จะเดินหน้าเสริมทั้งเครื่องมือและประสิทธิภาพของโมเดลอย่างต่อเนื่อง
บทสรุปและนัยสำคัญ
- Grok 4 พิสูจน์แล้วว่าสามารถ แข่งขันหรือก้าวนำ AI ชั้นนำในปัจจุบันได้จริง ในด้าน การให้เหตุผลและการแก้ปัญหาเชิงวิชาการ
- ด้วย สติปัญญาและความสามารถในการให้เหตุผลที่ไม่เคยมีมาก่อน, ปฏิสัมพันธ์ด้วยเสียงแบบเรียลไทม์, การใช้เครื่องมือ และโครงสร้าง multi-agent จึงชี้ให้เห็นจุดเปลี่ยนสำคัญสู่ AGI ยุคถัดไป
- พร้อมด้วย ศักยภาพในการขยายไปสู่งานจริง/ธุรกิจ/เกม/งานวิจัย/ความบันเทิง ในหลากหลายด้าน xAI อาจก้าวขึ้นเป็นบริษัท AGI ที่เคลื่อนที่เร็วที่สุด
- รอบการพัฒนาที่รวดเร็วและการรุกอย่างหนักของ xAI สะท้อนให้เห็นว่าการแข่งขันในอุตสาหกรรม AI กำลัง เร่งตัวขึ้นอย่างต่อเนื่อง
6 ความคิดเห็น
ตอนนี้ Grok 4 เป็นโมเดล AI ชั้นนำแล้ว
รีวิว Grok 4 โดย Simon Willison
Grok ค้นหาว่า Elon Musk พูดอะไรบน X เกี่ยวกับประเด็นอิสราเอล-ปาเลสไตน์
คงต้องลองใช้จริงถึงจะรู้ แต่ถ้ามีทั้ง GPU 200,000 ตัวและแหล่งบุคลากร ก็สามารถเติบโตแบบเดินเกมรุกได้ขนาดนี้เลยสินะ
ถ้า Colossus มี GPU ถึง 1,000,000 ตัวแล้วจะดีขึ้นได้อีกแค่ไหนกันนะ
ถ้าคิดราคา H100 ที่ 50 ล้านวอนต่อการ์ด แค่ราคา GPU อย่างเดียวก็ 50 ล้านล้านวอนแล้ว พอต้องสร้างดาต้าเซ็นเตอร์และต้องมีไฟฟ้ารอบข้างเพิ่มอีก บอกว่าต้องใส่เพิ่มอีกราว 20 ล้านล้านวอน ก็รวมเป็น 70 ล้านล้านวอนเลยนะ ดูเหมือนว่า AI จะยิ่งกลายเป็นเกมของคนที่มีเงินมากขึ้นเรื่อย ๆ
จู่ ๆ ทำไมถึงลากนักศึกษาปริญญาโทมาโดนด่าด้วยล่ะเนี่ย 555
555555 นักศึกษาปริญญาโทที่อยู่ดี ๆ ก็โดนลูกหลงเข้าอย่างจัง งงไปเลย ..
ผมเข้าใจว่า Grok 4 น่าทึ่งมาก แต่สำนวนแบบโลกแองโกลที่ว่า “คาดหวังได้ว่าอีกไม่นานจะค้นพบเทคโนโลยีใหม่/ฟิสิกส์ใหม่ได้ด้วย” ก็ดูน่าสนุกดีนะ ถ้าอีกไม่นานช่วยพิสูจน์/หักล้างสมมติฐานรีมันน์ได้ ก็คงไม่ต้องมีเบนช์มาร์กอะไรอีกต่อไปแล้วใช่ไหม?
ความคิดเห็นจาก Hacker News
#!/bin/bashcommand) มันยังwgetsoftware artifact เวอร์ชันล่าสุดจาก GitHub ด้วย URL ที่ถูกต้องเป๊ะ น่าประทับใจมาก