เปิดตัว Grok 4

(twitter.com/xai)

7 คะแนน โดย GN⁺ 2025-07-11 | 6 ความคิดเห็น | แชร์ทาง WhatsApp

Grok 4 คือโมเดล AI รุ่นล่าสุดที่ xAI เปิดตัวหลังจากผ่านไปราว 2 ปี โดยระบุว่าสามารถแสดง สติปัญญา และ ความสามารถในการให้เหตุผล ที่เหนือกว่านักศึกษาระดับบัณฑิตศึกษาในทุกสาขา
ขนาดการฝึก และ ทรัพยากรการประมวลผล เพิ่มขึ้นมากกว่า 100 เท่า และพัฒนาโดยเน้น reinforcement learning (RL) จนพิสูจน์ ความสามารถในการแก้ปัญหาที่เหนือกว่าระดับมนุษย์
ทำคะแนน ARC-AGI ได้ 15.9% พร้อมผลงานเด่นในการประเมิน การให้เหตุผลเชิงนามธรรมและสติปัญญาทั่วไป ซึ่งอยู่ในระดับสูงสุดของ AI ที่มีอยู่ในปัจจุบัน
ในเบนช์มาร์กหลายรายการ เช่น Humanity’s Last Exam (HLE) แสดงผลลัพธ์ก้าวกระโดดที่ 26.9% เมื่อไม่ใช้เครื่องมือภายนอก และ 41~50.7% เมื่อใช้เครื่องมือ
เพิ่ม Native Voice Mode สำหรับการสนทนาแบบเรียลไทม์ การถ่ายทอดอารมณ์ และการตอบสนองที่มีความหน่วงต่ำ เพื่อมอบ ปฏิสัมพันธ์ที่ใกล้เคียงมนุษย์

Grok 4

xAI ที่ก่อตั้งโดย Elon Musk เปิดตัว Grok 4 หลังจากผ่านไปราว 2 ปี พร้อมเน้นย้ำว่าเป็น “โมเดล AI ที่ดีที่สุดในโลก”
ทำคะแนน เต็ม ในการทดสอบมาตรฐานอย่าง SAT และ GRE และยังแสดงผลงานที่โดดเด่นอย่างไม่เคยมีมาก่อนกับ โจทย์ระดับบัณฑิตศึกษาและปริญญาเอก ในทุกสาขาวิชา
> "สำหรับคำถามเชิงวิชาการ Grok 4 ฉลาดกว่านักศึกษาระดับบัณฑิตศึกษาในทุกวิชา"
Grok 2 เป็นโมเดลเชิงแนวคิด, Grok 3 เน้นการ pretraining จากแหล่งข้อมูลที่หลากหลาย ส่วน Grok 4 ถูกฝึกด้วยทรัพยากรการประมวลผลและข้อมูลมากกว่า Grok 2 ถึง 100 เท่า และมากกว่า Grok 3 ถึง 10 เท่า
ฝึกบนซูเปอร์คอมพิวเตอร์ Colossus (GPU 200,000 ตัว) โดย เน้นทั้ง pretraining และ RL
- มุ่งเน้น reinforcement learning (RL) โดยใช้โครงสร้าง แก้ไขความผิดพลาดของตัวเอง ที่ทำให้โมเดลรับฟีดแบ็กระหว่างกระบวนการแก้ปัญหาและค่อย ๆ ปรับปรุงประสิทธิภาพ
- เน้นว่ามีความก้าวหน้าอย่างมากในเวลาสั้น ๆ จาก ความสามารถในการแก้ปัญหาเชิงตรรกะ และแนวคิดแบบ “first principles”

โมเดล 2 เวอร์ชัน

โมเดลพื้นฐาน Grok 4 และเวอร์ชันประสิทธิภาพสูง Grok 4 Heavy
Grok 4 Heavy ใช้วิธี multi-agent โดยมีหลายเอเจนต์ช่วยกันแก้ปัญหาพร้อมกัน และเปรียบเทียบผลลัพธ์ระหว่างกันเพื่อค้นหาคำตอบที่ดีที่สุด เป็นการสร้าง collective intelligence
- ใช้งานได้ผ่านบริการสมัครสมาชิก SuperGrok Heavy (300 ดอลลาร์ต่อเดือน)

AGI Scoring Breakthrough

Grok 4 ทำคะแนน ARC-AGI test ได้ 15.9% ซึ่งเป็นระดับแนวหน้าของอุตสาหกรรม
ARC-AGI ใช้ประเมิน สติปัญญาทั่วไปและความสามารถในการแก้ปัญหาเชิงนามธรรมของโมเดล โดยเน้นการวัดความสามารถในการรับรู้แพตเทิร์นภาพและการประยุกต์ใช้กับสถานการณ์ใหม่

ผลงานใน Humanity's Last Exam (HLE)

Humanity’s Last Exam (HLE) ซึ่งเปิดตัวในเดือนมกราคม 2025 เป็นเบนช์มาร์กความยากสูงมากที่ประกอบด้วย กว่า 100 สาขา และ 2,500 ข้อ ครอบคลุมคณิตศาสตร์ ชีววิทยา สังคมศาสตร์ ฟิสิกส์ AI วิศวกรรม เคมี และอื่น ๆ
ผลคะแนนของ Grok 4: "อยู่ในระดับที่มนุษย์จริงหรือ AI แบบเดิมไม่สามารถเข้าถึงได้"
- ไม่ใช้เครื่องมือ: 26.9%
- ใช้เครื่องมือ (Grok 4 Heavy): 41%
- เพิ่มการประมวลผลระหว่างทดสอบ (32 เท่า): สูงสุด 50.7%
การไม่ใช้เครื่องมือ คือการแก้ปัญหาด้วยความสามารถด้านภาษาและการให้เหตุผลในตัวเท่านั้น ส่วน การใช้เครื่องมือ คือการผสานกับ ระบบ multi-agent เช่น การรันโค้ด การค้นเว็บ และการใช้ข้อมูลภายนอก
training compute ใช้ซูเปอร์คอมพิวเตอร์ Colossus ที่มี GPU 200,000 ตัวเพื่อฝึกทั้งความรู้ของโมเดลและความสามารถในการใช้เครื่องมือ ส่วน test-time compute คือการรันหลายโมเดลแบบขนานระหว่างการทำโจทย์ พร้อมกระบวนการตรวจสอบผลลัพธ์

> “Grok 4 อยู่ในระดับ PhD หรือสูงกว่านั้นในทุกสาขา”
> "คาดหวังได้ในเร็ว ๆ นี้แม้กระทั่ง การค้นพบเทคโนโลยีใหม่/ฟิสิกส์ใหม่"

คะแนนใน AI benchmark สำคัญ

AIME: ความสามารถในการแก้โจทย์คณิตศาสตร์ซับซ้อนระดับมัธยมปลาย
GPQA: การประเมินการให้เหตุผลเชิงวิทยาศาสตร์ระดับบัณฑิตศึกษา เช่น ฟิสิกส์
LiveCodeBench: การวัดทักษะการเขียนโค้ดจากความท้าทายด้านการเขียนโปรแกรม Python
MMLU-Pro: ความสามารถในการทำข้อสอบปรนัยความยากสูงในหลายสาขาเฉพาะทาง
LOFT: การประเมินความสามารถในการดึงข้อมูลที่จำเป็นต่อคำค้นซับซ้อนจากข้อความยาว

กรณีใช้งานจริงและการประยุกต์ใช้ในโลกจริง

ใน business simulation (VendingBench) Grok 4 แสดงผลงานและความสม่ำเสมอ ดีกว่าโมเดลก่อนหน้ามากกว่า 2 เท่า พร้อมพิสูจน์ความสามารถในการวางกลยุทธ์ระยะยาว
ใน ห้องปฏิบัติการวิทยาศาสตร์ชีวภาพ เป็นต้น ได้มีการนำไปใช้วิเคราะห์ล็อกการทดลองขนาดใหญ่ สร้างสมมติฐาน และอ่านผลภาพทางการแพทย์ จนพิสูจน์ประสิทธิภาพในการทำงานจริง
ด้านการพัฒนาเกม ยังช่วยให้ นักพัฒนาเพียงคนเดียว สร้างเกม 3D ได้รวดเร็วขึ้น ตั้งแต่ การรวบรวมแอสเซตเกมอัตโนมัติ ไปจนถึงการสร้างโค้ด

นวัตกรรมของ Native Voice Mode

Grok 4 รองรับ การสนทนาด้วยเสียงแบบเรียลไทม์ พร้อม การขัดจังหวะอย่างเป็นธรรมชาติ การเข้าใจและถ่ายทอดน้ำเสียงเชิงอารมณ์ และ การตอบสนองความหน่วงต่ำมาก มอบ ปฏิสัมพันธ์แบบมนุษย์ ที่เหนือกว่าระบบ TTS เดิม
มีการเพิ่มเสียงหลายรูปแบบ (เช่น สำเนียงอังกฤษ, สไตล์ตัวอย่างหนัง เป็นต้น) และสาธิตสดให้เห็นความลื่นไหล ความรวดเร็ว และความยืดหยุ่นในการใช้งานของ การสนทนาแบบเรียลไทม์

API และการขยายระบบนิเวศ

Grok 4 เปิดให้ใช้งานผ่าน API ด้วย ทำให้ทุกคนสามารถใช้ทดสอบ benchmark และประยุกต์ใช้ทางธุรกิจได้
ขณะนี้มีพาร์ตเนอร์ใน หลากหลายสาขา เช่น การเงิน วิทยาศาสตร์ และบันเทิง ที่เริ่มนำไปใช้งานแล้ว ช่วยเพิ่มผลกระทบในโลกจริง
รองรับ 256k context length เพื่อเสริมความสามารถในการจัดการงานที่เป็นข้อความยาวและซับซ้อน

ข้อจำกัดและการพัฒนาต่อจากนี้

ในตอนนี้ จุดอ่อนที่ใหญ่ที่สุด ของ Grok 4 คือความสามารถด้าน multimodal ทั้งการเข้าใจและการสร้างภาพหรือวิดีโอที่ยังไม่เพียงพอ
มีแผนปรับปรุงแบบรอบด้านทั้ง vision, video, audio ด้วย v7 foundation model ที่ใกล้ฝึกเสร็จ และ RL ที่เสริมความแข็งแกร่งยิ่งขึ้น
มีการประกาศเตรียมพัฒนาและเปิดตัวโมเดล video generation โดยใช้ GPU 100,000+ GB200

โรดแมปถัดไปของ xAI

สิงหาคม 2025: เตรียมเปิดตัวโมเดลสำหรับการเขียนโค้ด
กันยายน 2025: เตรียมเปิดตัว multimodal agent
ตุลาคม 2025: มีแผนประกาศโมเดลสร้างวิดีโอ
จะเดินหน้าเสริมทั้งเครื่องมือและประสิทธิภาพของโมเดลอย่างต่อเนื่อง

บทสรุปและนัยสำคัญ

Grok 4 พิสูจน์แล้วว่าสามารถ แข่งขันหรือก้าวนำ AI ชั้นนำในปัจจุบันได้จริง ในด้าน การให้เหตุผลและการแก้ปัญหาเชิงวิชาการ
ด้วย สติปัญญาและความสามารถในการให้เหตุผลที่ไม่เคยมีมาก่อน, ปฏิสัมพันธ์ด้วยเสียงแบบเรียลไทม์, การใช้เครื่องมือ และโครงสร้าง multi-agent จึงชี้ให้เห็นจุดเปลี่ยนสำคัญสู่ AGI ยุคถัดไป
พร้อมด้วย ศักยภาพในการขยายไปสู่งานจริง/ธุรกิจ/เกม/งานวิจัย/ความบันเทิง ในหลากหลายด้าน xAI อาจก้าวขึ้นเป็นบริษัท AGI ที่เคลื่อนที่เร็วที่สุด
รอบการพัฒนาที่รวดเร็วและการรุกอย่างหนักของ xAI สะท้อนให้เห็นว่าการแข่งขันในอุตสาหกรรม AI กำลัง เร่งตัวขึ้นอย่างต่อเนื่อง

6 ความคิดเห็น

xguru 2025-07-13

ตอนนี้ Grok 4 เป็นโมเดล AI ชั้นนำแล้ว
รีวิว Grok 4 โดย Simon Willison
Grok ค้นหาว่า Elon Musk พูดอะไรบน X เกี่ยวกับประเด็นอิสราเอล-ปาเลสไตน์

xguru 2025-07-11

คงต้องลองใช้จริงถึงจะรู้ แต่ถ้ามีทั้ง GPU 200,000 ตัวและแหล่งบุคลากร ก็สามารถเติบโตแบบเดินเกมรุกได้ขนาดนี้เลยสินะ
ถ้า Colossus มี GPU ถึง 1,000,000 ตัวแล้วจะดีขึ้นได้อีกแค่ไหนกันนะ

ถ้าคิดราคา H100 ที่ 50 ล้านวอนต่อการ์ด แค่ราคา GPU อย่างเดียวก็ 50 ล้านล้านวอนแล้ว พอต้องสร้างดาต้าเซ็นเตอร์และต้องมีไฟฟ้ารอบข้างเพิ่มอีก บอกว่าต้องใส่เพิ่มอีกราว 20 ล้านล้านวอน ก็รวมเป็น 70 ล้านล้านวอนเลยนะ ดูเหมือนว่า AI จะยิ่งกลายเป็นเกมของคนที่มีเงินมากขึ้นเรื่อย ๆ

jujumilk3 2025-07-11

จู่ ๆ ทำไมถึงลากนักศึกษาปริญญาโทมาโดนด่าด้วยล่ะเนี่ย 555

sknah 2025-07-11

555555 นักศึกษาปริญญาโทที่อยู่ดี ๆ ก็โดนลูกหลงเข้าอย่างจัง งงไปเลย ..

lcanon 2025-07-11

ผมเข้าใจว่า Grok 4 น่าทึ่งมาก แต่สำนวนแบบโลกแองโกลที่ว่า “คาดหวังได้ว่าอีกไม่นานจะค้นพบเทคโนโลยีใหม่/ฟิสิกส์ใหม่ได้ด้วย” ก็ดูน่าสนุกดีนะ ถ้าอีกไม่นานช่วยพิสูจน์/หักล้างสมมติฐานรีมันน์ได้ ก็คงไม่ต้องมีเบนช์มาร์กอะไรอีกต่อไปแล้วใช่ไหม?

GN⁺ 2025-07-11

ความคิดเห็นจาก Hacker News

โมเดล "Heavy" ราคา 300 ดอลลาร์ต่อเดือน รู้สึกว่าราคาสูงขึ้นเรื่อย ๆ เมื่อก่อนเหมือนเคยได้ยินสัญญาว่าราคาจะลดลงต่อเนื่อง คงเป็นเพราะมีหลายบริษัทที่ GPU ไม่พอ เลยเกิดปรากฏการณ์แบบนี้ แต่บริษัทอย่าง Google น่าจะไม่มีปัญหานี้ ตอนนี้ก็ใช้ Gemini 2.5 Pro ฟรีใน AI studio อยู่แล้ว และแม้จะตั้งไปถึง 32k ก็ยังไม่เสียค่าใช้จ่ายเลย แอบหวังว่า Gemini 3.0 อาจเปิดให้ใช้ฟรีด้วยเหมือนกัน
- ดูเหมือนไม่เคยมีใครสัญญาว่าโมเดลสมรรถนะสูงจะต้องราคาถูกเสมอไปนะ ถ้าเทียบที่ระดับประสิทธิภาพและจำนวนโทเคนเท่ากัน ราคาก็กำลังลดลงอยู่ เหมือนกฎของมัวร์ที่ชิปซับซ้อนขึ้นเรื่อย ๆ แต่ประสิทธิภาพต่อหน่วยกลับถูกลง
- หลักการก็คล้ายกับที่ Ferrari แพงกว่า Model T หรือคอมพิวเตอร์ที่แพงที่สุดทุกวันนี้แพงกว่า PC เครื่องแรกแบบเทียบกันไม่ติด ราคาที่ลดลงจริง ๆ คือระดับเริ่มต้น หรือไลน์ที่คงประสิทธิภาพเดิมไว้ ขณะที่ช่วงราคาทั้งหมดกว้างขึ้นเรื่อย ๆ ซึ่งเป็นเรื่องปกติ ผมมองว่านี่เป็นสัญญาณว่าอุตสาหกรรมกำลังเติบโตเป็นผู้ใหญ่มากขึ้น ต่างกันตรงที่รอบนี้ระดับเริ่มต้นเคยถูกกดให้เป็น 0 หรือถูกมากแบบผิดธรรมชาติจากเงินทุน VC
- อีกจุดสำคัญคือ Gemini เองก็ขึ้นราคาต่อเนื่องเหมือนกัน ลิงก์ที่เกี่ยวข้อง
- นี่คือปรากฏการณ์ที่ต้นทุนสเกลตามเวลาในการให้เหตุผล (inference time) สุดท้ายช่องว่างระหว่าง "คนที่เข้าถึงได้" กับ "คนที่เข้าไม่ถึง" ในต้นทุนการเข้าถึง AI น่าจะยิ่งกว้างขึ้น คนส่วนใหญ่ของโลกจ่ายค่าสมาชิกร้อยดอลลาร์ไม่ได้
- O3 เพิ่งลดราคา 80% ไปไม่นาน Grok4 ก็เพิ่งเปิดตัว ประสิทธิภาพดีและราคาก็ค่อนข้างสมเหตุสมผล ถ้าไม่ใช่รุ่น heavy ราคาต่อ token ก็เท่ากับ grok 3 ส่วน Google น่าจะยอมแบกรับต้นทุนเพื่อเพิ่มการรับรู้ในตลาด เลยไม่ค่อยเข้าใจข้อบ่นในต้นฉบับเท่าไร
ดูเหมือนว่าของที่ออกมาคราวนี้จะเป็น SOTA (State of the Art, โมเดลที่ดีที่สุดล่าสุด) ใหม่จริง ๆ คะแนนเหนือกว่า o3, Gemini, Claude อย่างชัดเจนใน Human’s Last Exam, GPQA, AIME25, HMMT25, USAMO 2025, LiveCodeBench, ARC-AGI 1, 2 และอื่น ๆ อีกไม่กี่สัปดาห์ก็มีแผนจะออกโมเดลเฉพาะทางด้านโค้ดด้วย สังเกตได้ว่าวันนี้ยังไม่ได้พูดเรื่องประสิทธิภาพด้านโค้ดมากนัก
- เห็นด้วย วันนี้ตอนดูการจำลองเวิลด์ซีรีส์รู้สึกถึงการให้เหตุผลที่ไม่นิ่ง มันดึงตัวเลขจาก Polymarket มาตอบเหมือนเป็นข้อมูลของตัวเอง แน่นอนว่าอาจเป็นเพราะผมดูไม่ละเอียดจนเข้าใจผิด แต่พอเห็นกรณีแบบนี้ก็ยิ่งรู้สึกว่าทีมความปลอดภัยของโมเดลบุกเบิกจำเป็นต้องมีคนที่มีมุมมองเชิงสงสัยอยู่เสมอ ถึงอย่างนั้นก็ยังเป็นความก้าวหน้าที่มหาศาล ถ้า benchmark ไม่ปนเปื้อน ก็น่าจะดังระเบิดในฐานะ daily driver ด้านโค้ดมีจุดที่น่าเสียดายแค่คอนเท็กซ์ 256k เท่านั้น หวังว่า v7 จะปรับปรุงคอนเท็กซ์ให้ยาวขึ้น โดยเฉพาะด้านวิดีโอ ยังไงก็อยากลองใช้เร็ว ๆ นี้
- อยากให้โมเดลสำหรับโค้ดถูกนำไปใส่ใน coding agent ด้วย แต่ตอนนี้หาไม่เจอจากที่ไหนเลย
- เรื่องที่ว่าพอเซ็นเซอร์โมเดลแล้วคะแนนจะตกฮวบเป็นสิ่งที่พิสูจน์มานานแล้ว เช่น แน่นอนว่าต้องกันเรื่องวิธีทำระเบิด แต่ Grok 3 ก็เข้าถึงข้อมูลแย่ ๆ ที่สุดได้ ขณะเดียวกันก็ยังคงมีจุดยืนแบบก้าวหน้าอย่างต่อเนื่องด้วยนะ (ถ้าคิดถึงฉากหลังของสปอนเซอร์)
- ต่อให้ไม่ได้ชอบ Elon Musk ก็ยังน่าทึ่งมากที่ Grok ไล่ตามมาจนอยู่ระดับเดียวกับ 3 ยักษ์ใหญ่อย่าง Google, OpenAI, Anthropic ได้แล้ว ตอนนี้แทบจะพอ ๆ กัน
เพิ่งลองใช้ Grok 4 ไปเมื่อกี้ ดีมากจริง ๆ มันสร้างโค้ด Java CDK สำหรับ deploy EC2 instance ยาว 1000 บรรทัดได้ในครั้งเดียว รวมทั้ง VPC และ Security Groups ด้วย โดยไม่มี syntax error เลย โดยเฉพาะตอนสร้าง userData (#!/bin/bash command) มันยัง wget software artifact เวอร์ชันล่าสุดจาก GitHub ด้วย URL ที่ถูกต้องเป๊ะ น่าประทับใจมาก
- ถ้าแชร์ผลลัพธ์ได้ อยากเห็นมาก ผมว่าถ้าโค้ดเยอะขนาดนี้ออกมาครั้งเดียวโดยไม่มี error เลยก็น่าตกใจจริง ๆ สงสัยว่า grok ใช้เครื่องมืออย่าง linter, sandbox execution, web search ฯลฯ กับคำถามแบบนี้ด้วยไหม
- ถ้าเป็นโค้ดใช้ครั้งเดียวถือว่าเยี่ยม แต่ถ้าจะให้เป็นโค้ดที่ดูแลรักษาได้ และต้องรองรับ source control, การทำงานร่วมกัน, การปฏิบัติตามมาตรฐาน SDLC, immutability, และการจัดการประวัติการเปลี่ยนสถานะ ก็ยังห่างไกลมาก ถ้ามีเด็กฝึกงานเขียนโค้ด deploy EC2 แบบนี้มา ผมคงต้องคุยยาวทีละการตัดสินใจ
- สงสัยว่าทำไมถึงเขียน CDK เป็น Java แทนที่จะใช้ typescript ถามเพราะอยากรู้ว่าตั้งใจรวมทุก environment ให้เป็นภาษาเดียวกันหรือเปล่า
กลเม็ดหลักของ Grok Heavy คือรันหลายเอเจนต์แบบขนานแล้วเอาผลลัพธ์มาเทียบกัน โดยรวมแล้วผล benchmark น่าประทับใจมาก มันจะแพงและช้าก็ช่วยไม่ได้ แต่นี่คือทิศทางเชิงตรรกะของการออกแบบเอเจนต์ยุคถัดไป อยากลองใช้จริง ๆ อ้อ แล้ว API ก็เปิดแล้วเหมือนกัน ดูเหมือน xAI จะทำสำเร็จอะไรบางอย่างจริง ๆ
- เข้าใจว่ามันทำงานยังไง แต่ก็ยังรู้สึกเหมือนเป็น "hack" อยู่ดี รู้สึกว่า LLM เองไม่ได้ก้าวหน้าแบบชัดเจนแล้ว มีแค่ขยายขอบเขตในด้านความลึก ความยาว ความกว้าง สุดท้ายก็เติบโตด้วยการเอาเครื่องมือหรือ logic ที่ "ไม่ใช่ AI" มาพอกไว้รอบ ๆ ผมคิดว่าทิศทางนี้อาจเป็นคำตอบก็ได้ เหมือนสมัยวิธีแบบ neural network ดิบ ๆ ที่คำตอบจริง ๆ คือรอให้ฮาร์ดแวร์โตแบบก้าวกระโดด
- ถึงจะแพงและช้า แต่ในโลกจริง ถ้าจะฝึก SOTA รุ่นถัดไป ยังไงก็ต้องใช้วิธีแนวนี้อยู่แล้ว เช่น ใช้ synthetic data ดี ๆ ผ่าน rejection sampling การเก็บเงินผู้ใช้ 300 ดอลลาร์เพื่อให้ประสบการณ์แบบนี้ก็ดูเป็นดีลที่สมเหตุสมผลมาก
- คล้าย llm-consortium แต่ต่างกันตรงความหลากหลายของโมเดลยังน้อยกว่า ดู ทวีตของ karpathy และ โอเพนซอร์ส llm-consortium ได้
- ส่วนตัวหวังว่าจะมีที่อื่นเอาเทคนิคแบบนี้ไปทำมากกว่าบริษัทที่ "มีปัญหา" ผมอยากรักษาหลักการของตัวเองไว้บ้าง
- คิดว่า o3 pro ก็น่าจะทำงานแนวนี้เหมือนกัน
ถ้าไม่มีเวลานั่งดูวิดีโอเปิดตัว ผมทำคลิปสั้นไว้แล้ว สรุปคือสุดยอดมากและการแข่งขัน AI ก็ยิ่งดุเดือดขึ้นเรื่อย ๆ ดู Short Clips
ผมใช้ Grok 4 แก้ปัญหาพฤติกรรมไม่สม่ำเสมอของการรัน lldb จาก Python ได้ มีความต่างกันระหว่าง Docker กับ Linux ในเครื่องผม สาเหตุคือ address sanitizer ทำงานต่างกันตาม environment จุดนี้ O3 จับไม่ได้ แต่ Grok 4 ชี้ได้ตรงมากจนทึ่ง
"Grok 4 (Thinking)" ทำได้ 15.9% บน ARC-AGI-2 ยกระดับจาก SOTA เชิงพาณิชย์เดิมเกือบเท่าตัว และยังทำลายสถิติสูงสุดปัจจุบันของการแข่งขัน Kaggle ด้วย รายละเอียด
มันน่าประทับใจมากก็จริง แต่ก็สงสัยมากว่าบริษัทต่าง ๆ จะเลือกโมเดลที่ถูก post-train ให้เข้ากับแนวคิดส่วนตัวของ Elon มาเป็น API provider ได้ง่ายแค่ไหน ด้านเทคนิคอาจยอดเยี่ยม แต่ในเชิงธุรกิจดูมีข้อจำกัด
ผมไม่ใช้ API ของ Grok แต่ถ้าใช้ทำ deep research มันอยู่ระดับท็อปเสมอ และ Grok 4 ก็ดูเหมือนจะยิ่งเพิ่มศักยภาพตรงนั้น
- การเชื่อม Grok เข้ากับ Twitter นี่ถือว่าเป็น use case ที่ดีที่สุดแบบทิ้งห่างเลย ในทวีตสามารถถามความหมายของบริบทหรือศัพท์แบบเรียลไทม์ได้ทันที รู้สึกว่ามีประโยชน์มาก
- สำหรับผม OpenAI ยังดีกว่าคู่แข่งทั้งหมดอย่างชัดเจน (แม้จะยังไม่ถึงกับเรียกว่าดีมาก) แต่ก็จริงที่ Grok เด่นที่สุดในเรื่องอัปเดตแบบเรียลไทม์หรือคำถามแนว IT support
- อยากฟังให้ชัดกว่านี้หน่อยว่า <deep research> หมายถึงอะไร
สงสัยว่ามีใครเคยเชื่อมต่อกับ Grok ไหม ผมเชื่อม LLM มาเยอะมาก แต่ยังไม่เคยเห็นเคสที่ใช้ Grok จริง ๆ ถ้าไม่แก้จุดนี้ก็คงไม่มีใครเชื่อถือโมเดลนี้ และองค์กรก็คงไม่ใช้จนกว่าจะได้เห็นความสามารถที่พิสูจน์ได้จริง อีกอย่างมันก็ไม่ได้ให้บรรยากาศแบบองค์กรเลย
- Grok 3 อยู่บน Azure AI Foundry แล้ว และก็ประกาศเชื่อมกับ Telegram ด้วย แต่จริง ๆ คือฝั่ง Grok จ่ายเงินให้ Telegram 300 ล้านดอลลาร์ ลิงก์ แนะนำ Grok 3 และ mini บน Azure Foundry, บทความ BBC ยังไงก็ตาม ผมคิดว่าการเลือก Grok มีความเสี่ยงด้านชื่อเสียงอย่างจริงจัง
- ผมยิ่งสงสัยว่า Grok ไปดึงคนเก่งมาจากไหนและอย่างไร ทุกวันนี้ในวงการนี้เงินก็ล้น ห้องแล็บดี ๆ ก็เยอะ การย้ายงานคงตัดสินใจยากหากไม่มีอุดมการณ์หรือความเชื่อที่แรงพอ ผมสงสัยจริง ๆ ว่ามีนักวิจัย AI มากขนาดไหนที่อยากยกให้ Elon เป็นจักรพรรดิ
- ผมใช้ Grok วิเคราะห์ภาพอาหารในเชิงภาพ แล้วมันทำงานได้ดี รู้จำแบรนด์ได้ดี และยังเข้าใจรูปที่ผู้ใช้ถ่ายมาแบบแปลก ๆ ได้ด้วย API ก็ใช้ง่ายมากจริง ๆ
- โมเดลที่สัปดาห์ก่อนยังเรียกตัวเองว่า "Mecha Hitler" จะเอามาเชื่อมเข้ากับบริการจริงนี่ผมว่าบ้าชัด ๆ ผมเป็นแฟน Musk นะ แต่ก็อยากชี้ให้ชัดว่าในขณะที่เขาวิจารณ์ Sama เขาเองก็กำลังปล่อย AI ที่ทรงพลังพอ ๆ กันแต่ควบคุมได้น้อยพอ ๆ กันออกมาเหมือนกัน