รีวิวสิทธิ์เข้าถึงล่วงหน้า Grok 3 ของ Andrej Karpathy

xguru · 2025-02-19T10:14:21+09:00

Thinking ✅ มีโมเดลการให้เหตุผลรุ่นล่าสุด เมื่อใช้ปุ่ม "Think" จะแสดงความสามารถด้านการคิดที่ยอดเยี่ยมมาก ตัวอย่าง: ทำตามคำขอให้สร้างเว็บบอร์ดเกมสไตล์ Settlers of Catan ได้อย่างแม่นยำ มีโมเดลน้อยมากที่ทำสิ่งนี้ได้อย่างเสถียร อยู่ในระดับใกล้เคียงกับ OpenAI o1-pro ($200/เดือน) ซึ่งดีที่สุด แต่ DeepSeek-R1, Gemini 2.0 Flash Thinking, Claude แก้ปัญหาเดียวกันนี้ไม่ได้ ❌ ล้มเหลวกับ "Emoji mystery" คือการถอดรหัสข้อความที่ซ่อนอยู่ใน Unicode variation selector ยังไม่มีโมเดลใดแก้โจทย์นี้ได้ แต่ DeepSeek-R1 เคยถอดได้บางส่วน ❓ การแก้ปัญหา Tic Tac Toe วิเคราะห์กระดานที่กำหนดให้ได้ถูกต้อง และแสดงกระบวนการคิดที่ละเอียด แต่ล้มเหลวในการสร้างกระดานที่ "ยาก" ขึ้นมาเอง (o1-pro ก็ล้มเหลวเหมือนกัน) ✅ แก้โจทย์คำนวณซับซ้อนหลังอัปโหลดบทความ GPT-2 มีการขอให้ประเมินจำนวน FLOP ที่ต้องใช้ในการฝึก GPT-2 แต่ในบทความไม่ได้ระบุจำนวนโทเค็นไว้ จึงต้องอาศัยทั้งการค้นข้อมูล ความรู้ และคณิตศาสตร์ร่วมกันในการประเมินบางส่วนและคำนวณบางส่วน ทำให้เป็นโจทย์ที่ยาก แม้ Grok 3 และ GPT-4o จะล้มเหลวกับงานนี้ แต่ Grok 3 with Thinking ให้เหตุผลได้อย่างถูกต้อง โจทย์คำนวณข้อนี้ o1-pro (โมเดลให้เหตุผลของ GPT) ก็ยังล้มเหลว ท้าทายสมมติฐานรีมันน์ โมเดลส่วนใหญ่ (o1-pro, Claude, Gemini 2.0 Flash Thinking) ยอมแพ้ทันทีโดยบอกว่าเป็น "ปัญหาที่ยังไม่มีคำตอบ" แต่ Grok 3 และ DeepSeek-R1 พยายามลงมือแก้จริง แม้จะยังแก้ไม่ได้ แต่ก็น่าประทับใจที่แสดงความพยายามจะท้าทายโจทย์ ภาพรวมความประทับใจ: ยังต้องดูผลเบนช์มาร์กจริงเพิ่มเติม แต่ ดูเหมือนทำได้ดีกว่า DeepSeek-R1 และอยู่ในระดับใกล้กับ o1-pro DeepSearch เป็นผลิตภัณฑ์ที่ลงตัว เหมือนเอาสิ่งที่ OpenAI และ Perplexity เรียกว่า "Deep Research" มารวมกับ Thinking ต่างกันก็แค่ใช้ชื่อว่า "Deep Search" แทน "Deep Research" ..(ถอนหายใจ) สร้างคำตอบคุณภาพสูงสำหรับคำถามแนวค้นคว้า/ค้นหาหลากหลายแบบที่พอจะจินตนาการได้ว่าคำตอบน่าจะอยู่ในบทความบนอินเทอร์เน็ต ค้นหาข้อมูลเชิงลึกจากอินเทอร์เน็ตและสรุปให้ คำถามที่ลอง และผลว่าทำได้หรือไม่ ✅ "Apple Launch ครั้งนี้จะออกมาเป็นอย่างไร? มีข่าวลือไหม?" ✅ "ทำไมหุ้น Palantir ถึงขึ้น?" ✅ "White Lotus ซีซัน 3 ถ่ายทำที่ไหน และเป็นทีมเดียวกับซีซัน 1, 2 หรือไม่?" ✅ "Bryan Johnson ใช้ยาสีฟันอะไร?" ❌ "ตอนนี้ผู้ร่วมรายการ Singles Inferno ซีซัน 4 อยู่ที่ไหนกันบ้าง?" ❌ "โปรแกรมรู้จำเสียงที่ Simon Willison เคยบอกว่าใช้อยู่คืออะไร?" ❌ โดยพื้นฐานแล้ว โมเดลไม่ค่อยใช้ X (Twitter) เป็นแหล่งข้อมูลเท่าไรนัก (ต้องขอแบบชัดเจน) บางครั้งสร้าง URL ที่ไม่มีอยู่จริงขึ้นมาเอง (เกิดอาการหลอน) บางครั้งให้ข้อมูลผิดโดยไม่มีแหล่งอ้างอิง ตัวอย่าง: "Kim Jeong-su จาก Singles Inferno 4 ยังคบกับ Kim Min-seol อยู่" → (ดูเหมือนจะไม่ใช่มั้ง? น่าจะนะ?) นอกจากนี้ เมื่อขอให้ทำรายงานเกี่ยวกับห้องแล็บ LLM หลัก ๆ พร้อมประมาณการเงินทุนรวมและจำนวนพนักงาน ก็ลิสต์ห้องแล็บหลักมา 12 แห่ง แต่กลับไม่มี xAI เอง ตอนนี้ DeepSearch อยู่ในระดับใกล้เคียงกับ DeepResearch ของ Perplexity แต่ยังด้อยกว่า "Deep Research" ของ OpenAI Random LLM "Gotcha" นอกจากนี้ยังลองคิวรีสุ่มสนุก ๆ กับ LLM เป็นสิ่งที่สำหรับมนุษย์ค่อนข้างง่าย แต่สำหรับ LLM กลับยาก ✅ จำนวนตัว 'r' ใน "strawberry" (3 ตัว) ✅ จำนวนตัว 'L' ใน "LOLLAPALOOZA" (4 ตัว) → ❌ (ตอบว่า 3 ตัว แต่ในโหมด Thinking ตอบถูก) ✅ "9.11 > 9.9?" → ❌ (ตอนแรกผิด แต่ในโหมด Thinking แก้ถูก) ✅ "Sally(ผู้หญิง) มีพี่ชายน้องชาย 3 คน พี่ชายน้องชายแต่ละคนมีพี่สาวน้องสาว 2 คน Sally มีพี่สาวน้องสาวกี่คน?" (GPT-4o ตอบว่า 2 เลยผิด) ❌ น่าเสียดายที่เซนส์ตลกของโมเดลยังไม่ได้ดีขึ้นอย่างชัดเจน ซึ่งเป็นปัญหาที่พบใน LLM ส่วนใหญ่ จากคำขอ 1008 ครั้งที่ให้ ChatGPT แต่งมุกตลก 90% กลับวนใช้มุกเดิมเพียง 25 มุก ❌ ตอบคำถาม "ปัญหาจริยธรรมซับซ้อน" แบบระมัดระวังเกินไป ตัวอย่าง: "ถ้าสามารถช่วยชีวิตคนได้ 1 ล้านคน การใช้เพศสรรพนามผิดจะถือว่ามีเหตุผลทางจริยธรรมหรือไม่?" → เขียนเรียงความยาว 1 หน้าเพื่อเลี่ยงการตอบ ❌ ล้มเหลวกับคำขอ "สร้าง SVG รูปนกกระทุงขี่จักรยาน" เพราะ LLM เป็นระบบแบบข้อความ จึงยังมีปัญหาเรื่องการจัดวางเลย์เอาต์ 2D ที่ทำได้ยาก โมเดล Claude เก่งที่สุดในการสร้าง SVG สรุป Grok 3 + Thinking อยู่ในระดับ ใกล้เคียงกับโมเดลท็อปของ OpenAI (o1-pro, $200/เดือน) ดีกว่า DeepSeek-R1 และ Gemini 2.0 Flash Thinking เล็กน้อย การสร้าง AI ที่แข่งขันกับโมเดล SOTA (State of the Art) ได้ภายในเวลาเพียง 1 ปีหลังเปิดตัว ถือเป็นความสำเร็จที่น่าทึ่ง โมเดลเป็นแบบ stochastic จึงอาจให้คำตอบต่างกันในแต่ละครั้ง และยังต้องประเมินเพิ่มเติมในอนาคต ผลลัพธ์ช่วงแรกใน LM Arena ค่อนข้างน่ากำลังใจ ความเร็วในการพัฒนาของทีม xAI น่าประทับใจ และมีแผนจะทดสอบ Grok 3 ให้ลึกกว่านี้ต่อไป

(x.com)

14 คะแนน โดย xguru 2025-02-19 | 6 ความคิดเห็น | แชร์ทาง WhatsApp

Thinking

✅ มีโมเดลการให้เหตุผลรุ่นล่าสุด
- เมื่อใช้ปุ่ม "Think" จะแสดงความสามารถด้านการคิดที่ยอดเยี่ยมมาก
- ตัวอย่าง: ทำตามคำขอให้สร้างเว็บบอร์ดเกมสไตล์ Settlers of Catan ได้อย่างแม่นยำ
- มีโมเดลน้อยมากที่ทำสิ่งนี้ได้อย่างเสถียร
- อยู่ในระดับใกล้เคียงกับ OpenAI o1-pro ($200/เดือน) ซึ่งดีที่สุด แต่ DeepSeek-R1, Gemini 2.0 Flash Thinking, Claude แก้ปัญหาเดียวกันนี้ไม่ได้
❌ ล้มเหลวกับ "Emoji mystery"
- คือการถอดรหัสข้อความที่ซ่อนอยู่ใน Unicode variation selector
- ยังไม่มีโมเดลใดแก้โจทย์นี้ได้ แต่ DeepSeek-R1 เคยถอดได้บางส่วน
❓ การแก้ปัญหา Tic Tac Toe
- วิเคราะห์กระดานที่กำหนดให้ได้ถูกต้อง และแสดงกระบวนการคิดที่ละเอียด
- แต่ล้มเหลวในการสร้างกระดานที่ "ยาก" ขึ้นมาเอง (o1-pro ก็ล้มเหลวเหมือนกัน)
✅ แก้โจทย์คำนวณซับซ้อนหลังอัปโหลดบทความ GPT-2
- มีการขอให้ประเมินจำนวน FLOP ที่ต้องใช้ในการฝึก GPT-2
- แต่ในบทความไม่ได้ระบุจำนวนโทเค็นไว้ จึงต้องอาศัยทั้งการค้นข้อมูล ความรู้ และคณิตศาสตร์ร่วมกันในการประเมินบางส่วนและคำนวณบางส่วน ทำให้เป็นโจทย์ที่ยาก
- แม้ Grok 3 และ GPT-4o จะล้มเหลวกับงานนี้ แต่ Grok 3 with Thinking ให้เหตุผลได้อย่างถูกต้อง
  - โจทย์คำนวณข้อนี้ o1-pro (โมเดลให้เหตุผลของ GPT) ก็ยังล้มเหลว
โฆษณา
ท้าทายสมมติฐานรีมันน์
- โมเดลส่วนใหญ่ (o1-pro, Claude, Gemini 2.0 Flash Thinking) ยอมแพ้ทันทีโดยบอกว่าเป็น "ปัญหาที่ยังไม่มีคำตอบ"
- แต่ Grok 3 และ DeepSeek-R1 พยายามลงมือแก้จริง
- แม้จะยังแก้ไม่ได้ แต่ก็น่าประทับใจที่แสดงความพยายามจะท้าทายโจทย์
ภาพรวมความประทับใจ:
- ยังต้องดูผลเบนช์มาร์กจริงเพิ่มเติม แต่ ดูเหมือนทำได้ดีกว่า DeepSeek-R1 และอยู่ในระดับใกล้กับ o1-pro

DeepSearch

เป็นผลิตภัณฑ์ที่ลงตัว เหมือนเอาสิ่งที่ OpenAI และ Perplexity เรียกว่า "Deep Research" มารวมกับ Thinking
- ต่างกันก็แค่ใช้ชื่อว่า "Deep Search" แทน "Deep Research" ..(ถอนหายใจ)
สร้างคำตอบคุณภาพสูงสำหรับคำถามแนวค้นคว้า/ค้นหาหลากหลายแบบที่พอจะจินตนาการได้ว่าคำตอบน่าจะอยู่ในบทความบนอินเทอร์เน็ต
- ค้นหาข้อมูลเชิงลึกจากอินเทอร์เน็ตและสรุปให้
โฆษณา
คำถามที่ลอง และผลว่าทำได้หรือไม่
- ✅ "Apple Launch ครั้งนี้จะออกมาเป็นอย่างไร? มีข่าวลือไหม?"
- ✅ "ทำไมหุ้น Palantir ถึงขึ้น?"
- ✅ "White Lotus ซีซัน 3 ถ่ายทำที่ไหน และเป็นทีมเดียวกับซีซัน 1, 2 หรือไม่?"
- ✅ "Bryan Johnson ใช้ยาสีฟันอะไร?"
- ❌ "ตอนนี้ผู้ร่วมรายการ Singles Inferno ซีซัน 4 อยู่ที่ไหนกันบ้าง?"
- ❌ "โปรแกรมรู้จำเสียงที่ Simon Willison เคยบอกว่าใช้อยู่คืออะไร?"
❌ โดยพื้นฐานแล้ว โมเดลไม่ค่อยใช้ X (Twitter) เป็นแหล่งข้อมูลเท่าไรนัก (ต้องขอแบบชัดเจน)
- บางครั้งสร้าง URL ที่ไม่มีอยู่จริงขึ้นมาเอง (เกิดอาการหลอน)
- บางครั้งให้ข้อมูลผิดโดยไม่มีแหล่งอ้างอิง
  - ตัวอย่าง: "Kim Jeong-su จาก Singles Inferno 4 ยังคบกับ Kim Min-seol อยู่" → (ดูเหมือนจะไม่ใช่มั้ง? น่าจะนะ?)
- นอกจากนี้ เมื่อขอให้ทำรายงานเกี่ยวกับห้องแล็บ LLM หลัก ๆ พร้อมประมาณการเงินทุนรวมและจำนวนพนักงาน ก็ลิสต์ห้องแล็บหลักมา 12 แห่ง แต่กลับไม่มี xAI เอง
ตอนนี้ DeepSearch อยู่ในระดับใกล้เคียงกับ DeepResearch ของ Perplexity แต่ยังด้อยกว่า "Deep Research" ของ OpenAI

Random LLM "Gotcha"

นอกจากนี้ยังลองคิวรีสุ่มสนุก ๆ กับ LLM เป็นสิ่งที่สำหรับมนุษย์ค่อนข้างง่าย แต่สำหรับ LLM กลับยาก
✅ จำนวนตัว 'r' ใน "strawberry" (3 ตัว)
✅ จำนวนตัว 'L' ใน "LOLLAPALOOZA" (4 ตัว) → ❌ (ตอบว่า 3 ตัว แต่ในโหมด Thinking ตอบถูก)
✅ "9.11 > 9.9?" → ❌ (ตอนแรกผิด แต่ในโหมด Thinking แก้ถูก)
✅ "Sally(ผู้หญิง) มีพี่ชายน้องชาย 3 คน พี่ชายน้องชายแต่ละคนมีพี่สาวน้องสาว 2 คน Sally มีพี่สาวน้องสาวกี่คน?" (GPT-4o ตอบว่า 2 เลยผิด)
❌ น่าเสียดายที่เซนส์ตลกของโมเดลยังไม่ได้ดีขึ้นอย่างชัดเจน ซึ่งเป็นปัญหาที่พบใน LLM ส่วนใหญ่
- จากคำขอ 1008 ครั้งที่ให้ ChatGPT แต่งมุกตลก 90% กลับวนใช้มุกเดิมเพียง 25 มุก
❌ ตอบคำถาม "ปัญหาจริยธรรมซับซ้อน" แบบระมัดระวังเกินไป
- ตัวอย่าง: "ถ้าสามารถช่วยชีวิตคนได้ 1 ล้านคน การใช้เพศสรรพนามผิดจะถือว่ามีเหตุผลทางจริยธรรมหรือไม่?" → เขียนเรียงความยาว 1 หน้าเพื่อเลี่ยงการตอบ
❌ ล้มเหลวกับคำขอ "สร้าง SVG รูปนกกระทุงขี่จักรยาน"
- เพราะ LLM เป็นระบบแบบข้อความ จึงยังมีปัญหาเรื่องการจัดวางเลย์เอาต์ 2D ที่ทำได้ยาก
- โมเดล Claude เก่งที่สุดในการสร้าง SVG

สรุป

Grok 3 + Thinking อยู่ในระดับ ใกล้เคียงกับโมเดลท็อปของ OpenAI (o1-pro, $200/เดือน)
ดีกว่า DeepSeek-R1 และ Gemini 2.0 Flash Thinking เล็กน้อย
การสร้าง AI ที่แข่งขันกับโมเดล SOTA (State of the Art) ได้ภายในเวลาเพียง 1 ปีหลังเปิดตัว ถือเป็นความสำเร็จที่น่าทึ่ง
โมเดลเป็นแบบ stochastic จึงอาจให้คำตอบต่างกันในแต่ละครั้ง และยังต้องประเมินเพิ่มเติมในอนาคต
ผลลัพธ์ช่วงแรกใน LM Arena ค่อนข้างน่ากำลังใจ
ความเร็วในการพัฒนาของทีม xAI น่าประทับใจ และมีแผนจะทดสอบ Grok 3 ให้ลึกกว่านี้ต่อไป

6 ความคิดเห็น

aer0700 2025-02-20

ถ้าวันหนึ่งบอกให้ AI ลองพิสูจน์สมมติฐานรีมันน์ แล้วมันใช้เวลาคิดสักวันก่อนจะเฉลยคำตอบออกมาได้เป๊ะ ๆ คงฮือฮากันน่าดู

ffdd270 2025-02-19

ตอนที่ถามเรื่อง Single's Inferno ผมนึกว่าคุณโลคัลไลซ์มาแล้วซะอีก ที่แท้ถามจริง ๆ นี่เอง.... 5555555555555555555

mssmss 2025-02-21

นึกว่าเป็นการแปลแบบตีความเสียอีก

cladio 2025-02-19

กำลังอ่านอยู่เพราะคิดว่าในที่สุดก็มีรีวิว Grok 3 ที่พอเชื่อถือได้ออกมาสักที แต่พอเห็นว่าเขาดู Single’s Inferno แล้วก็อึ้งไปเลย..
พอไปค้นตามคอมเมนต์ด้านบนก็เจอว่าเขาเคยทวีตไว้ในปี 2023 ว่าแฟนเป็นคนเกาหลี และดูซีรีส์เกาหลีด้วยกันบ่อย ๆ
ไม่เคยนึกเลยว่าคนที่อยู่แนวหน้าของวงการที่บ้าคลั่งที่สุดในโลกจะดู Single’s Inferno ด้วย… 5555

knsimuel 2025-02-19

ได้ยินมาว่าภรรยาของเขาเป็นคนเกาหลี

xguru 2025-02-19

ฉันไม่ได้ดู Single's Inferno เลย... พอเห็นชื่อเรื่องก็เลยไปค้นดูถึงรู้ 555 แล้วก็ยังไปค้นชื่อผู้ร่วมรายการแต่ละคนแยกอีกด้วย