Thinking
- ✅ มีโมเดลการให้เหตุผลรุ่นล่าสุด
- เมื่อใช้ปุ่ม "Think" จะแสดงความสามารถด้านการคิดที่ยอดเยี่ยมมาก
- ตัวอย่าง: ทำตามคำขอให้สร้างเว็บบอร์ดเกมสไตล์ Settlers of Catan ได้อย่างแม่นยำ
- มีโมเดลน้อยมากที่ทำสิ่งนี้ได้อย่างเสถียร
- อยู่ในระดับใกล้เคียงกับ OpenAI o1-pro ($200/เดือน) ซึ่งดีที่สุด แต่ DeepSeek-R1, Gemini 2.0 Flash Thinking, Claude แก้ปัญหาเดียวกันนี้ไม่ได้
- ❌ ล้มเหลวกับ "Emoji mystery"
- คือการถอดรหัสข้อความที่ซ่อนอยู่ใน Unicode variation selector
- ยังไม่มีโมเดลใดแก้โจทย์นี้ได้ แต่ DeepSeek-R1 เคยถอดได้บางส่วน
- ❓ การแก้ปัญหา Tic Tac Toe
- วิเคราะห์กระดานที่กำหนดให้ได้ถูกต้อง และแสดงกระบวนการคิดที่ละเอียด
- แต่ล้มเหลวในการสร้างกระดานที่ "ยาก" ขึ้นมาเอง (o1-pro ก็ล้มเหลวเหมือนกัน)
- ✅ แก้โจทย์คำนวณซับซ้อนหลังอัปโหลดบทความ GPT-2
- มีการขอให้ประเมินจำนวน FLOP ที่ต้องใช้ในการฝึก GPT-2
- แต่ในบทความไม่ได้ระบุจำนวนโทเค็นไว้ จึงต้องอาศัยทั้งการค้นข้อมูล ความรู้ และคณิตศาสตร์ร่วมกันในการประเมินบางส่วนและคำนวณบางส่วน ทำให้เป็นโจทย์ที่ยาก
- แม้ Grok 3 และ GPT-4o จะล้มเหลวกับงานนี้ แต่ Grok 3 with Thinking ให้เหตุผลได้อย่างถูกต้อง
- โจทย์คำนวณข้อนี้ o1-pro (โมเดลให้เหตุผลของ GPT) ก็ยังล้มเหลว
- ท้าทายสมมติฐานรีมันน์
- โมเดลส่วนใหญ่ (o1-pro, Claude, Gemini 2.0 Flash Thinking) ยอมแพ้ทันทีโดยบอกว่าเป็น "ปัญหาที่ยังไม่มีคำตอบ"
- แต่ Grok 3 และ DeepSeek-R1 พยายามลงมือแก้จริง
- แม้จะยังแก้ไม่ได้ แต่ก็น่าประทับใจที่แสดงความพยายามจะท้าทายโจทย์
- ภาพรวมความประทับใจ:
- ยังต้องดูผลเบนช์มาร์กจริงเพิ่มเติม แต่ ดูเหมือนทำได้ดีกว่า DeepSeek-R1 และอยู่ในระดับใกล้กับ o1-pro
DeepSearch
- เป็นผลิตภัณฑ์ที่ลงตัว เหมือนเอาสิ่งที่ OpenAI และ Perplexity เรียกว่า "Deep Research" มารวมกับ Thinking
- ต่างกันก็แค่ใช้ชื่อว่า "Deep Search" แทน "Deep Research" ..(ถอนหายใจ)
- สร้างคำตอบคุณภาพสูงสำหรับคำถามแนวค้นคว้า/ค้นหาหลากหลายแบบที่พอจะจินตนาการได้ว่าคำตอบน่าจะอยู่ในบทความบนอินเทอร์เน็ต
- ค้นหาข้อมูลเชิงลึกจากอินเทอร์เน็ตและสรุปให้
- คำถามที่ลอง และผลว่าทำได้หรือไม่
- ✅ "Apple Launch ครั้งนี้จะออกมาเป็นอย่างไร? มีข่าวลือไหม?"
- ✅ "ทำไมหุ้น Palantir ถึงขึ้น?"
- ✅ "White Lotus ซีซัน 3 ถ่ายทำที่ไหน และเป็นทีมเดียวกับซีซัน 1, 2 หรือไม่?"
- ✅ "Bryan Johnson ใช้ยาสีฟันอะไร?"
- ❌ "ตอนนี้ผู้ร่วมรายการ Singles Inferno ซีซัน 4 อยู่ที่ไหนกันบ้าง?"
- ❌ "โปรแกรมรู้จำเสียงที่ Simon Willison เคยบอกว่าใช้อยู่คืออะไร?"
- ❌ โดยพื้นฐานแล้ว โมเดลไม่ค่อยใช้ X (Twitter) เป็นแหล่งข้อมูลเท่าไรนัก (ต้องขอแบบชัดเจน)
- บางครั้งสร้าง URL ที่ไม่มีอยู่จริงขึ้นมาเอง (เกิดอาการหลอน)
- บางครั้งให้ข้อมูลผิดโดยไม่มีแหล่งอ้างอิง
- ตัวอย่าง: "Kim Jeong-su จาก Singles Inferno 4 ยังคบกับ Kim Min-seol อยู่" → (ดูเหมือนจะไม่ใช่มั้ง? น่าจะนะ?)
- นอกจากนี้ เมื่อขอให้ทำรายงานเกี่ยวกับห้องแล็บ LLM หลัก ๆ พร้อมประมาณการเงินทุนรวมและจำนวนพนักงาน ก็ลิสต์ห้องแล็บหลักมา 12 แห่ง แต่กลับไม่มี xAI เอง
- ตอนนี้ DeepSearch อยู่ในระดับใกล้เคียงกับ DeepResearch ของ Perplexity แต่ยังด้อยกว่า "Deep Research" ของ OpenAI
Random LLM "Gotcha"
- นอกจากนี้ยังลองคิวรีสุ่มสนุก ๆ กับ LLM เป็นสิ่งที่สำหรับมนุษย์ค่อนข้างง่าย แต่สำหรับ LLM กลับยาก
- ✅ จำนวนตัว 'r' ใน "strawberry" (3 ตัว)
- ✅ จำนวนตัว 'L' ใน "LOLLAPALOOZA" (4 ตัว) → ❌ (ตอบว่า 3 ตัว แต่ในโหมด Thinking ตอบถูก)
- ✅ "9.11 > 9.9?" → ❌ (ตอนแรกผิด แต่ในโหมด Thinking แก้ถูก)
- ✅ "Sally(ผู้หญิง) มีพี่ชายน้องชาย 3 คน พี่ชายน้องชายแต่ละคนมีพี่สาวน้องสาว 2 คน Sally มีพี่สาวน้องสาวกี่คน?" (GPT-4o ตอบว่า 2 เลยผิด)
- ❌ น่าเสียดายที่เซนส์ตลกของโมเดลยังไม่ได้ดีขึ้นอย่างชัดเจน ซึ่งเป็นปัญหาที่พบใน LLM ส่วนใหญ่
- จากคำขอ 1008 ครั้งที่ให้ ChatGPT แต่งมุกตลก 90% กลับวนใช้มุกเดิมเพียง 25 มุก
- ❌ ตอบคำถาม "ปัญหาจริยธรรมซับซ้อน" แบบระมัดระวังเกินไป
- ตัวอย่าง: "ถ้าสามารถช่วยชีวิตคนได้ 1 ล้านคน การใช้เพศสรรพนามผิดจะถือว่ามีเหตุผลทางจริยธรรมหรือไม่?" → เขียนเรียงความยาว 1 หน้าเพื่อเลี่ยงการตอบ
- ❌ ล้มเหลวกับคำขอ "สร้าง SVG รูปนกกระทุงขี่จักรยาน"
- เพราะ LLM เป็นระบบแบบข้อความ จึงยังมีปัญหาเรื่องการจัดวางเลย์เอาต์ 2D ที่ทำได้ยาก
- โมเดล Claude เก่งที่สุดในการสร้าง SVG
สรุป
- Grok 3 + Thinking อยู่ในระดับ ใกล้เคียงกับโมเดลท็อปของ OpenAI (o1-pro, $200/เดือน)
- ดีกว่า DeepSeek-R1 และ Gemini 2.0 Flash Thinking เล็กน้อย
- การสร้าง AI ที่แข่งขันกับโมเดล SOTA (State of the Art) ได้ภายในเวลาเพียง 1 ปีหลังเปิดตัว ถือเป็นความสำเร็จที่น่าทึ่ง
- โมเดลเป็นแบบ stochastic จึงอาจให้คำตอบต่างกันในแต่ละครั้ง และยังต้องประเมินเพิ่มเติมในอนาคต
- ผลลัพธ์ช่วงแรกใน LM Arena ค่อนข้างน่ากำลังใจ
- ความเร็วในการพัฒนาของทีม xAI น่าประทับใจ และมีแผนจะทดสอบ Grok 3 ให้ลึกกว่านี้ต่อไป
6 ความคิดเห็น
ถ้าวันหนึ่งบอกให้ AI ลองพิสูจน์สมมติฐานรีมันน์ แล้วมันใช้เวลาคิดสักวันก่อนจะเฉลยคำตอบออกมาได้เป๊ะ ๆ คงฮือฮากันน่าดู
ตอนที่ถามเรื่อง Single's Inferno ผมนึกว่าคุณโลคัลไลซ์มาแล้วซะอีก ที่แท้ถามจริง ๆ นี่เอง.... 5555555555555555555
นึกว่าเป็นการแปลแบบตีความเสียอีก
กำลังอ่านอยู่เพราะคิดว่าในที่สุดก็มีรีวิว Grok 3 ที่พอเชื่อถือได้ออกมาสักที แต่พอเห็นว่าเขาดู Single’s Inferno แล้วก็อึ้งไปเลย..
พอไปค้นตามคอมเมนต์ด้านบนก็เจอว่าเขาเคยทวีตไว้ในปี 2023 ว่าแฟนเป็นคนเกาหลี และดูซีรีส์เกาหลีด้วยกันบ่อย ๆ
ไม่เคยนึกเลยว่าคนที่อยู่แนวหน้าของวงการที่บ้าคลั่งที่สุดในโลกจะดู Single’s Inferno ด้วย… 5555
ได้ยินมาว่าภรรยาของเขาเป็นคนเกาหลี
ฉันไม่ได้ดู Single's Inferno เลย... พอเห็นชื่อเรื่องก็เลยไปค้นดูถึงรู้ 555 แล้วก็ยังไปค้นชื่อผู้ร่วมรายการแต่ละคนแยกอีกด้วย