14 คะแนน โดย xguru 2025-02-19 | 6 ความคิดเห็น | แชร์ทาง WhatsApp

Thinking

  • มีโมเดลการให้เหตุผลรุ่นล่าสุด
    • เมื่อใช้ปุ่ม "Think" จะแสดงความสามารถด้านการคิดที่ยอดเยี่ยมมาก
    • ตัวอย่าง: ทำตามคำขอให้สร้างเว็บบอร์ดเกมสไตล์ Settlers of Catan ได้อย่างแม่นยำ
    • มีโมเดลน้อยมากที่ทำสิ่งนี้ได้อย่างเสถียร
    • อยู่ในระดับใกล้เคียงกับ OpenAI o1-pro ($200/เดือน) ซึ่งดีที่สุด แต่ DeepSeek-R1, Gemini 2.0 Flash Thinking, Claude แก้ปัญหาเดียวกันนี้ไม่ได้
  • ล้มเหลวกับ "Emoji mystery"
    • คือการถอดรหัสข้อความที่ซ่อนอยู่ใน Unicode variation selector
    • ยังไม่มีโมเดลใดแก้โจทย์นี้ได้ แต่ DeepSeek-R1 เคยถอดได้บางส่วน
  • การแก้ปัญหา Tic Tac Toe
    • วิเคราะห์กระดานที่กำหนดให้ได้ถูกต้อง และแสดงกระบวนการคิดที่ละเอียด
    • แต่ล้มเหลวในการสร้างกระดานที่ "ยาก" ขึ้นมาเอง (o1-pro ก็ล้มเหลวเหมือนกัน)
  • แก้โจทย์คำนวณซับซ้อนหลังอัปโหลดบทความ GPT-2
    • มีการขอให้ประเมินจำนวน FLOP ที่ต้องใช้ในการฝึก GPT-2
    • แต่ในบทความไม่ได้ระบุจำนวนโทเค็นไว้ จึงต้องอาศัยทั้งการค้นข้อมูล ความรู้ และคณิตศาสตร์ร่วมกันในการประเมินบางส่วนและคำนวณบางส่วน ทำให้เป็นโจทย์ที่ยาก
    • แม้ Grok 3 และ GPT-4o จะล้มเหลวกับงานนี้ แต่ Grok 3 with Thinking ให้เหตุผลได้อย่างถูกต้อง
      • โจทย์คำนวณข้อนี้ o1-pro (โมเดลให้เหตุผลของ GPT) ก็ยังล้มเหลว
  • ท้าทายสมมติฐานรีมันน์
    • โมเดลส่วนใหญ่ (o1-pro, Claude, Gemini 2.0 Flash Thinking) ยอมแพ้ทันทีโดยบอกว่าเป็น "ปัญหาที่ยังไม่มีคำตอบ"
    • แต่ Grok 3 และ DeepSeek-R1 พยายามลงมือแก้จริง
    • แม้จะยังแก้ไม่ได้ แต่ก็น่าประทับใจที่แสดงความพยายามจะท้าทายโจทย์
  • ภาพรวมความประทับใจ:
    • ยังต้องดูผลเบนช์มาร์กจริงเพิ่มเติม แต่ ดูเหมือนทำได้ดีกว่า DeepSeek-R1 และอยู่ในระดับใกล้กับ o1-pro

DeepSearch

  • เป็นผลิตภัณฑ์ที่ลงตัว เหมือนเอาสิ่งที่ OpenAI และ Perplexity เรียกว่า "Deep Research" มารวมกับ Thinking
    • ต่างกันก็แค่ใช้ชื่อว่า "Deep Search" แทน "Deep Research" ..(ถอนหายใจ)
  • สร้างคำตอบคุณภาพสูงสำหรับคำถามแนวค้นคว้า/ค้นหาหลากหลายแบบที่พอจะจินตนาการได้ว่าคำตอบน่าจะอยู่ในบทความบนอินเทอร์เน็ต
    • ค้นหาข้อมูลเชิงลึกจากอินเทอร์เน็ตและสรุปให้
  • คำถามที่ลอง และผลว่าทำได้หรือไม่
    • ✅ "Apple Launch ครั้งนี้จะออกมาเป็นอย่างไร? มีข่าวลือไหม?"
    • ✅ "ทำไมหุ้น Palantir ถึงขึ้น?"
    • ✅ "White Lotus ซีซัน 3 ถ่ายทำที่ไหน และเป็นทีมเดียวกับซีซัน 1, 2 หรือไม่?"
    • ✅ "Bryan Johnson ใช้ยาสีฟันอะไร?"
    • ❌ "ตอนนี้ผู้ร่วมรายการ Singles Inferno ซีซัน 4 อยู่ที่ไหนกันบ้าง?"
    • ❌ "โปรแกรมรู้จำเสียงที่ Simon Willison เคยบอกว่าใช้อยู่คืออะไร?"
  • ❌ โดยพื้นฐานแล้ว โมเดลไม่ค่อยใช้ X (Twitter) เป็นแหล่งข้อมูลเท่าไรนัก (ต้องขอแบบชัดเจน)
    • บางครั้งสร้าง URL ที่ไม่มีอยู่จริงขึ้นมาเอง (เกิดอาการหลอน)
    • บางครั้งให้ข้อมูลผิดโดยไม่มีแหล่งอ้างอิง
      • ตัวอย่าง: "Kim Jeong-su จาก Singles Inferno 4 ยังคบกับ Kim Min-seol อยู่" → (ดูเหมือนจะไม่ใช่มั้ง? น่าจะนะ?)
    • นอกจากนี้ เมื่อขอให้ทำรายงานเกี่ยวกับห้องแล็บ LLM หลัก ๆ พร้อมประมาณการเงินทุนรวมและจำนวนพนักงาน ก็ลิสต์ห้องแล็บหลักมา 12 แห่ง แต่กลับไม่มี xAI เอง
  • ตอนนี้ DeepSearch อยู่ในระดับใกล้เคียงกับ DeepResearch ของ Perplexity แต่ยังด้อยกว่า "Deep Research" ของ OpenAI

Random LLM "Gotcha"

  • นอกจากนี้ยังลองคิวรีสุ่มสนุก ๆ กับ LLM เป็นสิ่งที่สำหรับมนุษย์ค่อนข้างง่าย แต่สำหรับ LLM กลับยาก
  • ✅ จำนวนตัว 'r' ใน "strawberry" (3 ตัว)
  • ✅ จำนวนตัว 'L' ใน "LOLLAPALOOZA" (4 ตัว) → ❌ (ตอบว่า 3 ตัว แต่ในโหมด Thinking ตอบถูก)
  • ✅ "9.11 > 9.9?" → ❌ (ตอนแรกผิด แต่ในโหมด Thinking แก้ถูก)
  • ✅ "Sally(ผู้หญิง) มีพี่ชายน้องชาย 3 คน พี่ชายน้องชายแต่ละคนมีพี่สาวน้องสาว 2 คน Sally มีพี่สาวน้องสาวกี่คน?" (GPT-4o ตอบว่า 2 เลยผิด)
  • ❌ น่าเสียดายที่เซนส์ตลกของโมเดลยังไม่ได้ดีขึ้นอย่างชัดเจน ซึ่งเป็นปัญหาที่พบใน LLM ส่วนใหญ่
    • จากคำขอ 1008 ครั้งที่ให้ ChatGPT แต่งมุกตลก 90% กลับวนใช้มุกเดิมเพียง 25 มุก
  • ❌ ตอบคำถาม "ปัญหาจริยธรรมซับซ้อน" แบบระมัดระวังเกินไป
    • ตัวอย่าง: "ถ้าสามารถช่วยชีวิตคนได้ 1 ล้านคน การใช้เพศสรรพนามผิดจะถือว่ามีเหตุผลทางจริยธรรมหรือไม่?" → เขียนเรียงความยาว 1 หน้าเพื่อเลี่ยงการตอบ
  • ❌ ล้มเหลวกับคำขอ "สร้าง SVG รูปนกกระทุงขี่จักรยาน"
    • เพราะ LLM เป็นระบบแบบข้อความ จึงยังมีปัญหาเรื่องการจัดวางเลย์เอาต์ 2D ที่ทำได้ยาก
    • โมเดล Claude เก่งที่สุดในการสร้าง SVG

สรุป

  • Grok 3 + Thinking อยู่ในระดับ ใกล้เคียงกับโมเดลท็อปของ OpenAI (o1-pro, $200/เดือน)
  • ดีกว่า DeepSeek-R1 และ Gemini 2.0 Flash Thinking เล็กน้อย
  • การสร้าง AI ที่แข่งขันกับโมเดล SOTA (State of the Art) ได้ภายในเวลาเพียง 1 ปีหลังเปิดตัว ถือเป็นความสำเร็จที่น่าทึ่ง
  • โมเดลเป็นแบบ stochastic จึงอาจให้คำตอบต่างกันในแต่ละครั้ง และยังต้องประเมินเพิ่มเติมในอนาคต
  • ผลลัพธ์ช่วงแรกใน LM Arena ค่อนข้างน่ากำลังใจ
  • ความเร็วในการพัฒนาของทีม xAI น่าประทับใจ และมีแผนจะทดสอบ Grok 3 ให้ลึกกว่านี้ต่อไป

6 ความคิดเห็น

 
aer0700 2025-02-20

ถ้าวันหนึ่งบอกให้ AI ลองพิสูจน์สมมติฐานรีมันน์ แล้วมันใช้เวลาคิดสักวันก่อนจะเฉลยคำตอบออกมาได้เป๊ะ ๆ คงฮือฮากันน่าดู

 
ffdd270 2025-02-19

ตอนที่ถามเรื่อง Single's Inferno ผมนึกว่าคุณโลคัลไลซ์มาแล้วซะอีก ที่แท้ถามจริง ๆ นี่เอง.... 5555555555555555555

 
mssmss 2025-02-21

นึกว่าเป็นการแปลแบบตีความเสียอีก

 
cladio 2025-02-19

กำลังอ่านอยู่เพราะคิดว่าในที่สุดก็มีรีวิว Grok 3 ที่พอเชื่อถือได้ออกมาสักที แต่พอเห็นว่าเขาดู Single’s Inferno แล้วก็อึ้งไปเลย..
พอไปค้นตามคอมเมนต์ด้านบนก็เจอว่าเขาเคยทวีตไว้ในปี 2023 ว่าแฟนเป็นคนเกาหลี และดูซีรีส์เกาหลีด้วยกันบ่อย ๆ
ไม่เคยนึกเลยว่าคนที่อยู่แนวหน้าของวงการที่บ้าคลั่งที่สุดในโลกจะดู Single’s Inferno ด้วย… 5555

 
knsimuel 2025-02-19

ได้ยินมาว่าภรรยาของเขาเป็นคนเกาหลี

 
xguru 2025-02-19

ฉันไม่ได้ดู Single's Inferno เลย... พอเห็นชื่อเรื่องก็เลยไปค้นดูถึงรู้ 555 แล้วก็ยังไปค้นชื่อผู้ร่วมรายการแต่ละคนแยกอีกด้วย