10 คะแนน โดย GN⁺ 2025-08-27 | 3 ความคิดเห็น | แชร์ทาง WhatsApp
  • ตลอด 5 ปีที่ผ่านมา แต่ละบริษัทต่างแข่งขันกันเพิ่มขนาด context window จาก 2K เป็น 2M
  • อย่างไรก็ตาม หลายคนชี้ให้เห็นว่า ขนาด context window ที่ระบุไว้กับขนาดที่ใช้งานได้จริง นั้นไม่เท่ากัน
  • เมื่อเปรียบเทียบประสิทธิภาพจริงของโมเดลหลักอย่าง Gemini 2.5 Pro, GPT-5, Claude, Qwen, Llama ก็พบว่าหลายประสบการณ์แตกต่างจากสิ่งที่โปรโมตไว้พอสมควร
  • มีทั้งมุมมองเชิงกังขาว่า “context ขนาดใหญ่มีความหมายก็จริง แต่ในการใช้งานจริงมักทำงานได้ดีแค่ราว 4–8k” และประสบการณ์เชิงบวกว่า “ใช้งานจริงได้ถึงระดับหลายแสนโทเค็น” ที่ขัดแย้งกัน

ประเด็นหลัก

  • 1. ขนาด context ที่ใช้งานได้จริง

    • ไทม์ไลน์การใช้งานจริงคือ 1k→2k→4k→8k→8k→8k→32k→40k โดยมีเพียง Gemini 2.5 Pro ที่ไปได้ถึง 80k
    • ช่วงการใช้งานจริงอย่างมีประสิทธิภาพยังคงอยู่เพียง 4–8k
    • “ขนาดที่ติดฉลากไว้ไม่มีความหมาย สิ่งสำคัญคือความยาว context ที่ใช้งานได้จริง”
    • ยอมรับว่ามีช่องว่างระหว่างขนาดที่ประกาศไว้กับขนาดที่ใช้ได้จริง
  • 2. ประสิทธิภาพของ Gemini

    • Gemini 2.5 Pro มีเสถียรภาพถึง 250k, ใช้งานได้ถึง 500k และที่ 800k ยังตอบได้แต่ความแม่นยำลดลง
    • ถึง 200k ประสิทธิภาพลดลงช้ามาก และหลังจากนั้น Gemini ก็ยังโดดเด่นที่สุด
    • Gemini ไม่ได้ใช้การขยาย RoPE แต่ใช้สถาปัตยกรรมเฉพาะอย่าง sequence sharding เป็นต้น โดยบางเลเยอร์ทำ dense attention กับโทเค็นทั้งหมด
  • 3. การประเมิน GPT-5

    • GPT-5-thinking ทำงานได้ดีแม้เกิน 200k
    • ถึง 100k มีความแม่นยำสูงมาก แต่ประสิทธิภาพเริ่มลดลงเร็วกว่าของ Gemini
  • 4. การประเมิน Claude

    • มีความเห็นร่วมกันว่า Claude ค่อนข้างอ่อนในการรักษาบริบทขนาดใหญ่
      • มักจำรายละเอียด ลำดับเหตุการณ์ หรือชื่อเมธอดผิด หรือเกิดอาการหลอนข้อมูล
    • Claude Sonnet 4 มีปัญหาเรื่องความจำแม้แต่ที่ 4k และยังด้อยกว่า Qwen 32b
    • “Claude แย่มาก เลยย้ายไปใช้ Qwen”
  • 5. Qwen, Mistral, Gemma ฯลฯ

    • Mistral Large และ Gemma3 27B ดูใช้ได้ที่ 32k
    • Gemma3 อยู่ในระดับแย่ที่สุด แนะนำให้อ้างอิงเบนช์มาร์ก Fiction.live
  • 6. ซีรีส์ Llama

    • Llama 4 Scout อ้างว่ารองรับ 10 ล้านโทเค็น
    • แต่ช่วงที่ใช้งานได้จริงเล็กกว่านั้นมาก ในการทดสอบบริบท 0.5M กลับสรุปได้แค่เอกสารสุดท้าย จึงไม่เหมาะกับโค้ดเบสขนาดใหญ่
  • 7. ประสบการณ์เชิงลึกรายโมเดล

    • “ความสอดคล้อง (coherence) ≠ การใช้งานได้จริง” และแม้แต่ Gemini 2.5 Pro ก็ยังมีปัญหาติดตามบริบทในการสรุปนิยายขนาด 10–20k
    • Gemini 1.5 Pro แม้จะอ่อนกว่าในด้านอื่น แต่ถูกประเมินว่าแปลความบริบทยาวได้ดีกว่า 2.5 Pro
    • เครื่องมือเขียนโค้ดแบบเอเจนต์มี system prompt ยาวเกิน 20k ดังนั้นคำกล่าวที่ว่าใช้ได้แค่ 4–8k จึงไม่ถูกต้อง เพียงแต่ context ช่วงต้นมีเสถียรภาพมากที่สุด

อื่น ๆ

  • การแชร์เครื่องมือ/ทรัพยากร:
    • เครื่องมือสร้างกราฟิกแอนิเมชัน: Remotion
    • ข้อมูลเกี่ยวกับการเสื่อมของประสิทธิภาพ: LoCoDiff-bench

สรุป

  • ข้อสรุปร่วมกัน: ระหว่าง “สเปกทางการ” กับ “ประสิทธิภาพในการใช้งานจริง” ของแต่ละโมเดลนั้นต่างกันมาก
  • Gemini: โดยรวมถูกประเมินว่าเสถียรที่สุดและแข็งแกร่งเมื่อใช้กับ context ขนาดใหญ่
  • GPT-5: ยอดเยี่ยมในช่วงกลาง แต่จุดที่ประสิทธิภาพเริ่มลดลงมาเร็วกว่าของ Gemini
  • Claude: ได้คะแนนต่ำสุดในด้านการใช้ long context
  • Llama/Gemma: การใช้งานจริงยังไม่ดีนักเมื่อเทียบกับสเปกที่รองรับ

3 ความคิดเห็น

 
firstlesson 2025-08-27

จริง ๆ แล้วผมก็ไม่ได้รู้สึกถึงความแตกต่างแบบทิ้งห่างตามที่พูดกันในเบนช์มาร์กเท่าไหร่นะครับ
จากที่ใช้งานจริงก็แค่ประมาณว่า “ดีกว่านิดหน่อย” ยังไม่ได้ต่างกันแบบชัดเจนขนาดนั้น
อีกอย่างพอประสิทธิภาพของแต่ละโมเดลยกระดับขึ้นมาใกล้เคียงกันมากขึ้น ก็เลยรู้สึกว่าคนยิ่งเปรียบเทียบกันอย่างเข้มงวดมากขึ้นด้วย ฮ่าๆ
สุดท้ายผมมองว่าสิ่งสำคัญคือมันขึ้นอยู่กับว่าจะเอาไปใช้ในสถานการณ์แบบไหน

Gemini มี context window ใหญ่มาก เลยน่าจะเหมาะกับโค้ดเบสขนาดใหญ่หรือการคงบริบทยาว ๆ ส่วน Claude เด่นเรื่องความแม่นยำในการเขียนโค้ดที่เสถียร ก็เลือกใช้ให้เหมาะกับงานน่าจะดีที่สุดครับ

 
tested 2025-08-27

มีโมเดลไหนบ้างที่ในประสบการณ์ใช้งานจริง ไม่ใช่แค่ตัวเลขจาก AI benchmark แล้วมีประสิทธิภาพด้านการเขียนโค้ดดีกว่า Claude?

 
shakespeares 2025-08-27

แม้ว่า Claude จะมีข้อด้อยอยู่บ้างเมื่อใช้กับคอนเท็กซ์ยาว ๆ แต่ดูเหมือนว่าจะเขียนโค้ดได้ดีที่สุดนะครับ