- ตลอด 5 ปีที่ผ่านมา แต่ละบริษัทต่างแข่งขันกันเพิ่มขนาด context window จาก 2K เป็น 2M
- อย่างไรก็ตาม หลายคนชี้ให้เห็นว่า ขนาด context window ที่ระบุไว้กับขนาดที่ใช้งานได้จริง นั้นไม่เท่ากัน
- เมื่อเปรียบเทียบประสิทธิภาพจริงของโมเดลหลักอย่าง Gemini 2.5 Pro, GPT-5, Claude, Qwen, Llama ก็พบว่าหลายประสบการณ์แตกต่างจากสิ่งที่โปรโมตไว้พอสมควร
- มีทั้งมุมมองเชิงกังขาว่า “context ขนาดใหญ่มีความหมายก็จริง แต่ในการใช้งานจริงมักทำงานได้ดีแค่ราว 4–8k” และประสบการณ์เชิงบวกว่า “ใช้งานจริงได้ถึงระดับหลายแสนโทเค็น” ที่ขัดแย้งกัน
ประเด็นหลัก
-
1. ขนาด context ที่ใช้งานได้จริง
- ไทม์ไลน์การใช้งานจริงคือ 1k→2k→4k→8k→8k→8k→32k→40k โดยมีเพียง Gemini 2.5 Pro ที่ไปได้ถึง 80k
- ช่วงการใช้งานจริงอย่างมีประสิทธิภาพยังคงอยู่เพียง 4–8k
- “ขนาดที่ติดฉลากไว้ไม่มีความหมาย สิ่งสำคัญคือความยาว context ที่ใช้งานได้จริง”
- ยอมรับว่ามีช่องว่างระหว่างขนาดที่ประกาศไว้กับขนาดที่ใช้ได้จริง
-
2. ประสิทธิภาพของ Gemini
- Gemini 2.5 Pro มีเสถียรภาพถึง 250k, ใช้งานได้ถึง 500k และที่ 800k ยังตอบได้แต่ความแม่นยำลดลง
- ถึง 200k ประสิทธิภาพลดลงช้ามาก และหลังจากนั้น Gemini ก็ยังโดดเด่นที่สุด
- Gemini ไม่ได้ใช้การขยาย RoPE แต่ใช้สถาปัตยกรรมเฉพาะอย่าง sequence sharding เป็นต้น โดยบางเลเยอร์ทำ dense attention กับโทเค็นทั้งหมด
-
3. การประเมิน GPT-5
- GPT-5-thinking ทำงานได้ดีแม้เกิน 200k
- ถึง 100k มีความแม่นยำสูงมาก แต่ประสิทธิภาพเริ่มลดลงเร็วกว่าของ Gemini
-
4. การประเมิน Claude
- มีความเห็นร่วมกันว่า Claude ค่อนข้างอ่อนในการรักษาบริบทขนาดใหญ่
- มักจำรายละเอียด ลำดับเหตุการณ์ หรือชื่อเมธอดผิด หรือเกิดอาการหลอนข้อมูล
- Claude Sonnet 4 มีปัญหาเรื่องความจำแม้แต่ที่ 4k และยังด้อยกว่า Qwen 32b
- “Claude แย่มาก เลยย้ายไปใช้ Qwen”
-
5. Qwen, Mistral, Gemma ฯลฯ
- Mistral Large และ Gemma3 27B ดูใช้ได้ที่ 32k
- Gemma3 อยู่ในระดับแย่ที่สุด แนะนำให้อ้างอิงเบนช์มาร์ก Fiction.live
-
6. ซีรีส์ Llama
- Llama 4 Scout อ้างว่ารองรับ 10 ล้านโทเค็น
- แต่ช่วงที่ใช้งานได้จริงเล็กกว่านั้นมาก ในการทดสอบบริบท 0.5M กลับสรุปได้แค่เอกสารสุดท้าย จึงไม่เหมาะกับโค้ดเบสขนาดใหญ่
-
7. ประสบการณ์เชิงลึกรายโมเดล
- “ความสอดคล้อง (coherence) ≠ การใช้งานได้จริง” และแม้แต่ Gemini 2.5 Pro ก็ยังมีปัญหาติดตามบริบทในการสรุปนิยายขนาด 10–20k
- Gemini 1.5 Pro แม้จะอ่อนกว่าในด้านอื่น แต่ถูกประเมินว่าแปลความบริบทยาวได้ดีกว่า 2.5 Pro
- เครื่องมือเขียนโค้ดแบบเอเจนต์มี system prompt ยาวเกิน 20k ดังนั้นคำกล่าวที่ว่าใช้ได้แค่ 4–8k จึงไม่ถูกต้อง เพียงแต่ context ช่วงต้นมีเสถียรภาพมากที่สุด
อื่น ๆ
- การแชร์เครื่องมือ/ทรัพยากร:
- เครื่องมือสร้างกราฟิกแอนิเมชัน: Remotion
- ข้อมูลเกี่ยวกับการเสื่อมของประสิทธิภาพ: LoCoDiff-bench
สรุป
- ข้อสรุปร่วมกัน: ระหว่าง “สเปกทางการ” กับ “ประสิทธิภาพในการใช้งานจริง” ของแต่ละโมเดลนั้นต่างกันมาก
- Gemini: โดยรวมถูกประเมินว่าเสถียรที่สุดและแข็งแกร่งเมื่อใช้กับ context ขนาดใหญ่
- GPT-5: ยอดเยี่ยมในช่วงกลาง แต่จุดที่ประสิทธิภาพเริ่มลดลงมาเร็วกว่าของ Gemini
- Claude: ได้คะแนนต่ำสุดในด้านการใช้ long context
- Llama/Gemma: การใช้งานจริงยังไม่ดีนักเมื่อเทียบกับสเปกที่รองรับ
3 ความคิดเห็น
จริง ๆ แล้วผมก็ไม่ได้รู้สึกถึงความแตกต่างแบบทิ้งห่างตามที่พูดกันในเบนช์มาร์กเท่าไหร่นะครับ
จากที่ใช้งานจริงก็แค่ประมาณว่า “ดีกว่านิดหน่อย” ยังไม่ได้ต่างกันแบบชัดเจนขนาดนั้น
อีกอย่างพอประสิทธิภาพของแต่ละโมเดลยกระดับขึ้นมาใกล้เคียงกันมากขึ้น ก็เลยรู้สึกว่าคนยิ่งเปรียบเทียบกันอย่างเข้มงวดมากขึ้นด้วย ฮ่าๆ
สุดท้ายผมมองว่าสิ่งสำคัญคือมันขึ้นอยู่กับว่าจะเอาไปใช้ในสถานการณ์แบบไหน
Gemini มี context window ใหญ่มาก เลยน่าจะเหมาะกับโค้ดเบสขนาดใหญ่หรือการคงบริบทยาว ๆ ส่วน Claude เด่นเรื่องความแม่นยำในการเขียนโค้ดที่เสถียร ก็เลือกใช้ให้เหมาะกับงานน่าจะดีที่สุดครับ
มีโมเดลไหนบ้างที่ในประสบการณ์ใช้งานจริง ไม่ใช่แค่ตัวเลขจาก AI benchmark แล้วมีประสิทธิภาพด้านการเขียนโค้ดดีกว่า Claude?
แม้ว่า Claude จะมีข้อด้อยอยู่บ้างเมื่อใช้กับคอนเท็กซ์ยาว ๆ แต่ดูเหมือนว่าจะเขียนโค้ดได้ดีที่สุดนะครับ