เบนช์มาร์กเลเทนซีของ Vertex AI Context Caching + Priority PayGo (400 ครั้ง, Gemini 3 Flash)
(cloudturing.com)อ้างอิงจาก system prompt (อินพุต) ประมาณ 7,500 โทเค็น และ response (เอาต์พุต) ประมาณ 100 โทเค็นที่ใช้ในบริการ AI แชตบอต ได้ทำเบนช์มาร์กผลของการปรับปรุงเลเทนซีจาก Context Caching ของ Vertex AI และ Priority PayGo แบบใหม่ที่เพิ่งเปิดตัว
- 4 สถานการณ์ (Standard/Priority × แคช/ไม่แคช), อย่างละ 100 ครั้ง รวมทั้งหมด 400 คำขอ
- โมเดล: gemini-3-flash-preview
- วิธีส่งคำขอ: staggered start ห่างกัน 1 วินาที
ผลลัพธ์หลัก:
- Context Caching: ไม่ว่าจะมีแคชหรือไม่ เวลาในการตอบสนองเฉลี่ยแทบไม่ต่างกัน (~3 วินาที)
- Priority PayGo: ในช่วงเวลาที่ระบบไม่แออัดกลับช้ากว่า 3~7%
- ยืนยันได้ว่าแม้ในสถานการณ์ไม่แคช Vertex AI ก็ทำ Implicit Caching ภายในอยู่
- ความต่างของเลเทนซีตาม Thinking Level มีผลอย่างชัดเจนมาก: DEFAULT 7.4 วินาที → LOW 3 วินาที → MINIMAL 2.6 วินาที
สรุป: มากกว่าการตั้งค่าแคชหรือค่าลำดับความสำคัญ การเปลี่ยนโครงสร้างของคำขอเองมีประสิทธิภาพต่อการปรับเลเทนซีให้เหมาะสมมากกว่า
ยังไม่มีความคิดเห็น