เบนช์มาร์กเลเทนซีของ Vertex AI Context Caching + Priority PayGo (400 ครั้ง, Gemini 3 Flash)

(cloudturing.com)

1 คะแนน โดย calmlake79 2026-02-12 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

อ้างอิงจาก system prompt (อินพุต) ประมาณ 7,500 โทเค็น และ response (เอาต์พุต) ประมาณ 100 โทเค็นที่ใช้ในบริการ AI แชตบอต ได้ทำเบนช์มาร์กผลของการปรับปรุงเลเทนซีจาก Context Caching ของ Vertex AI และ Priority PayGo แบบใหม่ที่เพิ่งเปิดตัว

4 สถานการณ์ (Standard/Priority × แคช/ไม่แคช), อย่างละ 100 ครั้ง รวมทั้งหมด 400 คำขอ
โมเดล: gemini-3-flash-preview
วิธีส่งคำขอ: staggered start ห่างกัน 1 วินาที

ผลลัพธ์หลัก:

Context Caching: ไม่ว่าจะมีแคชหรือไม่ เวลาในการตอบสนองเฉลี่ยแทบไม่ต่างกัน (~3 วินาที)
Priority PayGo: ในช่วงเวลาที่ระบบไม่แออัดกลับช้ากว่า 3~7%
ยืนยันได้ว่าแม้ในสถานการณ์ไม่แคช Vertex AI ก็ทำ Implicit Caching ภายในอยู่
ความต่างของเลเทนซีตาม Thinking Level มีผลอย่างชัดเจนมาก: DEFAULT 7.4 วินาที → LOW 3 วินาที → MINIMAL 2.6 วินาที

สรุป: มากกว่าการตั้งค่าแคชหรือค่าลำดับความสำคัญ การเปลี่ยนโครงสร้างของคำขอเองมีประสิทธิภาพต่อการปรับเลเทนซีให้เหมาะสมมากกว่า

เบนช์มาร์กเลเทนซีของ Vertex AI Context Caching + Priority PayGo (400 ครั้ง, Gemini 3 Flash)

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น