- Prompt Caching ช่วยเพิ่มประสิทธิภาพการใช้งาน API ทำให้สามารถกลับมาทำงานต่อจาก prefix บางส่วนของพรอมป์ต์ได้
- นำพรอมป์ต์ขนาดใหญ่มาใช้ซ้ำข้ามหลาย API call ได้โดยไม่ต้องประมวลผลใหม่ทั้งหมด ช่วยลดเวลาและค่าใช้จ่ายอย่างมากในงานที่ทำซ้ำ
- หลักการทำงาน
- การแคช prefix ของพรอมป์ต์: ระบบจะตรวจสอบว่าได้แคช prefix ของพรอมป์ต์จากคำขอล่าสุดไว้หรือไม่ หากพบ จะใช้เวอร์ชันที่แคชไว้เพื่อลดเวลาและค่าใช้จ่ายในการประมวลผล หากไม่พบ ระบบจะประมวลผลพรอมป์ต์ทั้งหมดและแคช prefix ไว้
- กรณีใช้งาน: เหมาะกับพรอมป์ต์ที่มีตัวอย่างจำนวนมาก, มีบริบทหรือข้อมูลพื้นหลังจำนวนมาก, งานที่ทำซ้ำพร้อมคำสั่งที่คงที่, และบทสนทนาแบบหลายเทิร์นที่ยาว
- อายุแคช: แคชมีอายุ 5 นาที และจะรีเฟรชทุกครั้งที่มีการใช้งานเนื้อหาที่แคชไว้
- เนื้อหาพรอมป์ต์ที่ถูกแคช
- อ้างอิงพรอมป์ต์ทั้งหมดที่รวม tools, system, messages (ตามลำดับนั้น) และรวมถึงบล็อกที่ระบุด้วย
cache_control
- ราคา
- Claude 3.5 Sonnet: โทเค็นอินพุตปกติ $3 / MTok, การเขียนแคช $3.75 / MTok, การอ่านแคช $0.30 / MTok, โทเค็นเอาต์พุต $15 / MTok
- Claude 3 Haiku: โทเค็นอินพุตปกติ $0.25 / MTok, การเขียนแคช $0.30 / MTok, การอ่านแคช $0.03 / MTok, โทเค็นเอาต์พุต $1.25 / MTok
- Claude 3 Opus (เตรียมเปิดตัว): โทเค็นอินพุตปกติ $15 / MTok, การเขียนแคช $18.75 / MTok, การอ่านแคช $1.50 / MTok, โทเค็นเอาต์พุต $75 / MTok
- ประเด็นสำคัญ
- โทเค็นสำหรับ การเขียนแคช มีราคาแพงกว่าโทเค็นอินพุตปกติ 25%
- โทเค็นสำหรับ การอ่านแคช มีราคาถูกกว่าโทเค็นอินพุตปกติ 90%
- ข้อจำกัดของแคช
- ความยาวพรอมป์ต์ขั้นต่ำที่แคชได้:
- Claude 3.5 Sonnet และ Claude 3 Opus: 1024 โทเค็น
- Claude 3 Haiku: 2048 โทเค็น
- มี cache TTL 5 นาที และปัจจุบัน
ephemeral คือประเภทแคชเดียวที่รองรับสำหรับอายุ 5 นาทีนี้
- กรณีใช้งานที่หลากหลาย
- เอเจนต์แบบโต้ตอบ: ลดต้นทุนและเวลาแฝงได้ในการสนทนาที่มีคำสั่งยาวหรือมีเอกสารที่อัปโหลดมา
- ผู้ช่วยเขียนโค้ด: คงส่วนที่เกี่ยวข้องหรือเวอร์ชันสรุปของโค้ดเบสไว้ในพรอมป์ต์ เพื่อปรับปรุงประสิทธิภาพของ autocomplete และ Q&A บนโค้ดเบส
- การประมวลผลเอกสารขนาดใหญ่: สามารถใส่วัสดุแบบ long-form ที่มีรูปภาพรวมอยู่ในพรอมป์ต์ได้โดยไม่เพิ่มความหน่วงในการตอบกลับ
- ชุดคำสั่งแบบละเอียด: ปรับจูนการตอบของ Claude ให้ละเอียดมากขึ้นด้วยตัวอย่างคำตอบคุณภาพสูงที่หลากหลายมากกว่า 20 ตัวอย่าง
- การใช้เครื่องมือของเอเจนต์: ช่วยเพิ่มประสิทธิภาพในสถานการณ์ที่มีการเรียกใช้เครื่องมือหลายครั้งและมีการแก้ไขโค้ดซ้ำ ๆ
- การสนทนากับหนังสือ งานวิจัย เอกสาร สคริปต์พอดแคสต์ และคอนเทนต์แบบยาวอื่น ๆ: ใส่เอกสารทั้งหมดลงในพรอมป์ต์เพื่อให้ผู้ใช้สามารถตั้งคำถามได้
ยังไม่มีความคิดเห็น