• Prompt Caching ช่วยเพิ่มประสิทธิภาพการใช้งาน API ทำให้สามารถกลับมาทำงานต่อจาก prefix บางส่วนของพรอมป์ต์ได้
    • นำพรอมป์ต์ขนาดใหญ่มาใช้ซ้ำข้ามหลาย API call ได้โดยไม่ต้องประมวลผลใหม่ทั้งหมด ช่วยลดเวลาและค่าใช้จ่ายอย่างมากในงานที่ทำซ้ำ
  • หลักการทำงาน
    • การแคช prefix ของพรอมป์ต์: ระบบจะตรวจสอบว่าได้แคช prefix ของพรอมป์ต์จากคำขอล่าสุดไว้หรือไม่ หากพบ จะใช้เวอร์ชันที่แคชไว้เพื่อลดเวลาและค่าใช้จ่ายในการประมวลผล หากไม่พบ ระบบจะประมวลผลพรอมป์ต์ทั้งหมดและแคช prefix ไว้
    • กรณีใช้งาน: เหมาะกับพรอมป์ต์ที่มีตัวอย่างจำนวนมาก, มีบริบทหรือข้อมูลพื้นหลังจำนวนมาก, งานที่ทำซ้ำพร้อมคำสั่งที่คงที่, และบทสนทนาแบบหลายเทิร์นที่ยาว
    • อายุแคช: แคชมีอายุ 5 นาที และจะรีเฟรชทุกครั้งที่มีการใช้งานเนื้อหาที่แคชไว้
  • เนื้อหาพรอมป์ต์ที่ถูกแคช
    • อ้างอิงพรอมป์ต์ทั้งหมดที่รวม tools, system, messages (ตามลำดับนั้น) และรวมถึงบล็อกที่ระบุด้วย cache_control
  • ราคา
    • Claude 3.5 Sonnet: โทเค็นอินพุตปกติ $3 / MTok, การเขียนแคช $3.75 / MTok, การอ่านแคช $0.30 / MTok, โทเค็นเอาต์พุต $15 / MTok
    • Claude 3 Haiku: โทเค็นอินพุตปกติ $0.25 / MTok, การเขียนแคช $0.30 / MTok, การอ่านแคช $0.03 / MTok, โทเค็นเอาต์พุต $1.25 / MTok
    • Claude 3 Opus (เตรียมเปิดตัว): โทเค็นอินพุตปกติ $15 / MTok, การเขียนแคช $18.75 / MTok, การอ่านแคช $1.50 / MTok, โทเค็นเอาต์พุต $75 / MTok
  • ประเด็นสำคัญ
    • โทเค็นสำหรับ การเขียนแคช มีราคาแพงกว่าโทเค็นอินพุตปกติ 25%
    • โทเค็นสำหรับ การอ่านแคช มีราคาถูกกว่าโทเค็นอินพุตปกติ 90%
  • ข้อจำกัดของแคช
    • ความยาวพรอมป์ต์ขั้นต่ำที่แคชได้:
      • Claude 3.5 Sonnet และ Claude 3 Opus: 1024 โทเค็น
      • Claude 3 Haiku: 2048 โทเค็น
    • มี cache TTL 5 นาที และปัจจุบัน ephemeral คือประเภทแคชเดียวที่รองรับสำหรับอายุ 5 นาทีนี้
  • กรณีใช้งานที่หลากหลาย
    • เอเจนต์แบบโต้ตอบ: ลดต้นทุนและเวลาแฝงได้ในการสนทนาที่มีคำสั่งยาวหรือมีเอกสารที่อัปโหลดมา
    • ผู้ช่วยเขียนโค้ด: คงส่วนที่เกี่ยวข้องหรือเวอร์ชันสรุปของโค้ดเบสไว้ในพรอมป์ต์ เพื่อปรับปรุงประสิทธิภาพของ autocomplete และ Q&A บนโค้ดเบส
    • การประมวลผลเอกสารขนาดใหญ่: สามารถใส่วัสดุแบบ long-form ที่มีรูปภาพรวมอยู่ในพรอมป์ต์ได้โดยไม่เพิ่มความหน่วงในการตอบกลับ
    • ชุดคำสั่งแบบละเอียด: ปรับจูนการตอบของ Claude ให้ละเอียดมากขึ้นด้วยตัวอย่างคำตอบคุณภาพสูงที่หลากหลายมากกว่า 20 ตัวอย่าง
    • การใช้เครื่องมือของเอเจนต์: ช่วยเพิ่มประสิทธิภาพในสถานการณ์ที่มีการเรียกใช้เครื่องมือหลายครั้งและมีการแก้ไขโค้ดซ้ำ ๆ
    • การสนทนากับหนังสือ งานวิจัย เอกสาร สคริปต์พอดแคสต์ และคอนเทนต์แบบยาวอื่น ๆ: ใส่เอกสารทั้งหมดลงในพรอมป์ต์เพื่อให้ผู้ใช้สามารถตั้งคำถามได้

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น