GPT Semantic Cache: Reducing LLM Costs and Latency via Semantic Embedding Caching

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:arXiv.org (Dec 9, 2024), p. n/a
1. Verfasser: Regmi, Sajal
Weitere Verfasser: Pun, Chetan Phakami
Veröffentlicht:
Cornell University Library, arXiv.org
Schlagworte:
Online-Zugang:Citation/Abstract
Full text outside of ProQuest
Tags: Tag hinzufügen
Keine Tags, Fügen Sie das erste Tag hinzu!