GPT Semantic Cache: Reducing LLM Costs and Latency via Semantic Embedding Caching

Salvato in:

Dettagli Bibliografici
Pubblicato in:	arXiv.org (Dec 9, 2024), p. n/a
Autore principale:	Regmi, Sajal
Altri autori:	Pun, Chetan Phakami
Pubblicazione:	Cornell University Library, arXiv.org
Soggetti:	Semantics Large language models Caching Queries Storage Application programming interface Operating costs Artificial intelligence Natural language processing Response time (computers) Customer services Speech recognition
Accesso online:	Citation/Abstract Full text outside of ProQuest
Tags:	Aggiungi Tag Nessun Tag, puoi essere il primo ad aggiungerne!!

Lascia un commento!