GPT Semantic Cache: Reducing LLM Costs and Latency via Semantic Embedding Caching

Guardat en:

Dades bibliogràfiques
Publicat a:	arXiv.org (Dec 9, 2024), p. n/a
Autor principal:	Regmi, Sajal
Altres autors:	Pun, Chetan Phakami
Publicat:	Cornell University Library, arXiv.org
Matèries:	Semantics Large language models Caching Queries Storage Application programming interface Operating costs Artificial intelligence Natural language processing Response time (computers) Customer services Speech recognition
Accés en línia:	Citation/Abstract Full text outside of ProQuest
Etiquetes:	Afegir etiqueta Sense etiquetes, Sigues el primer a etiquetar aquest registre!

Sigues el primer a deixar un comentari!