GPT Semantic Cache: Reducing LLM Costs and Latency via Semantic Embedding Caching

Spremljeno u:

Bibliografski detalji
Izdano u:	arXiv.org (Dec 9, 2024), p. n/a
Glavni autor:	Regmi, Sajal
Daljnji autori:	Pun, Chetan Phakami
Izdano:	Cornell University Library, arXiv.org
Teme:	Semantics Large language models Caching Queries Storage Application programming interface Operating costs Artificial intelligence Natural language processing Response time (computers) Customer services Speech recognition
Online pristup:	Citation/Abstract Full text outside of ProQuest
Oznake:	Dodaj oznaku Bez oznaka, Budi prvi tko označuje ovaj zapis!

Budi prvi tko komentira!