GPT Semantic Cache: Reducing LLM Costs and Latency via Semantic Embedding Caching

Tallennettuna:

Bibliografiset tiedot
Julkaisussa:	arXiv.org (Dec 9, 2024), p. n/a
Päätekijä:	Regmi, Sajal
Muut tekijät:	Pun, Chetan Phakami
Julkaistu:	Cornell University Library, arXiv.org
Aiheet:	Semantics Large language models Caching Queries Storage Application programming interface Operating costs Artificial intelligence Natural language processing Response time (computers) Customer services Speech recognition
Linkit:	Citation/Abstract Full text outside of ProQuest
Tagit:	Lisää tagi Ei tageja, Lisää ensimmäinen tagi!

Lisää ensimmäinen kommentti!