GPT Semantic Cache: Reducing LLM Costs and Latency via Semantic Embedding Caching

Furkejuvvon:

Bibliográfalaš dieđut
Publikašuvnnas:	arXiv.org (Dec 9, 2024), p. n/a
Váldodahkki:	Regmi, Sajal
Eará dahkkit:	Pun, Chetan Phakami
Almmustuhtton:	Cornell University Library, arXiv.org
Fáttát:	Semantics Large language models Caching Queries Storage Application programming interface Operating costs Artificial intelligence Natural language processing Response time (computers) Customer services Speech recognition
Liŋkkat:	Citation/Abstract Full text outside of ProQuest
Fáddágilkorat:	Lasit fáddágilkoriid Eai fáddágilkorat, Lasit vuosttaš fáddágilkora!

Lasit vuosttaš kommeantta. Visot kommeanttat leat almmolaččat.!