GPT Semantic Cache: Reducing LLM Costs and Latency via Semantic Embedding Caching

Պահպանված է:

Մատենագիտական մանրամասներ
Հրատարակված է:	arXiv.org (Dec 9, 2024), p. n/a
Հիմնական հեղինակ:	Regmi, Sajal
Այլ հեղինակներ:	Pun, Chetan Phakami
Հրապարակվել է:	Cornell University Library, arXiv.org
Խորագրեր:	Semantics Large language models Caching Queries Storage Application programming interface Operating costs Artificial intelligence Natural language processing Response time (computers) Customer services Speech recognition
Առցանց հասանելիություն:	Citation/Abstract Full text outside of ProQuest
Ցուցիչներ:	Ավելացրեք ցուցիչ Չկան պիտակներ, Եղեք առաջինը, ով նշում է այս գրառումը!

Եղիր առաջինը, ով թողնում է մեկնաբանություն!