GPT Semantic Cache: Reducing LLM Costs and Latency via Semantic Embedding Caching

Պահպանված է:
Մատենագիտական մանրամասներ
Հրատարակված է:arXiv.org (Dec 9, 2024), p. n/a
Հիմնական հեղինակ: Regmi, Sajal
Այլ հեղինակներ: Pun, Chetan Phakami
Հրապարակվել է:
Cornell University Library, arXiv.org
Խորագրեր:
Առցանց հասանելիություն:Citation/Abstract
Full text outside of ProQuest
Ցուցիչներ: Ավելացրեք ցուցիչ
Չկան պիտակներ, Եղեք առաջինը, ով նշում է այս գրառումը!
Եղիր առաջինը, ով թողնում է մեկնաբանություն!
Դուք նախ պետք է մուտք գործեք