GPT Semantic Cache: Reducing LLM Costs and Latency via Semantic Embedding Caching

Guardado en:

書目詳細資料
發表在:	arXiv.org (Dec 9, 2024), p. n/a
主要作者:	Regmi, Sajal
其他作者:	Pun, Chetan Phakami
出版:	Cornell University Library, arXiv.org
主題:	Semantics Large language models Caching Queries Storage Application programming interface Operating costs Artificial intelligence Natural language processing Response time (computers) Customer services Speech recognition
在線閱讀:	Citation/Abstract Full text outside of ProQuest
標簽:	添加標簽沒有標簽, 成為第一個標記此記錄!

成為第一個發表評論!