GPT Semantic Cache: Reducing LLM Costs and Latency via Semantic Embedding Caching

Kaydedildi:

Detaylı Bibliyografya
Yayımlandı:	arXiv.org (Dec 9, 2024), p. n/a
Yazar:	Regmi, Sajal
Diğer Yazarlar:	Pun, Chetan Phakami
Baskı/Yayın Bilgisi:	Cornell University Library, arXiv.org
Konular:	Semantics Large language models Caching Queries Storage Application programming interface Operating costs Artificial intelligence Natural language processing Response time (computers) Customer services Speech recognition
Online Erişim:	Citation/Abstract Full text outside of ProQuest
Etiketler:	Etiketle Etiket eklenmemiş, İlk siz ekleyin!

İlk yorumlayan siz olun!