GPT Semantic Cache: Reducing LLM Costs and Latency via Semantic Embedding Caching

Gespeichert in:

Bibliographische Detailangaben
Veröffentlicht in:	arXiv.org (Dec 9, 2024), p. n/a
1. Verfasser:	Regmi, Sajal
Weitere Verfasser:	Pun, Chetan Phakami
Veröffentlicht:	Cornell University Library, arXiv.org
Schlagworte:	Semantics Large language models Caching Queries Storage Application programming interface Operating costs Artificial intelligence Natural language processing Response time (computers) Customer services Speech recognition
Online-Zugang:	Citation/Abstract Full text outside of ProQuest
Tags:	Tag hinzufügen Keine Tags, Fügen Sie das erste Tag hinzu!

Schreiben Sie den ersten Kommentar!