GPT Semantic Cache: Reducing LLM Costs and Latency via Semantic Embedding Caching

Zapisane w:
Opis bibliograficzny
Wydane w:arXiv.org (Dec 9, 2024), p. n/a
1. autor: Regmi, Sajal
Kolejni autorzy: Pun, Chetan Phakami
Wydane:
Cornell University Library, arXiv.org
Hasła przedmiotowe:
Dostęp online:Citation/Abstract
Full text outside of ProQuest
Etykiety: Dodaj etykietę
Nie ma etykietki, Dołącz pierwszą etykiete!