GPT Semantic Cache: Reducing LLM Costs and Latency via Semantic Embedding Caching

Spremljeno u:
Bibliografski detalji
Izdano u:arXiv.org (Dec 9, 2024), p. n/a
Glavni autor: Regmi, Sajal
Daljnji autori: Pun, Chetan Phakami
Izdano:
Cornell University Library, arXiv.org
Teme:
Online pristup:Citation/Abstract
Full text outside of ProQuest
Oznake: Dodaj oznaku
Bez oznaka, Budi prvi tko označuje ovaj zapis!