GPT Semantic Cache: Reducing LLM Costs and Latency via Semantic Embedding Caching

Сохранить в:

Библиографические подробности
Опубликовано в::	arXiv.org (Dec 9, 2024), p. n/a
Главный автор:	Regmi, Sajal
Другие авторы:	Pun, Chetan Phakami
Опубликовано:	Cornell University Library, arXiv.org
Предметы:	Semantics Large language models Caching Queries Storage Application programming interface Operating costs Artificial intelligence Natural language processing Response time (computers) Customer services Speech recognition
Online-ссылка:	Citation/Abstract Full text outside of ProQuest
Метки:	Добавить метку Нет меток, Требуется 1-ая метка записи!

Ваш комментарий будет первым!