Help Center

Models

Bugfixes / Misc

Features

Token

Characters

veniceai

New Submission

Backlog

In Review

Planned

Up next

In Progress

Completed

Rejected

High Priority

Low Priority

New Model

Chat

History

Image

Support

Web Search

Backup / Sync

Staking Contract

Voice

Points

Settings

Code

Folders

Payment

Video

UI Design

Stickers

Merchandise

Censorship

Context Window

Social

Enhance Prompt

Plugin

File Upload

Upscale/Enhance

Edit Prompt

Language

Privacy

Venice Pro

System Prompts

Vision

LoRAs

Image Editing

Memory

Social Feed

Artifacts

Auto Mode

Blog

Incentive Fund

Agents

Model Deprecation

Credits

Library

Projects

Marketing

Here’s what Venice is working on next!

Next up

Roadmap

All completed and shipped community requested feature requests and improvements can be seen here.

Done

Shipped Features

Hey {name|there}! 👋

“Caching is particularly impactful for applications inherently involving prompt repetition:<ul><li>Retrieval-Augmented Generation (RAG) / Document Q&amp;A: Large documents or context snippets are often fed repeatedly as part of the prompt while only the user's question changes. Caching the document context significantly speeds up Q&amp;A over that document.</li><li>Few-Shot Prompting: Providing multiple examples within the prompt (few-shot learning) improves model performance but increases prompt length. Caching these static examples avoids reprocessing them for every new query.</li><li>Agentic Workflows: AI agents often rely on complex system prompts, detailed instructions, and a fixed set of tool definitions. Caching these constant elements accelerates task execution, especially in multi-step processes.</li><li>Chatbots / Multi-Turn Conversations: While the conversation history grows, the initial system prompt and instructions often remain the same. Caching the system prompt, and potentially incrementally caching turns of the conversation, keeps the interaction snappy even as the context window fills.</li><li>Code Assistants: Static code context, library documentation, or boilerplate instructions can be cached, allowing the assistant to focus computation on the user's specific coding query.” </li></ul><a target="_blank" rel="noopener noreferrer nofollow" class="link" href="https://apidog.com/blog/what-is-prompt-caching/">https://apidog.com/blog/what-is-prompt-caching/</a>

"Die Zwischenspeicherung ist besonders wichtig für Anwendungen, bei denen sich die Eingabeaufforderung wiederholt:<ul><li>Retrieval-Augmented Generation (RAG) / Document Q&amp;A: Große Dokumente oder Kontextschnipsel werden oft wiederholt als Teil der Eingabeaufforderung eingespeist, während sich nur die Frage des Benutzers ändert. Das Zwischenspeichern des Dokumentenkontextes beschleunigt Q&amp;A über dieses Dokument erheblich.</li><li>Few-Shot-Prompting: Die Bereitstellung mehrerer Beispiele innerhalb der Eingabeaufforderung (few-shot learning) verbessert die Modellleistung, erhöht aber die Länge der Eingabeaufforderung. Durch das Zwischenspeichern dieser statischen Beispiele wird vermieden, dass sie bei jeder neuen Anfrage erneut verarbeitet werden müssen.</li><li>Agentische Arbeitsabläufe: KI-Agenten sind oft auf komplexe Systemaufforderungen, detaillierte Anweisungen und einen festen Satz von Werkzeugdefinitionen angewiesen. Das Zwischenspeichern dieser konstanten Elemente beschleunigt die Aufgabenausführung, insbesondere bei mehrstufigen Prozessen.</li><li>Chatbots/Multi-Turn-Konversationen: Während der Gesprächsverlauf wächst, bleiben die anfängliche Systemaufforderung und die Anweisungen oft gleich. Durch das Zwischenspeichern der Systemaufforderung und das potenzielle schrittweise Zwischenspeichern von Gesprächsabschnitten bleibt die Interaktion auch dann schnell, wenn sich das Kontextfenster füllt.</li><li>Code-Assistenten: Statischer Codekontext, Bibliotheksdokumentation oder Standardanweisungen können zwischengespeichert werden, so dass der Assistent die Berechnung auf die spezifische Codierungsanfrage des Benutzers konzentrieren kann." </li></ul><a target="_blank" rel="noopener noreferrer nofollow" class="link" href="https://apidog.com/blog/what-is-prompt-caching/">https://apidog.com/blog/what-is-prompt-caching/</a>

Prompt-Caching | Kontext-Caching

"El almacenamiento en caché es especialmente útil en aplicaciones que implican la repetición de preguntas:<ul><li>Retrieval-Augmented Generation (RAG) / Document Q&amp;A: a menudo se introducen repetidamente grandes documentos o fragmentos de contexto como parte de la consulta, mientras que sólo cambia la pregunta del usuario. El almacenamiento en caché del contexto del documento acelera significativamente las preguntas y respuestas sobre ese documento.</li><li>Pocos ejemplos: Proporcionar varios ejemplos dentro de la pregunta (aprendizaje de pocos ejemplos) mejora el rendimiento del modelo, pero aumenta la longitud de la pregunta. El almacenamiento en caché de estos ejemplos estáticos evita tener que volver a procesarlos en cada nueva consulta.</li><li>Flujos de trabajo de los agentes: Los agentes de inteligencia artificial suelen depender de avisos complejos del sistema, instrucciones detalladas y un conjunto fijo de definiciones de herramientas. El almacenamiento en caché de estos elementos constantes acelera la ejecución de tareas, especialmente en procesos de varios pasos.</li><li>Chatbots / Conversaciones multipaso: Aunque el historial de la conversación crece, las instrucciones y el mensaje inicial del sistema suelen seguir siendo los mismos. El almacenamiento en caché de la instrucción del sistema y, potencialmente, el almacenamiento en caché incremental de los turnos de la conversación, mantiene la interacción ágil incluso a medida que se llena la ventana contextual.</li><li>Asistentes de código: El contexto estático del código, la documentación de la biblioteca o las instrucciones repetitivas pueden almacenarse en caché, lo que permite al asistente centrar el cálculo en la consulta de codificación específica del usuario". </li></ul><a target="_blank" rel="noopener noreferrer nofollow" class="link" href="https://apidog.com/blog/what-is-prompt-caching/">https://apidog.com/blog/what-is-prompt-caching/</a>

Caché de avisos | Caché de contexto

"La mise en cache a un impact particulier sur les applications qui impliquent intrinsèquement la répétition de l'invite :<ul><li>Retrieval-Augmented Generation (RAG) / Document Q&amp;A : des documents volumineux ou des extraits de contexte sont souvent présentés de manière répétée dans le cadre de l'invite, alors que seule la question de l'utilisateur change. La mise en cache du contexte du document accélère considérablement les questions-réponses sur ce document.</li><li>Invitation à la recherche d'informations (Few-Shot Prompting) : La fourniture d'exemples multiples dans le cadre de l'invite (apprentissage en quelques étapes) améliore les performances du modèle mais augmente la longueur de l'invite. La mise en cache de ces exemples statiques évite de les retraiter à chaque nouvelle requête.</li><li>Flux de travail des agents : Les agents d'intelligence artificielle s'appuient souvent sur des messages-guides complexes, des instructions détaillées et un ensemble fixe de définitions d'outils. La mise en cache de ces éléments constants accélère l'exécution des tâches, en particulier dans les processus à plusieurs étapes.</li><li>Chatbots / Conversations à plusieurs tours : Alors que l'historique de la conversation s'enrichit, l'invite initiale du système et les instructions restent souvent les mêmes. La mise en cache de l'invite du système, et potentiellement la mise en cache incrémentale des tours de la conversation, maintient l'interaction rapide même lorsque la fenêtre contextuelle se remplit.</li><li>Assistants de code : Le contexte statique du code, la documentation de la bibliothèque ou les instructions passe-partout peuvent être mis en cache, ce qui permet à l'assistant de concentrer le calcul sur la requête de codage spécifique de l'utilisateur". </li></ul><a target="_blank" rel="noopener noreferrer nofollow" class="link" href="https://apidog.com/blog/what-is-prompt-caching/">https://apidog.com/blog/what-is-prompt-caching/</a>

Mise en cache de l'invite | Mise en cache du contexte

Prompt caching | Context caching

hidden

Venice.ai

Prompt caching | Context caching

Subscribe to post

Subscribe to post