Help Center

Models

Bugfixes / Misc

Features

Token

Characters

veniceai

New Submission

Backlog

In Review

Planned

Up next

In Progress

Completed

Rejected

High Priority

Low Priority

New Model

Chat

History

Image

Support

Web Search

Backup / Sync

Staking Contract

Voice

Points

Settings

Code

Folders

Payment

Video

UI Design

Stickers

Merchandise

Censorship

Context Window

Social

Enhance Prompt

Plugin

File Upload

Upscale/Enhance

Edit Prompt

Language

Privacy

Venice Pro

System Prompts

Vision

LoRAs

Image Editing

Memory

Social Feed

Artifacts

Auto Mode

Blog

Incentive Fund

Agents

Model Deprecation

Credits

Library

Projects

Marketing

Here’s what Venice is working on next!

Next up

Roadmap

All completed and shipped community requested feature requests and improvements can be seen here.

Done

Shipped Features

Hey {name|there}! 👋

Please add speaker diarization support to /api/v1/audio/transcriptions, especially for elevenlabs/scribe-v2.Current issue: Venice supports private/x402-friendly STT, but the transcription API only exposes file, model, response_format, timestamps, and language. The response schema only returns text and timestamps. There is no documented way to request speaker diarization or receive speaker IDs.Requested API fields:<ul><li>diarize: boolean</li><li>num_speakers?: number</li><li>diarization_threshold?: number</li><li>use_multi_channel?: boolean</li><li>speaker_labels?: string[]</li><li>actors?: { id: string; name: string; voice_sample?: file | url }[]</li></ul>Requested response additions: { "text": "...", "segments": [ { "speaker_id": "speaker_0", "speaker_name": "Alice", "start": 0.0, "end": 3.2, "text": "..." } ], "timestamps": { "word": [ { "word": "...", "start": 0.0, "end": 0.4, "speaker_id": "speaker_0", "speaker_name": "Alice" } ] } }Why this matters: This is important for meeting transcripts, interviews, podcasts, call transcripts, agent workflows, and media/script workflows where privacy and x402 payment are required. Existing diarization providers usually require separate accounts/API keys and do not fit Venice's privacy/accountless payment model.Minimum useful version: Forward Scribe v2 diarization options (diarize, num_speakers, use_multi_channel) and preserve upstream speaker_id in word/segment timestamps.Ideal version: Support known actor labels / speaker profiles so developers can map speakers to real names or roles during transcription, while preserving Venice's privacy guarantees.

Bitte fügen Sie Unterstützung für die Sprecher-Diarisierung zu /api/v1/audio/transcriptions hinzu, insbesondere für elevenlabs/scribe-v2.Aktuelles Problem: Venice unterstützt private/x402-kompatible STT, aber die Transkriptions-API stellt nur Datei, Modell, Antwortformat, Zeitstempel und Sprache bereit. Das Antwortschema gibt nur Text und Zeitstempel zurück. Es gibt keine dokumentierte Möglichkeit, Sprecher-Diarisierung anzufordern oder Sprecher-IDs zu erhalten.Gewünschte API-Felder:<ul><li>diarize: boolean</li><li>num_speakers?: number</li><li>diarization_threshold?: Zahl</li><li>use_multi_channel?: bool</li><li>speaker_labels?: Zeichenkette[]</li><li>Akteure?: { id: Zeichenkette; Name: Zeichenkette; Sprachprobe?: Datei | URL }[]</li></ul>Angeforderte Ergänzungen der Antwort: { "text": "...", "segments": [ { "speaker_id": "speaker_0", "speaker_name": "Alice", "start": 0.0, "end": 3.2, "text": "..." } ], "timestamps": { "word": [ { "word": "...", "start": 0.0, "end": 0.4, "speaker_id": "speaker_0", "speaker_name": "Alice" } ] } }Warum das wichtig ist: Dies ist wichtig für Sitzungsprotokolle, Interviews, Podcasts, Anrufprotokolle, Agenten-Workflows und Medien-/Skript-Workflows, bei denen Datenschutz und x402-Zahlungen erforderlich sind. Bestehende Diarisierungsanbieter erfordern in der Regel separate Konten/API-Schlüssel und passen nicht zum Datenschutz- und kontofreien Zahlungsmodell von Venice.Mindestanforderung: Weiterleitung der Diarisierungsoptionen von Scribe v2 (diarize, num_speakers, use_multi_channel) und Beibehaltung der vorgelagerten speaker_id in Wort-/Segment-Zeitstempeln.Ideale Version: Unterstützung bekannter Schauspieler-Labels/Sprecherprofile, damit Entwickler Sprecher während der Transkription echten Namen oder Rollen zuordnen können, während die Datenschutzgarantien von Venice gewahrt bleiben.

Ergänzung der Speech-to-Text-API um Sprecher-Diarisierung und Sprecher-Kennzeichnungen

Por favor, añadid compatibilidad con la identificación de hablantes a /api/v1/audio/transcriptions, especialmente para elevenlabs/scribe-v2.Problema actual: Venice es compatible con STT privado/x402, pero la API de transcripción solo expone archivo, modelo, formato de respuesta, marcas de tiempo e idioma. El esquema de respuesta solo devuelve texto y marcas de tiempo. No hay ninguna forma documentada de solicitar la diarización de hablantes ni de recibir ID de hablantes.Campos de API solicitados:<ul><li>diarize: booleano</li><li>num_speakers?: número</li><li>umbral_de_diarización?: número</li><li>use_multi_channel?: booleano</li><li>speaker_labels?: cadena[]</li><li>actores?: { id: cadena; nombre: cadena; muestra_de_voz?: archivo | url }[]</li></ul>Adiciones solicitadas en la respuesta: { "text": "...", "segments": [ { "speaker_id": "speaker_0", "speaker_name": "Alice", "start": 0.0, "end": 3.2, "text": "..." } ], "timestamps": { "word": [ { "word": "...", "start": 0.0, "end": 0.4, "speaker_id": "speaker_0", "speaker_name": "Alice" } ] } }Por qué es importante: Esto es importante para transcripciones de reuniones, entrevistas, podcasts, transcripciones de llamadas, flujos de trabajo de agentes y flujos de trabajo de medios/guiones en los que se requiere privacidad y pago x402. Los proveedores de diarización existentes suelen requerir cuentas/claves API independientes y no se ajustan al modelo de privacidad/pago sin cuenta de Venice.Versión mínima útil: opciones de diarización de Forward Scribe v2 (diarize, num_speakers, use_multi_channel) y conservación del speaker_id de origen en las marcas de tiempo de palabras/segmentos.Versión ideal: Compatibilidad con etiquetas de actores conocidos/perfiles de hablantes para que los desarrolladores puedan asignar a los hablantes nombres reales o roles durante la transcripción, al tiempo que se preservan las garantías de privacidad de Venice.

Añadir la identificación de hablantes y las etiquetas de los participantes a la API de conversión de voz a texto

Veuillez ajouter la prise en charge de la diarisation des locuteurs à /api/v1/audio/transcriptions, en particulier pour elevenlabs/scribe-v2.Problème actuel : Venice prend en charge la reconnaissance vocale (STT) privée et compatible x402, mais l'API de transcription n'expose que les champs file, model, response_format, timestamps et language. Le schéma de réponse ne renvoie que du texte et des horodatages. Il n'existe aucune méthode documentée pour demander la diarisation des locuteurs ou recevoir les identifiants des locuteurs.Champs API demandés :<ul><li>diarize : booléen</li><li>num_speakers?: nombre</li><li>diarization_threshold?: nombre</li><li>use_multi_channel?: booléen</li><li>speaker_labels?: chaîne[]</li><li>acteurs ?: { id : chaîne ; nom : chaîne ; échantillon_de_voix ?: fichier | url }[]</li></ul>Ajouts demandés à la réponse : { "text": "...", "segments": [ { "speaker_id": "speaker_0", "speaker_name": "Alice", "start": 0.0, "end": 3.2, "text": "..." } ], "timestamps": { "word": [ { "word": "...", "start": 0.0, "end": 0.4, "speaker_id": "speaker_0", "speaker_name": "Alice" } ] } }Pourquoi c'est important : cela est essentiel pour les transcriptions de réunions, les entretiens, les podcasts, les transcriptions d'appels, les workflows d'agents et les workflows médias/scripts où la confidentialité et le paiement x402 sont requis. Les fournisseurs de diarisation existants exigent généralement des comptes/clés API distincts et ne correspondent pas au modèle de confidentialité/paiement sans compte de Venice.Version minimale utile : Transmettre les options de diarisation de Scribe v2 (diarize, num_speakers, use_multi_channel) et conserver l'identifiant speaker_id en amont dans les horodatages des mots/segments.Version idéale : prise en charge des étiquettes d'acteurs / profils de locuteurs connus afin que les développeurs puissent associer les locuteurs à des noms réels ou à des rôles lors de la transcription, tout en préservant les garanties de confidentialité de Venice.

Ajouter la diarchisation des locuteurs et les étiquettes d'acteurs à l'API de reconnaissance vocale

Add speaker diarization and actor labels to Speech-to-Text API

hidden

Venice.ai

Add speaker diarization and actor labels to Speech-to-Text API

Subscribe to post

Subscribe to post