Volver al blog

StreamFluent: La primera traducción de voz con IA en tiempo real del mundo para streamers ya está disponible.

S

StreamFluent

16 de febrero de 202616 min de lectura0 vistas
StreamFluent: La primera traducción de voz con IA en tiempo real del mundo para streamers ya está disponible.

Ahora mismo, en algún lugar de Twitch, un streamer en São Paulo está llevando a cabo uno de los speedruns más impresionantes que Internet haya visto jamás. Sus comentarios son electrizantes. Su chat está explotando. Tiene 8.000 espectadores simultáneos y todos y cada uno de ellos hablan portugués.

Al otro lado del planeta, una audiencia de millones de personas de habla inglesa nunca sabrá que este streamer existe. No porque el contenido no sea lo suficientemente bueno. No porque el gameplay no esté ahí. Sino por una sola pared invisible que ha definido los límites del entretenimiento online desde que la primera webcam se puso en marcha: el idioma.

Hoy, vamos a derribar ese muro.

StreamFluent es la primera plataforma de doblaje y subtitulado de voz con IA en tiempo real del mundo, creada específicamente para streamers en directo. Transmites una vez, en tu idioma nativo. StreamFluent escucha, transcribe, traduce y vuelve a dar voz a tu stream, en más de 15 idiomas, cada uno de ellos entregado a su propio canal en Twitch, YouTube, Kick o cualquier plataforma compatible con RTMP.

Esto no es doblaje de postproducción. No son subtítulos que añades después de subir un VOD. Esto está sucediendo en vivo, con una latencia inferior a un segundo, mientras juegas, reaccionas o chateas con tu audiencia.

Permítanos explicarle cómo llegamos hasta aquí, qué construimos y por qué creemos que esto cambia todo para los creadores.


El problema: el idioma es la última barrera en la transmisión en vivo

La industria del streaming ha resuelto casi todos los demás problemas de distribución. Puedes transmitir en vivo desde tu habitación y llegar a espectadores en todos los continentes. Las plataformas tienen CDN globales que entregan video en milisegundos. Los algoritmos de descubrimiento muestran contenido a nuevas audiencias las 24 horas del día. Los sistemas de pago permiten a los fans de Tokio dar propinas a un creador en Toronto.

¿Pero el idioma? El idioma sigue siendo un muro difícil de franquear.

Consideremos las matemáticas. Hay aproximadamente 2,5 millones de streamers activos solo en Twitch. La gran mayoría de ellos transmiten en un solo idioma. El inglés domina las plataformas occidentales, pero las comunidades de streaming de más rápido crecimiento están en español, portugués, japonés, coreano e hindi. Estas audiencias son masivas, comprometidas y, en gran medida, aisladas entre sí.

Un streamer de habla hispana con un gameplay increíble y una personalidad magnética alcanza un techo en el momento en que su potencial espectador no habla español. Lo mismo ocurre a la inversa: un creador de habla inglesa con una comunidad leal de 50.000 personas tiene esencialmente cero alcance en los 500 millones de internautas de habla japonesa.

Este no es un problema menor. Es la mayor palanca de crecimiento sin explotar en toda la economía de los creadores. Y hasta ahora, las soluciones han sido inexistentes o ridículamente poco prácticas:

  • ¿Traducción manual? Necesitarías un intérprete humano en una llamada de voz, en vivo, para cada stream, en cada idioma. El coste por sí solo es prohibitivo. La latencia lo hace imposible de ver.
  • ¿Subtítulos posteriores al stream? Mejor que nada para los VOD, pero no hacen nada por la audiencia en vivo, que es donde están el dinero, la comunidad y el impulso.
  • ¿Superposiciones de subtítulos basadas en el navegador? Existen algunas herramientas, pero solo manejan subtítulos de texto, requieren configuraciones complejas de plugins de OBS y no resuelven el problema fundamental: tu voz sigue estando en un solo idioma.

El mundo del streaming necesitaba algo completamente nuevo. Un sistema que pudiera procesar el habla, traducirla y sintetizar una nueva voz, todo en tiempo real, todo sin que el streamer cambiara su flujo de trabajo.

Eso es lo que construimos.


Lo que construimos: doblaje de IA en tiempo real para transmisiones en vivo

StreamFluent es un pipeline de IA en tiempo real que se sitúa entre tu codificador de streaming (OBS Studio, Streamlabs o cualquier software compatible con RTMP) y tus plataformas de destino. Esto es lo que sucede cuando te conectas en vivo:

  1. Transmites normalmente en tu idioma nativo. Nada de tu configuración cambia excepto la URL de destino RTMP en OBS.
  2. StreamFluent ingiere tu stream a través de nuestros servidores de retransmisión RTMP. Tu video pasa sin ser tocado: nunca volvemos a codificar tu video.
  3. Nuestro pipeline de IA procesa tu audio en tiempo real: el reconocimiento de voz transcribe lo que estás diciendo, la traducción automática lo convierte a tus idiomas de destino y la conversión de texto a voz neuronal sintetiza una nueva pista de voz para cada idioma.
  4. Cada stream traducido se entrega a su propio destino: un canal de Twitch separado, un stream de YouTube o un canal de Kick, completo con la pista de audio doblada y subtítulos opcionales integrados.

El resultado: transmites una vez. Tu audiencia mira en quince idiomas. Cada versión suena natural, permanece sincronizada y llega con una latencia inferior a un segundo.

Analicemos cada pieza.

Reconocimiento de voz (STT)

La primera etapa del pipeline es el reconocimiento automático del habla. El motor STT de StreamFluent procesa tu audio en tiempo real, convirtiendo el habla en texto con alta precisión incluso en entornos de juego ruidosos. Nos hemos optimizado específicamente para el caso de uso del streaming: comentarios rápidos, audio de juegos de fondo, sonidos superpuestos y el caos general de una transmisión en vivo.

Traducción automática

Una vez que tenemos tu transcripción, nuestra capa de traducción la convierte a los idiomas de destino configurados. Actualmente admitimos 15 idiomas: español, japonés, portugués, francés, alemán, coreano, chino (mandarín), italiano, ruso, árabe, hindi, turco, holandés, polaco y tailandés, y hay más en camino.

El motor de traducción está ajustado para el habla conversacional e informal, la forma en que los streamers realmente hablan, no la salida rígida y formal que obtendrías de un traductor de documentos genérico.

Conversión neuronal de texto a voz (TTS)

Aquí es donde ocurre la magia. StreamFluent no solo muestra texto traducido. Lo dice. Nuestro motor TTS genera una voz de sonido natural en el idioma de destino, sintetizada en tiempo real.

En nuestro plan Pro, puedes crear un modelo de voz personalizado a partir de una muestra de audio de solo 30 segundos. El sistema aprende las características de tu voz (tono, cadencia, energía) y las aplica a la salida traducida. Tu stream en español suena como hablando español, no como un robot genérico.

En nuestro plan Business, estamos implementando la replicación completa de la voz con preservación de la emoción: la voz doblada transmitirá tu entusiasmo, frustración y humor en todos los idiomas. (Esta función estará disponible pronto, y los primeros testers la han calificado de "asombrosa").

Passthrough de video

Una decisión de diseño crítica: nunca volvemos a codificar tu video. Tu stream de 1080p60 o 4K pasa a través de nuestros servidores de retransmisión bit a bit. Solo tocamos la pista de audio (y, opcionalmente, integramos superposiciones de subtítulos). Esto significa cero pérdida de calidad, una latencia añadida mínima y ningún coste adicional de GPU en tu extremo.


Cómo funciona: configuración en menos de 2 minutos

Nos obsesionamos con hacer que StreamFluent sea ridículamente fácil de configurar. No hay plugins que instalar, ni cables de audio virtuales que configurar, ni fuentes de navegador con las que luchar. Este es el flujo completo:

Paso 1: crea tu cuenta

Regístrate en streamfluent.ai con tu correo electrónico o conéctate directamente con tu cuenta de Twitch, YouTube o Google. El nivel gratuito está disponible de inmediato, no se requiere tarjeta de crédito.

Paso 2: configura tu voz

Para los usuarios Pro y Business, graba una muestra de voz de 30 segundos directamente en el panel de control. Nuestro sistema utiliza esto para construir tu perfil de voz personalizado. Puedes ajustar la velocidad de habla (de 0,5x a 2,0x) y el tono (de -12 a +12 semitonos) para afinar cómo suena tu voz doblada.

Los usuarios del nivel gratuito tienen acceso a nuestras voces TTS estándar de alta calidad, que siguen sonando naturales, pero no están personalizadas para tu voz específica.

Paso 3: añade tus destinos

Aquí es donde configuras a dónde va cada idioma. Para cada idioma de destino, especifica:

  • El idioma (por ejemplo, español, japonés)
  • La plataforma (Twitch, YouTube, Kick o cualquier URL RTMP personalizada)
  • La clave de stream para ese canal
  • El modo de doblaje: doblaje completo con IA, solo subtítulos o ambos

Puedes ejecutar tantos destinos como permita tu plan: uno en el nivel gratuito, hasta tres en Pro e ilimitados en Business.

Paso 4: conecta OBS y conéctate en vivo

Esta es la parte que sorprende a todo el mundo: solo tienes que cambiar la URL de tu stream en OBS. Eso es todo.

Ve a OBS Studio → Ajustes → Stream → selecciona "Personalizado..." → pega tu URL RTMP de StreamFluent y la clave de stream. Estos se generan automáticamente en tu panel de control.

Servidor: rtmp://ingest.streamfluent.ai/live
Clave de stream: (tu clave única del panel de control)

Haz clic en "Iniciar transmisión" en OBS. StreamFluent se hace cargo a partir de ahí. Tu stream original va a tu canal principal (si has configurado un destino de passthrough) y cada versión traducida va al canal de la plataforma respectiva.

Sin plugins. Sin controladores de audio virtuales. Sin fuentes de navegador. Si tu codificador puede generar RTMP (y prácticamente todos pueden), funciona con StreamFluent.


Subtítulos y doblaje: control total, por destino

Una de las funciones más solicitadas durante nuestra versión beta fue el control granular sobre los subtítulos y el doblaje por destino. Las diferentes audiencias tienen diferentes preferencias y queríamos dar a los streamers una flexibilidad total.

Así es como funciona:

Modos de doblaje

Cada destino se puede configurar en uno de tres modos:

  • Doblaje automático: si el idioma de destino difiere de tu idioma de origen, se aplica el doblaje de voz completo con IA. Esta es la configuración predeterminada y la más común.
  • Solo subtítulos: tu voz original se conserva, pero los subtítulos traducidos se integran en el video. Ideal para audiencias que prefieren escuchar la voz original pero necesitan ayuda con la traducción.
  • Solo original: el stream pasa sin doblaje ni subtítulos. Útil para tu destino de idioma "nativo".

Subtítulos integrados

El sistema de subtítulos de StreamFluent renderiza el texto traducido directamente en la señal de video, sin necesidad de extensiones o configuraciones del lado del espectador. Todos los que miran ven los subtítulos, independientemente de su dispositivo o plataforma.

Puedes personalizar:

  • Posición: Centro inferior o centro superior
  • Tamaño de fuente: de 16px a 48px (24px predeterminado)
  • Idioma: Los subtítulos coinciden con el idioma de destino

Los subtítulos funcionan independientemente del doblaje. Puedes ejecutar solo subtítulos en algunos destinos y doblaje completo en otros. Incluso puedes ejecutar ambos: audio doblado con subtítulos coincidentes, para una máxima accesibilidad.

Mezcla de audio

Cuando el doblaje está activo, StreamFluent maneja automáticamente la mezcla de audio:

  • Volumen de audio original: Predeterminado al 20% (tu voz original se convierte en un sutil fondo, preservando los sonidos naturales del stream)
  • Volumen de audio doblado: Predeterminado al 100%
  • Auto-ducking: Cuando la voz doblada está hablando, el audio original se baja automáticamente. Cuando hay silencio (solo audio del juego, sin voz), el audio original vuelve a subir.

Todo esto se puede ajustar por stream desde el panel de control.


Creado para la fiabilidad: qué sucede cuando las cosas van mal

La transmisión en vivo es implacable. Si algo se rompe, no hay "deshacer". Construimos StreamFluent con esta realidad en el centro de cada decisión arquitectónica.

Modos de latencia

Los diferentes casos de uso exigen diferentes compensaciones entre latencia y calidad. StreamFluent ofrece tres modos:

  • Latencia ultrabaja (< 500 ms): para juegos competitivos e interacción de ritmo rápido. Disponible en el plan Business.
  • Equilibrado (< 1 segundo): el valor predeterminado recomendado para la mayoría de los streamers. Disponible en Pro y Business.
  • Calidad (< 2 segundos): prioriza la precisión de la traducción sobre la velocidad. Lo mejor para contenido con mucha conversación.

Comportamiento de fallback

Si el pipeline de IA encuentra un problema a mitad del stream (un breve problema de red, un retraso momentáneo en el procesamiento), StreamFluent no solo se bloquea o se queda en silencio. Tú configuras lo que sucede:

  • Passthrough (predeterminado): se emite el audio original, sin traducir, hasta que el pipeline se recupera. Tu audiencia te escucha en tu idioma nativo por un momento, luego el doblaje se reanuda sin problemas.
  • Silenciar: la pista de audio doblada se silencia brevemente. Útil si prefieres tener silencio a audio sin traducir.
  • Mostrar superposición: un breve mensaje en pantalla indica que la traducción no está disponible temporalmente.

Panel de control de monitoreo en vivo

Mientras estás en vivo, el panel de control de StreamFluent te brinda un centro de comando en tiempo real:

  • Estado por destino: ve si cada salida de idioma está en buen estado, junto con el número de espectadores y la latencia
  • Niveles de audio: medidores visuales para cada stream de salida
  • Feed de transcripción en vivo: mira la transcripción en tiempo real en todos los idiomas, con pestañas para cambiar entre ellos
  • Vista previa de TTS: escucha el audio doblado directamente en tu navegador para verificar la calidad
  • Controles en mitad del stream: activa o desactiva destinos individuales sin detener tu stream

La visión: un mundo donde cada streamer tiene una audiencia global

Comenzamos StreamFluent porque creemos que el idioma no debería determinar el techo de un creador.

Se suponía que Internet no tenía fronteras. Y en muchos sentidos, lo es: puedes ver un stream desde cualquier parte del mundo, instantáneamente. Pero "mirar" y "entender" son dos cosas muy diferentes. Un espectador en Seúl podría técnicamente cargar un canal brasileño de Twitch, pero si no entiende una palabra de lo que se dice, se irá en segundos.

Esto crea una segregación invisible. El mundo del streaming está fracturado en silos de idiomas y los creadores están atrapados dentro de ellos. Un brillante artista en la Ciudad de México nunca llegará orgánicamente al mercado japonés. Un streamer de variedades coreano con 100.000 seguidores leales no tiene camino hacia la audiencia de habla inglesa que es 10 veces más grande.

StreamFluent es el puente.

Visualizamos un futuro donde:

  • Un streamer en Buenos Aires se conecta en vivo y entretiene simultáneamente a audiencias en Tokio, Berlín, Mumbai y Los Ángeles, todos escuchando el stream en su propio idioma, con una voz que suena como la del creador.
  • El idioma ya no es una variable en el algoritmo de descubrimiento. La calidad del contenido es lo único que importa.
  • La clase media de creadores se expande globalmente, porque el talento se distribuye uniformemente entre los idiomas, pero la oportunidad ya no tiene que serlo.
  • Se forman comunidades multilingües en torno a los creadores, con traducción de chat e interacción entre idiomas como una función nativa (sí, también estamos trabajando en eso).

Esta es una gran visión. Todavía no hemos llegado. Pero con el lanzamiento de hoy, la base está en su lugar.


Precios: comienza gratis, escala a medida que creces

Diseñamos los precios de StreamFluent para que sean accesibles para los creadores en todos los niveles.

Plan gratuito: $0/mes

  • 30 minutos de subtítulos y 15 minutos de doblaje por mes
  • 1 idioma de destino
  • Voces TTS estándar
  • Acceso completo al panel de control de monitoreo en vivo
  • No se requiere tarjeta de crédito

Un stream típico de 1 hora utiliza aproximadamente 30 minutos de tiempo de subtítulos y 35 minutos de tiempo de doblaje (medimos el tiempo real de procesamiento del habla, no el tiempo de reloj de pared, por lo que las pausas, los segmentos solo de juego y el silencio no cuentan). El plan gratuito te da lo suficiente para probar un stream completo y experimentar la calidad de primera mano.

Plan Pro: $29/mes

  • 600 minutos de subtítulos y 300 minutos de doblaje por mes (~20 horas de streaming)
  • Hasta 3 idiomas de destino
  • Modelo de voz personalizado a partir de una muestra de 30 segundos
  • Distribución de retransmisión RTMP a múltiples plataformas
  • Controles de mezcla de audio
  • Límite de gasto configurable para excedentes
  • Prueba gratuita de 14 días

Plan Business: $79/mes

  • Minutos de subtítulos ilimitados y 1.200 minutos de doblaje por mes (~80 horas de streaming)
  • Idiomas de destino ilimitados
  • Modo de latencia ultrabaja (< 500 ms)
  • Ajuste de voz avanzado
  • Replicación de voz con preservación de la emoción (próximamente)
  • Soporte prioritario

Enterprise: precios personalizados

  • Ilimitado en todo
  • Infraestructura de retransmisión dedicada
  • Integración de API personalizada
  • Garantías de SLA
  • Opciones de marca blanca

Todos los planes de pago utilizan medición de precisión: solo contamos los segundos en los que nuestra IA está realmente haciendo el trabajo. Si estás jugando en silencio durante 10 minutos, son 0 minutos de subtítulos y 0 minutos de doblaje. Pagas por lo que usas y nada más.

Los planes de pago también incluyen un límite de gasto configurable para que nunca te sorprendan los cargos por excedentes. Establécelo en $0 para detenerte por completo en tus minutos incluidos, o elimina el límite por completo para una transmisión ininterrumpida.


Pruébalo hoy mismo

StreamFluent está en vivo. El nivel gratuito está disponible ahora mismo en streamfluent.ai. Sin tarjeta de crédito. Sin compromiso. Simplemente regístrate, pega una URL RTMP en OBS y transmite al mundo.

Si eres un creador que alguna vez se ha preguntado cómo podría ser tu audiencia sin una barrera idiomática, esta es tu respuesta.

Si eres un espectador que alguna vez ha hecho clic para salir de un stream increíble porque no podías entender el idioma, esos días están contados.

Construimos StreamFluent porque creemos que el mejor contenido debería ganar, independientemente del idioma en el que esté. Y a partir de hoy, puede hacerlo.

Tu voz. Todos los idiomas. Vamos.

Comienza a doblar gratis →


StreamFluent es compatible con Twitch, YouTube, Kick y cualquier plataforma compatible con RTMP. Actualmente disponible en 15 idiomas y se añaden más con regularidad. ¿Preguntas? Contáctanos en support@streamfluent.ai o consulta nuestra documentación.

Comments

Not displayed publicly