StreamFluent 소개: 라이브 스트리머를 위한 세계 최초의 실시간 AI 음성 번역 서비스 출시
StreamFluent

지금 이 순간에도 트위치 어딘가에서 상파울루의 한 스트리머가 인터넷 역사상 가장 인상적인 스피드런 중 하나를 선보이고 있습니다. 그의 해설은 짜릿하고, 채팅창은 폭발적입니다. 8,000명의 동시 시청자가 있으며, 그들 모두 포르투갈어를 사용합니다.
지구 반대편에서는 수백만 명의 영어를 사용하는 시청자들이 이 스트리머의 존재를 알지 못할 것입니다. 콘텐츠가 부족해서도 아니고, 게임 플레이가 부족해서도 아닙니다. 단지 최초의 웹캠이 등장한 이후 온라인 엔터테인먼트의 경계를 정의해 온 보이지 않는 벽, 언어 때문입니다.
오늘, 우리는 그 벽을 허물 것입니다.
StreamFluent는 라이브 스트리머를 위해 특별히 제작된 세계 최초의 실시간 AI 음성 더빙 및 캡션 플랫폼입니다. 여러분은 모국어로 한 번만 스트리밍하면 됩니다. StreamFluent는 여러분의 스트림을 듣고, 받아쓰고, 번역하고, 다시 음성으로 변환하여 최대 15개 이상의 언어로 제공하며, 각 언어는 트위치, 유튜브, Kick 또는 모든 RTMP 호환 플랫폼의 자체 채널로 전달됩니다.
이것은 포스트 프로덕션 더빙이 아닙니다. VOD 업로드 후에 추가하는 자막도 아닙니다. 이것은 여러분이 게임을 하거나, 반응하거나, 시청자와 채팅하는 동안 실시간으로, 1초 미만의 지연 시간으로 일어납니다.
우리가 어떻게 여기에 왔는지, 무엇을 만들었는지, 그리고 왜 이것이 크리에이터에게 모든 것을 바꿀 것이라고 믿는지 설명해 드리겠습니다.
문제점: 언어는 라이브 스트리밍의 마지막 장벽입니다.
스트리밍 산업은 거의 모든 다른 배포 문제를 해결했습니다. 여러분은 침실에서 라이브를 시작하여 모든 대륙의 시청자에게 도달할 수 있습니다. 플랫폼은 밀리초 단위로 비디오를 전달하는 글로벌 CDN을 보유하고 있습니다. 검색 알고리즘은 24시간 내내 새로운 시청자에게 콘텐츠를 제공합니다. 결제 시스템을 통해 도쿄의 팬이 토론토의 크리에이터에게 팁을 줄 수 있습니다.
하지만 언어는 어떻습니까? 언어는 여전히 단단한 벽입니다.
수학적으로 생각해 봅시다. 트위치에만 약 250만 명의 활성 스트리머가 있습니다. 그들 대부분은 단일 언어로 스트리밍합니다. 영어는 서구 플랫폼을 지배하지만, 가장 빠르게 성장하는 스트리밍 커뮤니티는 스페인어, 포르투갈어, 일본어, 한국어, 힌디어에 있습니다. 이 시청자들은 거대하고, 참여도가 높으며, 서로 고립되어 있습니다.
놀라운 게임 플레이와 매력적인 성격을 가진 스페인어 사용 스트리머는 잠재적 시청자가 스페인어를 구사하지 못하는 순간 한계에 부딪힙니다. 영어 크리에이터가 50,000명의 충성스러운 커뮤니티를 가지고 있는 경우에도 마찬가지입니다. 그들은 5억 명의 일본어 사용 인터넷 사용자에게 사실상 도달할 수 없습니다.
이것은 작은 문제가 아닙니다. 이것은 전체 크리에이터 경제에서 가장 큰 미개척 성장 레버입니다. 그리고 지금까지 해결책은 존재하지 않거나 터무니없이 비현실적이었습니다.
- 수동 번역? 모든 스트림, 모든 언어에 대해 실시간으로 음성 통화로 통역사가 필요합니다. 비용만으로도 엄청납니다. 지연 시간 때문에 시청하기 어렵습니다.
- 스트림 후 자막? VOD에는 아무것도 없는 것보다 낫지만, 돈, 커뮤니티, 추진력이 있는 라이브 시청에는 아무런 도움이 되지 않습니다.
- 브라우저 기반 캡션 오버레이? 몇 가지 도구가 존재하지만 텍스트 캡션만 처리하고, 복잡한 OBS 플러그인 설정이 필요하며, 근본적인 문제를 해결하지 못합니다. 여러분의 목소리는 여전히 하나의 언어로 되어 있습니다.
스트리밍 세계는 완전히 새로운 것이 필요했습니다. 음성을 처리하고, 번역하고, 새로운 음성을 합성할 수 있는 시스템이 필요했습니다. 이 모든 것이 실시간으로, 스트리머가 워크플로를 변경하지 않고도 가능해야 합니다.
그것이 우리가 만든 것입니다.
우리가 만든 것: 라이브 스트림을 위한 실시간 AI 더빙
StreamFluent는 여러분의 스트리밍 인코더(OBS Studio, Streamlabs 또는 모든 RTMP 호환 소프트웨어)와 대상 플랫폼 사이에 위치하는 실시간 AI 파이프라인입니다. 라이브를 시작하면 다음과 같은 일이 발생합니다.
- 여러분은 모국어로 정상적으로 스트리밍합니다. OBS의 RTMP 대상 URL을 제외하고 설정에 변경 사항이 없습니다.
- StreamFluent는 RTMP 릴레이 서버를 통해 여러분의 스트림을 수집합니다. 여러분의 비디오는 손상되지 않은 상태로 통과합니다. 우리는 여러분의 비디오를 다시 인코딩하지 않습니다.
- 우리의 AI 파이프라인은 여러분의 오디오를 실시간으로 처리합니다. 음성 인식은 여러분이 말하는 내용을 받아쓰고, 기계 번역은 그것을 여러분의 대상 언어로 변환하고, 신경망 텍스트 음성 변환은 각 언어에 대한 새로운 음성 트랙을 합성합니다.
- 각 번역된 스트림은 더빙된 오디오 트랙과 선택적으로 구워진 캡션과 함께 자체 대상(별도의 트위치 채널, 유튜브 스트림 또는 Kick 채널)으로 전달됩니다.
결과: 여러분은 한 번 스트리밍합니다. 여러분의 시청자는 15개 언어로 시청합니다. 각 버전은 자연스럽게 들리고, 동기화 상태를 유지하며, 1초 미만의 지연 시간으로 도착합니다.
각 부분을 분석해 보겠습니다.
음성 인식 (STT)
파이프라인의 첫 번째 단계는 자동 음성 인식입니다. StreamFluent의 STT 엔진은 시끄러운 게임 환경에서도 높은 정확도로 음성을 텍스트로 변환하여 실시간으로 오디오를 처리합니다. 우리는 빠른 해설, 배경 게임 오디오, 겹치는 소리, 라이브 방송의 일반적인 혼란 등 스트리밍 사용 사례에 맞게 특별히 최적화했습니다.
기계 번역
여러분의 대본이 준비되면 번역 레이어가 구성된 대상 언어로 변환합니다. 현재 15개 언어를 지원합니다. 스페인어, 일본어, 포르투갈어, 프랑스어, 독일어, 한국어, 중국어(만다린), 이탈리아어, 러시아어, 아랍어, 힌디어, 터키어, 네덜란드어, 폴란드어, 태국어이며 더 많은 언어가 추가될 예정입니다.
번역 엔진은 스트리머가 실제로 말하는 방식인 대화형의 비공식적인 언어에 맞게 조정되었습니다. 일반적인 문서 번역기에서 얻을 수 있는 딱딱하고 형식적인 출력이 아닙니다.
신경망 텍스트 음성 변환 (TTS)
여기서 마법이 일어납니다. StreamFluent는 번역된 텍스트를 표시하는 데 그치지 않습니다. 그것을 말합니다. 우리의 TTS 엔진은 대상 언어로 자연스러운 음성을 생성하여 실시간으로 합성합니다.
Pro 요금제에서는 30초 오디오 샘플만으로 사용자 지정 음성 모델을 만들 수 있습니다. 시스템은 여러분의 음성의 특징(톤, 운율, 에너지)을 학습하고 번역된 출력에 적용합니다. 여러분의 스페인어 스트림은 일반적인 로봇이 아닌 스페인어를 말하는 여러분처럼 들립니다.
Business 요금제에서는 감정 보존 기능이 있는 완전한 음성 복제를 출시하고 있습니다. 더빙된 음성은 여러분의 흥분, 좌절감, 유머를 언어를 넘어 전달합니다. (이 기능은 곧 출시될 예정이며, 초기 테스터들은 "기묘하다"고 불렀습니다.)
비디오 패스스루
중요한 설계 결정: 우리는 여러분의 비디오를 다시 인코딩하지 않습니다. 여러분의 1080p60 또는 4K 스트림은 우리의 릴레이 서버를 통해 비트 단위로 전달됩니다. 우리는 오디오 트랙만 건드립니다(그리고 선택적으로 캡션 오버레이를 구워 넣습니다). 이것은 품질 손실이 없고, 추가된 지연 시간이 최소화되며, 여러분 측에서 추가 GPU 비용이 들지 않음을 의미합니다.
작동 방식: 2분 이내에 설정
우리는 StreamFluent를 터무니없이 쉽게 설정할 수 있도록 하는 데 몰두했습니다. 설치할 플러그인이 없고, 구성할 가상 오디오 케이블이 없고, 씨름할 브라우저 소스가 없습니다. 전체 흐름은 다음과 같습니다.
1단계: 계정 만들기
여러분의 이메일로 streamfluent.ai에서 가입하거나 트위치, 유튜브 또는 Google 계정으로 직접 연결하십시오. 무료 티어는 즉시 사용할 수 있습니다. 신용 카드가 필요하지 않습니다.
2단계: 음성 설정
Pro 및 Business 사용자의 경우 대시보드에서 직접 30초 음성 샘플을 녹음하십시오. 우리의 시스템은 이것을 사용하여 여러분의 사용자 지정 음성 프로필을 구축합니다. 말하기 속도(0.5x ~ 2.0x)와 피치(-12 ~ +12 반음)를 조정하여 더빙된 음성이 들리는 방식을 미세 조정할 수 있습니다.
무료 티어 사용자는 우리의 고품질 표준 TTS 음성에 액세스할 수 있습니다. 여전히 자연스럽게 들리지만 여러분의 특정 음성에 개인화되지는 않았습니다.
3단계: 대상 추가
여기서 각 언어가 어디로 가는지 구성합니다. 각 대상 언어에 대해 다음을 지정합니다.
- 언어 (예: 스페인어, 일본어)
- 플랫폼 (트위치, 유튜브, Kick 또는 모든 사용자 지정 RTMP URL)
- 해당 채널의 스트림 키
- 더빙 모드: 전체 AI 더빙, 캡션만 또는 둘 다
여러분의 요금제가 허용하는 만큼 많은 대상을 실행할 수 있습니다. 무료 티어에서는 1개, Pro에서는 최대 3개, Business에서는 무제한입니다.
4단계: OBS 연결 및 라이브 시작
여기서 모두를 놀라게 하는 부분이 있습니다. OBS에서 스트림 URL만 변경하면 됩니다. 그게 전부입니다.
OBS Studio → 설정 → 스트림 → "사용자 지정..." 선택 → StreamFluent RTMP URL 및 스트림 키를 붙여넣습니다. 이것들은 여러분의 대시보드에서 자동으로 생성됩니다.
서버: rtmp://ingest.streamfluent.ai/live
스트림 키: (대시보드의 고유 키)
OBS에서 "스트리밍 시작"을 누르십시오. StreamFluent가 거기에서부터 이어받습니다. 여러분의 원래 스트림은 여러분의 기본 채널로 이동하고(패스스루 대상을 구성한 경우), 각 번역된 버전은 해당 플랫폼 채널로 이동합니다.
플러그인이 없습니다. 가상 오디오 드라이버가 없습니다. 브라우저 소스가 없습니다. 여러분의 인코더가 RTMP를 출력할 수 있다면(그리고 사실상 모든 인코더가 가능합니다) StreamFluent와 함께 작동합니다.
캡션 및 더빙: 대상별로 완전한 제어
베타 기간 동안 가장 많이 요청된 기능 중 하나는 대상별로 캡션 및 더빙에 대한 세분화된 제어였습니다. 다른 시청자는 다른 선호도를 가지고 있으며, 우리는 스트리머에게 완전한 유연성을 제공하고 싶었습니다.
작동 방식은 다음과 같습니다.
더빙 모드
각 대상은 세 가지 모드 중 하나로 설정할 수 있습니다.
- 자동 더빙: 대상 언어가 여러분의 소스 언어와 다른 경우 전체 AI 음성 더빙이 적용됩니다. 이것은 기본값이며 가장 일반적인 설정입니다.
- 캡션만: 여러분의 원래 음성이 보존되지만 번역된 캡션이 비디오에 구워집니다. 원래 음성을 듣는 것을 선호하지만 번역 지원이 필요한 시청자에게 적합합니다.
- 원래만: 스트림은 더빙과 캡션 없이 통과합니다. 여러분의 "홈" 언어 대상에 유용합니다.
구워진 캡션
StreamFluent의 캡션 시스템은 번역된 텍스트를 비디오 피드에 직접 렌더링합니다. 시청자 측 확장 프로그램이나 설정이 필요하지 않습니다. 시청하는 모든 사람이 장치나 플랫폼에 관계없이 캡션을 봅니다.
다음을 사용자 지정할 수 있습니다.
- 위치: 하단 중앙 또는 상단 중앙
- 글꼴 크기: 16px ~ 48px (기본값 24px)
- 언어: 캡션은 대상 언어와 일치합니다.
캡션은 더빙과 독립적으로 작동합니다. 일부 대상에서는 캡션만 실행하고 다른 대상에서는 전체 더빙을 실행할 수 있습니다. 최대 접근성을 위해 둘 다(더빙된 오디오와 일치하는 캡션) 실행할 수도 있습니다.
오디오 믹싱
더빙이 활성화되면 StreamFluent는 자동으로 오디오 믹싱을 처리합니다.
- 원래 오디오 볼륨: 기본값은 20%입니다(여러분의 원래 음성은 미묘한 배경이 되어 자연스러운 스트림 사운드를 보존합니다).
- 더빙된 오디오 볼륨: 기본값은 100%입니다.
- 자동 더킹: 더빙된 음성이 말할 때 원래 오디오가 자동으로 낮아집니다. 침묵이 있을 때(게임 플레이 오디오만 있고 음성이 없을 때) 원래 오디오가 다시 올라옵니다.
이 모든 것은 대시보드에서 스트림별로 조정할 수 있습니다.
안정성을 위해 제작됨: 문제가 발생하면 어떻게 됩니까?
라이브 스트리밍은 용서하지 않습니다. 뭔가 고장나면 "취소"가 없습니다. 우리는 StreamFluent를 모든 아키텍처 결정의 핵심에 이 현실을 염두에 두고 구축했습니다.
지연 시간 모드
다른 사용 사례는 다른 지연 시간-품질 절충안을 요구합니다. StreamFluent는 세 가지 모드를 제공합니다.
- 초저지연 시간 (< 500ms): 경쟁적인 게임 및 빠른 상호 작용에 적합합니다. Business 요금제에서 사용할 수 있습니다.
- 균형 (< 1초): 대부분의 스트리머에게 권장되는 기본값입니다. Pro 및 Business에서 사용할 수 있습니다.
- 품질 (< 2초): 속도보다 번역 정확도를 우선시합니다. 토크가 많은 콘텐츠에 가장 적합합니다.
폴백 동작
AI 파이프라인이 스트림 중간에 문제(짧은 네트워크 문제, 순간적인 처리 지연)가 발생하면 StreamFluent는 단순히 충돌하거나 침묵하지 않습니다. 여러분은 어떤 일이 발생하는지 구성합니다.
- 통과 (기본값): 파이프라인이 복구될 때까지 원래의 번역되지 않은 오디오가 출력됩니다. 여러분의 시청자는 잠시 동안 모국어로 여러분의 목소리를 듣고 더빙이 원활하게 재개됩니다.
- 음소거: 더빙된 오디오 트랙이 잠시 동안 침묵합니다. 번역되지 않은 오디오보다 침묵을 선호하는 경우에 유용합니다.
- 오버레이 표시: 번역을 일시적으로 사용할 수 없음을 나타내는 짧은 화면 메시지가 표시됩니다.
라이브 모니터링 대시보드
라이브 상태인 동안 StreamFluent 대시보드는 여러분에게 실시간 명령 센터를 제공합니다.
- 대상별 상태: 각 언어 출력이 정상인지, 시청자 수와 지연 시간과 함께 확인하십시오.
- 오디오 레벨: 각 출력 스트림에 대한 시각적 미터
- 라이브 전사 피드: 모든 언어로 실시간 전사를 보고 탭을 전환하여 언어를 전환하십시오.
- TTS 미리보기: 브라우저에서 직접 더빙된 오디오를 들어 품질을 확인하십시오.
- 스트림 중간 제어: 스트림을 중단하지 않고 개별 대상을 활성화하거나 비활성화하십시오.
비전: 모든 스트리머가 글로벌 시청자를 갖는 세상
우리는 언어가 크리에이터의 한계를 결정해서는 안 된다고 믿기 때문에 StreamFluent를 시작했습니다.
인터넷은 국경이 없어야 했습니다. 그리고 여러 면에서 그렇습니다. 여러분은 세계 어디에서나 스트림을 즉시 시청할 수 있습니다. 그러나 "시청"과 "이해"는 매우 다른 두 가지입니다. 서울의 시청자는 기술적으로 브라질 트위치 채널을 로드할 수 있지만, 말하는 내용을 이해할 수 없다면 몇 초 안에 떠날 것입니다.
이것은 보이지 않는 분리를 만듭니다. 스트리밍 세계는 언어 사일로로 나뉘어 있고, 크리에이터는 그 안에 갇혀 있습니다. 멕시코 시티의 뛰어난 엔터테이너는 일본 시장에 유기적으로 도달하지 못할 것입니다. 100,000명의 충성스러운 팔로워를 가진 한국 버라이어티 스트리머는 10배 더 큰 영어권 시청자에게 도달할 방법이 없습니다.
StreamFluent는 다리입니다.
우리는 다음과 같은 미래를 구상합니다.
- 부에노스아이레스의 스트리머가 라이브를 시작하고 도쿄, 베를린, 뭄바이, 로스앤젤레스의 시청자를 동시에 즐겁게 합니다. 모두 자신의 언어로, 크리에이터의 목소리처럼 들리는 목소리로 스트림을 듣습니다.
- 언어는 더 이상 검색 알고리즘의 변수가 아닙니다. 콘텐츠 품질이 전부입니다.
- 재능은 언어에 따라 고르게 분포되어 있지만 기회는 더 이상 그럴 필요가 없기 때문에 크리에이터 중산층이 전 세계적으로 확장됩니다.
- 채팅 번역 및 교차 언어 상호 작용이 기본 기능인 크리에이터를 중심으로 다국어 커뮤니티가 형성됩니다(예, 우리도 그것을 작업하고 있습니다).
이것은 큰 비전입니다. 우리는 아직 거기에 도달하지 못했습니다. 그러나 오늘 출시로 기반이 마련되었습니다.
가격: 무료로 시작하여 성장함에 따라 확장
우리는 모든 수준의 크리에이터가 StreamFluent의 가격에 접근할 수 있도록 설계했습니다.
무료 요금제 — 월 $0
- 월 30분 캡션 및 15분 더빙
- 1개의 대상 언어
- 표준 TTS 음성
- 라이브 모니터링 대시보드에 대한 전체 액세스
- 신용 카드가 필요하지 않습니다.
일반적인 1시간 스트림은 약 30분의 캡션 시간과 35분의 더빙 시간을 사용합니다(우리는 실제 음성 처리 시간을 측정합니다. 벽시계 시간이 아닙니다. 따라서 일시 중지, 게임 플레이 전용 세그먼트 및 침묵은 계산되지 않습니다). 무료 요금제는 전체 스트림을 테스트하고 품질을 직접 경험할 수 있을 만큼 충분합니다.
Pro 요금제 — 월 $29
- 월 600분 캡션 및 300분 더빙 (~20시간 스트리밍)
- 최대 3개의 대상 언어
- 30초 샘플에서 사용자 지정 음성 모델
- 여러 플랫폼에 대한 RTMP 릴레이 배포
- 오디오 믹싱 컨트롤
- 초과 사용량에 대한 구성 가능한 지출 한도
- 14일 무료 평가판
Business 요금제 — 월 $79
- 무제한 캡션 분 및 월 1,200분 더빙 (~80시간 스트리밍)
- 무제한 대상 언어
- 초저지연 시간 모드 (< 500ms)
- 고급 음성 튜닝
- 감정 보존 기능이 있는 음성 복제 (곧 출시 예정)
- 우선 지원
Enterprise — 사용자 지정 가격
- 모든 것이 무제한
- 전용 릴레이 인프라
- 사용자 지정 API 통합
- SLA 보장
- 화이트 라벨 옵션
모든 유료 요금제는 정밀 계량을 사용합니다. 우리는 AI가 실제로 작업을 수행하는 초만 계산합니다. 10분 동안 조용히 게임을 하는 경우 캡션 0분, 더빙 0분입니다. 여러분은 사용하는 만큼만 지불하고 그 이상은 지불하지 않습니다.
유료 요금제에는 구성 가능한 지출 한도도 포함되어 있으므로 초과 요금에 놀라지 않을 것입니다. 포함된 분에서 하드 스톱하려면 $0로 설정하거나 중단 없는 스트리밍을 위해 캡을 완전히 제거하십시오.
오늘 사용해 보세요
StreamFluent가 라이브입니다. 무료 티어는 지금 바로 streamfluent.ai에서 사용할 수 있습니다. 신용 카드가 필요하지 않습니다. 약속이 없습니다. 가입하고, RTMP URL을 OBS에 붙여넣고, 전 세계로 스트리밍하십시오.
언어 장벽 없이 여러분의 시청자가 어떻게 보일지 궁금해했던 크리에이터라면 이것이 여러분의 해답입니다.
언어를 이해할 수 없어서 놀라운 스트림에서 클릭한 적이 있는 시청자라면 그 날은 얼마 남지 않았습니다.
우리는 최고의 콘텐츠가 어떤 언어로 되어 있든 승리해야 한다고 믿기 때문에 StreamFluent를 구축했습니다. 그리고 오늘부터 가능합니다.
여러분의 목소리. 모든 언어. 시작해 봅시다.
StreamFluent는 트위치, 유튜브, Kick 및 모든 RTMP 호환 플랫폼을 지원합니다. 현재 15개 언어로 제공되며 정기적으로 더 많은 언어가 추가되고 있습니다. 질문이 있으십니까? support@streamfluent.ai로 문의하거나 설명서를 확인하십시오.