Powrót do bloga

Przedstawiamy StreamFluent: Pierwsze na świecie tłumaczenie głosowe AI w czasie rzeczywistym dla streamerów na żywo jest już dostępne.

S

StreamFluent

16 lutego 202613 min czytania0 wyświetleń
Przedstawiamy StreamFluent: Pierwsze na świecie tłumaczenie głosowe AI w czasie rzeczywistym dla streamerów na żywo jest już dostępne.

Teraz, gdzieś na Twitchu, streamer w São Paulo dokonuje jednego z najbardziej imponujących speedrunów, jakie kiedykolwiek widział internet. Jego komentarz jest elektryzujący. Jego czat eksploduje. Ma 8000 widzów jednocześnie i każdy z nich mówi po portugalsku.

Po drugiej stronie planety anglojęzyczna publiczność licząca miliony nigdy nie dowie się o istnieniu tego streamera. Nie dlatego, że treść nie jest wystarczająco dobra. Nie dlatego, że brakuje rozgrywki. Ale z powodu jednej, niewidzialnej ściany, która definiuje granice rozrywki online od czasu, gdy pierwsza kamera internetowa została uruchomiona: języka.

Dziś burzymy tę ścianę.

StreamFluent to pierwsza na świecie platforma do dubbingu głosowego i tworzenia napisów w czasie rzeczywistym oparta na sztucznej inteligencji, stworzona specjalnie dla streamerów na żywo. Streamujesz raz, w swoim ojczystym języku. StreamFluent słucha, transkrybuje, tłumaczy i ponownie nagrywa Twój strumień — w ponad 15 językach — każdy dostarczany do własnego kanału na Twitchu, YouTube, Kick lub dowolnej platformie kompatybilnej z RTMP.

To nie jest dubbing postprodukcyjny. To nie są napisy, które dodajesz po przesłaniu VOD. To dzieje się na żywo, z opóźnieniem poniżej sekundy, podczas gdy grasz, reagujesz lub rozmawiasz z publicznością.

Wyjaśnimy, jak się tu znaleźliśmy, co zbudowaliśmy i dlaczego wierzymy, że to zmienia wszystko dla twórców.


Problem: Język jest ostatnią barierą w transmisjach na żywo

Branża streamingowa rozwiązała prawie każdy inny problem z dystrybucją. Możesz nadawać na żywo ze swojej sypialni i docierać do widzów na każdym kontynencie. Platformy mają globalne sieci CDN, które dostarczają wideo w milisekundach. Algorytmy wykrywania wyświetlają treści nowym odbiorcom przez całą dobę. Systemy płatności pozwalają fanom w Tokio dawać napiwki twórcy w Toronto.

Ale język? Język jest nadal twardą ścianą.

Rozważmy matematykę. Na samym Twitchu jest około 2,5 miliona aktywnych streamerów. Zdecydowana większość z nich streamuje w jednym języku. Język angielski dominuje na platformach zachodnich, ale najszybciej rozwijające się społeczności streamingowe są w hiszpańskim, portugalskim, japońskim, koreańskim i hindi. Ci odbiorcy są ogromni, zaangażowani i w dużej mierze odizolowani od siebie.

Streamer hiszpańskojęzyczny z niesamowitą rozgrywką i magnetyczną osobowością osiąga sufit w momencie, gdy jego potencjalny widz nie mówi po hiszpańsku. To samo dotyczy sytuacji odwrotnej — anglojęzyczny twórca z lojalną społecznością 50 000 osób zasadniczo nie ma zasięgu w 500-milionowym internecie japońskojęzycznym.

To nie jest mały problem. To największa niewykorzystana dźwignia wzrostu w całej gospodarce twórców. I do tej pory rozwiązania były albo nieistniejące, albo śmiesznie niepraktyczne:

  • Tłumaczenie ręczne? Potrzebny byłby ludzki tłumacz na rozmowie głosowej, na żywo, dla każdej transmisji, w każdym języku. Sam koszt jest zaporowy. Opóźnienie sprawia, że nie da się tego oglądać.
  • Napisy po transmisji? Lepsze niż nic dla VOD, ale nie robią nic dla oglądalności na żywo — gdzie są pieniądze, społeczność i momentum.
  • Nakładki z napisami w przeglądarce? Istnieje kilka narzędzi, ale obsługują one tylko napisy tekstowe, wymagają złożonych konfiguracji wtyczek OBS i nie rozwiązują fundamentalnego problemu: Twój głos jest nadal w jednym języku.

Świat streamingowy potrzebował czegoś zupełnie nowego. Systemu, który mógłby przetwarzać mowę, tłumaczyć ją i syntetyzować nowy głos — wszystko w czasie rzeczywistym, wszystko bez zmiany przepływu pracy przez streamera.

To właśnie zbudowaliśmy.


Co zbudowaliśmy: Dubbing AI w czasie rzeczywistym dla transmisji na żywo

StreamFluent to potok AI w czasie rzeczywistym, który znajduje się między Twoim enkoderem streamingowym (OBS Studio, Streamlabs lub dowolnym oprogramowaniem kompatybilnym z RTMP) a Twoimi platformami docelowymi. Oto, co się dzieje, gdy zaczynasz nadawać na żywo:

  1. Streamujesz normalnie w swoim ojczystym języku. Nic w Twojej konfiguracji się nie zmienia, z wyjątkiem docelowego adresu URL RTMP w OBS.
  2. StreamFluent pobiera Twój strumień za pośrednictwem naszych serwerów przekaźnikowych RTMP. Twój film przechodzi bez zmian — nigdy nie przekodowujemy Twojego filmu.
  3. Nasz potok AI przetwarza Twój dźwięk w czasie rzeczywistym: rozpoznawanie mowy transkrybuje to, co mówisz, tłumaczenie maszynowe konwertuje to na Twoje języki docelowe, a neuronowa synteza mowy z tekstu (TTS) syntetyzuje nową ścieżkę dźwiękową dla każdego języka.
  4. Każdy przetłumaczony strumień jest dostarczany do własnego miejsca docelowego — oddzielnego kanału Twitch, strumienia YouTube lub kanału Kick — wraz ze zdubbingowaną ścieżką dźwiękową i opcjonalnymi wtopionymi napisami.

Rezultat: streamujesz raz. Twoja publiczność ogląda w piętnastu językach. Każda wersja brzmi naturalnie, pozostaje zsynchronizowana i dociera z opóźnieniem poniżej sekundy.

Rozłóżmy każdy element na części.

Rozpoznawanie mowy (STT)

Pierwszym etapem potoku jest automatyczne rozpoznawanie mowy. Silnik STT StreamFluent przetwarza Twój dźwięk w czasie rzeczywistym, konwertując mowę na tekst z dużą dokładnością, nawet w hałaśliwym środowisku gier. Zoptymalizowaliśmy go specjalnie pod kątem przypadku użycia streamingu — szybki komentarz, dźwięk gry w tle, nakładające się dźwięki i ogólny chaos transmisji na żywo.

Tłumaczenie maszynowe

Gdy mamy już Twój transkrypt, nasza warstwa tłumaczenia konwertuje go na skonfigurowane języki docelowe. Obecnie obsługujemy 15 języków: hiszpański, japoński, portugalski, francuski, niemiecki, koreański, chiński (mandaryński), włoski, rosyjski, arabski, hindi, turecki, holenderski, polski i tajski — a wkrótce będzie ich więcej.

Silnik tłumaczenia jest dostrojony do mowy konwersacyjnej, nieformalnej — tak, jak naprawdę mówią streamerzy — a nie do sztywnego, formalnego wyjścia, które można by uzyskać z ogólnego tłumacza dokumentów.

Neuronowa synteza mowy z tekstu (TTS)

Tutaj dzieje się magia. StreamFluent nie tylko wyświetla przetłumaczony tekst. On go mówi. Nasz silnik TTS generuje naturalnie brzmiący głos w języku docelowym, syntetyzowany w czasie rzeczywistym.

W naszym planie Pro możesz stworzyć niestandardowy model głosu z zaledwie 30-sekundowej próbki dźwiękowej. System uczy się cech Twojego głosu — tonu, kadencji, energii — i stosuje je do przetłumaczonego wyjścia. Twój strumień hiszpański brzmi jak Ty mówiący po hiszpańsku, a nie jak ogólny robot.

W naszym planie Business wprowadzamy pełną replikację głosu z zachowaniem emocji — zdubbingowany głos będzie przenosił Twoje podekscytowanie, frustrację i humor w różnych językach. (Ta funkcja pojawi się wkrótce, a pierwsi testerzy nazwali ją „niesamowitą”).

Przekazywanie wideo

Krytyczna decyzja projektowa: nigdy nie przekodowujemy Twojego wideo. Twój strumień 1080p60 lub 4K przechodzi przez nasze serwery przekaźnikowe bit po bicie. Dotykamy tylko ścieżki dźwiękowej (i opcjonalnie wtopimy nakładki z napisami). Oznacza to zerową utratę jakości, minimalne dodatkowe opóźnienie i brak dodatkowych kosztów GPU po Twojej stronie.


Jak to działa: Konfiguracja w mniej niż 2 minuty

Byliśmy obsesyjni na punkcie tego, aby StreamFluent był śmiesznie łatwy w konfiguracji. Nie ma wtyczek do zainstalowania, wirtualnych kabli audio do skonfigurowania, źródeł przeglądarki do walki. Oto cały przepływ:

Krok 1: Utwórz swoje konto

Zarejestruj się na streamfluent.ai za pomocą swojego adresu e-mail lub połącz się bezpośrednio ze swoim kontem Twitch, YouTube lub Google. Bezpłatny poziom jest dostępny natychmiast — nie jest wymagana karta kredytowa.

Krok 2: Skonfiguruj swój głos

Dla użytkowników Pro i Business nagraj 30-sekundową próbkę głosu bezpośrednio w panelu. Nasz system używa tego do zbudowania Twojego niestandardowego profilu głosu. Możesz dostosować tempo mówienia (od 0,5x do 2,0x) i wysokość dźwięku (od -12 do +12 półtonów), aby dostroić brzmienie Twojego zdubbingowanego głosu.

Użytkownicy bezpłatnego poziomu uzyskują dostęp do naszych wysokiej jakości standardowych głosów TTS — nadal brzmiących naturalnie, po prostu nie spersonalizowanych do Twojego konkretnego głosu.

Krok 3: Dodaj swoje miejsca docelowe

Tutaj konfigurujesz, gdzie trafia każdy język. Dla każdego języka docelowego określasz:

  • Język (np. hiszpański, japoński)
  • Platformę (Twitch, YouTube, Kick lub dowolny niestandardowy adres URL RTMP)
  • Klucz strumienia dla tego kanału
  • Tryb dubbingu: pełny dubbing AI, tylko napisy lub oba

Możesz uruchomić tyle miejsc docelowych, na ile pozwala Twój plan — jedno na bezpłatnym poziomie, do trzech na Pro i nieograniczoną liczbę na Business.

Krok 4: Połącz OBS i zacznij nadawać na żywo

Oto część, która zaskakuje wszystkich: po prostu zmieniasz adres URL strumienia w OBS. To wszystko.

Przejdź do OBS Studio → Ustawienia → Strumień → wybierz „Niestandardowy…” → wklej adres URL RTMP StreamFluent i klucz strumienia. Są one generowane automatycznie w Twoim panelu.

Serwer: rtmp://ingest.streamfluent.ai/live
Klucz strumienia: (Twój unikalny klucz z panelu)

Kliknij „Rozpocznij strumieniowanie” w OBS. StreamFluent przejmuje kontrolę stamtąd. Twój oryginalny strumień trafia do Twojego głównego kanału (jeśli skonfigurowałeś miejsce docelowe przekazywania), a każda przetłumaczona wersja trafia do odpowiedniego kanału platformy.

Żadnych wtyczek. Żadnych wirtualnych sterowników audio. Żadnych źródeł przeglądarki. Jeśli Twój enkoder może wysyłać RTMP — a praktycznie wszystkie mogą — działa z StreamFluent.


Napisy i dubbing: Pełna kontrola, dla każdego miejsca docelowego

Jedną z najczęściej żądanych funkcji podczas naszej bety była szczegółowa kontrola nad napisami i dubbingiem dla każdego miejsca docelowego. Różni odbiorcy mają różne preferencje i chcieliśmy dać streamerom pełną elastyczność.

Oto jak to działa:

Tryby dubbingu

Każde miejsce docelowe można ustawić w jednym z trzech trybów:

  • Auto Dub: Jeśli język docelowy różni się od Twojego języka źródłowego, stosowany jest pełny dubbing głosowy AI. Jest to ustawienie domyślne i najczęściej używane.
  • Tylko napisy: Twój oryginalny głos jest zachowany, ale przetłumaczone napisy są wtopione w wideo. Świetne dla odbiorców, którzy wolą słyszeć oryginalny głos, ale potrzebują pomocy w tłumaczeniu.
  • Tylko oryginał: Strumień przechodzi bez dubbingu i bez napisów. Przydatne dla Twojego „domowego” języka docelowego.

Wtopione napisy

System napisów StreamFluent renderuje przetłumaczony tekst bezpośrednio w strumieniu wideo — nie jest wymagane żadne rozszerzenie ani ustawienie po stronie widza. Każdy oglądający widzi napisy, niezależnie od urządzenia lub platformy.

Możesz dostosować:

  • Pozycję: Dolny środek lub górny środek
  • Rozmiar czcionki: Od 16px do 48px (domyślnie 24px)
  • Język: Napisy pasują do języka docelowego

Napisy działają niezależnie od dubbingu. Możesz uruchomić tylko napisy w niektórych miejscach docelowych i pełny dubbing w innych. Możesz nawet uruchomić oba — zdubbingowany dźwięk z pasującymi napisami — dla maksymalnej dostępności.

Miksowanie dźwięku

Gdy dubbing jest aktywny, StreamFluent automatycznie obsługuje miksowanie dźwięku:

  • Oryginalna głośność dźwięku: Domyślnie 20% (Twój oryginalny głos staje się subtelnym tłem, zachowując naturalne dźwięki strumienia)
  • Głośność zdubbingowanego dźwięku: Domyślnie 100%
  • Automatyczne ściszanie: Kiedy mówi zdubbingowany głos, oryginalny dźwięk jest automatycznie obniżany. Kiedy jest cisza (tylko dźwięk rozgrywki, bez mowy), oryginalny dźwięk wraca.

Wszystkie te ustawienia można regulować dla każdego strumienia z panelu.


Zbudowany z myślą o niezawodności: Co się dzieje, gdy coś pójdzie nie tak

Transmisja na żywo jest bezlitosna. Jeśli coś się zepsuje, nie ma „cofnij”. Zbudowaliśmy StreamFluent z tą rzeczywistością w centrum każdej decyzji architektonicznej.

Tryby opóźnienia

Różne przypadki użycia wymagają różnych kompromisów między opóźnieniem a jakością. StreamFluent oferuje trzy tryby:

  • Bardzo niskie opóźnienie (< 500 ms): Do gier rywalizacyjnych i szybkiej interakcji. Dostępne w planie Business.
  • Zrównoważony (< 1 sekunda): Zalecane ustawienie domyślne dla większości streamerów. Dostępne w planach Pro i Business.
  • Jakość (< 2 sekundy): Priorytetem jest dokładność tłumaczenia nad szybkością. Najlepsze dla treści z dużą ilością mówienia.

Zachowanie awaryjne

Jeśli potok AI napotka problem w trakcie strumienia — krótką przerwę w sieci, chwilowe opóźnienie przetwarzania — StreamFluent nie zawiesza się ani nie milknie. Konfigurujesz, co się stanie:

  • Przekaż dalej (domyślnie): Oryginalny, nietłumaczony dźwięk jest wysyłany, dopóki potok nie zostanie odzyskany. Twoja publiczność słyszy Cię w Twoim ojczystym języku przez chwilę, a następnie dubbing wznawia się płynnie.
  • Wycisz: Zdubbkowana ścieżka dźwiękowa na krótko milknie. Przydatne, jeśli wolisz ciszę niż nietłumaczony dźwięk.
  • Pokaż nakładkę: Krótka wiadomość na ekranie wskazuje, że tłumaczenie jest tymczasowo niedostępne.

Panel monitorowania na żywo

Podczas transmisji na żywo panel StreamFluent zapewnia centrum dowodzenia w czasie rzeczywistym:

  • Status dla każdego miejsca docelowego: Zobacz, czy każdy język wyjściowy jest w dobrym stanie, wraz z liczbą widzów i opóźnieniem
  • Poziomy dźwięku: Wizualne mierniki dla każdego strumienia wyjściowego
  • Strumień transkrypcji na żywo: Oglądaj transkrypcję w czasie rzeczywistym w każdym języku, z zakładkami do przełączania się między nimi
  • Podgląd TTS: Posłuchaj zdubbingowanego dźwięku bezpośrednio w swojej przeglądarce, aby zweryfikować jakość
  • Kontrolki w trakcie strumienia: Włącz lub wyłącz poszczególne miejsca docelowe bez zatrzymywania strumienia

Wizja: Świat, w którym każdy streamer ma globalną publiczność

Zaczęliśmy StreamFluent, ponieważ wierzymy, że język nie powinien określać sufitu twórcy.

Internet miał być bez granic. I pod wieloma względami tak jest — możesz oglądać strumień z dowolnego miejsca na świecie, natychmiast. Ale „oglądanie” i „rozumienie” to dwie różne rzeczy. Widz w Seulu może technicznie załadować brazylijski kanał Twitch, ale jeśli nie rozumie ani słowa, odejdzie w kilka sekund.

To tworzy niewidzialną segregację. Świat streamingowy jest podzielony na silosy językowe, a twórcy są w nich uwięzieni. Genialny artysta w Meksyku nigdy organicznie nie dotrze na rynek japoński. Koreański streamer różnorodności ze 100 000 lojalnych obserwujących nie ma drogi do anglojęzycznej publiczności, która jest 10 razy większa.

StreamFluent jest mostem.

Wyobrażamy sobie przyszłość, w której:

  • Streamer w Buenos Aires zaczyna nadawać na żywo i jednocześnie bawi publiczność w Tokio, Berlinie, Bombaju i Los Angeles — wszyscy słyszą strumień w swoim własnym języku, głosem, który brzmi jak głos twórcy.
  • Język nie jest już zmienną w algorytmie wykrywania. Liczy się tylko jakość treści.
  • Klasa średnia twórców rozszerza się globalnie, ponieważ talent jest równomiernie rozłożony w różnych językach, ale okazja nie musi już taka być.
  • Wielojęzyczne społeczności tworzą się wokół twórców, z tłumaczeniem czatu i interakcją międzyjęzykową jako natywną funkcją (tak, nad tym też pracujemy).

To wielka wizja. Jeszcze tam nie dotarliśmy. Ale wraz z dzisiejszą premierą fundament jest na miejscu.


Ceny: Zacznij za darmo, skaluj w miarę rozwoju

Zaprojektowaliśmy ceny StreamFluent tak, aby były dostępne dla twórców na każdym poziomie.

Plan darmowy — 0 USD miesięcznie

  • 30 minut napisów i 15 minut dubbingu miesięcznie
  • 1 język docelowy
  • Standardowe głosy TTS
  • Pełny dostęp do panelu monitorowania na żywo
  • Nie jest wymagana karta kredytowa

Typowy 1-godzinny strumień zużywa około 30 minut czasu napisów i 35 minut czasu dubbingu (mierzymy rzeczywisty czas przetwarzania mowy, a nie czas zegarowy — więc pauzy, segmenty tylko z rozgrywką i cisza się nie liczą). Darmowy plan daje Ci wystarczająco dużo, aby przetestować pełny strumień i doświadczyć jakości z pierwszej ręki.

Plan Pro — 29 USD miesięcznie

  • 600 minut napisów i 300 minut dubbingu miesięcznie (~20 godzin strumieniowania)
  • Do 3 języków docelowych
  • Niestandardowy model głosu z 30-sekundowej próbki
  • Dystrybucja przekaźnikowa RTMP na wiele platform
  • Kontrolki miksowania dźwięku
  • Konfigurowalny limit wydatków na przekroczenie
  • 14-dniowy bezpłatny okres próbny

Plan Business — 79 USD miesięcznie

  • Nieograniczona liczba minut napisów i 1200 minut dubbingu miesięcznie (~80 godzin strumieniowania)
  • Nieograniczona liczba języków docelowych
  • Tryb bardzo niskiego opóźnienia (< 500 ms)
  • Zaawansowane strojenie głosu
  • Replikacja głosu z zachowaniem emocji (wkrótce)
  • Priorytetowe wsparcie

Enterprise — Ceny niestandardowe

  • Nieograniczone wszystko
  • Dedykowana infrastruktura przekaźnikowa
  • Niestandardowa integracja API
  • Gwarancje SLA
  • Opcje white-label

Wszystkie płatne plany wykorzystują precyzyjne mierzenie — liczymy tylko sekundy, w których nasza sztuczna inteligencja faktycznie pracuje. Jeśli grasz po cichu przez 10 minut, to jest 0 minut napisów i 0 minut dubbingu. Płacisz za to, co zużywasz, i nic więcej.

Płatne plany obejmują również konfigurowalny limit wydatków, więc nigdy nie zaskoczą Cię opłaty za przekroczenie. Ustaw go na 0 USD, aby zatrzymać się na wliczonych minutach, lub całkowicie usuń limit, aby strumieniować bez przerw.


Wypróbuj już dziś

StreamFluent działa. Bezpłatny poziom jest dostępny już teraz na streamfluent.ai. Bez karty kredytowej. Bez zobowiązań. Po prostu zarejestruj się, wklej adres URL RTMP do OBS i streamuj do świata.

Jeśli jesteś twórcą, który kiedykolwiek zastanawiał się, jak mogłaby wyglądać Twoja publiczność bez bariery językowej — to jest Twoja odpowiedź.

Jeśli jesteś widzem, który kiedykolwiek odszedł od niesamowitego strumienia, ponieważ nie rozumiał języka — te dni są policzone.

Zbudowaliśmy StreamFluent, ponieważ wierzymy, że najlepsza treść powinna wygrywać, niezależnie od języka, w którym jest. A od dziś może.

Twój głos. Każdy język. Zaczynajmy.

Rozpocznij dubbing za darmo →


StreamFluent obsługuje Twitch, YouTube, Kick i dowolną platformę kompatybilną z RTMP. Obecnie dostępny w 15 językach, a kolejne są regularnie dodawane. Pytania? Skontaktuj się z nami pod adresem support@streamfluent.ai lub sprawdź naszą dokumentację.

Comments

Not displayed publicly