StreamFluent: Maailman ensimmäinen reaaliaikainen tekoälypohjainen äänenkäännös suoratoistajille on julkaistu
StreamFluent

Juuri nyt, jossain päin Twitchiä, São Paulossa asuva striimaaja tekee yhtä vaikuttavimmista speedruneista, mitä internet on koskaan nähnyt. Hänen kommentointinsa on sähköistä. Hänen chattinsa räjähtää. Hänellä on 8 000 samanaikaista katsojaa, ja jokainen heistä puhuu portugalia.
Planeetan toisella puolella miljoonien englanninkielisten yleisö ei koskaan tiedä tämän striimaajan olemassaolosta. Ei siksi, että sisältö ei olisi tarpeeksi hyvää. Ei siksi, että pelattavuus ei olisi kohdallaan. Vaan yhden näkymättömän seinän takia, joka on määrittänyt online-viihteen rajat siitä lähtien, kun ensimmäinen web-kamera tuli käyttöön: kieli.
Tänään me kaadamme tuon seinän.
StreamFluent on maailman ensimmäinen reaaliaikainen tekoälyllä toimiva äänen jälkiäänitys- ja tekstitysalusta, joka on rakennettu erityisesti live-striimaajille. Striimaat kerran, omalla äidinkielelläsi. StreamFluent kuuntelee, litteroi, kääntää ja jälkiäänittää striimisi – jopa yli 15 kielelle – joista jokainen toimitetaan omalle kanavalleen Twitchissä, YouTubessa, Kickissä tai millä tahansa RTMP-yhteensopivalla alustalla.
Tämä ei ole jälkituotannon jälkiäänitystä. Nämä eivät ole tekstityksiä, jotka lisäät VOD-videon lataamisen jälkeen. Tämä tapahtuu livenä, alle sekunnin viiveellä, kun pelaat, reagoit tai juttelet yleisösi kanssa.
Selitetään, miten päädyimme tähän, mitä rakensimme ja miksi uskomme, että tämä muuttaa kaiken sisällöntuottajille.
Ongelma: Kieli on viimeinen este live-striimauksessa
Striimausala on ratkaissut lähes kaikki muut jakeluongelmat. Voit aloittaa lähetyksen makuuhuoneestasi ja tavoittaa katsojia kaikilla mantereilla. Alustoilla on globaaleja CDN-verkkoja, jotka toimittavat videota millisekunneissa. Löytämisalgoritmit tuovat sisältöä uusien yleisöjen ulottuville ympäri vuorokauden. Maksujärjestelmät antavat Tokiossa asuvien fanien antaa tippiä Torontossa olevalle sisällöntuottajalle.
Mutta kieli? Kieli on edelleen kova seinä.
Ota huomioon matematiikka. Pelkästään Twitchissä on noin 2,5 miljoonaa aktiivista striimaajaa. Suurin osa heistä striimaa yhdellä kielellä. Englanti hallitsee länsimaisia alustoja, mutta nopeimmin kasvavat striimausyhteisöt ovat espanjan, portugalin, japanin, korean ja hindin kielillä. Nämä yleisöt ovat valtavia, sitoutuneita ja suurelta osin eristettyjä toisistaan.
Espanjankielinen striimaaja, jolla on uskomaton pelattavuus ja magneettinen persoonallisuus, saavuttaa kattonsa sillä hetkellä, kun hänen potentiaalinen katsojansa ei puhu espanjaa. Sama pätee päinvastoin – englantilaisella sisällöntuottajalla, jolla on uskollinen 50 000 hengen yhteisö, ei ole käytännössä mitään ulottuvuutta 500 miljoonan japaninkielisen internetin käyttäjän joukkoon.
Tämä ei ole pieni ongelma. Se on suurin hyödyntämätön kasvun vipu koko sisällöntuottajataloudessa. Ja tähän asti ratkaisut ovat olleet joko olemattomia tai naurettavan epäkäytännöllisiä:
- Manuaalinen käännös? Tarvitsisit ihmistulkin puheluun, livenä, jokaiselle striimille, jokaisella kielellä. Pelkästään kustannukset ovat kohtuuttomat. Viive tekee siitä katselukelvottoman.
- Striimin jälkeiset tekstitykset? Parempi kuin ei mitään VOD-videoille, mutta ne eivät tee mitään live-katsojamäärille – jossa rahat, yhteisö ja vauhti ovat.
- Selainpohjaiset tekstitysohjelmat? On olemassa kourallinen työkaluja, mutta ne käsittelevät vain tekstitekstejä, vaativat monimutkaisia OBS-lisäosien asennuksia eivätkä ratkaise perusongelmaa: äänesi on edelleen yhdellä kielellä.
Striimausmaailma tarvitsi jotain täysin uutta. Järjestelmän, joka voisi käsitellä puhetta, kääntää sen ja syntetisoida uuden äänen – kaikki reaaliajassa, kaikki ilman, että striimaajan tarvitsee muuttaa työnkulkuaan.
Sen me rakensimme.
Mitä rakensimme: Reaaliaikainen tekoälyjälkiäänitys live-striimeille
StreamFluent on reaaliaikainen tekoälyputki, joka sijaitsee striimauskooderisi (OBS Studio, Streamlabs tai mikä tahansa RTMP-yhteensopiva ohjelmisto) ja kohdealustojesi välissä. Näin tapahtuu, kun aloitat lähetyksen:
- Striimaat normaalisti omalla äidinkielelläsi. Mikään asetuksissasi ei muutu, paitsi RTMP-kohde-URL OBS:ssä.
- StreamFluent ottaa striimisi vastaan RTMP-välityspalvelimiemme kautta. Videosi kulkee läpi koskemattomana – emme koskaan koodaa videota uudelleen.
- Tekoälyputkemme käsittelee äänesi reaaliajassa: puheentunnistus litteroi sen, mitä sanot, konekäännös muuntaa sen kohdekielillesi ja hermoverkkopohjainen tekstistä puheeksi -syntetisaattori syntetisoi uuden ääniraidan jokaiselle kielelle.
- Jokainen käännetty striimi toimitetaan omaan kohteeseensa – erilliselle Twitch-kanavalle, YouTube-striimille tai Kick-kanavalle – täydellisenä jälkiäänitetyn ääniraidan ja valinnaisten sisäänrakennettujen tekstitysten kanssa.
Tuloksena: striimaat kerran. Yleisösi katsoo viidellätoista kielellä. Jokainen versio kuulostaa luonnolliselta, pysyy synkronoituna ja saapuu alle sekunnin viiveellä.
Puretaan jokainen osa.
Puheentunnistus (STT)
Putken ensimmäinen vaihe on automaattinen puheentunnistus. StreamFluentin STT-moottori käsittelee äänesi reaaliajassa ja muuntaa puheen tekstiksi erittäin tarkasti jopa meluisissa peliympäristöissä. Olemme optimoineet erityisesti striimauskäyttötapaukseen – nopeasti puhuva kommentointi, taustalla oleva pelin ääni, päällekkäiset äänet ja live-lähetyksen yleinen kaaos.
Konekäännös
Kun meillä on litterointisi, käännöskerroksesi muuntaa sen määritettyihin kohdekieliisi. Tuemme tällä hetkellä 15 kieltä: espanja, japani, portugali, ranska, saksa, korea, kiina (mandariini), italia, venäjä, arabia, hindi, turkki, hollanti, puola ja thai – ja lisää on tulossa.
Käännöskone on viritetty keskustelevaan, epäviralliseen puheeseen – siihen, miten striimaajat todella puhuvat – ei siihen jäykkään, viralliseen tulokseen, jonka saisit yleisestä dokumenttikääntäjästä.
Hermoverkkopohjainen tekstistä puheeksi (TTS)
Tässä tapahtuu taika. StreamFluent ei vain näytä käännettyä tekstiä. Se puhuu sen. TTS-moottorimme luo luonnollisen kuuloisen äänen kohdekielellä, syntetisoituna reaaliajassa.
Pro-tilauksessamme voit luoda mukautetun äänimallin vain 30 sekunnin ääninäytteestä. Järjestelmä oppii äänesi ominaisuudet – sävyn, kadenssin, energian – ja soveltaa niitä käännettyyn tulokseen. Espanjankielinen striimisi kuulostaa siltä, että sinä puhut espanjaa, ei yleinen robotti.
Business-tilauksessamme otamme käyttöön täyden äänen replikoinnin tunteiden säilyttämisen kanssa – jälkiäänitetty ääni välittää jännityksesi, turhautumisesi ja huumorisi kielten yli. (Tämä ominaisuus on tulossa pian, ja varhaiset testaajat ovat kutsuneet sitä "aavemaiseksi".)
Videon läpivienti
Kriittinen suunnittelupäätös: emme koskaan koodaa videota uudelleen. 1080p60- tai 4K-striimisi kulkee välityspalvelimiemme läpi bitti bitiltä. Koskemme vain ääniraitaa (ja valinnaisesti poltamme sisään tekstitysohjelmia). Tämä tarkoittaa nolla laadun heikkenemistä, minimaalista lisäviivettä ja ei ylimääräisiä GPU-kustannuksia sinun päässäsi.
Miten se toimii: Asennus alle 2 minuutissa
Olemme pakkomielteisesti tehneet StreamFluentin asennuksesta naurettavan helppoa. Ei ole asennettavia lisäosia, ei määritettäviä virtuaalisia äänikaapeleita, ei selaimen lähteitä, joiden kanssa painia. Tässä on koko työnkulku:
Vaihe 1: Luo tilisi
Rekisteröidy osoitteessa streamfluent.ai sähköpostiosoitteellasi tai yhdistä suoraan Twitch-, YouTube- tai Google-tililläsi. Ilmainen taso on heti saatavilla – luottokorttia ei vaadita.
Vaihe 2: Määritä äänesi
Pro- ja Business-käyttäjille tallenna 30 sekunnin ääninäyte suoraan hallintapaneelissa. Järjestelmämme käyttää tätä mukautetun ääniprofiilisi rakentamiseen. Voit säätää puhenopeutta (0,5x - 2,0x) ja äänenkorkeutta (-12 - +12 puolisävelaskelta) hienosäätääksesi, miltä jälkiäänitetty äänesi kuulostaa.
Ilmaisen tason käyttäjät saavat käyttöönsä korkealaatuiset vakiomuotoiset TTS-äänet – edelleen luonnollisen kuuloiset, mutta eivät personoituja juuri sinun äänellesi.
Vaihe 3: Lisää kohteet
Tässä määrität, minne kukin kieli menee. Määrität jokaiselle kohdekielelle:
- Kielen (esim. espanja, japani)
- Alustan (Twitch, YouTube, Kick tai mikä tahansa mukautettu RTMP-URL)
- Striimausavaimen kyseiselle kanavalle
- Jälkiäänitystilan: täysi tekoälyjälkiäänitys, vain tekstitykset tai molemmat
Voit suorittaa niin monta kohdetta kuin tilauksesi sallii – yhden ilmaisella tasolla, enintään kolme Pro-tilauksessa ja rajoittamattoman Business-tilauksessa.
Vaihe 4: Yhdistä OBS ja aloita lähetys
Tässä on se osa, joka yllättää kaikki: vaihtat vain striimaus-URL:si OBS:ssä. Siinä kaikki.
Siirry kohtaan OBS Studio → Asetukset → Striimaus → valitse "Mukautettu..." → liitä StreamFluent RTMP -URL:si ja striimausavaimesi. Nämä luodaan automaattisesti hallintapaneelissasi.
Palvelin: rtmp://ingest.streamfluent.ai/live
Striimausavain: (ainutlaatuinen avain hallintapaneelista)
Paina "Aloita striimaus" OBS:ssä. StreamFluent ottaa ohjat siitä eteenpäin. Alkuperäinen striimisi menee pääkanavallesi (jos olet määrittänyt läpivientikohteen), ja jokainen käännetty versio menee vastaavalle alustakanavalle.
Ei lisäosia. Ei virtuaalisia ääniohjaimia. Ei selaimen lähteitä. Jos kooderisi voi tuottaa RTMP:tä – ja käytännössä kaikki niistä voivat – se toimii StreamFluentin kanssa.
Tekstitykset ja jälkiäänitys: Täysi hallinta, kohdekohtaisesti
Yksi beta-testimme aikana eniten pyydetyistä ominaisuuksista oli tekstitysten ja jälkiäänityksen tarkka hallinta kohdekohtaisesti. Eri yleisöillä on erilaiset mieltymykset, ja halusimme antaa striimaajille täydellisen joustavuuden.
Näin se toimii:
Jälkiäänitystilat
Jokainen kohde voidaan asettaa yhteen kolmesta tilasta:
- Automaattinen jälkiäänitys: Jos kohteen kieli eroaa lähdekielestäsi, käytetään täyttä tekoälyjälkiäänitystä. Tämä on oletus ja yleisin asetus.
- Vain tekstitykset: Alkuperäinen äänesi säilytetään, mutta käännetyt tekstitykset poltetaan videoon. Erinomainen yleisöille, jotka haluavat kuulla alkuperäisen äänen, mutta tarvitsevat käännösapua.
- Vain alkuperäinen: Striimi kulkee läpi ilman jälkiäänitystä ja ilman tekstityksiä. Hyödyllinen "kotikielesi" kohteelle.
Sisäänrakennetut tekstitykset
StreamFluentin tekstitysohjelma renderöi käännetyn tekstin suoraan videosyötteeseen – ei vaadita katsojan puoleista laajennusta tai asetusta. Jokainen katsoja näkee tekstitykset laitteestaan tai alustastaan riippumatta.
Voit mukauttaa:
- Sijainnin: Alakeskellä tai yläkeskellä
- Fonttikoon: 16px - 48px (oletus 24px)
- Kielen: Tekstitykset vastaavat kohdekieltä
Tekstitykset toimivat jälkiäänityksestä riippumatta. Voit suorittaa vain tekstityksiä joissakin kohteissa ja täyden jälkiäänityksen toisissa. Voit jopa suorittaa molemmat – jälkiäänitetyn äänen vastaavien tekstitysten kanssa – maksimaalisen saavutettavuuden saavuttamiseksi.
Äänen miksaus
Kun jälkiäänitys on aktiivinen, StreamFluent hoitaa automaattisesti äänen miksauksen:
- Alkuperäisen äänenvoimakkuus: Oletusarvo on 20 % (alkuperäisestä äänestäsi tulee hienovarainen tausta, joka säilyttää luonnolliset striimin äänet)
- Jälkiäänitetyn äänenvoimakkuus: Oletusarvo on 100 %
- Automaattinen vaimennus: Kun jälkiäänitetty ääni puhuu, alkuperäinen ääni vaimennetaan automaattisesti. Kun on hiljaista (vain pelin ääni, ei puhetta), alkuperäinen ääni nousee takaisin ylös.
Kaikki nämä ovat säädettävissä striimikohtaisesti hallintapaneelista.
Rakennettu luotettavuutta varten: Mitä tapahtuu, kun asiat menevät pieleen
Live-striimaus on anteeksiantamatonta. Jos jokin menee rikki, ei ole "kumoa"-toimintoa. Olemme rakentaneet StreamFluentin tämän todellisuuden ytimessä jokaisessa arkkitehtonisessa päätöksessä.
Viivetilat
Eri käyttötapaukset vaativat erilaisia viive-laatu-kompromisseja. StreamFluent tarjoaa kolme tilaa:
- Erittäin alhainen viive (< 500 ms): Kilpailulliseen pelaamiseen ja nopeatempoiseen vuorovaikutukseen. Saatavilla Business-tilauksessa.
- Tasapainoinen (< 1 sekunti): Suositeltu oletus useimmille striimaajille. Saatavilla Pro- ja Business-tilauksissa.
- Laatu (< 2 sekuntia): Priorisoi käännöstarkkuuden nopeuden sijaan. Paras puhepainotteiselle sisällölle.
Varmuuskäyttäytyminen
Jos tekoälyputki kohtaa ongelman striimin keskellä – lyhyen verkkokatkoksen, hetkellisen käsittelyviiveen – StreamFluent ei vain kaadu tai hiljene. Määrität, mitä tapahtuu:
- Läpivienti (oletus): Alkuperäinen, kääntämätön ääni toistetaan, kunnes putki palautuu. Yleisösi kuulee sinut äidinkielelläsi hetken, sitten jälkiäänitys jatkuu saumattomasti.
- Mykistys: Jälkiäänitetty ääniraita hiljenee hetkeksi. Hyödyllinen, jos haluat mieluummin hiljaisuuden kuin kääntämättömän äänen.
- Näytä peittokuva: Lyhyt näytöllä näkyvä viesti ilmoittaa, että käännös ei ole väliaikaisesti käytettävissä.
Live-valvontapaneeli
Kun olet livenä, StreamFluent-hallintapaneeli antaa sinulle reaaliaikaisen komentokeskuksen:
- Kohdekohtainen tila: Katso, onko kukin kielituloste terve, sekä katsojamäärät ja viive
- Äänenvoimakkuudet: Visuaaliset mittarit jokaiselle tulostusstriimille
- Live-litterointisyöte: Katso reaaliaikaista litterointia jokaisella kielellä, välilehdillä voit vaihtaa niiden välillä
- TTS-esikatselu: Kuuntele jälkiäänitetty ääni suoraan selaimessasi laadun varmistamiseksi
- Striimin keskellä olevat ohjaimet: Ota käyttöön tai poista käytöstä yksittäisiä kohteita lopettamatta striimiäsi
Visio: Maailma, jossa jokaisella striimaajalla on globaali yleisö
Aloitimme StreamFluentin, koska uskomme, että kielen ei pitäisi määrittää sisällöntuottajan kattoa.
Internetin piti olla rajaton. Ja monin tavoin se onkin – voit katsoa striimiä mistä tahansa päin maailmaa, välittömästi. Mutta "katsominen" ja "ymmärtäminen" ovat kaksi hyvin erilaista asiaa. Soulissa asuva katsoja saattaa teknisesti pystyä lataamaan brasilialaisen Twitch-kanavan, mutta jos hän ei ymmärrä sanaakaan, hän lähtee sekunneissa.
Tämä luo näkymättömän erottelun. Striimausmaailma on jakautunut kielisiiloihin, ja sisällöntuottajat ovat loukussa niiden sisällä. Loistava viihdyttäjä Mexico Cityssä ei koskaan orgaanisesti tavoita Japanin markkinoita. Korealaisella viihdestriimaajalla, jolla on 100 000 uskollista seuraajaa, ei ole pääsyä englanninkieliseen yleisöön, joka on 10 kertaa suurempi.
StreamFluent on silta.
Näemme tulevaisuuden, jossa:
- Buenos Airesissa asuva striimaaja aloittaa lähetyksen ja viihdyttää samanaikaisesti yleisöjä Tokiossa, Berliinissä, Mumbaissa ja Los Angelesissa – kaikki kuulevat striimin omalla kielellään, äänellä, joka kuulostaa sisällöntuottajan ääneltä.
- Kieli ei ole enää muuttuja löytämisalgoritmissa. Sisällön laatu on kaikki, mikä merkitsee.
- Sisällöntuottajien keskiluokka laajenee maailmanlaajuisesti, koska lahjakkuus on jakautunut tasaisesti kielten kesken, mutta mahdollisuuden ei enää tarvitse olla.
- Monikieliset yhteisöt muodostuvat sisällöntuottajien ympärille, ja chatin käännös ja kieltenvälinen vuorovaikutus ovat natiiviominaisuus (kyllä, työstämme sitäkin).
Tämä on suuri visio. Emme ole vielä siellä. Mutta tämän päivän lanseerauksen myötä perusta on paikoillaan.
Hinnoittelu: Aloita ilmaiseksi, skaalaa kasvaessasi
Olemme suunnitelleet StreamFluentin hinnoittelun siten, että se on kaikkien tasojen sisällöntuottajien saatavilla.
Ilmainen tilaus – 0 $/kk
- 30 tekstitysaikaa ja 15 jälkiäänitysaikaa kuukaudessa
- 1 kohdekieli
- Vakiomuotoiset TTS-äänet
- Täysi pääsy live-valvontapaneeliin
- Luottokorttia ei vaadita
Tyypillinen 1 tunnin striimi käyttää noin 30 minuuttia tekstitysaikaa ja 35 minuuttia jälkiäänitysaikaa (mittaamme todellista puheen käsittelyaikaa, emme seinäkelloaikaa – joten tauot, vain pelin segmentit ja hiljaisuus eivät lasketa). Ilmainen tilaus antaa sinulle tarpeeksi testataksesi täyden striimin ja kokeaksesi laadun omakohtaisesti.
Pro-tilaus – 29 $/kk
- 600 tekstitysaikaa ja 300 jälkiäänitysaikaa kuukaudessa (~20 tuntia striimausta)
- Jopa 3 kohdekieltä
- Mukautettu äänimalli 30 sekunnin näytteestä
- RTMP-välityksen jakelu useille alustoille
- Äänen miksausohjaimet
- Määritettävä kulutusraja ylitykselle
- 14 päivän ilmainen kokeilu
Business-tilaus – 79 $/kk
- Rajoittamaton tekstitysaika ja 1 200 jälkiäänitysaikaa kuukaudessa (~80 tuntia striimausta)
- Rajoittamaton määrä kohdekieliä
- Erittäin alhainen viivetila (< 500 ms)
- Edistynyt äänen viritys
- Äänen replikointi tunteiden säilyttämisen kanssa (tulossa pian)
- Ensisijainen tuki
Enterprise – Mukautettu hinnoittelu
- Rajoittamaton kaikki
- Omistettu välitysinfrastruktuuri
- Mukautettu API-integraatio
- SLA-takuut
- White-label-vaihtoehdot
Kaikki maksulliset tilaukset käyttävät tarkkaa mittausta – laskemme vain ne sekunnit, jolloin tekoälymme todella tekee töitä. Jos pelaat hiljaa 10 minuuttia, se on 0 tekstitysaikaa ja 0 jälkiäänitysaikaa. Maksat siitä, mitä käytät, etkä mistään muusta.
Maksullisiin tilauksiin sisältyy myös määritettävä kulutusraja, joten ylitysmaksut eivät koskaan yllätä sinua. Aseta se arvoon 0, jotta se pysähtyy kokonaan sisältyviin minuutteihisi, tai poista raja kokonaan keskeytymättömän striimauksen saavuttamiseksi.
Kokeile sitä tänään
StreamFluent on livenä. Ilmainen taso on heti saatavilla osoitteessa streamfluent.ai. Ei luottokorttia. Ei sitoutumista. Rekisteröidy vain, liitä RTMP-URL OBS:ään ja striimaa maailmalle.
Jos olet sisällöntuottaja, joka on koskaan miettinyt, miltä yleisösi voisi näyttää ilman kielimuuria – tässä on vastauksesi.
Jos olet katsoja, joka on koskaan napsauttanut pois uskomattomasta striimistä, koska et ymmärtänyt kieltä – ne päivät ovat luetut.
Rakensimme StreamFluentin, koska uskomme, että parhaan sisällön pitäisi voittaa riippumatta siitä, millä kielellä se on. Ja tästä päivästä lähtien se voi.
Äänesi. Jokainen kieli. Mennään.
Aloita jälkiäänitys ilmaiseksi →
StreamFluent tukee Twitchiä, YouTubea, Kickiä ja mitä tahansa RTMP-yhteensopivaa alustaa. Tällä hetkellä saatavilla 15 kielellä, ja uusia lisätään säännöllisesti. Kysymyksiä? Ota meihin yhteyttä osoitteessa support@streamfluent.ai tai tutustu dokumentaatioomme.