StreamFluent:全球首款直播主即時AI語音翻譯現已上線
StreamFluent

现在,在 Twitch 的某个角落,一位来自圣保罗的主播正在进行互联网上最令人印象深刻的速通之一。他们的解说充满激情。他们的聊天室热闹非凡。他们有 8,000 名并发观众,而且每个人都说葡萄牙语。
在地球的另一端,数百万说英语的观众永远不会知道这位主播的存在。不是因为内容不够好。不是因为游戏水平不够高。而是因为一道无形的墙,自从第一个网络摄像头上线以来,它就定义了在线娱乐的边界:语言。
今天,我们要推倒这堵墙。
StreamFluent 是世界上第一个专为直播主播打造的实时 AI 语音配音和字幕平台。 你只需用你的母语直播一次。StreamFluent 会监听、转录、翻译并重新配音你的直播——支持 15 种以上的语言——每种语言都通过各自的频道发布到 Twitch、YouTube、Kick 或任何 RTMP 兼容的平台。
这不是后期制作的配音。这不是你在上传 VOD 后添加的字幕。这是 实时 发生的,延迟低于一秒,就在你玩游戏、做出反应或与观众聊天的时候。
让我们解释一下我们是如何走到这一步的,我们构建了什么,以及为什么我们相信这会改变创作者的一切。
问题:语言是直播的最后一道障碍
直播行业几乎解决了所有其他的发行问题。你可以从你的卧室直播,并触达每个大洲的观众。平台拥有全球 CDN,可以在几毫秒内传输视频。发现算法全天候地向新观众推荐内容。支付系统让东京的粉丝可以给多伦多的创作者打赏。
但是语言呢?语言仍然是一堵坚硬的墙。
考虑一下这个数字。仅在 Twitch 上就有大约 250 万活跃主播。他们中的绝大多数都使用一种语言直播。英语在西方平台占据主导地位,但增长最快的直播社区是 西班牙语、葡萄牙语、日语、韩语和印地语。这些观众群体庞大、参与度高,并且在很大程度上彼此隔离。
一位拥有令人难以置信的游戏水平和极具吸引力个性的西班牙语主播,一旦他们的潜在观众不会说西班牙语,就会触及天花板。反之亦然——一位拥有 50,000 名忠实社区的英语创作者,基本上无法触及 5 亿讲日语的互联网用户。
这不是一个小问题。它是整个创作者经济中 最大的未开发增长杠杆。到目前为止,解决方案要么不存在,要么可笑地不切实际:
- 手动翻译? 你需要一个人工翻译,在每次直播中,为每种语言进行实时语音通话。仅成本就令人望而却步。延迟使其无法观看。
- 直播后字幕? 对于 VOD 来说,总比没有好,但它们对直播观看人数没有任何作用——而直播观看人数才是金钱、社区和动力的来源。
- 基于浏览器的字幕叠加? 存在一些工具,但它们只处理文本字幕,需要复杂的 OBS 插件设置,并且没有解决根本问题:你的 声音 仍然是一种语言。
直播世界需要一些全新的东西。一个可以处理语音、翻译它并合成新声音的系统——所有这些都是实时的,所有这些都不需要主播改变他们的工作流程。
这就是我们构建的。
我们构建了什么:直播的实时 AI 配音
StreamFluent 是一个 实时 AI 管道,位于你的流媒体编码器(OBS Studio、Streamlabs 或任何 RTMP 兼容的软件)和你的目标平台之间。当你开始直播时,会发生以下情况:
- 你用你的母语正常直播。除了 OBS 中的 RTMP 目标 URL 之外,你的设置没有任何改变。
- StreamFluent 通过我们的 RTMP 中继服务器接收你的直播。你的视频原封不动地通过——我们从不重新编码你的视频。
- 我们的 AI 管道实时处理你的音频:语音识别转录你所说的话,机器翻译将其转换为你的目标语言,神经文本到语音合成(TTS)为每种语言合成新的音轨。
- 每个翻译后的直播都将传送到其各自的目标——一个单独的 Twitch 频道、YouTube 直播或 Kick 频道——配有配音音轨和可选的内嵌字幕。
结果:你直播一次。你的观众用 15 种语言观看。每个版本听起来都很自然,保持同步,并且以低于一秒的延迟到达。
让我们分解每个部分。
语音识别 (STT)
管道的第一阶段是自动语音识别。StreamFluent 的 STT 引擎实时处理你的音频,即使在嘈杂的游戏环境中也能以高精度将语音转换为文本。我们专门针对直播用例进行了优化——快速的解说、背景游戏音频、重叠的声音以及直播的一般混乱。
机器翻译
一旦我们有了你的文字稿,我们的翻译层就会将其转换为你配置的目标语言。我们目前支持 15 种语言:西班牙语、日语、葡萄牙语、法语、德语、韩语、中文(普通话)、意大利语、俄语、阿拉伯语、印地语、土耳其语、荷兰语、波兰语和泰语——还有更多语言即将推出。
翻译引擎针对会话式、非正式的语音进行了调整——主播实际说话的方式——而不是你从通用文档翻译器中获得的僵硬、正式的输出。
神经文本到语音 (TTS)
这就是奇迹发生的地方。StreamFluent 不仅仅显示翻译后的文本。它 说 出来。我们的 TTS 引擎生成目标语言中听起来自然的声音,并实时合成。
在我们的 Pro 计划 中,你只需 30 秒的音频样本即可创建 自定义语音模型。该系统会学习你的声音的特征——音调、节奏、能量——并将它们应用于翻译后的输出。你的西班牙语直播听起来像 你 在说西班牙语,而不是一个通用的机器人。
在我们的 Business 计划 中,我们正在推出完整的 语音复制,并保留情感——配音的声音会将你的兴奋、沮丧和幽默跨语言传递。(此功能即将推出,早期测试人员称其为“不可思议”。)
视频直通
一个关键的设计决策:我们从不重新编码你的视频。你的 1080p60 或 4K 直播逐位地通过我们的中继服务器。我们只处理音轨(并可选择嵌入字幕叠加)。这意味着零质量损失,最小的额外延迟,以及你这边没有额外的 GPU 成本。
工作原理:在 2 分钟内完成设置
我们痴迷于让 StreamFluent 的设置变得非常容易。无需安装插件,无需配置虚拟音频电缆,无需与浏览器源作斗争。这是整个流程:
步骤 1:创建你的帐户
在 streamfluent.ai 上使用你的电子邮件注册,或直接使用你的 Twitch、YouTube 或 Google 帐户连接。免费套餐立即可用——无需信用卡。
步骤 2:设置你的声音
对于 Pro 和 Business 用户,直接在仪表板中录制 30 秒的语音样本。我们的系统使用它来构建你的自定义语音配置文件。你可以调整语速(0.5 倍到 2.0 倍)和音高(-12 到 +12 个半音)来微调你的配音听起来如何。
免费套餐用户可以访问我们高质量的标准 TTS 声音——仍然听起来很自然,只是没有个性化到你的特定声音。
步骤 3:添加你的目标
这是你配置 每个语言去哪里 的地方。对于每种目标语言,你指定:
- 语言(例如,西班牙语、日语)
- 平台(Twitch、YouTube、Kick 或任何自定义 RTMP URL)
- 该频道的 流密钥
- 配音模式:完整 AI 配音、仅字幕或两者兼有
你可以运行你的计划允许的尽可能多的目标——免费套餐一个,Pro 最多三个,Business 无限制。
步骤 4:连接 OBS 并开始直播
这是让每个人都感到惊讶的部分:你只需更改 OBS 中的流 URL。就是这样。
转到 OBS Studio → 设置 → 直播 → 选择“自定义...” → 粘贴你的 StreamFluent RTMP URL 和流密钥。这些会在你的仪表板中自动生成。
服务器:rtmp://ingest.streamfluent.ai/live
流密钥:(来自仪表板的你的唯一密钥)
点击 OBS 中的“开始直播”。StreamFluent 从那里接管。你的原始直播会转到你的主频道(如果你已配置直通目标),并且每个翻译后的版本都会转到其各自的平台频道。
没有插件。没有虚拟音频驱动程序。没有浏览器源。如果你的编码器可以输出 RTMP——并且几乎所有编码器都可以——它就可以与 StreamFluent 一起使用。
字幕和配音:完全控制,每个目标单独设置
在我们的 Beta 测试期间,最受欢迎的功能之一是 对每个目标的字幕和配音进行精细控制。不同的观众有不同的偏好,我们希望为主播提供完全的灵活性。
这是它的工作方式:
配音模式
每个目标都可以设置为以下三种模式之一:
- 自动配音:如果目标语言与你的源语言不同,则应用完整的 AI 语音配音。这是默认设置,也是最常见的设置。
- 仅字幕:保留你的原始声音,但翻译后的字幕会嵌入到视频中。非常适合喜欢听到原始声音但需要翻译帮助的观众。
- 仅原始:直播通过,没有配音,也没有字幕。适用于你的“母语”目标。
内嵌字幕
StreamFluent 的字幕系统将翻译后的文本直接渲染到视频流中——无需观众端的扩展或设置。每个观看者都会看到字幕,无论他们的设备或平台如何。
你可以自定义:
- 位置:底部中心或顶部中心
- 字体大小:16px 到 48px(默认 24px)
- 语言:字幕与目标语言匹配
字幕独立于配音工作。你可以在某些目标上运行仅字幕,而在其他目标上运行完整配音。你甚至可以 同时 运行——配音音频和匹配的字幕——以实现最大的可访问性。
音频混合
当配音处于活动状态时,StreamFluent 会自动处理音频混合:
- 原始音频音量:默认为 20%(你的原始声音会变成一个微妙的背景,保留自然的直播声音)
- 配音音频音量:默认为 100%
- 自动闪避:当配音的声音说话时,原始音频会自动降低。当有沉默时(只有游戏音频,没有语音),原始音频会恢复。
所有这些都可以从仪表板中按流进行调整。
为可靠性而构建:当出现问题时会发生什么
直播是无情的。如果出现问题,就没有“撤消”。我们构建 StreamFluent 时,将这一现实作为每个架构决策的核心。
延迟模式
不同的用例需要不同的延迟-质量权衡。StreamFluent 提供三种模式:
- 超低延迟(< 500 毫秒):适用于竞技游戏和快节奏的互动。在 Business 计划中可用。
- 平衡(< 1 秒):大多数主播推荐的默认设置。在 Pro 和 Business 中可用。
- 质量(< 2 秒):优先考虑翻译准确性而不是速度。最适合以谈话为主的内容。
回退行为
如果 AI 管道在直播过程中遇到问题——短暂的网络中断、短暂的处理延迟——StreamFluent 不会崩溃或静音。你可以配置会发生什么:
- 直通(默认):输出原始的、未翻译的音频,直到管道恢复。你的观众会听到你用你的母语说一会儿,然后配音会无缝恢复。
- 静音:配音音轨会短暂静音。如果你宁愿保持沉默也不愿听到未翻译的音频,这将很有用。
- 显示叠加:屏幕上会短暂显示一条消息,表明翻译暂时不可用。
实时监控仪表板
当你直播时,StreamFluent 仪表板为你提供一个实时指挥中心:
- 每个目标的状态:查看每种语言的输出是否健康,以及观看人数和延迟
- 音频电平:每个输出流的可视仪表
- 实时转录源:观看每种语言的实时转录,并使用选项卡在它们之间切换
- TTS 预览:直接在你的浏览器中收听配音音频以验证质量
- 直播中控制:无需停止直播即可启用或禁用单个目标
愿景:一个每个主播都有全球观众的世界
我们启动 StreamFluent 是因为我们相信语言不应该决定创作者的天花板。
互联网本应是无国界的。在许多方面,它确实如此——你可以从世界任何地方即时观看直播。但是“观看”和“理解”是两件截然不同的事情。首尔的观众可能在技术上能够加载巴西的 Twitch 频道,但如果他们听不懂一个字,他们会在几秒钟内离开。
这造成了一种无形的隔离。直播世界被分割成语言孤岛,创作者被困在其中。墨西哥城一位才华横溢的艺人永远无法自然地接触到日本市场。一位拥有 100,000 名忠实粉丝的韩国综艺主播没有通往大 10 倍的英语观众的途径。
StreamFluent 是桥梁。
我们设想一个未来:
- 布宜诺斯艾利斯的一位主播开始直播,同时娱乐东京、柏林、孟买和洛杉矶的观众——所有人都用自己的语言听到直播,声音听起来像创作者的声音。
- 语言不再是发现算法中的变量。内容质量才是最重要的。
- 创作者中产阶级在全球范围内扩张,因为人才在各种语言中均匀分布,但机会不再必须如此。
- 多语言社区围绕创作者形成,聊天翻译和跨语言互动成为原生功能(是的,我们也在努力实现这一点)。
这是一个宏伟的愿景。我们还没有到达那里。但随着今天的发布,基础已经到位。
定价:免费开始,随着你的成长而扩展
我们设计的 StreamFluent 定价旨在让各个级别的创作者都可以访问。
免费计划 — 0 美元/月
- 每月 30 分钟字幕 和 15 分钟配音
- 1 种目标语言
- 标准 TTS 声音
- 完全访问实时监控仪表板
- 无需信用卡
一个典型的 1 小时直播大约使用 30 分钟的字幕时间和 35 分钟的配音时间(我们计量 实际语音处理时间,而不是挂钟时间——因此暂停、仅游戏片段和沉默不计算在内)。免费计划为你提供了足够的测试完整直播并亲身体验质量。
Pro 计划 — 29 美元/月
- 每月 600 分钟字幕 和 300 分钟配音(约 20 小时直播)
- 最多 3 种目标语言
- 从 30 秒样本创建 自定义语音模型
- RTMP 中继分发到多个平台
- 音频混合控制
- 可配置的超额支出限制
- 14 天免费试用
Business 计划 — 79 美元/月
- 无限字幕分钟数 和 1,200 分钟配音(约 80 小时直播)
- 无限目标语言
- 超低延迟模式(< 500 毫秒)
- 高级语音调整
- 语音复制,并保留情感(即将推出)
- 优先支持
企业版 — 自定义定价
- 一切无限
- 专用中继基础设施
- 自定义 API 集成
- SLA 保证
- 白标选项
所有付费计划都使用 精确计量——我们只计算我们的 AI 实际工作的秒数。如果你默默地玩游戏 10 分钟,那就是 0 分钟字幕和 0 分钟配音。你为你使用的东西付费,仅此而已。
付费计划还包括一个 可配置的支出限制,因此你永远不会对超额费用感到惊讶。将其设置为 0 美元以在你包含的分钟数处硬停止,或完全删除上限以实现不间断的直播。
今天就试试
StreamFluent 已经上线。免费套餐现在可以在 streamfluent.ai 上使用。无需信用卡。没有承诺。只需注册,将 RTMP URL 粘贴到 OBS 中,然后向世界直播。
如果你是一位曾经想知道没有语言障碍你的观众会是什么样子的创作者——这就是你的答案。
如果你是一位曾经因为听不懂语言而点击离开精彩直播的观众——那些日子屈指可数了。
我们构建 StreamFluent 是因为我们相信最好的内容应该获胜,无论它使用什么语言。从今天开始,它可以。
你的声音。每种语言。开始吧。
StreamFluent 支持 Twitch、YouTube、Kick 和任何 RTMP 兼容的平台。目前提供 15 种语言,并且会定期添加更多语言。有问题吗?请通过 support@streamfluent.ai 联系我们或查看我们的 文档。