العودة إلى المدونة

إطلاق StreamFluent: أول ترجمة فورية بالذكاء الاصطناعي للصوت في العالم للبث المباشر متاحة الآن

S

StreamFluent

16 فبراير 202614 دقيقة قراءة0 مشاهدة
إطلاق StreamFluent: أول ترجمة فورية بالذكاء الاصطناعي للصوت في العالم للبث المباشر متاحة الآن

في هذه اللحظة، في مكان ما على Twitch، يقوم أحد اللاعبين في ساو باولو بتقديم واحد من أكثر سباقات السرعة إثارة للإعجاب التي شهدها الإنترنت على الإطلاق. تعليقاته مشوقة. دردشته تنفجر. لديه 8000 مشاهد متزامن وكل واحد منهم يتحدث البرتغالية.

على الجانب الآخر من الكوكب، جمهور يتحدث الإنجليزية بالملايين لن يعرف أبدًا أن هذا اللاعب موجود. ليس لأن المحتوى ليس جيدًا بما فيه الكفاية. ليس لأن أسلوب اللعب غير موجود. ولكن بسبب جدار واحد غير مرئي حدد حدود الترفيه عبر الإنترنت منذ أن تم بث أول كاميرا ويب مباشرة: اللغة.

اليوم، نحن نهدم هذا الجدار.

StreamFluent هي أول منصة دبلجة صوتية وترجمة فورية تعمل بالذكاء الاصطناعي في العالم مصممة خصيصًا للبث المباشر. أنت تبث مرة واحدة، بلغتك الأم. يستمع StreamFluent، وينسخ، ويترجم، ويعيد صياغة البث الخاص بك - في أكثر من 15 لغة - يتم تسليم كل منها إلى قناتها الخاصة على Twitch أو YouTube أو Kick أو أي منصة متوافقة مع RTMP.

هذه ليست دبلجة ما بعد الإنتاج. هذه ليست ترجمات تضيفها بعد تحميل VOD. هذا يحدث مباشرة، بزمن انتقال أقل من ثانية، أثناء اللعب أو التفاعل أو الدردشة مع جمهورك.

دعنا نشرح كيف وصلنا إلى هنا، وماذا بنينا، ولماذا نعتقد أن هذا يغير كل شيء بالنسبة للمبدعين.


المشكلة: اللغة هي الحاجز الأخير في البث المباشر

لقد حلّت صناعة البث المباشر جميع مشاكل التوزيع الأخرى تقريبًا. يمكنك البث المباشر من غرفة نومك والوصول إلى المشاهدين في كل قارة. تمتلك المنصات شبكات CDN عالمية تقدم الفيديو في غضون أجزاء من الثانية. تعرض خوارزميات الاكتشاف المحتوى لجمهور جديد على مدار الساعة. تتيح أنظمة الدفع للمعجبين في طوكيو إرسال إكرامية إلى منشئ محتوى في تورنتو.

ولكن اللغة؟ اللغة لا تزال جدارًا صلبًا.

ضع في اعتبارك الرياضيات. هناك ما يقرب من 2.5 مليون لاعب نشط على Twitch وحده. الغالبية العظمى منهم يبثون بلغة واحدة. تهيمن اللغة الإنجليزية على المنصات الغربية، ولكن مجتمعات البث الأسرع نموًا هي الإسبانية والبرتغالية واليابانية والكورية والهندية. هذه الجماهير ضخمة ومتفاعلة ومعزولة إلى حد كبير عن بعضها البعض.

يصل لاعب يتحدث الإسبانية يتمتع بأسلوب لعب لا يصدق وشخصية جذابة إلى سقف في اللحظة التي لا يتحدث فيها المشاهد المحتمل الإسبانية. وينطبق الشيء نفسه في الاتجاه المعاكس - فالمبدع الناطق باللغة الإنجليزية ولديه مجتمع مخلص يضم 50000 شخص ليس لديه في الأساس أي وصول إلى الإنترنت الناطق باليابانية والذي يضم 500 مليون شخص.

هذه ليست مشكلة صغيرة. إنه أكبر رافعة نمو غير مستغلة في اقتصاد المبدعين بأكمله. وحتى الآن، كانت الحلول إما غير موجودة أو غير عملية بشكل مثير للضحك:

  • ترجمة يدوية؟ ستحتاج إلى مترجم بشري في مكالمة صوتية، مباشرة، لكل بث، بكل لغة. التكلفة وحدها باهظة. زمن الوصول يجعلها غير قابلة للمشاهدة.
  • ترجمة بعد البث؟ أفضل من لا شيء لمقاطع الفيديو حسب الطلب، لكنها لا تفعل شيئًا للمشاهدة المباشرة - حيث توجد الأموال والمجتمع والزخم.
  • تراكبات الترجمة المستندة إلى المتصفح؟ توجد حفنة من الأدوات، لكنها تتعامل فقط مع التسميات التوضيحية النصية، وتتطلب إعدادات معقدة لمكون OBS الإضافي، ولا تحل المشكلة الأساسية: صوتك لا يزال بلغة واحدة.

كان عالم البث المباشر بحاجة إلى شيء جديد تمامًا. نظام يمكنه معالجة الكلام وترجمته وتوليف صوت جديد - كل ذلك في الوقت الفعلي، وكل ذلك دون أن يغير اللاعب سير عمله.

هذا ما بنيناه.


ما بنيناه: دبلجة بالذكاء الاصطناعي في الوقت الفعلي للبث المباشر

StreamFluent عبارة عن خط أنابيب للذكاء الاصطناعي في الوقت الفعلي يقع بين جهاز تشفير البث الخاص بك (OBS Studio أو Streamlabs أو أي برنامج متوافق مع RTMP) ومنصات الوجهة الخاصة بك. إليك ما يحدث عندما تبدأ البث المباشر:

  1. تبث بشكل طبيعي بلغتك الأم. لا شيء في إعدادك يتغير باستثناء عنوان URL لوجهة RTMP في OBS.
  2. يستوعب StreamFluent البث الخاص بك عبر خوادم ترحيل RTMP الخاصة بنا. يمر الفيديو الخاص بك دون تغيير - لا نعيد ترميز الفيديو الخاص بك أبدًا.
  3. يعالج خط أنابيب الذكاء الاصطناعي الخاص بنا الصوت الخاص بك في الوقت الفعلي: يتعرف التعرف على الكلام على ما تقوله، وتحوله الترجمة الآلية إلى لغاتك المستهدفة، ويقوم تحويل النص العصبي إلى كلام بتوليف مسار صوتي جديد لكل لغة.
  4. يتم تسليم كل بث مترجم إلى وجهته الخاصة - قناة Twitch منفصلة أو بث YouTube أو قناة Kick - كاملة مع المسار الصوتي المدبلج والتسميات التوضيحية المحفورة الاختيارية.

النتيجة: تبث مرة واحدة. يشاهد جمهورك بخمس عشرة لغة. تبدو كل نسخة طبيعية، وتظل متزامنة، وتصل بزمن انتقال أقل من ثانية.

دعنا نحلل كل قطعة.

التعرف على الكلام (STT)

المرحلة الأولى من خط الأنابيب هي التعرف التلقائي على الكلام. يعالج محرك STT الخاص بـ StreamFluent الصوت الخاص بك في الوقت الفعلي، ويحول الكلام إلى نص بدقة عالية حتى في بيئات الألعاب الصاخبة. لقد قمنا بالتحسين خصيصًا لحالة استخدام البث - التعليقات سريعة الكلام، وصوت اللعبة في الخلفية، والأصوات المتداخلة، والفوضى العامة للبث المباشر.

الترجمة الآلية

بمجرد حصولنا على النص الخاص بك، تقوم طبقة الترجمة الخاصة بنا بتحويله إلى اللغات المستهدفة التي قمت بتكوينها. ندعم حاليًا 15 لغة: الإسبانية واليابانية والبرتغالية والفرنسية والألمانية والكورية والصينية (الماندرين) والإيطالية والروسية والعربية والهندية والتركية والهولندية والبولندية والتايلاندية - مع المزيد في الطريق.

تم ضبط محرك الترجمة للكلام غير الرسمي والمحادثة - الطريقة التي يتحدث بها اللاعبون بالفعل - وليس الناتج الصلب والرسمي الذي تحصل عليه من مترجم مستندات عام.

تحويل النص العصبي إلى كلام (TTS)

هنا يحدث السحر. لا يعرض StreamFluent النص المترجم فحسب. بل يتحدث به. يولد محرك TTS الخاص بنا صوتًا طبيعيًا باللغة المستهدفة، ويتم توليفه في الوقت الفعلي.

في خطة Pro الخاصة بنا، يمكنك إنشاء نموذج صوت مخصص من عينة صوتية مدتها 30 ثانية فقط. يتعلم النظام خصائص صوتك - النبرة والإيقاع والطاقة - ويطبقها على الإخراج المترجم. يبدو البث الإسباني الخاص بك وكأنك أنت تتحدث الإسبانية، وليس روبوتًا عامًا.

في خطة Business الخاصة بنا، نقوم بطرح استنساخ صوتي كامل مع الحفاظ على المشاعر - سيحمل الصوت المدبلج إثارتك وإحباطك وروح الدعابة عبر اللغات. (هذه الميزة قادمة قريبًا، وقد وصفها المختبرون الأوائل بأنها "غريبة").

تمرير الفيديو

قرار تصميم حاسم: لا نعيد ترميز الفيديو الخاص بك أبدًا. يمر بث 1080p60 أو 4K الخاص بك عبر خوادم الترحيل الخاصة بنا بتًا تلو الآخر. نحن نلمس المسار الصوتي فقط (ونحرق تراكبات التسميات التوضيحية اختياريًا). هذا يعني عدم فقدان الجودة، والحد الأدنى من زمن الوصول الإضافي، وعدم وجود تكلفة GPU إضافية من جانبك.


كيف يعمل: الإعداد في أقل من دقيقتين

لقد هوسنا بجعل StreamFluent سهل الإعداد بشكل مثير للسخرية. لا توجد مكونات إضافية للتثبيت، ولا توجد كابلات صوت افتراضية لتكوينها، ولا توجد مصادر متصفح للتصارع معها. إليك التدفق بأكمله:

الخطوة 1: إنشاء حسابك

سجل في streamfluent.ai باستخدام بريدك الإلكتروني أو اتصل مباشرة بحساب Twitch أو YouTube أو Google الخاص بك. المستوى المجاني متاح على الفور - لا يلزم وجود بطاقة ائتمان.

الخطوة 2: إعداد صوتك

بالنسبة لمستخدمي Pro و Business، سجل عينة صوتية مدتها 30 ثانية مباشرة في لوحة التحكم. يستخدم نظامنا هذا لبناء ملف تعريف الصوت المخصص الخاص بك. يمكنك ضبط معدل التحدث (0.5x إلى 2.0x) ودرجة الصوت (-12 إلى +12 نصف نغمة) لضبط كيفية ظهور صوتك المدبلج.

يحصل مستخدمو المستوى المجاني على إمكانية الوصول إلى أصوات TTS القياسية عالية الجودة - لا تزال تبدو طبيعية، ولكنها ليست مخصصة لصوتك المحدد.

الخطوة 3: إضافة وجهاتك

هنا تقوم بتكوين أين تذهب كل لغة. لكل لغة مستهدفة، تحدد:

  • اللغة (مثل الإسبانية واليابانية)
  • المنصة (Twitch أو YouTube أو Kick أو أي عنوان URL مخصص لـ RTMP)
  • مفتاح البث لتلك القناة
  • وضع الدبلجة: دبلجة كاملة بالذكاء الاصطناعي، أو تسميات توضيحية فقط، أو كليهما

يمكنك تشغيل العديد من الوجهات التي تسمح بها خطتك - واحدة في المستوى المجاني، وما يصل إلى ثلاث في Pro، وعدد غير محدود في Business.

الخطوة 4: توصيل OBS وبدء البث المباشر

هذا هو الجزء الذي يفاجئ الجميع: أنت فقط تغير عنوان URL للبث الخاص بك في OBS. هذا كل شيء.

انتقل إلى OBS Studio → الإعدادات → البث → حدد "مخصص..." → الصق عنوان URL لـ StreamFluent RTMP ومفتاح البث. يتم إنشاؤها تلقائيًا في لوحة التحكم الخاصة بك.

الخادم: rtmp://ingest.streamfluent.ai/live
مفتاح البث: (مفتاحك الفريد من لوحة التحكم)

اضغط على "بدء البث" في OBS. يتولى StreamFluent من هناك. يذهب البث الأصلي الخاص بك إلى قناتك الرئيسية (إذا قمت بتكوين وجهة تمرير)، وتذهب كل نسخة مترجمة إلى قناة النظام الأساسي الخاصة بها.

لا توجد مكونات إضافية. لا توجد برامج تشغيل صوت افتراضية. لا توجد مصادر متصفح. إذا كان جهاز التشفير الخاص بك يمكنه إخراج RTMP - ويمكن لجميعها تقريبًا - فإنه يعمل مع StreamFluent.


التسميات التوضيحية والدبلجة: تحكم كامل، لكل وجهة

كانت إحدى أكثر الميزات المطلوبة خلال الإصدار التجريبي لدينا هي التحكم الدقيق في التسميات التوضيحية والدبلجة على أساس كل وجهة. لدى الجماهير المختلفة تفضيلات مختلفة، وأردنا أن نمنح اللاعبين مرونة كاملة.

إليك كيف يعمل:

أوضاع الدبلجة

يمكن ضبط كل وجهة على أحد الأوضاع الثلاثة:

  • دبلجة تلقائية: إذا كانت لغة الوجهة تختلف عن لغة المصدر الخاصة بك، فسيتم تطبيق دبلجة صوتية كاملة بالذكاء الاصطناعي. هذا هو الإعداد الافتراضي والأكثر شيوعًا.
  • تسميات توضيحية فقط: يتم الاحتفاظ بصوتك الأصلي، ولكن يتم حرق التسميات التوضيحية المترجمة في الفيديو. رائع للجماهير الذين يفضلون سماع الصوت الأصلي ولكنهم بحاجة إلى مساعدة في الترجمة.
  • الأصلي فقط: يمر البث بدون دبلجة وبدون تسميات توضيحية. مفيد لوجهة لغتك "الرئيسية".

تسميات توضيحية محفورة

يقوم نظام التسميات التوضيحية في StreamFluent بعرض النص المترجم مباشرة في موجز الفيديو - لا يلزم وجود امتداد أو إعداد من جانب المشاهد. يرى الجميع الذين يشاهدون التسميات التوضيحية، بغض النظر عن أجهزتهم أو نظامهم الأساسي.

يمكنك تخصيص:

  • الموضع: أسفل المركز أو أعلى المركز
  • حجم الخط: 16 بكسل إلى 48 بكسل (افتراضي 24 بكسل)
  • اللغة: تتطابق التسميات التوضيحية مع لغة الوجهة

تعمل التسميات التوضيحية بشكل مستقل عن الدبلجة. يمكنك تشغيل تسميات توضيحية فقط على بعض الوجهات ودبلجة كاملة على وجهات أخرى. يمكنك حتى تشغيل كليهما - صوت مدبلج مع تسميات توضيحية مطابقة - لتحقيق أقصى قدر من إمكانية الوصول.

خلط الصوت

عندما تكون الدبلجة نشطة، يتعامل StreamFluent تلقائيًا مع خلط الصوت:

  • حجم الصوت الأصلي: افتراضيًا 20% (يصبح صوتك الأصلي خلفية خفية، مما يحافظ على أصوات البث الطبيعية)
  • حجم الصوت المدبلج: افتراضيًا 100%
  • التخفيض التلقائي: عندما يتحدث الصوت المدبلج، يتم خفض الصوت الأصلي تلقائيًا. عندما يكون هناك صمت (صوت اللعبة فقط، بدون كلام)، يعود الصوت الأصلي.

كل هذه قابلة للتعديل لكل بث من لوحة التحكم.


مصمم من أجل الموثوقية: ماذا يحدث عندما تسوء الأمور

البث المباشر لا يرحم. إذا انكسر شيء ما، فلا يوجد "تراجع". لقد بنينا StreamFluent مع هذا الواقع في صميم كل قرار معماري.

أوضاع زمن الوصول

تتطلب حالات الاستخدام المختلفة مقايضات مختلفة بين زمن الوصول والجودة. يقدم StreamFluent ثلاثة أوضاع:

  • زمن انتقال منخفض جدًا (< 500 مللي ثانية): للألعاب التنافسية والتفاعل سريع الخطى. متاح في خطة Business.
  • متوازن (< 1 ثانية): الإعداد الافتراضي الموصى به لمعظم اللاعبين. متاح في Pro و Business.
  • الجودة (< 2 ثانية): يعطي الأولوية لدقة الترجمة على السرعة. الأفضل للمحتوى الذي يعتمد على الكلام بشكل كبير.

سلوك الرجوع

إذا واجه خط أنابيب الذكاء الاصطناعي مشكلة في منتصف البث - عطل شبكة قصير، أو تأخير معالجة مؤقت - فإن StreamFluent لا يتعطل أو يصمت ببساطة. يمكنك تكوين ما يحدث:

  • تمرير (افتراضي): يتم إخراج الصوت الأصلي غير المترجم حتى يتعافى خط الأنابيب. يسمعك جمهورك بلغتك الأم للحظة، ثم تستأنف الدبلجة بسلاسة.
  • كتم الصوت: يصبح المسار الصوتي المدبلج صامتًا لفترة وجيزة. مفيد إذا كنت تفضل الصمت على الصوت غير المترجم.
  • إظهار التراكب: تشير رسالة قصيرة على الشاشة إلى أن الترجمة غير متاحة مؤقتًا.

لوحة معلومات المراقبة المباشرة

أثناء البث المباشر، تمنحك لوحة معلومات StreamFluent مركز قيادة في الوقت الفعلي:

  • حالة كل وجهة: تعرف ما إذا كان إخراج كل لغة سليمًا، جنبًا إلى جنب مع عدد المشاهدين وزمن الوصول
  • مستويات الصوت: عدادات مرئية لكل بث إخراج
  • موجز النسخ المباشر: شاهد النص في الوقت الفعلي بكل لغة، مع علامات تبويب للتبديل بينها
  • معاينة TTS: استمع إلى الصوت المدبلج مباشرة في متصفحك للتحقق من الجودة
  • عناصر التحكم في منتصف البث: تمكين أو تعطيل الوجهات الفردية دون إيقاف البث الخاص بك

الرؤية: عالم يتمتع فيه كل لاعب بجمهور عالمي

بدأنا StreamFluent لأننا نعتقد أن اللغة لا ينبغي أن تحدد سقف المبدع.

كان من المفترض أن يكون الإنترنت بلا حدود. وفي كثير من النواحي، هو كذلك - يمكنك مشاهدة بث من أي مكان في العالم، على الفور. لكن "المشاهدة" و "الفهم" شيئان مختلفان تمامًا. قد يتمكن المشاهد في سيول تقنيًا من تحميل قناة Twitch برازيلية، ولكن إذا لم يتمكن من فهم كلمة واحدة، فسيغادر في ثوانٍ.

هذا يخلق فصلًا غير مرئي. ينقسم عالم البث إلى صوامع لغوية، ويقع اللاعبون في الداخل. لن يصل فنان لامع في مكسيكو سيتي بشكل عضوي إلى السوق اليابانية. لا يوجد لدى لاعب متنوع كوري لديه 100000 متابع مخلص طريق إلى الجمهور الناطق باللغة الإنجليزية الأكبر 10 مرات.

StreamFluent هو الجسر.

نتصور مستقبلًا حيث:

  • يبدأ لاعب في بوينس آيرس البث المباشر ويسلي في الوقت نفسه الجماهير في طوكيو وبرلين ومومباي ولوس أنجلوس - وكلهم يسمعون البث بلغتهم الخاصة، بصوت يبدو وكأنه صوت اللاعب.
  • لم تعد اللغة متغيرًا في خوارزمية الاكتشاف. جودة المحتوى هي كل ما يهم.
  • تتوسع الطبقة الوسطى للمبدعين عالميًا، لأن الموهبة موزعة بالتساوي عبر اللغات ولكن الفرصة لم تعد مضطرة إلى أن تكون كذلك.
  • تتشكل مجتمعات متعددة اللغات حول المبدعين، مع ترجمة الدردشة والتفاعل عبر اللغات كميزة أصلية (نعم، نحن نعمل على ذلك أيضًا).

هذه رؤية كبيرة. لم نصل إلى هناك بعد. ولكن مع إطلاق اليوم، تم وضع الأساس.


التسعير: ابدأ مجانًا، وقم بالتوسع كلما نمت

لقد صممنا تسعير StreamFluent ليكون في متناول المبدعين على كل مستوى.

الخطة المجانية - 0 دولار/شهر

  • 30 دقيقة تسميات توضيحية و 15 دقيقة مدبلجة شهريًا
  • لغة مستهدفة واحدة
  • أصوات TTS قياسية
  • وصول كامل إلى لوحة معلومات المراقبة المباشرة
  • لا يلزم وجود بطاقة ائتمان

يستخدم البث النموذجي لمدة ساعة واحدة ما يقرب من 30 دقيقة من وقت التسميات التوضيحية و 35 دقيقة من الوقت المدبلج (نقوم بقياس وقت معالجة الكلام الفعلي، وليس وقت الساعة - لذلك لا يتم احتساب التوقفات المؤقتة وشرائح اللعب فقط والصمت). تمنحك الخطة المجانية ما يكفي لاختبار بث كامل وتجربة الجودة مباشرة.

خطة Pro - 29 دولارًا/شهر

  • 600 دقيقة تسميات توضيحية و 300 دقيقة مدبلجة شهريًا (~20 ساعة من البث)
  • ما يصل إلى 3 لغات مستهدفة
  • نموذج صوت مخصص من عينة مدتها 30 ثانية
  • توزيع ترحيل RTMP على منصات متعددة
  • عناصر التحكم في خلط الصوت
  • حد إنفاق قابل للتكوين للتجاوز
  • نسخة تجريبية مجانية لمدة 14 يومًا

خطة Business - 79 دولارًا/شهر

  • عدد غير محدود من دقائق التسميات التوضيحية و 1200 دقيقة مدبلجة شهريًا (~80 ساعة من البث)
  • عدد غير محدود من اللغات المستهدفة
  • وضع زمن انتقال منخفض جدًا (< 500 مللي ثانية)
  • ضبط صوت متقدم
  • استنساخ صوتي مع الحفاظ على المشاعر (قريبًا)
  • دعم ذو أولوية

Enterprise - تسعير مخصص

  • كل شيء غير محدود
  • بنية أساسية مخصصة للترحيل
  • تكامل API مخصص
  • ضمانات SLA
  • خيارات العلامة البيضاء

تستخدم جميع الخطط المدفوعة قياسًا دقيقًا - نحسب فقط الثواني التي يقوم فيها الذكاء الاصطناعي الخاص بنا بالعمل فعليًا. إذا كنت تلعب بصمت لمدة 10 دقائق، فهذا 0 دقيقة تسميات توضيحية و 0 دقيقة مدبلجة. أنت تدفع مقابل ما تستخدمه، ولا شيء أكثر.

تتضمن الخطط المدفوعة أيضًا حد إنفاق قابل للتكوين حتى لا تتفاجأ أبدًا برسوم التجاوز. اضبطه على 0 دولار لإيقاف التشغيل بقوة عند الدقائق المضمنة، أو قم بإزالة الحد الأقصى تمامًا للبث دون انقطاع.


جربه اليوم

StreamFluent مباشر. المستوى المجاني متاح الآن على streamfluent.ai. لا توجد بطاقة ائتمان. لا يوجد التزام. ما عليك سوى التسجيل ولصق عنوان URL لـ RTMP في OBS والبث إلى العالم.

إذا كنت مبدعًا وتساءلت يومًا ما الذي يمكن أن يبدو عليه جمهورك بدون حاجز لغوي - فهذا هو جوابك.

إذا كنت مشاهدًا ونقرت يومًا بعيدًا عن بث لا يصدق لأنك لم تستطع فهم اللغة - فإن تلك الأيام أصبحت معدودة.

لقد بنينا StreamFluent لأننا نعتقد أن أفضل محتوى يجب أن يفوز، بغض النظر عن اللغة التي يتحدث بها. وبدءًا من اليوم، يمكنه ذلك.

صوتك. كل لغة. هيا بنا.

ابدأ الدبلجة مجانًا →


يدعم StreamFluent Twitch و YouTube و Kick وأي نظام أساسي متوافق مع RTMP. متاح حاليًا بـ 15 لغة مع إضافة المزيد بانتظام. أسئلة؟ تواصل معنا على support@streamfluent.ai أو تحقق من وثائقنا.

Comments

Not displayed publicly