تحويل النص إلى كلام (TTS) هو نوع من التقنية التي تقوم بتحويل النص على واجهة رقمية إلى صوت طبيعي. يمكن أيضًا الإشارة إليها باسم تقنية "القراءة بصوت عال" أو الكلام الذي يتم إنشاؤه بواسطة الكمبيوتر أو تركيب الكلام. تقدم معظم الشركات تقنية تحويل النص إلى كلام كواجهة برمجة التطبيقات (API).
في الأصل، تم تطوير أنظمة تحويل النص إلى كلام كتقنية مساعدة قد تجعل بعض الخدمات أكثر سهولة للمستخدمين ذوي الإعاقات البصرية وصعوبات التعلم مثل عسر القراءة. الآن، تمكّن مولدات الصوت المدعومة بالذكاء الاصطناعي برامج تحويل النص إلى كلام من محاكاة الكلام البشري بشكل أفضل. مما يفتح موجة من حالات الاستخدام الجديدة مثل الرد على مكالمات خدمة العملاء، والبودكاستات التي يتم إنشاؤها بواسطة الذكاء الاصطناعي، والتعليقات الصوتية، وسرد الكتب الصوتية.
بدأت أول أجهزة تركيب الكلام الكهربائية بالظهور في ثلاثينيات القرن الماضي1. كانت الأجهزة الأولى محدودة ومعقدة في التشغيل.
مع ظهور أجهزة الكمبيوتر، بدأ المبرمجون في أواخر الخمسينيات من القرن الماضي بالعمل على خوارزميات يمكنها الوصول إلى قاعدة بيانات ضخمة من الملفات الصوتية كمصادر لأصواتها. قد تجد هذه الخوارزميات تطابقات صوتية لوحدات النصوص وتجمع عناصر الكلام معًا. في البداية، بدا الصوت الذي تم إنشاؤه آليًا. بينما حسّن عمل النمذجة توصيف اللغة، تحسّنت خوارزميات تحويل النص إلى كلام.
عندما ظهرت تقنيات التعلّم العميق والشبكات العصبية في العقد الأول من القرن الحادي والعشرين، بدأ المبرمجون في نمذجة الأشكال الموجية مباشرةً مع تسجيلات الكلام، مما أدى إلى الحصول على أصوات عالية الجودة تبدو أكثر واقعية. وبالتوازي مع ذلك، كان علماء الكمبيوتر يعملون على تحسين برمجيات التعرف على الكلام ومعالجة اللغة الطبيعية. يعتمد تطوير الذكاء الاصطناعي الحواري على الجمع بين تحويل الكلام إلى نص و تقنية تحويل النص إلى كلام.
على الرغم من أن الذكاء الاصطناعي والتعلم الآلي جعلا من السهل إنشاء كلام يبدو طبيعيًا، إلا أنهما فتحا مجالات جديدة للجدل، مثل عمليات التزييف العميق. تعمل شركات التقنية على تطوير أنظمة تحليل الصوت في الوقت الفعلي لكشف عمليات التزييف العميق الصوتية.
تسمح تقنيات التعلّم العميق لنماذج تركيب الكلام بتحليل المزيد من البيانات وفهم العلاقة بين الكلمات وميزتها الصوتية بشكل أفضل. كل هذا يجعل صوت الذكاء الاصطناعي يبدو أكثر طبيعية. يعد تحويل النص إلى كلام عملية متعددة الخطوات تتضمن كلا من التحليل اللغوي وتركيب الكلام.
المكونات الرئيسية لتحويل النص إلى كلام هي:
التحليل اللغوي
تركيب الكلام
يتم تزويد الشبكات العصبية العميقة في النموذج بمجموعات بيانات صوتية ونصوص مقابلها باللغة الإنجليزية، وأحيانًا بلغات أخرى. يساعد هذا النظام على فهم كيفية تطابق الكلمات مع الكلام، بالإضافة إلى اللهجات، وحدّة الصوت، ومستوى الصوت، والنبرة، والإيقاع، وغيرها. بعد أن يتلقى نموذج تحويل النص إلى كلام مدخلًا نصيًا، يحلل الكلمات وعلامات الترقيم وبنية الجملة. يمكنه توسيع الاختصارات والتعابير، وحساب مدة الكلمات، وإيجاد النطق المتطابق، ورسم خصائص درجة النبرة والتنغيم للعبارات والجمل.
بعد تحليل النص، يستخدم النموذج بعد ذلك عملية من خطوتين لتحويله إلى إخراج صوتي.
الخطوة 1: يقوم النموذج بتحويل النص إلى ميزات متناسقة زمنيًا مثل المخطط الطيفي، والذي يُستخدم لتعيين تباين الترددات مع مرور الوقت. هذا يلتقط الخصائص التفصيلية في الكلام ويأخذ في الاعتبار النطق المعتمد على السياق، والتشديد، والتوقيتات للكلمات.
الخطوة 2: يمكن لشبكة ترميز الصوت (vocoder) تحويل الميزات المحاذية زمنيًا إلى أشكال موجية صوتية، والتي يمكن لأجهزة الكمبيوتر تحويلها إلى كلام طبيعي الصوت. تسمح بعض نماذج تحويل النص إلى كلام للمستخدمين بتغيير مستوى الصوت، ودرجة النبرة، والسرعة، والاختيار بين لغات ولهجات وأنماط كلام مختلفة.
تحتوي العديد من الأجهزة مثل الهواتف الذكية على أنظمة مدمجة لتحويل النص إلى كلام. يتوفر تحويل النص إلى كلام أيضًا كبرنامج أو ملحق متصفح أو أداة مستندة إلى الويب أو تطبيقات قابلة للتنزيل.
تم تطوير تقنية تحويل النص إلى كلام في الأصل كوسيلة لزيادة إمكانية الوصول لمجموعة واسعة من المستخدمين، وتمكين الأشخاص ذوي الإعاقات البصرية أو صعوبات القراءة من التفاعل مع النصوص عبر أجهزة الكمبيوتر والأجهزة الأخرى. يستخدم Stephen Hawkings، على سبيل المثال، نسخة من تقنية تحويل النص إل كلام.
لقد تطورت تقنية تحويل النص إلى كلام لتشمل نطاقًا أوسع من حالات الاستخدام، وأهمها الحالات التي يكون فيها القراءة غير عملية، أو الحالات التي يمكن فيها توفير وقت المشغل البشري. وفيما يلي بعض التطبيقات الرئيسية للتقنية.
المحتوى الصوتي
التعليم
روبوتات المحادثة والمساعدون الافتراضيون
التنقل
التواصل متعدد اللغات وتعلم اللغات
وسائل الإعلام والترفيه
الرعاية الصحية
يمكن لبرامج تحويل النص إلى كلام قراءة النصوص الرقمية والكتب والدروس والأدلة والتعليمات وغيرها بصوت عالٍ للمساعدة في التعلم الإلكتروني والتدريب عبر الإنترنت. يمكن للمؤسسات الإخبارية أيضًا استخدام هذه التقنية لتحويل مقالاتها إلى تنسيق صوتي.
يمكن لميزات تحويل النص إلى كلام أن تساعد الطلاب على الانتباه والقراءة المتزامنة للنص المكتوب، مما يسمح لهم بربط الكلمات بالنطق. كما يمكن أن يحسّن فهم القراءة والمشاركة حيث يتعرض الطلاب لتراكيب نحوية أو مفردات جديدة. يمكن أن يساعد أيضًا أولئك الذين يعانون من صعوبات بصرية أو صعوبات التعلم مثل عسر القراءة. يمكن لتقنية تحويل النص إلى كلام أن تقرأ بصوت عالٍ الأعمال الكتابية التي ينتجها الطلاب لمساعدتهم في تدقيق واجبات المقالات.
يقوم المساعدون الافتراضيون مثل Siri من Apple أو Cortana من Microsoft بإقران تحويل النص إلى كلام مع تحويل الكلام إلى نص من أجل فهم طلبات المستخدم والتفاعل معها بطريقة محادثة طبيعية. يمكنهم أيضًا بث الإشعارات وقراءة النصوص عندما يقوم المستخدمون بالقيادة، على سبيل المثال.
في إعدادات المؤسسة، يمكن لأنظمة تحويل النص إلى كلام تحسين جودة تجربة المستخدم من خلال جعل خدمة العملاء تبدو أكثر تفاعلية وطبيعية. يمكن لأنظمة تحويل النص إلى كلام الرد على المكالمات وتقديم الخيارات والرد على المستخدمين. إنها جزء أساسي من أنظمة الهاتف الآلية.
قدرات تحويل النص إلى كلام هي التي تسمح لتطبيقات نظام تحديد المواقع العالمي (GPS) وتطبيقات الخرائط الأخرى بتوصيل التوجيهات إلى السائقين في الوقت الفعلي. قبل تحويل النص إلى كلام، كانت أجهزة الملاحة تعتمد على أصوات مسجلة مسبقًا وموجِّهات محددة مثل انعطف يسارًا أو يمينًا. مع تقنية تحويل النص إلى كلام، أصبحت تعليمات القيادة أكثر تخصيصًا. على سبيل المثال، يمكن لنظام تحديد المواقع العالمي (GPS) أن يخبرك بالشارع المحدد الذي يجب أن تنعطف فيه يسارًا.
يمكن أن يساعد تحويل النص إلى كلام المستخدمين على التواصل بلغات مختلفة، على سبيل المثال، من خلال تطبيق مثل ترجمة Google. هذه الميزة في التطبيق يمكنها ترجمة الصوت من لغة إلى أخرى، ويمكن استخدامها لدبلجة محتوى الفيديو. يمكن أن تساعد متعلمي اللغات على التعرض للكلام الطبيعي، مما يساعدهم على فهم كيفية نطق الكلمات المختلفة.
مع تقدم تقنية تحويل النص إلى كلام، يمكن استخدامها لتوفير التكاليف في الإنتاج الإعلامي. على سبيل المثال، قد تقوم التقنية بتوليد تعليق وسرد في ألعاب الفيديو، بالإضافة إلى تعليقات صوتية للشخصيات. تعمل بعض الاستوديوهات مع ممثلي صوت بشريين للمساعدة في تحسين أداء أصوات الذكاء الاصطناعي الخاصة بهم.
تستخدم مؤسسات الرعاية الصحية تقنية تحويل النص إلى كلام للتواصل مع المرضى بطريقة ميسرة. يشمل ذلك إضافة نسخ صوتية للمحتوى والأدب المنشور على صفحات الويب أو وسائل التواصل الاجتماعي الخاصة بهم. ستضيف بعض المؤسسات أيضًا تعليمات صوتية إرشادية حول كيفية استخدام بعض الأجهزة الطبية. كما يمكن أن تساعد الواجهات الصوتية المدعومة بالذكاء الاصطناعي في تذكير المرضى بالمواعيد القادمة من خلال المكالمات، أو تنبيههم بالأخبار أو التحديثات على مخططاتهم. يمكن أن يكون هذا مهمًا بشكل خاص للمرضى الذين يعانون من إعاقات بصرية ومشاكل في الكلام وقيود في الحركة وصعوبات في التعلم.
1 تقنية تحويل النص إلى كلام (تركيب الكلام)، المعهد الوطني الأمريكي للمعايير، 7 ديسمبر 2015
يمكنك بسهولة تصميم مساعدي ووكلاء الذكاء الاصطناعي القابلين للتوسع وأتمتة المهام المتكررة وتبسيط العمليات المعقدة باستخدام IBM watsonx Orchestrate.
تسريع قيمة الأعمال باستخدام مجموعة قوية ومرنة من مكتبات وخدمات وتطبيقات الذكاء الاصطناعي.
أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.