Speech to text هو عملية تحويل الكلمات المنطوقة إلى نص نصي. يشار إليها أحيانًا باسم تحويل الصوت إلى نص، وهي متوفرة في الغالب كخدمة قائمة على البرامج (SaaS).
عادةً ما تجمع بين تقنية التعرف على الكلام المدعومة بالذكاء الاصطناعي، والمعروفة أيضًا باسم التعرّف التلقائي على الكلام، والنسخ الصوتي. يلتقط برنامج كمبيوتر الصوت على شكل ذبذبات موجات صوتية ويستخدم خوارزميات لغوية لتحويل الإدخال الصوتي إلى أحرف وكلمات وعبارات رقمية.
أدى التعلم الآلي والتعلم العميق ونماذج اللغة الكبيرة مثل المُحوِّل التدريبي مسبق التدريب (GPT) من OpenAI إلى جعل برامج تحويل الكلام إلى نص أكثر تقدمًا وكفاءة، لأنها تستطيع استخلاص الأنماط في اللغة المنطوقة من حجم كبير من عينات الصوت والنص.
يمكن دمج الذكاء الاصطناعي التوليدي مع برنامج تحويل الكلام إلى نص لإنشاء مساعدين يمكنهم مساعدة العملاء عبر مكالمة هاتفية أو التفاعل مع التطبيقات التي تدعم الصوت. ويمكن للذكاء الاصطناعي التوليدي أيضًا تحويل النص إلى كلام، أو ما يعرف باسم Text to Speech، بصوت واقعي يبدو طبيعيًا.
يحتوي برنامج تحويل الكلام إلى نص على عدة مكونات. ومنها:
إدخال الكلام: حيث يلتقط الميكروفون الكلمات المنطوقة
استخراج السمات: حيث يحدد الكمبيوتر النبرات والأنماط المميزة في الكلام)
وحدة فك التشفير: حيث تطابق الخوارزمية سمات الكلام مع الأحرف والكلمات من خلال نموذج لغوي
إخراج الكلمات: حيث يتم تنسيق النص النهائي بعلامات الترقيم والأحرف الكبيرة الصحيحة بحيث يكون مقروءًا للبشر
بشكل عام، تتكون عملية تحويل الكلام إلى نص (Speech to Text) من الخطوات التالية:
المعالجة المسبقة للصوت: بعد التقاط التسجيلات الصوتية، تتم معالجتها مسبقًا لتحسين جودة ودقة التعرّف. يتضمن ذلك إزالة ضوضاء الخلفية والترددات غير ذات الصلة، وتثبيت مستوى الصوت، وتقسيم المقطع لتسهيل المعالجة وتحويل الملف الصوتي إلى صيغة قياسية.
تحليل الصوت واستخراج الميزات: غالبًا ما يتم تصوير الإشارات الصوتية على أنها مخططات طيفية (الرابط موجود خارج موقع ibm.com)، وهي تمثيلات مرئية للترددات عبر الوقت.1 يتم تقسيم الأجزاء ذات الصلة من التسجيلات الصوتية إلى سلسلة من الصوتيات، وهي أصغر وحدة من وحدات الكلام التي تميز كلمة عن أخرى. الفئات الرئيسية للصوتيات هي حروف العلة والحروف الساكنة (الرابط موجود خارج موقع ibm.com).2 يمكن للنماذج اللغوية وأجهزة فك التشفير مطابقة الصوتيات مع الكلمات ثم الجمل. يمكن للنماذج الصوتية القائمة على التعلم العميق التنبؤ بالأحرف والكلمات التي من المحتمل أن تحدث بعد ذلك بناءً على السياق.
هناك ثلاث طرق رئيسية لتنفيذ التعرف على الكلام: متزامن وغير متزامن وأثناء البث.
التعرف المتزامن هو عندما يكون هناك تحويل فوري للكلام إلى نص. يمكنه فقط معالجة ملفات الصوت التي تقل مدتها عن دقيقة واحدة. يستخدم هذا في التسميات التوضيحية المباشرة للبث التلفزيوني.
التعرف أثناء البث يتم عندما تتم معالجة الصوت المتدفق في الوقت الفعلي، لذلك قد تظهر نصوص مجزأة بينما لا يزال المستخدم يتحدث.
التعرف غير المتزامن يتم عندما يتم إرسال ملفات صوتية كبيرة مسجلة مسبقاً للنسخ. قد يتم وضعها في قائمة الانتظار للمعالجة وتسليمها لاحقًا.
شركات مثل Google3 (الرابط موجود خارج ibm.com)، Microsoft4 (الرابط موجود خارج ibm.com)، تقدم Amazon5 (الرابط موجود خارج ibm.com) و ®IBM برامج Speech to Text كواجهات برمجة تطبيقات من خلال السحابة، مما يسمح باستخدامها بالتنسيق مع التطبيقات والأدوات والأجهزة الأخرى.
تتمتع أجهزة Apple iPhone بميزة الإملاء (الرابط موجود خارج ibm.com)، والتي تدمج تقنية تحويل الكلام إلى النص المضمنة في iOS الخاص بها.6 يمكن لمستخدمي Androids تنزيل تطبيقات مثل Gboard (الرابط موجود خارج ibm.com) لوظائف تحويل الكلام إلى نص. تسمح بعض أجهزة البكسل للمستخدمين بالكتابة باستخدام الصوت من خلال المساعد.7 هناك خيارات متنوعة لكل من برامج تحويل الكلام إلى نص مفتوحة المصدر والخاصة.
في وقت مبكر من تطورها، اعتمد برنامج التعرف على الكلام على بنك مفردات محدود. وقد ساهم التقدم في علوم البيانات والتعلم العميق والذكاء الاصطناعي في زيادة اعتمادها مؤخرًا من قبل العديد من الصناعات، بدءًا من صناعة السيارات ووصولًا إلى الرعاية الصحية.
في الخمسينيات من القرن العشرين، ابتكرت مختبرات بيل أول جهاز للتعرف على الكلام (يوجد الرابط خارج موقع ibm.com) يسمى AUDREY، والذي يمكنه التعرف على الأرقام المنطوقة.8 بعد ذلك ، توصلت IBM إلى Shoebox في عام 1962، والذي قد يتعرف على الأرقام و16 كلمة مختلفة.
خلال هذه العقود (الرابط موجود خارج ibm.com)، توصل علماء الكمبيوتر إلى نماذج تتعرف على الصوتيات ونماذج إحصائية مثل نماذج ماركوف المخفية، التي لا تزال خوارزميات شائعة للتعرف على الكلام.9 في سبعينيات القرن العشرين تقريبًا، مكّن برنامج Carnegie Mellon المسمى HARPY من Carnegie Mellon أجهزة الكمبيوتر من التعرف على 1000 كلمة.
في ثمانينيات القرن العشرين، استخدم نظام النسخ الصوتي Tangora الخاص بشركة IBM الأساليب الإحصائية للتعرف على ما يصل إلى 20000 كلمة. وقد استُخدِم في أول إملاء يتم تنشيطه صوتيًا للعاملين في المكاتب ووضع الأساس لبرامج تحويل الكلام إلى نص الحديثة. استمر تطوير هذا النوع من البرامج وتحسينه حتى تم تسويقه تجاريًا في العقد الأول من القرن الحادي والعشرين.
عندما ظهرت خوارزميات التعلّم الآلي والتعلّم العميق، حلّت محل النماذج الإحصائية وحسّنت دقة التعرّف وسمحت بتوسيع نطاق التطبيقات. قد يلتقط التعلم العميق الفروق الدقيقة والتعبيرات غير الرسمية بشكل أفضل. يمكن استخدام النماذج اللغوية الكبيرة (LLMs) لإضافة السياق، وهو ما يمكن أن يساعد عندما تكون خيارات الكلمات أكثر غموضًا، أو إذا كانت هناك اختلافات في النطق. مع ظهور المساعدين الافتراضيين ومكبرات الصوت الذكية، أصبحوا قادرين على دمج برامج تحويل الكلام إلى نص مع النماذج اللغوية الكبيرة ومعالجة اللغة الطبيعية (NLP) وغيرها من الخدمات المستندة إلى السحابة.
تُعد نماذج التعلم العميق الشاملة مثل المحولات أساسية للنماذج اللغوية الكبيرة. وقد تم تدريبهم على مجموعة كبيرة من مجموعة البيانات غير المصنفة من أزواج النصوص الصوتية؛ لتتعلم كيفية مطابقة الإشارات الصوتية مع عمليات النسخ الصوتي.
خلال هذا التدريب، يتعلم النموذج ضمنيًا كيف تبدو الكلمات وما هي الكلمات التي من المحتمل أن تظهر في تسلسل معًا. يمكن للنموذج أيضًا استنتاج قواعد النحو وبنية اللغة لتطبيقها بمفرده. يُوحّد التعلم العميق بعض الخطوات الأكثر روتينية في تقنيات تحويل الكلام إلى نص التقليدية.
هناك حالات استخدام مختلفة لبرامج تحويل الكلام إلى نص:
يمكن لبرنامج تحويل الكلام إلى نص أن يقوم تلقائياً بنسخ تفاعلات العملاء، وتوجيه المكالمات حسب الحاجة، واستخلاص معارف من محادثات العملاء، وإجراء تحليل للمشاعر.
مثال: بالنسبة لمراكز خدمة العملاء، يمكن للمساعدين الصوتيين المدعومين بالذكاء الاصطناعي استخدام تحويل الكلام إلى نص للتعامل مع الأسئلة الأسهل والأكثر تكرارًا من العملاء وتوجيه الطلبات الأكثر تعقيدًا إلى الوكلاء البشريين.
يمكنه نسخ دقائق من الاجتماعات عبر الإنترنت أو ندوات الإنترنت وإنشاء ترجمات أو تسميات توضيحية أو دبلجة على مقاطع الفيديو. يمكن استخدامه أيضًا مع برنامج ترجمة لتقديم مستندات النسخ الصوتي إلى لغات متعددة. يمكن للتطبيقات المتخصصة أن تسمح بالنسخ الصوتي لتطبيقات الرعاية الصحية والقانونية والتعليمية.
مثال: تقدم Amazon (الرابط موجود خارج موقع ibm.com) خدمة النسخ الطبي التي تستخدم تحويل الكلام إلى نص لنسخ محادثات الطبيب والمريض لتدوين الملاحظات السريرية، وترجمة الاستشارات الصحية عن بُعد.10
من خلال معالجة اللغة الطبيعية، يمكن للتعرّف على الصوت استخلاص المعنى من النص المكتوب واستخراج الأوامر القابلة للتنفيذ وتنفيذها. يمكن أن يساعد ذلك المستخدمين على إصدار أوامر صوتية مثل إجراء المكالمات الهاتفية أو البحث في الويب أو التحكم في الأضواء وأجهزة تنظيم الحرارة وغيرها من الأجهزة المتصلة في المنزل الذكي من خلال روبوتات المحادثة أو المساعدين الرقميين مثل Alexa و Cortana و Google Assistant و Siri.
مثال: Alexa من Amazon (الرابط الموجود خارج موقع ibm.com) تستخدم الآن تحويل الكلام إلى نص وتحويل النص إلى كلام لتشغيل الأضواء أو ضبط درجة الحرارة في غرفة معينة أو اقتراح وصفات بناءً على مشترياتك الأخيرة من البقالة.11
يمكن للأشخاص ذوي الاحتياجات الخاصة استخدام هذه التطبيقات للتفاعل مع أجهزة الكمبيوتر والهواتف الذكية دون الحاجة إلى الكتابة فعليًا. يمكنهم بدلاً من ذلك إملاء الرسائل النصية والملاحظات ورسائل البريد الإلكتروني والمزيد.
مثال: لا يزال بإمكان الطلاب الذين يعانون من عسر القراءة أو أصيبوا مؤخرًا في أذرعهم كتابة الملاحظات باستخدام صوتهم على كمبيوتر Microsoft (الرابط موجود خارج موقع ibm.com).12 يتم تشغيل هذه القدرات بواسطة خدمات Azure Speech.
يمكن للذكاء الاصطناعي فحص نصوص مقاطع الفيديو والمقاطع الصوتية للبحث عن المحتوى غير المناسب والعمل كمشرف لتحديد المواد المشكوك فيها للمراجعة البشرية.
مثال: تقدم Vatis Tech (الرابط موجود خارج موقع ibm.com) أداة تستخدم تحويل الكلام إلى نص لمراقبة وسائل التواصل الاجتماعي في التسويق حتى تتمكن من مساعدة العلامات التجارية على تحديد متى تصبح رائجة، والغرض وراء تفاعلات العملاء.13
1. From Sound to Images, Part 1: A deep dive on spectrogram creation (link resides outside ibm.com), Cornell Lab Macaulay Library, 19 July 2021
2. Lecture 12: An Overview of Speech Recognition (link resides outside ibm.com), University of Rochester Computer Science
3. Turn speech into text using Google AI (link resides outside ibm.com), Google Cloud
4. Speech to text REST API (link resides outside ibm.com), Microsoft
5. Amazon Transcribe API reference (link resides outside ibm.com), AWS
6. iPhone User Guide (link resides outside ibm.com), Apple
7. Type with your voice (link resides outside ibm.com), Google Support
8. Audrey, Alexa, Hal, and more (link resides outside ibm.com), Computer History Museum, 9 June 2021
9. Speech Recognition: Past, Present, Future (link resides outside ibm.com), Carnegie Mellon University Computer Science
10. Amazon Transcribe Medical (link resides outside ibm.com), AWS
11. Alexa unveils new speech recognition, text-to-speech technologies (link resides outside ibm.com), Amazon, 20 September 2023
12. Use voice typing to talk instead of type on your PC (link resides outside ibm.com), Microsoft
13. Media Monitoring Intelligence - Turn any Audio to Insights (link resides outside ibm.com), Vatis Tech
استكشف البرنامج التعليمي
جرّب watsonx
البدء
مشاهدة حسب الطلب