التعرف على الكلام

menu icon

التعرف على الكلام

تعرف على تاريخ التعرف على الكلام وتطبيقاته المختلفة في العالم اليوم

ما هو التعرف على الكلام؟

التعرف على الكلام، يعرف أيضا باسم التعرف الآلي على الكلام (ASR)، أو التعرف على الكلام بواسطة الحاسب، أو تحويل الكلام إلى نص، وهو عبارة عن إمكانية تمكن البرنامج من معالجة الكلام البشري وتحويله إلى نسق مكتوب. في حين أنه من الشائع الخلط بينه وبين التعرف على الصوت، يركز التعرف على الكلام على ترجمة الكلام من نسق لفظي إلى نسق نصي بينما يسعى التعرف على الصوت فقط إلى تحديد صوت المستخدم الفردي.

لعبت شركة IBM دورا بارزا في التعرف على الكلام منذ إنشائها، حيث أطلقت "Shoebox" في عام 1962. كان لهذه الآلة القدرة على التعرف على 16 كلمة مختلفة، مما دفع العمل الأولي من Bell Labs من خمسينات القرن الماضي. ومع ذلك، لم تتوقف شركة IBM عند هذا الحد، ولكنها استمرت في الابتكار على مر السنين، حيث أطلقت تطبيق VoiceType Simply Speaking في عام 1996. يحتوي برنامج التعرف على الكلام هذا على مفردات مكونة من 42,000 كلمة، ويدعم الإنجليزية والإسبانية، ويتضمن قاموسا هجائيا من 100,000 كلمة. بينما كانت تكنولوجيا الكلام تحتوي على مفردات محدودة في الأيام الأولى، إلا أنها تستخدم في عدد كبير من الصناعات اليوم، مثل السيارات والتكنولوجيا والرعاية الصحية. استمر اعتماده في التسارع في السنوات الأخيرة فقط بسبب التقدم في التعلم العميق والبيانات الضخمة. تظهر الأبحاث (الرابط يوجد خارج IBM) أنه من المتوقع أن تبلغ قيمة هذا السوق 24.9 مليار دولار بحلول عام 2025.

الخصائص الرئيسية للتعرف الفعال على الكلام

هناك العديد من تطبيقات التعرف على الكلام والأجهزة المتاحة، ولكن الحلول المتقدمة تستخدم الذكاء الاصطناعي والتعلم الآلي. فهي تقوم بدمج القواعد النحوية، والصيغة، والهيكل، وتكوين الإشارات السمعية والصوتية لفهم ومعالجة الكلام البشري. من الناحية المثالية، تقوم بالتعلم أثناء تقدمها — استجابات متطورة مع كل تفاعل.

يسمح أفضل أنواع الأنظمة أيضا للمؤسسات بتخصيص التكنولوجيا وتهيئتها وفقا لمتطلباتها المحددة — كل شيء بدءا من اللغة والفروق الدقيقة في الكلام وحتى التعرف على العلامة التجارية. علي سبيل المثال:

  • ترجيح اللغة: تحسين الدقة من خلال ترجيح الكلمات المحددة التي يتم التحدث بها بشكل متكرر (مثل أسماء المنتجات أو المصطلحات الصناعية)، بما يتجاوز المصطلحات الموجودة بالفعل في المفردات الأساسية.
  • تسمية المتحدث: إخراج نسخة مكتوبة تستشهد أو تضع علامات على مساهمات كل متحدث في محادثة متعددة المشاركين.
  • تدريب الصوتيات: الانتباه للجانب الصوتي من العمل. تدريب النظام على التكيف مع البيئة الصوتية (مثل الضوضاء المحيطة في مركز الاتصال) وأنماط المتحدث (مثل درجة الصوت والحجم والسرعة).
  • ترشيح الألفاظ النابية: استخدام مرشحات البيانات لتعريف كلمات أو عبارات معينة وإعادة تنظيم مخرجات الكلام.

وفي الوقت نفسه، يستمر التعرف على الكلام في التقدم. الشركات، مثل IBM، تحرز تقدما في العديد من المجالات، حيث يكون من الأفضل تحسين التفاعل بين الإنسان والآلة.

خوارزميات التعرف على الكلام

أدت تقلبات الكلام البشري إلى جعل عملية التطوير صعبة. وهي تعتبر واحدة من أكثر مجالات علم الحاسب تعقيدا – بما في ذلك اللغويات والرياضيات والإحصاء. تتكون أدوات التعرف على الكلام من عدة مكونات، مثل إدخال الكلام، واستخراج الخصائص، ومتجهات الخصائص، ووحدة فك التشفير، ومخرجات الكلمة. وتستفيد وحدة فك التشفير من النماذج الصوتية وقاموس النطق ونماذج اللغة لتحديد المخرجات المناسبة.

يتم تقييم تقنية التعرف على الكلام بناء على معدل دقتها، أي معدل أخطاء الكلمات (WER) والسرعة. يمكن أن يؤثر عدد من العوامل على معدل خطأ الكلمة، مثل النطق واللكنة والنبرة والحجم وضوضاء الخلفية. الوصول إلى التكافؤ البشري – بمعنى معدل خطأ مساو لمعدل خطأ شخصين يتحدثان – كان لفترة طويلة هدفا لأنظمة التعرف على الكلام. يقدر البحث من Lippmann (الرابط يوجد خارج IBM) ‏(PDF‏، 344 كيلوبايت) معدل أخطاء الكلمات بحوالي 4 بالمائة، ولكن كان من الصعب تكرار النتائج من هذه الورقة.

قراءة المزيدحول كيفية قيام شركة IBM بخطوات واسعة في هذا الصدد، وتحقيق سجلات الصناعة في مجال التعرف على الكلام.

يتم استخدام خوارزميات وتقنيات حسابية مختلفة للتعرف على الكلام في نص وتحسين دقة النسخ. فيما يلي شرح موجز لبعض الطرق الأكثر استخداما:

  • معالجة اللغة الطبيعية (NLP): في حين أن NLP ليست بالضرورة خوارزمية محددة مستخدمة في التعرف على الكلام، فإن مجال الذكاء الاصطناعي يركز على التفاعل بين البشر والآلات من خلال اللغة من خلال الكلام والنص. العديد من الأجهزة المحمولة تدمج إمكانية التعرف على الكلام في أنظمتها لإجراء بحث صوتي - على سبيل المثال، Siri — أو توفير المزيد من إمكانية التوصل حول الرسائل النصية.
  • نماذج ماركوف الخفية (HMM): تم بناء نماذج ماركوف الخفية على نموذج سلسلة ماركوف، الذي ينص على أن احتمال وجود حالة معينة يتوقف على الحالة الحالية، وليس على الحالات السابقة. في حين أن نموذج سلسلة ماركوف مفيد للأحداث التي يمكن ملاحظتها مثل مدخلات النص، كانت نماذج ماركوف الخفية تسمح لنا بدمج الأحداث الخفية، مثل علامات جزء من الكلام، إلى نموذج احتمالي. يتم استخدامها على أنها نماذج تسلسلية في التعرف على الكلام، تعيين علامات مميزة لكل وحدة — أي الكلمات، والمقاطع، والجمل، وما إلى ذلك — في التسلسل. تقوم هذه العلامات المميزة بتكوين مخطط باستخدام المدخلات المقدمة، مما يسمح لها بتحديد تسلسل العلامة المميزة الأنسب.
  • N-grams: يعد أبسط أنواع نماذج اللغة (LM)، والذي يعين الاحتمالات للجمل أو العبارات. N-gram هو تسلسل مكون من N-كلمات. على سبيل المثال، "اطلب البيتزا" عبارة عن تريجرام أو 3 جرام و"الرجاء طلب البيتزا" هي 4 جرام. يتم استخدام القواعد النحوية واحتمالية تسلسل كلمات معينة لتحسين التعرف والدقة.
  • الشبكات العصبية: يتم الاستفادة منها بشكل أساسي في خوارزميات التعلم العميق، حيث تعالج الشبكات العصبية بيانات التدريب عن طريق محاكاة الاتصال البيني للدماغ البشري من خلال طبقات من العقد. تتكون كل عقدة من مدخلات وأوزان وتحيز (أو حد) ومخرجات. إذا تجاوزت قيمة المخرجات هذه حدا معينا، فإنها "تطلق" أو تقوم بتفعيل العقدة، وذلك بتمرير البيانات إلى الطبقة التالية في شبكة الاتصال. الشبكات العصبية تتعلم وظيفة التخطيط هذه من خلال التعلم الخاضع للإشراف، والتعديل بناء على وظيفة الخسارة من خلال خوارزمية أصل التدرج. في حين أن الشبكات العصبية تميل إلى أن تكون أكثر دقة ويمكنها قبول المزيد من البيانات، فإن هذا يأتي على حساب كفاءة الأداء لأنها تميل إلى أن تكون أبطأ في التدريب مقارنة بنماذج اللغة التقليدية.
  • يوميات المتحدث (SD): تقوم خوارزميات يوميات المتحدث بتحديد وتقسيم الكلام من خلال هوية المتحدث. يساعد هذا البرامج على تمييز الأفراد بشكل أفضل في المحادثة وكثيرا ما يتم تطبيقه في مراكز الاتصال التي تميز العملاء ووكلاء المبيعات.

اقرأ في مدونة Watson كيف تستفيد IBM من نماذج SD في خدمات تحويل الكلام إلى نص.

حالات استخدام التعرف على الكلام

يستخدم عدد كبير من الصناعات تطبيقات مختلفة لتكنولوجيا الكلام اليوم، مما يساعد الشركات والمستهلكين على توفير الوقت وحتى الأرواح. تتضمن بعض الأمثلة ما يلي:

السيارات: تعمل أدوات التعرف على الكلام على تحسين سلامة السائق من خلال تمكين أنظمة الملاحة التي يتم تفعيلها صوتيا وإمكانيات البحث في أجهزة راديو السيارة.

التكنولوجيا: أصبح المساعدون الافتراضيون مندمجين بشكل متزايد في حياتنا اليومية، لا سيما على أجهزتنا المحمولة. نستخدم الأوامر الصوتية للتوصل إليهم من خلال هواتفنا الذكية، على سبيل المثال من خلال Google Assistant أو Apple's Siri، للقيام بمهام، مثل البحث الصوتي، أو من خلال المتحدثين لدينا، عبر Amazon’s Alexa أو Microsoft’s Cortana، لتشغيل الموسيقى. سيستمرون فقط في الاندماج في المنتجات اليومية التي نستخدمها، مما يغذي حركة "إنترنت الأشياء".

الرعاية الصحية: يستفيد الأطباء والممرضين من تطبيقات الإملاء لالتقاط وتسجيل تشخيصات المرضى وملاحظات العلاج.

المبيعات: تقنية التعرف على الكلام لديها عدة تطبيقات في المبيعات. يمكن أن تساعد مركز الاتصال في تحويل آلاف المكالمات الهاتفية بين العملاء والوكلاء لتحديد أنماط المكالمات الشائعة والمشكلات. يمكن للروبوتات المعرفية أيضا التحدث إلى الأشخاص عبر صفحة الإنترنت، والإجابة على الاستفسارات الشائعة، وحل الطلبات الأساسية دون الحاجة إلى انتظار توفر وكيل مركز الاتصال ليكون متاحا. كلتا الحالتين تساعد أنظمة التعرف على الكلام في تقليل الوقت اللازم لحل مشكلات المستهلك.

الأمان: مع اندماج التكنولوجيا في حياتنا اليومية، أصبحت بروتوكولات الأمان أولوية متزايدة. ويضيف التوثيق القائم على الصوت مستوى أمان قابلا للتطبيق.

تعرف على المزيد حول كيفية قيام الشركات، مثل Audioburst، بالاستفادة من برنامج التعرف على الكلام لفهرسة الصوت من محطات الراديو والمدونات الصوتية في الوقت الفعلي على مدونتنا هنا

التعرف على الكلام وIBM

كانت شركة IBM الرائدة في تطوير أدوات وخدمات التعرف على الكلام التي تمكن المؤسسات من التشغيل الآلي لعمليات الأعمال المعقدة الخاصة بها مع اكتساب رؤى الأعمال الأساسية.

  • يعد IBM Watson Speech to Text حل سحابي أصلي يستخدم خوارزميات الذكاء الاصطناعي للتعلم العميق لتطبيق المعرفة حول القواعد وبنية اللغة وتكوين الإشارات السمعية/الصوتية لتكوين التعرف على الكلام القابل للتخصيص من أجل النسخ الأمثل للنص.
  • يقوم برنامج IBM Watson Text to Speech بتكوين صوت يشبه الإنسان من نص مكتوب، مما يزيد من مشاركة العملاء ورضاهم عن طريق تحسين إمكانية التوصل عبر اللغات وطرق التفاعل.

للحصول على مزيد من المعلومات حول كيفية البدء في استخدام تقنية التعرف على الكلام، استكشف IBM Watson Speech to Text وIBM Watson Text to Speech.

يجب التسجيل للحصول على IBMid وإنشاء حساب IBM Cloud الخاص بك.