ما المقصود بالتعرُّف على الكلام؟

ما المقصود بالتعرُّف على الكلام؟

التعرُّف على الكلام -المعروف أيضًا باسم التعرُّف التلقائي على الكلام (ASR) أو تعرُّف أجهزة الكمبيوتر على الكلام أو تحويل الكلام إلى نص- هو قدرة تساعد البرنامج على معالجة الكلام البشري وتحويله إلى تنسيق مكتوب.

في حين أنه عادةً ما يتم الخلط بين التعرف على الكلام والتعرف على الصوت، إلا إن التعرف على الكلام يركز على ترجمة الكلام من صيغة لفظية إلى صيغة نصية، بينما يسعى التعرف على الصوت إلى التعرف على صوت المستخدم فقط.

كان لشركة IBM دور بارز في مجال التعرُّف على الكلام منذ بداياتها، حيث أطلقت "Shoebox" في عام 1962. كان لدى هذه الآلة القدرة على التعرُّف على 16 كلمة مختلفة، ما أدى إلى تطوير العمل الأوَّلي من Bell Labs من الخمسينيات. ومع ذلك، لم تتوقف شركة IBM عند هذا الحد، بل واصلت الابتكار على مر السنين، حيث أطلقت تطبيق VoiceType Simply Speaking في عام 1996. يحتوي برنامج التعرُّف على الكلام هذا على مفردات مكوَّنة من 42,000 كلمة، ويدعم الإنجليزية والإسبانية، ويتضمن قاموسًا إملائيًا من 100,000 كلمة.

بينما كان لدى تقنيات الكلام مفردات محدودة في بداياتها، فإنها تُستخدم اليوم في عدد واسع من الصناعات، مثل السيارات والتكنولوجيا والرعاية الصحية. لم يتوقف اعتمادها عن التسارع في السنوات الأخيرة، وذلك بفضل التطورات في التعلم العميق والبيانات الكبيرة. تُظهر الأبحاث أنه من المتوقع أن تبلغ قيمة هذه السوق نحو 24.9 مليار دولار أمريكي بحلول عام 2025.

أحدث اتجاهات الذكاء الاصطناعي، يقدمها لك الخبراء

احصل على رؤى منسقة حول أهم أخبار الذكاء الاصطناعي وأكثرها إثارةً للاهتمام. اشترِك في خدمة رسائل Think الإخبارية الأسبوعية. راجع بيان الخصوصية لشركة IBM.

شكرًا لك! لقد اشتركت بنجاح.

سيتم تسليم اشتراكك باللغة الإنجليزية. ستجد رابط إلغاء الاشتراك في كل رسالة إخبارية. يمكنك إدارة اشتراكاتك أو إلغاء اشتراكك هنا. راجع بيان خصوصية IBM لمزيد من المعلومات.

الميزات الرئيسية للتعرُّف الفعَّال على الكلام

تتوفر العديد من تطبيقات وأجهزة التعرُّف على الكلام، ولكن الحلول الأكثر تقدمًا تستخدم الذكاء الاصطناعي والتعلم الآلي. تعمل هذه الأنظمة على دمج القواعد النحوية والصرفية والبنية والتكوين للإشارات الصوتية والصوت لفهم الكلام البشري ومعالجته. من الناحية المثالية، تتعلم هذه الأنظمة أثناء عملها - حيث تتطور استجابتها مع كل تفاعل.

أفضل أنواع هذه الأنظمة تُتيح للمؤسسات أيضًا تخصيص التقنية وتكييفها وفقًا لمتطلباتها الخاصة - بدءًا من اللغة والفروق الدقيقة في الكلام ووصولًا إلى التعرُّف على العلامة التجارية. على سبيل المثال:

  • تحديد أوزان الكلمات: تحسين الدقة من خلال إعطاء وزن أكبر للكلمات التي تُستخدم بشكل متكرر (مثل أسماء المنتجات أو المصطلحات الصناعية)، بالإضافة إلى المصطلحات الموجودة في المفردات الأساسية.

  • تمييز المتحدثين: إنتاج نسخة مكتوبة تُشير أو تحدِّد مساهمة كل متحدث في محادثة متعددة المشاركين.

  • التدريب على الصوتيات: الاهتمام بالجانب الصوتي من العمل. تدريب النظام على التكيف مع البيئة الصوتية (مثل الضوضاء المحيطة في مركز الاتصالات) وأنماط المتحدثين (مثل طبقة الصوت ومستوى الصوت وسرعة الكلام).

  • تصفية الألفاظ البذيئة: استخدام عوامل التصفية لتحديد كلمات أو عبارات معينة وتنقية مخرجات الكلام.

وفي الوقت نفسه، يستمر مجال التعرُّف على الكلام في التطور. تسعى الشركات مثل IBM إلى إحراز تقدُّم في مجالات مختلفة لتعزيز التفاعل بين الإنسان والآلة.

Mixture of Experts | 12 ديسمبر، الحلقة 85

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضمّ إلى نخبة من المهندسين والباحثين وقادة المنتجات وغيرهم من الخبراء وهم يقدّمون أحدث الأخبار والرؤى حول الذكاء الاصطناعي، بعيدًا عن الضجيج الإعلامي.

خوارزميات التعرُّف على الكلام

جعلت تقلبات الكلام البشري عملية التطوير تحديًا كبيرًا. ويُعَد هذا المجال من أكثر مجالات علوم الكمبيوتر تعقيدًا، إذ يشمل اللغويات والرياضيات والإحصاء. تتكون أنظمة التعرُّف على الكلام من عدة عناصر، مثل إدخال الكلام واستخراج الميزات ومتجهات الميزات وأجهزة فك التشفير ومخرجات الكلمات. يستفيد جهاز فك التشفير من النماذج الصوتية وقاموس النطق والنماذج اللغوية لتحديد المَخرج المناسب.

تُقيَّم تقنيات التعرُّف على الكلام بناءً على معدل الدقة، أي معدل الخطأ في الكلمات (WER)، وكذلك السرعة. هناك عدد من العوامل التي يمكن أن تؤثِّر في معدل الخطأ في الكلمات، مثل النطق واللهجة وطبقة الصوت ومستوى الصوت والضوضاء المحيطة. كان تحقيق التكافؤ مع البشر -أي الوصول إلى معدل خطأ مشابه لما يحدث عند حديث شخصين- هدفًا طويل الأمد لأنظمة التعرُّف على الكلام. بحسب أبحاث Lippmann، يُقدَّر معدل الخطأ في الكلمات بحوالي 4%، غير أن إعادة إنتاج نتائج هذه الورقة البحثية لم يكن سهلًا.

يتم استخدام خوارزميات وتقنيات حسابية متنوعة للتعرُّف على الكلام وتحويله إلى نص، ولتحسين دقة النسخ. وفيما يلي شرح موجز لبعض الطرق الأكثر استخدامًا:

  • معالجة اللغة الطبيعية (NLP): على الرغم من أن NLP ليست خوارزمية محددة تُستخدَم في التعرُّف على الكلام بالضرورة، فإنها مجال من مجالات الذكاء الاصطناعي يركِّز على التفاعل بين البشر والآلات عبر اللغة، سواء بالكلام أم بالنصوص. يدمج العديد من الأجهزة المحمولة تقنيات التعرُّف على الكلام في أنظمتها لإجراء البحث الصوتي، مثل Siri، أو لتوفير مزيد من سهولة الوصول أثناء إرسال الرسائل النصية.

  • نماذج ماركوف المخفية (HMM): تعتمد نماذج ماركوف المخفية على نموذج سلسلة ماركوف، الذي ينص على أن احتمالية الحالة الحالية تعتمد على الحالة الراهنة فقط، وليس على الحالات السابقة لها. بينما يكون نموذج سلسلة ماركوف مفيدًا للأحداث المرصودة، مثل مدخلات النص، تُتيح لنا نماذج ماركوف المخفية دمج الأحداث غير المرصودة، مثل علامات أجزاء الكلام، داخل نموذج احتمالي. يتم استخدامها كنماذج تسلسل داخل التعرُّف على الكلام، وتعيين تصنيفات لكل وحدة، أي الكلمات والمقاطع والجمل وما إلى ذلك، في التسلسل. تُنشئ هذه التصنيفات تعيينًا مع الإدخال المقدَّم، ما يسمح لها بتحديد تسلسل التصنيف الأنسب.

  • N-grams: هذا هو أبسط نوع من النماذج اللغوية (LM)، حيث يخصِّص احتمالات للجمل أو العبارات. يُعَد N-gram تسلسلًا مكوَّنًا من N من الكلمات. على سبيل المثال، عبارة "order the pizza" هي trigram أو 3-gram، بينما عبارة "please order the pizza" هي 4-gram. يتم استخدام القواعد النحوية واحتمالية تسلسل الكلمات لتحسين التعرُّف على الكلام ودقة النتائج.

  • الشبكات العصبية: يتم الاستفادة منها في المقام الأول في خوارزميات التعلم العميق، حيث تعالج الشبكات العصبية بيانات التدريب عن طريق محاكاة الترابط بين الدماغ البشري من خلال طبقات من العُقَد. تتكون كل عقدة من الإدخالات وعوامل الترجيح والتحيز (أو الحد) والمخرجات. إذا تجاوزت قيمة المخرجات هذه عتبة معينة، فإنها "تطلق" أو تنشِّط العقدة، وتمرِّر البيانات إلى الطبقة التالية في الشبكة. تتعلم الشبكات العصبية هذه الدالة الربط هذه من خلال التعلم الخاضع للإشراف، مع تعديلها استنادًا إلى دالة الخسارة عبر عملية الانحدار التدرّجي. رغم أن الشبكات العصبية تميل إلى أن تكون أكثر دقة وتستطيع معالجة كمية أكبر من البيانات، فإن ذلك يأتي على حساب كفاءة الأداء، إذ تميل إلى أن تكون أبطأ في التدريب مقارنةً بالنماذج اللغوية التقليدية.

  • تمييز المتحدثين (SD): تحدِّد خوارزميات تمييز المتحدثين الكلام وتقسِّمه حسب هوية كل متحدث. يساعد هذا الأمر البرامج على تمييز الأفراد في المحادثة بشكل أفضل، وكثيرًا ما يتم تطبيقه في مركز الاتصالات لتمييز العملاء ووكلاء المبيعات.

حالات استخدام التعرُّف على الكلام

يستخدم العديد من الصناعات اليوم تطبيقات مختلفة لتقنيات التعرُّف على الكلام، ما يساعد الشركات والمستهلكين على توفير الوقت وأيضًا إنقاذ الأرواح. تشمل بعض الأمثلة ما يلي:

قطاع السيارات: تعمل أنظمة التعرُّف على الكلام على تحسين سلامة السائق من خلال تمكين أنظمة الملاحة والبحث الصوتي في أجهزة الراديو داخل السيارة.

التكنولوجيا: أصبح الوكلاء الافتراضيون جزءًا متزايدًا من حياتنا اليومية، لا سيّما على الأجهزة المحمولة. فنحن نستخدم الأوامر الصوتية للوصول إليها عبر هواتفنا الذكية، مثل Google Assistant أو Siri من Apple، لأداء مهام مثل البحث الصوتي، أو عبر مكبرات الصوت الخاصة بنا، مثل Amazon Alexa أو Microsoft Cortana، لتشغيل الموسيقى. وستستمر هذه التقنيات في الاندماج مع المنتجات اليومية التي نستخدمها، ما يعزز حركة "إنترنت الأشياء".

الرعاية الصحية: يستخدم الأطباء والممرضون تطبيقات الإملاء لتسجيل وتشخيص ملاحظات المرضى وخطط العلاج.

المبيعات: لتقنية التعرُّف على الكلام عدة تطبيقات في مجال المبيعات. فبإمكانها مساعدة مركز الاتصالات على نسخ الآلاف من المكالمات الهاتفية بين العملاء والوكلاء لتحديد الأنماط والمشكلات الشائعة في المكالمات. يمكن لروبوتات المحادثة المدعومة بالذكاء الاصطناعي أيضًا التفاعل مع الأشخاص عبر صفحات الويب، والإجابة عن الاستفسارات الشائعة وتنفيذ الطلبات البسيطة دون الحاجة إلى الانتظار حتى يكون وكيل مركز الاتصال متاحًا. تساعد أنظمة التعرُّف على الكلام في كِلتا الحالتين على تقليل الوقت اللازم لحل مشكلات المستهلكين.

الأمن: مع اندماج التكنولوجيا في حياتنا اليومية، تصبح بروتوكولات الأمن أولوية متزايدة. وتضيف المصادقة القائمة على الصوت مستوى عمليًا من الأمان.

حلول ذات صلة
IBM watsonx Orchestrate

يمكنك بسهولة تصميم مساعدي ووكلاء الذكاء الاصطناعي القابلين للتوسع وأتمتة المهام المتكررة وتبسيط العمليات المعقدة باستخدام IBM watsonx Orchestrate.

استكشف watsonx Orchestrate
أدوات معالجة اللغة الطبيعية وواجهات برمجة التطبيقات

تسريع قيمة الأعمال باستخدام مجموعة قوية ومرنة من مكتبات وخدمات وتطبيقات الذكاء الاصطناعي.

استكشف حلول معالجة اللغة الطبيعية
الاستشارات والخدمات المتعلقة بالذكاء الاصطناعي

أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.

استكشف خدمات الذكاء الاصطناعي
اتخِذ الخطوة التالية

يمكنك بسهولة تصميم مساعدي ووكلاء الذكاء الاصطناعي القابلين للتوسع وأتمتة المهام المتكررة وتبسيط العمليات المعقدة باستخدام IBM watsonx Orchestrate.

استكشف watsonx Orchestrate استكشف حلول معالجة اللغة الطبيعية