أحدث اتجاهات الذكاء الاصطناعي، يقدمها لك الخبراء
احصل على رؤى منسقة حول أهم أخبار الذكاء الاصطناعي وأكثرها إثارةً للاهتمام. اشترِك في خدمة رسائل Think الإخبارية الأسبوعية. راجع بيان الخصوصية لشركة IBM.
التعرُّف على الكلام -المعروف أيضًا باسم التعرُّف التلقائي على الكلام (ASR) أو تعرُّف أجهزة الكمبيوتر على الكلام أو تحويل الكلام إلى نص- هو قدرة تساعد البرنامج على معالجة الكلام البشري وتحويله إلى تنسيق مكتوب.
في حين أنه عادةً ما يتم الخلط بين التعرف على الكلام والتعرف على الصوت، إلا إن التعرف على الكلام يركز على ترجمة الكلام من صيغة لفظية إلى صيغة نصية، بينما يسعى التعرف على الصوت إلى التعرف على صوت المستخدم فقط.
كان لشركة IBM دور بارز في مجال التعرُّف على الكلام منذ بداياتها، حيث أطلقت "Shoebox" في عام 1962. كان لدى هذه الآلة القدرة على التعرُّف على 16 كلمة مختلفة، ما أدى إلى تطوير العمل الأوَّلي من Bell Labs من الخمسينيات. ومع ذلك، لم تتوقف شركة IBM عند هذا الحد، بل واصلت الابتكار على مر السنين، حيث أطلقت تطبيق VoiceType Simply Speaking في عام 1996. يحتوي برنامج التعرُّف على الكلام هذا على مفردات مكوَّنة من 42,000 كلمة، ويدعم الإنجليزية والإسبانية، ويتضمن قاموسًا إملائيًا من 100,000 كلمة.
بينما كان لدى تقنيات الكلام مفردات محدودة في بداياتها، فإنها تُستخدم اليوم في عدد واسع من الصناعات، مثل السيارات والتكنولوجيا والرعاية الصحية. لم يتوقف اعتمادها عن التسارع في السنوات الأخيرة، وذلك بفضل التطورات في التعلم العميق والبيانات الكبيرة. تُظهر الأبحاث أنه من المتوقع أن تبلغ قيمة هذه السوق نحو 24.9 مليار دولار أمريكي بحلول عام 2025.
احصل على رؤى منسقة حول أهم أخبار الذكاء الاصطناعي وأكثرها إثارةً للاهتمام. اشترِك في خدمة رسائل Think الإخبارية الأسبوعية. راجع بيان الخصوصية لشركة IBM.
تتوفر العديد من تطبيقات وأجهزة التعرُّف على الكلام، ولكن الحلول الأكثر تقدمًا تستخدم الذكاء الاصطناعي والتعلم الآلي. تعمل هذه الأنظمة على دمج القواعد النحوية والصرفية والبنية والتكوين للإشارات الصوتية والصوت لفهم الكلام البشري ومعالجته. من الناحية المثالية، تتعلم هذه الأنظمة أثناء عملها - حيث تتطور استجابتها مع كل تفاعل.
أفضل أنواع هذه الأنظمة تُتيح للمؤسسات أيضًا تخصيص التقنية وتكييفها وفقًا لمتطلباتها الخاصة - بدءًا من اللغة والفروق الدقيقة في الكلام ووصولًا إلى التعرُّف على العلامة التجارية. على سبيل المثال:
وفي الوقت نفسه، يستمر مجال التعرُّف على الكلام في التطور. تسعى الشركات مثل IBM إلى إحراز تقدُّم في مجالات مختلفة لتعزيز التفاعل بين الإنسان والآلة.
جعلت تقلبات الكلام البشري عملية التطوير تحديًا كبيرًا. ويُعَد هذا المجال من أكثر مجالات علوم الكمبيوتر تعقيدًا، إذ يشمل اللغويات والرياضيات والإحصاء. تتكون أنظمة التعرُّف على الكلام من عدة عناصر، مثل إدخال الكلام واستخراج الميزات ومتجهات الميزات وأجهزة فك التشفير ومخرجات الكلمات. يستفيد جهاز فك التشفير من النماذج الصوتية وقاموس النطق والنماذج اللغوية لتحديد المَخرج المناسب.
تُقيَّم تقنيات التعرُّف على الكلام بناءً على معدل الدقة، أي معدل الخطأ في الكلمات (WER)، وكذلك السرعة. هناك عدد من العوامل التي يمكن أن تؤثِّر في معدل الخطأ في الكلمات، مثل النطق واللهجة وطبقة الصوت ومستوى الصوت والضوضاء المحيطة. كان تحقيق التكافؤ مع البشر -أي الوصول إلى معدل خطأ مشابه لما يحدث عند حديث شخصين- هدفًا طويل الأمد لأنظمة التعرُّف على الكلام. بحسب أبحاث Lippmann، يُقدَّر معدل الخطأ في الكلمات بحوالي 4%، غير أن إعادة إنتاج نتائج هذه الورقة البحثية لم يكن سهلًا.
يتم استخدام خوارزميات وتقنيات حسابية متنوعة للتعرُّف على الكلام وتحويله إلى نص، ولتحسين دقة النسخ. وفيما يلي شرح موجز لبعض الطرق الأكثر استخدامًا:
يستخدم العديد من الصناعات اليوم تطبيقات مختلفة لتقنيات التعرُّف على الكلام، ما يساعد الشركات والمستهلكين على توفير الوقت وأيضًا إنقاذ الأرواح. تشمل بعض الأمثلة ما يلي:
قطاع السيارات: تعمل أنظمة التعرُّف على الكلام على تحسين سلامة السائق من خلال تمكين أنظمة الملاحة والبحث الصوتي في أجهزة الراديو داخل السيارة.
التكنولوجيا: أصبح الوكلاء الافتراضيون جزءًا متزايدًا من حياتنا اليومية، لا سيّما على الأجهزة المحمولة. فنحن نستخدم الأوامر الصوتية للوصول إليها عبر هواتفنا الذكية، مثل Google Assistant أو Siri من Apple، لأداء مهام مثل البحث الصوتي، أو عبر مكبرات الصوت الخاصة بنا، مثل Amazon Alexa أو Microsoft Cortana، لتشغيل الموسيقى. وستستمر هذه التقنيات في الاندماج مع المنتجات اليومية التي نستخدمها، ما يعزز حركة "إنترنت الأشياء".
الرعاية الصحية: يستخدم الأطباء والممرضون تطبيقات الإملاء لتسجيل وتشخيص ملاحظات المرضى وخطط العلاج.
المبيعات: لتقنية التعرُّف على الكلام عدة تطبيقات في مجال المبيعات. فبإمكانها مساعدة مركز الاتصالات على نسخ الآلاف من المكالمات الهاتفية بين العملاء والوكلاء لتحديد الأنماط والمشكلات الشائعة في المكالمات. يمكن لروبوتات المحادثة المدعومة بالذكاء الاصطناعي أيضًا التفاعل مع الأشخاص عبر صفحات الويب، والإجابة عن الاستفسارات الشائعة وتنفيذ الطلبات البسيطة دون الحاجة إلى الانتظار حتى يكون وكيل مركز الاتصال متاحًا. تساعد أنظمة التعرُّف على الكلام في كِلتا الحالتين على تقليل الوقت اللازم لحل مشكلات المستهلكين.
الأمن: مع اندماج التكنولوجيا في حياتنا اليومية، تصبح بروتوكولات الأمن أولوية متزايدة. وتضيف المصادقة القائمة على الصوت مستوى عمليًا من الأمان.
يمكنك بسهولة تصميم مساعدي ووكلاء الذكاء الاصطناعي القابلين للتوسع وأتمتة المهام المتكررة وتبسيط العمليات المعقدة باستخدام IBM watsonx Orchestrate.
تسريع قيمة الأعمال باستخدام مجموعة قوية ومرنة من مكتبات وخدمات وتطبيقات الذكاء الاصطناعي.
أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.