ما هي رؤية الكمبيوتر؟

27 يوليو 2021

ما هي رؤية الكمبيوتر؟

رؤية الكمبيوتر هي مجال من مجالات الذكاء الاصطناعي (AI) يستخدم التعلم الآلي والشبكات العصبية لتعليم أجهزة الكمبيوتر والأنظمة استخلاص معلومات ذات مغزى من الصور الرقمية ومقاطع الفيديو والمدخلات المرئية الأخرى —وتقديم توصيات أو اتخاذ إجراءات عند رؤية عيوب أو مشكلات.

إذا كان الذكاء الاصطناعي يُمكّن أجهزة الكمبيوتر من التفكير، فإن رؤية الكمبيوتر تساعدها على الرؤية والملاحظة والفهم. 

تعمل رؤية الكمبيوتر تمامًا مثل الرؤية البشرية، باستثناء أن البشر لديهم السبق في ذلك. البصر البشري لديه ميزة الخبرة المتراكمة على مدى أجيال لتدريب كيفية التمييز بين الأشياء، ومدى بُعدها، وما إذا كانت تتحرك أو أن هناك خطأ ما في الصورة.

تقوم رؤية الكمبيوتر بتدريب الآلات على أداء هذه الوظائف، ولكن يجب أن تقوم بذلك في وقت أقل بكثير باستخدام الكاميرات والبيانات والخوارزميات بدلاً من شبكية العين والأعصاب البصرية والقشرة البصرية. نظرًا لأن النظام المدرّب على فحص المنتجات أو مراقبة أصول الإنتاج يمكنه تحليل آلاف المنتجات أو العمليات في الدقيقة الواحدة، وملاحظة العيوب أو المشكلات غير المحسوسة، فإنه يمكن أن يتفوق بسرعة على القدرات البشرية.

تُستخدم رؤية الكمبيوتر في الصناعات التي تتراوح من الطاقة والمرافق إلى التصنيع والسيارات—وما زالت السوق في نمو مستمر. وفقًا لمحلل الصناعة Gartner، سيحقق السوق العالمي لخدمات وأجهزة وبرامج رؤية الكمبيوتر 386 مليار دولار أمريكي بحلول عام 2031، ارتفاعًا من 126 مليار دولار أمريكي في عام 2022.1

كيف تعمل رؤية الكمبيوتر

تحتاج رؤية الكمبيوتر إلى قدر كبير من البيانات. تُجري تحليلات للبيانات مرارًا وتكرارًا حتى تميز الفروق وتتعرف في النهاية على الصور. على سبيل المثال، لتدريب جهاز كمبيوتر على التعرف على إطارات السيارات، فإنه يحتاج إلى تغذيته بكميات هائلة من صور الإطارات والعناصر المتعلقة بالإطارات ليتعلم الاختلافات ويميز الإطار، خاصةً الإطار الخالي من العيوب.

ويتم استخدام تقنيتين أساسيتين لإنجاز هذه المهمة: نوع من التعلم الآلي يسمى التعلم العميق والشبكة العصبية التلافيفية (CNN).

يستخدم التعلم الآلي نماذج خوارزمية تمكّن الكمبيوتر من تعليم نفسه حول سياق البيانات المرئية. إذا تم تزويد النموذج ببيانات كافية، فإن الكمبيوتر "سيرى" البيانات ويعلم نفسه كيفية تمييز صورة عن أخرى. تمكّن الخوارزميات الآلة من التعلم من تلقاء نفسها، بدلاً من قيام شخص ما ببرمجتها للتعرف على الصورة.

تساعد الشبكة العصبية التلافيفية (CNN) نموذج التعلم الآلي أو التعلم العميق على "الرؤية" عن طريق تقسيم الصور إلى وحدات بكسل تُعطى علامات أو تسميات. وتستخدم هذه التسميات لإجراء الالتفافات (عملية رياضية على دالتين لإنتاج دالة ثالثة) وتقوم بعمل تنبؤات حول ما "تراه". الشبكة العصبية تُجري عمليات التفاف وتتحقق من دقة تنبؤاتها في سلسلة من التكرارات حتى تبدأ التنبؤات بالتحقق. ثم تتعرف على الصور أو تراها بطريقة مشابهة للبشر.

مثلما يميز الإنسان صورة من مسافة بعيدة، فإن الشبكة العصبية التلافيفية (CNN) تميز أولاً الحواف الواضحة والأشكال البسيطة، ثم تملأ المعلومات كلما أجرت تكرارات لتوقعاتها. يتم استخدام CNN لفهم الصور الفردية. يتم استخدام الشبكة العصبية المتكررة (RNN) بطريقة مماثلة لتطبيقات الفيديو لمساعدة أجهزة الكمبيوتر على فهم كيفية ارتباط الصور في سلسلة من الإطارات مع بعضها البعض.

تصميم ثلاثي الأبعاد لكرات تتدحرج على مسار

أحدث الأخبار والرؤى حول الذكاء الاصطناعي 


تتوفر معارف وأخبار منسقة بمهارة حول الذكاء الاصطناعي والسحابة وغيرها في نشرة Think الإخبارية الأسبوعية. 

تاريخ رؤية الكمبيوتر

يحاول العلماء والمهندسون تطوير طرق للآلات لرؤية وفهم البيانات المرئية منذ حوالي 60 عامًا. بدأت التجارب في عام 1959 عندما عرض أخصائيو الفيزيولوجيا العصبية مجموعة من الصور على قطة، محاولين ربط استجابة في دماغها. اكتشفوا أنها استجابت أولاً للحواف أو الخطوط الواضحة، وهذا يعني علمياً أن معالجة الصور تبدأ بأشكال بسيطة مثل الحواف المستقيمة.2

في نفس الوقت تقريبًا، تم تطوير أول تقنية لمسح الصور بالكمبيوتر، مما مكن أجهزة الكمبيوتر من رقمنة الصور والحصول عليها. وتم تحقيق إنجاز آخر في عام 1963 عندما أصبحت أجهزة الكمبيوتر قادرة على تحويل الصور ثنائية الأبعاد إلى أشكال ثلاثية الأبعاد. في ستينيات القرن العشرين، ظهر الذكاء الاصطناعي كمجال أكاديمي للدراسة، كما شهد بداية سعي الذكاء الاصطناعي لحل مشكلة الرؤية البشرية.

شهد عام 1974 تقديم تقنية التعرف البصري على الأحرف (OCR)، والتي يمكنها التعرف على النص المطبوع بأي خط أو نوع من الحروف.وبالمثل، يمكن للتعرّف الذكي على الأحرف (ICR) أن يفك رموز النصوص المكتوبة بخط اليد باستخدام الشبكات العصبية.4 ومنذ ذلك الحين، وجد التعرف البصري على الأحرف والتعرّف الذكي على الأحرف طريقه إلى معالجة المستندات والفواتير والتعرف على لوحات المركبات والمدفوعات عبر الهاتف المحمول والتحويل الآلي وغيرها من التطبيقات الشائعة.

في عام 1982، أثبت عالم الأعصاب David Marr أن الرؤية تعمل بشكل هرمي، وقدّم خوارزميات للآلات للكشف عن الحواف والزوايا والمنحنيات والأشكال الأساسية المماثلة. في الوقت نفسه، طور عالم الكمبيوتر Kunihiko Fukushima شبكة من الخلايا التي يمكنها التعرف على الأنماط. تضمنت الشبكة، المسماة Neocognitron، طبقات تلافيفية في شبكة عصبية.

بحلول عام 2000، كان تركيز الدراسة على التعرف على الأشياء. وبحلول عام 2001، ظهرت أول تطبيقات التعرف على الوجوه في الوقت الفعلي. ظهر توحيد كيفية وضع العلامات والتعليقات التوضيحية على مجموعات البيانات المرئية خلال فترة الألفينات. في عام 2010، أصبحت مجموعة بيانات ImageNet متاحة. لقد احتوى على الملايين من الصور الموسومة عبر ألف فئة من الكائنات، ويوفر أساسًا للشبكات العصبية التلافيفية (CNNs) ونماذج التعلم العميق المستخدمة اليوم. في عام 2012، أدخل فريق من جامعة تورنتو شبكة عصبية تلافيفية (CNN) في مسابقة للتعرف على الصور. قلل النموذج، المسمى AlexNet، بشكل كبير من معدل الخطأ في التعرف على الصور. بعد هذا الإنجاز، انخفضت معدلات الخطأ إلى بضعة بالمائة فقط.5

Mixture of Experts | 25 أبريل، الحلقة 52

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضم إلى لجنة عالمية المستوى من المهندسين والباحثين وقادة المنتجات وغيرهم في أثناء سعيهم للتغلب على الفوضى والضوضاء المحيطة بالذكاء الاصطناعي لتزويدك بأحدث أخباره والرؤى المتعلقة به.

تطبيقات رؤية الكمبيوتر

هناك الكثير من الأبحاث التي يتم إجراؤها في مجال رؤية الكمبيوتر، ولكن الأمر لا يتوقف عند هذا الحد. تُظهر التطبيقات الواقعية مدى أهمية رؤية الكمبيوتر للمساعي في مجالات الأعمال والترفيه والنقل والرعاية الصحية والحياة اليومية. المحرك الرئيسي لنمو هذه التطبيقات هو سيل المعلومات المرئية المتدفقة من الهواتف الذكية وأنظمة الأمان وكاميرات المراقبة وغيرها من الأجهزة المجهزة بصريًا. يمكن لهذه البيانات أن تلعب دورًا رئيسيًا في العمليات عبر الصناعات، لكنها اليوم لا تُستخدم. تُنشئ هذه المعلومات بيئة اختبار لتدريب تطبيقات رؤية الكمبيوتر، وتُعد منصة انطلاق لتصبح هذه التطبيقات جزءًا من مجموعة واسعة من الأنشطة البشرية:

  • استخدمت شركة IBM رؤية الكمبيوتر لإنشاء My Moments لبطولة الجولف Masters 2018. شاهد IBM Watson مئات الساعات من لقطات البطولة وتمكن من تحديد (بصريًا وسمعيًا) اللقطات الهامة. وقد قام بتنسيق هذه اللحظات الرئيسية وتقديمها إلى المشجعين في شكل لقطات مميزة مخصصة.

  • تتيح خدمة الترجمة من Google للمستخدمين توجيه كاميرا الهاتف الذكي إلى علامة بلغة أخرى والحصول على ترجمة للإشارة بلغتهم المفضلة على الفور تقريبًا.[6]

  • يعتمد تطوير السيارات ذاتية القيادة على رؤية الكمبيوتر لفهم المدخلات البصرية من كاميرات السيارة وأجهزة الاستشعار الأخرى. من الضروري التعرف على السيارات الأخرى وعلامات المرور وعلامات الحارات والمشاة والدراجات وجميع المعلومات البصرية الأخرى التي تصادفها على الطريق.

  • تعمل IBM على تطبيق تقنية رؤية الكمبيوتر مع شركاء مثل Verizon لجلب الذكاء الاصطناعي الذكي إلى الحافة ومساعدة مصنعي السيارات على تحديد عيوب الجودة قبل أن تغادر السيارة المصنع.

أمثلة على رؤية الكمبيوتر

لا تمتلك العديد من المؤسسات الموارد لتمويل رؤية الكمبيوتر وإنشاء نماذج التعلم العميق والشبكات العصبية. قد يفتقرون أيضًا إلى قوة الحوسبة المطلوبة لمعالجة مجموعات ضخمة من البيانات المرئية. تساعد شركات مثل IBM من خلال تقديم خدمات تطوير برامج رؤية الكمبيوتر. وتقدم هذه الخدمات نماذج تعليمية معدة مسبقًا متاحة من السحابة — وكذلك تسهل الطلب على الموارد. يتصل المستخدمون بالخدمات من خلال واجهة برمجة التطبيقات (API) ويستخدمونها لتطوير تطبيقات رؤية الكمبيوتر.

كما طرحت IBM أيضاً منصة لرؤية الكمبيوتر تعالج كلاً من المخاوف المتعلقة بالموارد التطويرية والحاسوبية. يشتمل IBM Maximo® Visual Inspection على أدوات تمكّن الخبراء المتخصصين من تصنيف نماذج رؤية التعلم العميق وتدريبها ونشرها—دون الحاجة إلى خبرة في البرمجة أو التعلم العميق. يمكن نشر نماذج الرؤية في مراكز البيانات المحلية والسحابية وأجهزة الحافة.

في حين أن الحصول على الموارد أصبح أسهل لتطوير تطبيقات الرؤية الكمبيوتر، إلا أن السؤال المهم الذي يجب الإجابة عليه في وقت مبكر هو: ما الذي ستفعله هذه التطبيقات بالضبط؟ يمكن أن يؤدي فهم وتحديد مهام رؤية الكمبيوتر إلى التركيز على المشروعات والتطبيقات وزيادة التحقق من صحتها وتسهيل البدء.

فيما يلي بعض الأمثلة على مهام رؤية الكمبيوتر الثابتة:

  • تصنيف الصور يرى صورة ويمكنه تصنيفها (كلب، تفاحة، وجه شخص). بتعبير أدق، إنه قادر على التنبؤ بدقة بأن صورة معينة تنتمي إلى فئة معينة. على سبيل المثال، قد ترغب إحدى شركات وسائل التواصل الاجتماعي في استخدامه لتحديد وفصل الصور المرفوضة التي يرفعها المستخدمون تلقائيًا.

  • يمكن للكشف عن الكائنات استخدام تصنيف الصور لتحديد فئة معينة من الصور ثم اكتشاف وتدوين ظهورها في صورة أو مقطع فيديو. تشمل الأمثلة اكتشاف الأضرار على خط التجميع أو تحديد الآلات التي تتطلب صيانة.

  • تتبع الكائنات أو تتعقب أو تتبع الكائن بمجرد اكتشافه. غالبا ما يتم تنفيذ هذه المهمة بالصور الملتقطة في تسلسل أو موجزات فيديو في الوقت الفعلي. لا تحتاج المركبات ذاتية القيادة، على سبيل المثال، إلى تصنيف واكتشاف الكائنات مثل المشاة والسيارات الأخرى والبنية التحتية للطرق فحسب، بل تحتاج إلى تتبعها أثناء الحركة لتجنب الاصطدامات والامتثال لقوانين المرور.[7]

  • استرجاع الصور المعتمد على المحتوى يستخدم رؤية الكمبيوتر لتصفح، البحث، واسترجاع الصور من مخازن البيانات الكبيرة، بناءً على محتوى الصور بدلاً من علامات البيانات الوصفية المرتبطة بها. يمكن أن تتضمن هذه المهمة تعليقا توضيحيا تلقائيا للصور يحل محل وضع العلامات اليدوية على الصورة. يمكن استخدام هذه المهام في أنظمة إدارة الأصول الرقمية ويمكنها زيادة دقة البحث والاسترجاع.
حلول ذات صلة
IBM Maximo Visual Inspection

إطلاق العنان لقوة رؤية الكمبيوتر بدون رموز برمجية لأتمتة الفحص البصري.

استكشاف Maximo Visual Inspection
الاستشارات والخدمات في مجال الذكاء الاصطناعي

تساعد خدمات الذكاء الاصطناعي التي تقدمها IBM Consulting في إعادة تصور طريقة عمل الشركات باستخدام حلول الذكاء الاصطناعي من أجل النهوض بأعمالها.

استكشف خدمات الذكاء الاصطناعي
حلول الذكاء الاصطناعي

استفِد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها التي ستكون بجانبك.

استكشف حلول الذكاء الاصطناعي
اتخِذ الخطوة التالية

يضع IBM Maximo Visual Inspection قوة الذكاء الاصطناعي لرؤية الكمبيوتر بين أيدي فرق مراقبة الجودة والفحص لديك. أطلق العنان لقوة رؤية الكمبيوتر بدون برمجة لأتمتة الفحص البصري.

استكشاف Maximo Visual Inspection ألقِ نظرة على قدرات المنتج