رؤية الكمبيوتر هي مجال من مجالات الذكاء الاصطناعي (AI) يستخدم التعلم الآلي والشبكات العصبية لتعليم أجهزة الكمبيوتر والأنظمة استخلاص معلومات ذات مغزى من الصور الرقمية ومقاطع الفيديو والمدخلات المرئية الأخرى —وتقديم توصيات أو اتخاذ إجراءات عند رؤية عيوب أو مشكلات.
إذا كان الذكاء الاصطناعي يُمكّن أجهزة الكمبيوتر من التفكير، فإن رؤية الكمبيوتر تساعدها على الرؤية والملاحظة والفهم.
تعمل رؤية الكمبيوتر تمامًا مثل الرؤية البشرية، باستثناء أن البشر لديهم السبق في ذلك. البصر البشري لديه ميزة الخبرة المتراكمة على مدى أجيال لتدريب كيفية التمييز بين الأشياء، ومدى بُعدها، وما إذا كانت تتحرك أو أن هناك خطأ ما في الصورة.
تقوم رؤية الكمبيوتر بتدريب الآلات على أداء هذه الوظائف، ولكن يجب أن تقوم بذلك في وقت أقل بكثير باستخدام الكاميرات والبيانات والخوارزميات بدلاً من شبكية العين والأعصاب البصرية والقشرة البصرية. نظرًا لأن النظام المدرّب على فحص المنتجات أو مراقبة أصول الإنتاج يمكنه تحليل آلاف المنتجات أو العمليات في الدقيقة الواحدة، وملاحظة العيوب أو المشكلات غير المحسوسة، فإنه يمكن أن يتفوق بسرعة على القدرات البشرية.
تُستخدم رؤية الكمبيوتر في الصناعات التي تتراوح من الطاقة والمرافق إلى التصنيع والسيارات—وما زالت السوق في نمو مستمر. وفقًا لمحلل الصناعة Gartner، سيحقق السوق العالمي لخدمات وأجهزة وبرامج رؤية الكمبيوتر 386 مليار دولار أمريكي بحلول عام 2031، ارتفاعًا من 126 مليار دولار أمريكي في عام 2022.1
تحتاج رؤية الكمبيوتر إلى قدر كبير من البيانات. تُجري تحليلات للبيانات مرارًا وتكرارًا حتى تميز الفروق وتتعرف في النهاية على الصور. على سبيل المثال، لتدريب جهاز كمبيوتر على التعرف على إطارات السيارات، فإنه يحتاج إلى تغذيته بكميات هائلة من صور الإطارات والعناصر المتعلقة بالإطارات ليتعلم الاختلافات ويميز الإطار، خاصةً الإطار الخالي من العيوب.
ويتم استخدام تقنيتين أساسيتين لإنجاز هذه المهمة: نوع من التعلم الآلي يسمى التعلم العميق والشبكة العصبية التلافيفية (CNN).
يستخدم التعلم الآلي نماذج خوارزمية تمكّن الكمبيوتر من تعليم نفسه حول سياق البيانات المرئية. إذا تم تزويد النموذج ببيانات كافية، فإن الكمبيوتر "سيرى" البيانات ويعلم نفسه كيفية تمييز صورة عن أخرى. تمكّن الخوارزميات الآلة من التعلم من تلقاء نفسها، بدلاً من قيام شخص ما ببرمجتها للتعرف على الصورة.
تساعد الشبكة العصبية التلافيفية (CNN) نموذج التعلم الآلي أو التعلم العميق على "الرؤية" عن طريق تقسيم الصور إلى وحدات بكسل تُعطى علامات أو تسميات. وتستخدم هذه التسميات لإجراء الالتفافات (عملية رياضية على دالتين لإنتاج دالة ثالثة) وتقوم بعمل تنبؤات حول ما "تراه". الشبكة العصبية تُجري عمليات التفاف وتتحقق من دقة تنبؤاتها في سلسلة من التكرارات حتى تبدأ التنبؤات بالتحقق. ثم تتعرف على الصور أو تراها بطريقة مشابهة للبشر.
مثلما يميز الإنسان صورة من مسافة بعيدة، فإن الشبكة العصبية التلافيفية (CNN) تميز أولاً الحواف الواضحة والأشكال البسيطة، ثم تملأ المعلومات كلما أجرت تكرارات لتوقعاتها. يتم استخدام CNN لفهم الصور الفردية. يتم استخدام الشبكة العصبية المتكررة (RNN) بطريقة مماثلة لتطبيقات الفيديو لمساعدة أجهزة الكمبيوتر على فهم كيفية ارتباط الصور في سلسلة من الإطارات مع بعضها البعض.
يحاول العلماء والمهندسون تطوير طرق للآلات لرؤية وفهم البيانات المرئية منذ حوالي 60 عامًا. بدأت التجارب في عام 1959 عندما عرض أخصائيو الفيزيولوجيا العصبية مجموعة من الصور على قطة، محاولين ربط استجابة في دماغها. اكتشفوا أنها استجابت أولاً للحواف أو الخطوط الواضحة، وهذا يعني علمياً أن معالجة الصور تبدأ بأشكال بسيطة مثل الحواف المستقيمة.2
في نفس الوقت تقريبًا، تم تطوير أول تقنية لمسح الصور بالكمبيوتر، مما مكن أجهزة الكمبيوتر من رقمنة الصور والحصول عليها. وتم تحقيق إنجاز آخر في عام 1963 عندما أصبحت أجهزة الكمبيوتر قادرة على تحويل الصور ثنائية الأبعاد إلى أشكال ثلاثية الأبعاد. في ستينيات القرن العشرين، ظهر الذكاء الاصطناعي كمجال أكاديمي للدراسة، كما شهد بداية سعي الذكاء الاصطناعي لحل مشكلة الرؤية البشرية.
شهد عام 1974 تقديم تقنية التعرف البصري على الأحرف (OCR)، والتي يمكنها التعرف على النص المطبوع بأي خط أو نوع من الحروف.3 وبالمثل، يمكن للتعرّف الذكي على الأحرف (ICR) أن يفك رموز النصوص المكتوبة بخط اليد باستخدام الشبكات العصبية.4 ومنذ ذلك الحين، وجد التعرف البصري على الأحرف والتعرّف الذكي على الأحرف طريقه إلى معالجة المستندات والفواتير والتعرف على لوحات المركبات والمدفوعات عبر الهاتف المحمول والتحويل الآلي وغيرها من التطبيقات الشائعة.
في عام 1982، أثبت عالم الأعصاب David Marr أن الرؤية تعمل بشكل هرمي، وقدّم خوارزميات للآلات للكشف عن الحواف والزوايا والمنحنيات والأشكال الأساسية المماثلة. في الوقت نفسه، طور عالم الكمبيوتر Kunihiko Fukushima شبكة من الخلايا التي يمكنها التعرف على الأنماط. تضمنت الشبكة، المسماة Neocognitron، طبقات تلافيفية في شبكة عصبية.
بحلول عام 2000، كان تركيز الدراسة على التعرف على الأشياء. وبحلول عام 2001، ظهرت أول تطبيقات التعرف على الوجوه في الوقت الفعلي. ظهر توحيد كيفية وضع العلامات والتعليقات التوضيحية على مجموعات البيانات المرئية خلال فترة الألفينات. في عام 2010، أصبحت مجموعة بيانات ImageNet متاحة. لقد احتوى على الملايين من الصور الموسومة عبر ألف فئة من الكائنات، ويوفر أساسًا للشبكات العصبية التلافيفية (CNNs) ونماذج التعلم العميق المستخدمة اليوم. في عام 2012، أدخل فريق من جامعة تورنتو شبكة عصبية تلافيفية (CNN) في مسابقة للتعرف على الصور. قلل النموذج، المسمى AlexNet، بشكل كبير من معدل الخطأ في التعرف على الصور. بعد هذا الإنجاز، انخفضت معدلات الخطأ إلى بضعة بالمائة فقط.5
هناك الكثير من الأبحاث التي يتم إجراؤها في مجال رؤية الكمبيوتر، ولكن الأمر لا يتوقف عند هذا الحد. تُظهر التطبيقات الواقعية مدى أهمية رؤية الكمبيوتر للمساعي في مجالات الأعمال والترفيه والنقل والرعاية الصحية والحياة اليومية. المحرك الرئيسي لنمو هذه التطبيقات هو سيل المعلومات المرئية المتدفقة من الهواتف الذكية وأنظمة الأمان وكاميرات المراقبة وغيرها من الأجهزة المجهزة بصريًا. يمكن لهذه البيانات أن تلعب دورًا رئيسيًا في العمليات عبر الصناعات، لكنها اليوم لا تُستخدم. تُنشئ هذه المعلومات بيئة اختبار لتدريب تطبيقات رؤية الكمبيوتر، وتُعد منصة انطلاق لتصبح هذه التطبيقات جزءًا من مجموعة واسعة من الأنشطة البشرية:
لا تمتلك العديد من المؤسسات الموارد لتمويل رؤية الكمبيوتر وإنشاء نماذج التعلم العميق والشبكات العصبية. قد يفتقرون أيضًا إلى قوة الحوسبة المطلوبة لمعالجة مجموعات ضخمة من البيانات المرئية. تساعد شركات مثل IBM من خلال تقديم خدمات تطوير برامج رؤية الكمبيوتر. وتقدم هذه الخدمات نماذج تعليمية معدة مسبقًا متاحة من السحابة — وكذلك تسهل الطلب على الموارد. يتصل المستخدمون بالخدمات من خلال واجهة برمجة التطبيقات (API) ويستخدمونها لتطوير تطبيقات رؤية الكمبيوتر.
كما طرحت IBM أيضاً منصة لرؤية الكمبيوتر تعالج كلاً من المخاوف المتعلقة بالموارد التطويرية والحاسوبية. يشتمل IBM Maximo® Visual Inspection على أدوات تمكّن الخبراء المتخصصين من تصنيف نماذج رؤية التعلم العميق وتدريبها ونشرها—دون الحاجة إلى خبرة في البرمجة أو التعلم العميق. يمكن نشر نماذج الرؤية في مراكز البيانات المحلية والسحابية وأجهزة الحافة.
في حين أن الحصول على الموارد أصبح أسهل لتطوير تطبيقات الرؤية الكمبيوتر، إلا أن السؤال المهم الذي يجب الإجابة عليه في وقت مبكر هو: ما الذي ستفعله هذه التطبيقات بالضبط؟ يمكن أن يؤدي فهم وتحديد مهام رؤية الكمبيوتر إلى التركيز على المشروعات والتطبيقات وزيادة التحقق من صحتها وتسهيل البدء.
فيما يلي بعض الأمثلة على مهام رؤية الكمبيوتر الثابتة:
1. التكنولوجيا الناشئة: إسقاط فرص الإيرادات في مجال رؤية الكمبيوتر: أسواق النمو، Gartner، في 19 أبريل 2024.
2. https://hackernoon.com/a-brief-history-of-computer-vision-and-convolutional-neural-networks-8fe8aacc79f3
3. التعرف المرئي على الأحرف، ويكيبيديا
4. التعرف الذكي على الأحرف، ويكيبيديا
5. تاريخ موجز لرؤية الكمبيوتر (والشبكات العصبية التلافيفية)، Rostyslav Demush، Hacker Noon، في 27 فبراير 2019
6. 7 أمثلة مذهلة على تطبيقات رؤية الكمبيوتر والآلة في الممارسة العملية، Bernard Marr، Forbes، في 8 أبريل 2019
7.خمس تقنيات لرؤية الكمبيوتر ستغير نظرتك للعالم، James Le، Heartbeat، في 12 أبريل 2018