ما هي رؤية الكمبيوتر؟

المؤلفون

Staff Writer

IBM Think

Staff Editor, AI Models

IBM Think

ما هي رؤية الكمبيوتر؟

رؤية الكمبيوتر هي فرع من الذكاء الاصطناعي (AI) يزوِّد الأجهزة بالقدرة على معالجة المدخلات البصرية مثل الصور ومقاطع الفيديو وتحليلها وتفسيرها. وتستخدم التعلم الآلي لمساعدة أجهزة الكمبيوتر والأنظمة الأخرى على استخراج معلومات ذات معنى من البيانات البصرية.

يمكن تصوُّر رؤية الكمبيوتر على أنها تفاعل بين ثلاث عمليات رئيسية تعمل معًا وتؤثِّر في بعضها: التعرُّف، وإعادة البناء، وإعادة التنظيم. التعرُّف على الصور يهتم بتحديد الأفعال والأشياء والأشخاص والأماكن والنصوص الموجودة في الصور أو مقاطع الفيديو الرقمية. تنطوي عملية إعادة البناء على استخلاص الخصائص ثلاثية الأبعاد لتلك الكيانات، بينما تستنتج عملية إعادة التنظيم العلاقات بينها.^.1

الرسالة الإخبارية الخاصة بالمجال

أحدث اتجاهات الذكاء الاصطناعي، يقدمها لك الخبراء

احصل على رؤى منسقة حول أهم أخبار الذكاء الاصطناعي وأكثرها إثارةً للاهتمام. اشترِك في خدمة رسائل Think الإخبارية الأسبوعية. راجع بيان الخصوصية لشركة IBM.

كيف تعمل رؤية الكمبيوتر

يُعَد تصوير الأشعة في تشخيص الالتهاب الرئوي من الاستخدامات الشائعة لرؤية الكمبيوتر. يضطر متخصصو الأشعة لتفسير صور الأشعة السينية للصدر بعناية، وهي عملية قد تكون عرضة للأخطاء وتستغرق وقتًا طويلًا نظرًا لدقة أعراض الالتهاب الرئوي وتشابهها مع حالات رئوية أخرى.² ويمكن لنظام رؤية الكمبيوتر أن يكون مفيدًا في ذلك.

هناك عدة أنواع من النماذج والأساليب لمهام رؤية الكمبيوتر، لكن المثال الافتراضي التالي يوضِّح سير عمل شائعًا:

جمع البيانات
المعالجة المسبقة
اختيار النموذج
تدريب النموذج

جمع البيانات

الخطوة الأولى هي جمع البيانات المرئية اللازمة. تولِّد المستشفيات كميات ضخمة من صور الأشعة السينية للصدر، والتي يمكن استخدامها لتدريب خوارزمية رؤية الكمبيوتر. وبما أن الهدف هو تمكين الخوارزمية من تصنيف إذا ما كانت صورة الأشعة السينية للصدر تُشير إلى الالتهاب الرئوي أم لا، ستحتاج المستشفيات إلى تجميع مجموعة بيانات من صور الأشعة وتحديد تصنيف أو تشخيص كل صورة على أنها طبيعية أو تدلّ على الالتهاب الرئوي.

في حالات استخدام أخرى، يمكن أن تأتي الصور ومقاطع الفيديو من مصادر مثل الكاميرات وأجهزة الاستشعار. توفِّر مجموعات البيانات مثل COCO وImageNet وOpen Images مجموعات كبيرة من الصور المصنّفة.

المعالجة المسبقة

لا يكون نموذج الذكاء الاصطناعي فعَّالًا إلا بقدر جودة البيانات المستخدمة في تدريبه، ما يجعل البيانات العالية الجودة أمرًا حاسمًا لرؤية الكمبيوتر. يمكن أن تساعد مرحلة المعالجة المسبقة على تحسين جودة البيانات من خلال تنظيف البيانات وإجراء تحسينات مثل تعديل السطوع أو التباين لتوضيح الصور، بالإضافة إلى تغيير الحجم والتنعيم.

يجب أن تكون مجموعات البيانات كبيرة ومتنوعة بما يكفي لتمكين خوارزميات رؤية الكمبيوتر من إنتاج نتائج دقيقة. يمكن أن يساعد توليد البيانات الاصطناعية وتعزيز البيانات على توسيع حجم وتنوع مجموعات البيانات. على سبيل المثال، يمكن للمستشفيات استخدام التحوُّلات الهندسية مثل تدوير صور الأشعة السينية للصدر لليسار أو اليمين، أو قلب الصور رأسًا على عقب لتعزيز بياناتها.

اختيار النموذج

يُعَد اختيار نموذج التعلم الآلي المناسب أمرًا بالغ الأهمية لتحسين الكفاءة والأداء. تظل الشبكات العصبية الالتفافية (CNNs) النموذج الأساسي للتعلم العميق لمهام معالجة الصور، بينما تُعَد الشبكات العصبية المتكررة (RNNs) مناسبة بشكل خاص لمعالجة البيانات المتسلسلة مثل إطارات الفيديو.

ومع ذلك، فإن التقدم في مجال الذكاء الاصطناعي يعمل على تعزيز الانتقال نحو نماذج التحوُّل. على سبيل المثال، يطبِّق نموذج محوِّل الرؤية (ViT) عناصر من نموذج لغوي قائم على المحوِّلات على رؤية الكمبيوتر. يعمل نموذج محوِّل الرؤية (ViT) على تقسيم الصورة إلى قطع صغيرة ومعالجتها كسلسلة، مشابهة للرموز في نموذج المحوِّل اللغوي. يعمل محوِّل الرؤية بعد ذلك على تنفيذ آلية الاهتمام الذاتي عبر هذه التصحيحات لإنشاء تمثيل قائم على المحوِّل لصورة الإدخال. غالبًا ما يضاهي أداء نماذج ViTs أداء الشبكات العصبية الالتفافية (CNNs) أو يتفوق عليه في مهام رؤية الكمبيوتر مثل تصنيف الصور.³

تدريب النماذج

بمجرد اختيار النموذج، تلي ذلك مرحلة تدريب النموذج. تتضمن مرحلة التدريب تشغيل النموذج على بيانات التدريب الخاصة بمهمة رؤية الكمبيوتر، وقياس الأداء مقارنة بالحقيقة الأساسية، وتحسين المَعلمات لتعزيز الأداء مع مرور الوقت.

تتكون الشبكات العصبية الالتفافية (CNNs) من ثلاثة أنواع من الطبقات: طبقة الالتفاف، وطبقة التجميع، وطبقة الاتصال الكامل. طبقة الالتفاف هي المكان الذي يحدث فيه استخراج الميزات. يتضمن استخراج الميزات تحديد والتقاط الميزات البصرية الرئيسية من بيانات الصور الأولية، مثل الألوان والحواف والأشكال والأنسجة. في حالة صور الأشعة السينية المصابة بالتهاب الرئة، تشمل الميزات التي يجب استخراجها: محيطات الرئتين غير المتماثلة أو المناطق المضيئة التي تُشير إلى الالتهاب أو وجود السوائل (مقابل المناطق المظلمة المملوءة بالهواء)، أو المناطق الرئوية الغائمة أو المعتمة أو القوام الخشن أو المتقطع.⁴ يتيح استخراج الميزات للخوارزميات التمييز بين العلاقات والأنماط المهمة في البيانات البصرية.

يتم التعامل مع صورة الأشعة السينية كمصفوفة من قيم البيكسل. يتم تطبيق مصفوفة أخرى من الأوزان (وهي المَعلمات التي تتحكم في مدى تأثير ميزة إدخال معينة في مخرجات النموذج) والمعروفة باسم الفلتر أو النواة على منطقة من صورة الأشعة السينية، ويتم حساب حاصل الضرب النقطي بين قيم البيكسل المدخلة. يتحرك الفلتر، أو "يلتوي"، عبر الصورة لاستخراج الميزات، وتُعرَف العملية بأكملها باسم الالتفاف (Convolution). النتيجة النهائية لسلسلة عمليات الضرب النقطي تُسمّى خريطة التنشيط أو خريطة الميزات. يتم ضبط كل فلتر للاستجابة لأنماط محددة، مثل الحواف أو الأشكال أو القوام، ما يُتيح للشبكة العصبية الالتفافية (CNN) تعلُّم عدة ميزات بصرية في وقت واحد.

يتم إدخال خريطة الميزات إلى طبقة التجميع (Pooling Layer) لتقليل حجم الخريطة وضغط أبعادها بشكل أكبر. يقوم فلتر آخر بالانتقال عبر الإدخال بأكمله، مع أخذ القيم العظمى أو المتوسطة ضمن مجموعة من الخلايا في خريطة الميزات. يحتفظ هذا بالميزات الأساسية، ما يسمح للنموذج بتركيز انتباهه عليها.

يُعرَف الإجراء الذي يتم فيه الانتقال عبر الصورة لاستخراج الميزات، وتقليل الأبعاد، وإنتاج التصنيف باسم التمرير الأمامي (Forward Pass). بعد هذا التمرير الأمامي، يطبِّق النموذج دالة الخسارة لحساب الخطأ أو الفرق بين التصنيف الذي تنبأ به والتصنيف الفعلي.

للتقليل من دالة الخسارة، يتم استخدام الانتشار الخلفي. الانتشار الخلفي هو تمرير عكسي لحساب المشتق التدريجي لدالة الخسارة بالنسبة لكل وزن. بعد ذلك، يتم تطبيق تقنية الانحدار التدرّجي لتحديث أوزان النموذج وتحسين أدائه.

أخيرًا، تنفِّذ الطبقة المترابطة بالكامل عملية التصنيف استنادًا إلى الميزات التي تم استخراجها من الطبقات السابقة والفلاتر المختلفة. بعد ذلك، تُنتج شبكة CNN مخرجاتها، وهي احتمالات لكل فئة (في هذه الحالة، طبيعية مقابل الالتهاب الرئوي). بالنسبة لمهمة تصنيف صور الأشعة السينية للصدر، تُشير هذه المخرجات إلى صورة طبيعية، أو إذا تجاوزت الاحتمالية حدًا محددًا مسبقًا، إلى صورة إيجابية للاشتباه بالالتهاب الرئوي.

Mixture of Experts | 12 ديسمبر، الحلقة 85

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضمّ إلى نخبة من المهندسين والباحثين وقادة المنتجات وغيرهم من الخبراء وهم يقدّمون أحدث الأخبار والرؤى حول الذكاء الاصطناعي، بعيدًا عن الضجيج الإعلامي.

شاهد جميع حلقات برنامج Mixture of Experts

مهام رؤية الكمبيوتر

يمكن تدريب خوارزميات رؤية الكمبيوتر على مجموعة واسعة من المهام، وبعضها يشمل ما يلي:

التعرّف على الصور
تصنيف الصور
اكتشاف الأشياء
تجزئة الصورة
تتبع الأجسام
فهم المشهد
التعرف على الوجه
تقدير الوضعية
التعرف البصري على الأحرف
توليد الصورة
ميزة الفحص البصري

التعرُّف على الصور

يُعَد التعرُّف على الصور أوسع أشكال رؤية الكمبيوتر. ويشمل تحديد هوية الأشخاص والأماكن والأشياء والكيانات الأخرى في الصور الرقمية، وهو أساس لمهام مثل تصنيف الصور واكتشاف الكائنات وتجزئة الصور.

تصنيف الصور

يُعَد تصنيف الصور مهمة أساسية لرؤية الكمبيوتر تصنِّف الصور إلى مجموعات أو فئات محددة مسبقًا. فهو يتنبأ بالتصنيف الأكثر ملاءمة للصورة أو الكائنات داخل الصورة. السيناريو الموضَّح سابقًا لتشخيص الالتهاب الرئوي باستخدام الأشعة السينية للصدر هو مثال على تصنيف الصور.

اكتشاف الكائنات

اكتشاف الكائنات يهدف إلى تحديد مكان وجود الكائنات في الصور الرقمية. فهو يجمع بين تقنيتين للتعلم: تحديد موقع الكائن وتصنيف الصور.

يُتيح تحديد مواقع الكائنات معرفة موقع كائن معيّن في الصورة عبر رسم مربعات تحديد حولها. ثم يميّز تصنيف الصور الفئة التي تنتمي إليها الكائنات. في مقاطع فيديو لحركة المرور على الطرق، على سبيل المثال، يمكن لتطبيقات رؤية الكمبيوتر استخدام اكتشاف الكائنات ليس فقط لتصنيف المركبات، بل لتحديد مواقعها على الطريق أيضًا.

استخدام برامج اكتشاف الكائنات في مراقبة حركة المرور

من أشهر بنى الشبكات العصبية الالتفافية المستخدمة في اكتشاف الكائنات: R-CNN (الشبكة العصبية الالتفافية القائمة على المناطق) وYOLO (You Only Look Once). تنفِّذ R-CNN عملية اكتشاف ذات مرحلتين، حيث تحدِّد أولًا المناطق التي تحتوي على كائنات، ثم تمرِّر تلك المناطق عبر شبكات منفصلة للتصنيف وتحديد المواقع بدقة أكبر. في المقابل، تعمل بنية YOLO على الكشف من مرحلة واحدة من خلال دمج تحديد المواقع والتصنيف في تمرير شبكي واحد، ما يجعلها سريعة بما يكفي لاكتشاف الكائنات في الوقت الفعلي.

عادةً ما يستخدم اكتشاف الكائنات في مقاطع الفيديو نماذج قائمة على المحوِّلات وRNNs، وخاصةً بنية الذاكرة طويلة المدى وقصيرة المدى (LSTM).

تجزئة الصور

تجزئة الصور هي نسخة أكثر دقة على مستوى البكسل من اكتشاف الكائنات. وتعمل على تقسيم الصورة الرقمية إلى مجموعات منفصلة من وحدات البكسل تُعرَف بمقاطع الصورة (Image Segments)، ثم تصنِّف وحدات البكسل وفقًا للفئة أو الكائن.

بينما يمكن لاكتشاف الكائنات تصنيف عدة عناصر داخل الصورة وتقدير عرض وارتفاع كل عنصر تقريبًا، تميِّز تجزئة الصور الحدود أو الأشكال الدقيقة لكل عنصر. وهذا يجعل تجزئة الصور ذات قيمة لتحديد الكائنات المتقاربة بشكل وثيق مع المربعات المحيطة المتداخلة.

يمكن تقسيم تجزئة الصور إلى ثلاثة أنواع من المهام:

التجزئة الدلالية هي أبسط نوع، حيث تقوم بتعيين فئة دلالية -الفئة المحددة التي قد ينتمي إليها بكسل معين- لكل بكسل.
تجزئة المثيل والتي تتنبأ بالحدود الدقيقة للبكسل لكل مثيل كائن فردي في الصورة.
تجمع التجزئة الشاملة بين التجزئة الدلالية وتجزئة المثيل من خلال تحديد التصنيف الدلالي لجميع وحدات البكسل والتمييز بين كل مثيل كائن في الصورة.

على سبيل المثال، في صورة أحد شوارع المدينة، قد تتعامل التجزئة الدلالية مع السيارات المتوقفة واحدة أمام الأخرى كقطعة سيارة طويلة، بينما تفصل تجزئة المثيل شكل كل سيارة وتحدِّده.

رسم توضيحي يقارن بين الصور الأصلية ونتائج التجزئة الدلالية وتجزئة المثيل والتجزئة الشاملة.

تتبُّع الكائنات

يعمل تتبُّع الكائنات على متابعة وتتبُّع كائن ما أثناء حركته عبر سلسلة من إطارات الفيديو أو الصور. يحدِّد تتبُّع الكائنات الكائن في كل إطار ويميّزه، مع الحفاظ على استمرارية وجوده أثناء الحركة عبر الإطارات.

فهم المشهد

يتجاوز فهم المشهد مجرد التعرُّف على الكائنات، ليقوم باستخلاص مستوى أعلى من المعلومات البصرية. عند تحديد الكائنات في الصورة، تتنبأ نماذج التعلُّم العميق بالروابط بينها، مثل الإجراءات والأحداث والتفاعلات.

يمكن استخدام الشبكات العصبية البيانية (GNNs) لتمثيل العلاقات المكانية بين الكائنات في الصورة. في مثال لقطات المرور، يمكن لأنظمة رؤية الكمبيوتر استنتاج أن سيارة أجرة تتحرك أمام سيارة، أو أن سيارة متوقفة على يسار سيارة الأجرة، أو أن سيارة تنعطف يمينًا.

يمكن أن تساعد نماذج الرؤية واللغة (VLMs) أيضًا على فهم المشهد. يُتيح هذا الجمع بين النماذج اللغوية الكبيرة (LLMs) ونماذج محوِّل الرؤية التعرُّف على الكائنات داخل الصورة وتصنيفها، بالإضافة إلى تقديم أوصاف سياقية مثل موقع الكائن بالنسبة إلى العناصر البصرية الأخرى.

التعرُّف على الوجه

تطبِّق تقنية التعرُّف على الوجوه تقنيات التعرُّف على الصور لتحليل ملامح الوجه. فهي تلتقط الهيكل الهندسي للوجه وتحدِّد الأنماط الرئيسية مثل المسافة بين العينين، والمسافة من الجبهة إلى الذقن، ومحيط الأنف وشكل الشفاه.

يمكن لتقنية التعرُّف على الوجوه تحديد الأفراد في الوقت الفعلي أو في الصور ومقاطع الفيديو. ومن الأمثلة الشائعة المصادقة البيومترية من خلال التعرُّف على الوجوه لإلغاء قفل الهواتف الذكية.

تقدير الوضعية

يقيس تقدير الوضعية الموقع المكاني لأجزاء الجسم المختلفة للتعرُّف على الإيماءات وتتبُّع حركات الجسم. على سبيل المثال، يمكن أن يساعد تقدير الوضعية على تحديد اتجاه ذراعَي ويدَي اللاعب أثناء اللعب في الواقع الافتراضي. ومن الأمثلة الواقعية على ذلك برنامج رؤية الكمبيوتر التابع لوكالة NASA، الذي يوفر لمشغِّلي الذراع الروبوتية على متن محطة الفضاء الدولية تقدير وضعية في الوقت الفعلي لالتقاط الأهداف بدقة.⁵

التعرف البصري على الأحرف

التعرُّف الضوئي على الأحرف (OCR)، أو ما يُعرَف باسم التعرُّف على النصوص، يُعرَف بقدرته على استخراج النصوص من الصور والمستندات الممسوحة ضوئيًا ومصادر أخرى وتحويلها إلى صيغة قابلة للقراءة آليًا. وبالتالي، يساعد على أتمتة رقمنة النصوص المكتوبة يدويًا والسجلات الورقية.

تتَّبِع عملية التعرُّف الضوئي على الأحرف (OCR) الخطوات التالية:

تعمل عملية التقاط الصور على تحويل الصورة أو المستند الرقمي إلى نسخة بالأبيض والأسود، حيث تُعَد المناطق الفاتحة خلفية والمناطق الداكنة حروفًا للتعرُّف عليها.
تُزيل مرحلة المعالجة المسبقة وحدات البكسل الزائدة، ويمكن أن تشمل أيضًا تصحيح الانحراف (Deskewing) لتعديل الصورة إذا كانت غير مصطفة بشكل صحيح أثناء المسح الضوئي.
تكتشف مرحلة التعرُّف على النصوص الأحرف الأبجدية، والأرقام أو الرموز، مع التركيز على التعرُّف على حرف واحد في كل مرة. بعد ذلك، تحدِّد الأحرف من خلال التعرُّف على الأنماط، مع مطابقة خط الحرف وحجمه وشكله مع قالب محدد.

تتمكن الشبكات العصبية الالتفافية (CNNs) والنماذج القائمة على المحوِّل من إجراء تعرُّف أكثر ذكاءً على الأحرف، عبر استخراج ميزات مثل المنحنيات، وتقاطعات الخطوط، والحلقات وعدد الخطوط المائلة في الحرف. تستطيع هذه الخوارزميات أيضًا إجراء التعرُّف الذكي على الكلمات، مع التمييز بين الكلمات بدلًا من الأحرف لتسريع عملية المعالجة.

إنشاء الصور

يستخدم توليد الصور نماذج الذكاء الاصطناعي التوليدي لإنتاج الصور. وفيما يلي بعض النماذج التوليدية الشائعة المستخدمة لتوليد الصور:

يتم تدريب نماذج الانتشار على إنشاء صور جديدة من خلال تعلُّم كيفية إزالة التشويش أو إعادة بناء عينات بيانات التدريب التي تم تشويشها تدريجيًا بالضوضاء العشوائية وتحويلها إلى شكل غير قابل للتعرُّف.
تتألف الشبكات التوليدية التنافسية (GANs) من شبكتين عصبيتين: أداة توليد تعمل على إنشاء الصور وأداة تمييز تعمل كخصم، للتمييز بين الصور الاصطناعية والحقيقية. يتم تدريب كِلتا الشبكتين بشكل متكرر، حيث تحسِّن أداة التمييز أداء أداة التوليد من خلال تقديم التعليقات، إلى أن تصل أداة التوليد إلى مستوى لا تستطيع فيه أداة التمييز التفريق بين البيانات الاصطناعية والحقيقية.
أجهزة التشفير التلقائي المتغير (VAEs) هي نماذج للتعلم العميق تولِّد أشكالًا مختلفة من الصور التي تم تدريبهم عليها. تعمل أداة التشفير على ضغط الصور المدخلة إلى فضاء منخفض الأبعاد، مع الاحتفاظ بالمعلومات المهمة الموجودة في الصور. ثم تعمل أداة فك الترميز على إعادة بناء صور جديدة من هذا التمثيل المضغوط.

تستطيع أجهزة VLM أيضًا إنشاء صور مع إعطاء وصف نصي.

ميزة الفحص البصري

يعمل الفحص البصري على أتمتة تحديد العيوب. من خلال الكشف، تفحص أنظمة رؤية الكمبيوتر الصور أو مقاطع الفيديو لاكتشاف الأخطاء والعيوب. يمكن أيضًا تنفيذ تجزئة الصور لتحديد مواقع العيوب بدقة أكبر.

يمكن لآلات الفحص البصري المدعومة برؤية الكمبيوتر مساعدة الشركات على إجراء عمليات تفتيش أسرع وأكثر أمانًا، مع زيادة الدقة والاتساق، سواء في الكشف عن التآكل في المناطق صعبة الوصول على الجسور أم العثور على الموصِّلات المعطوبة في المنتجات الإلكترونية المجمَّعة.

تطبيقات رؤية الكمبيوتر

باعتبارها مجالًا ناضجًا في الذكاء الاصطناعي، شهدت رؤية الكمبيوتر العديد من التطورات، ما أدى إلى ظهور مجموعة واسعة من حالات الاستخدام. وفيما يلي بعض التطبيقات الواقعية لرؤية الكمبيوتر:

الزراعة

تلتقط الكاميرات والطائرات دون طيار والأقمار الصناعية صورًا عالية الدقة للمحاصيل والمناطق الزراعية. ثم تعمل تقنيات رؤية الكمبيوتر بعد ذلك على تحليل هذه الصور للمساعدة على تقييم صحة النباتات وتحديد الآفات والأعشاب الضارة لتطبيق مبيدات أعشاب بشكل أكثر استهدافًا.

المركبات المستلقة

في صناعة السيارات، تُنشئ السيارات ذاتية القيادة نموذجًا ثلاثي الأبعاد لبيئتها باستخدام مزيج من الكاميرات والليدار والرادار وأجهزة الاستشعار. بعد ذلك، تطبِّق السيارات تقنيات اكتشاف الكائنات، وتجزئة الصور، وفهم المشهد للتنقل بأمان، مع تجنُّب العقبات مثل المشاة والمركبات الأخرى، والكشف بدقة عن عناصر الطريق مثل الحارات وإشارات المرور وأضواء المرور.

الرعاية الصحية

يُعَد التصوير الطبي مجالًا رئيسيًا لتطبيق رؤية الكمبيوتر. على سبيل المثال، يمكن لتقنية اكتشاف الكائنات أتمتة تحليل الصور، من خلال تحديد مواقع العلامات المحتملة للأمراض في صور الأشعة السينية والتصوير المقطعي المحوسب والتصوير بالرنين المغناطيسي والموجات فوق الصوتية. بالإضافة إلى ذلك، يمكن لتقنية تجزئة المثيل تحديد الحدود الدقيقة للأعضاء والأنسجة والأورام، ما يساعد على تشخيص أكثر دقة ويحسِّن اتخاذ القرارات بشأن العلاجات ورعاية المرضى.

التصنيع

تساعد أنظمة رؤية الكمبيوتر على إدارة المخزون وفحص العناصر ضوئيًا لتحديد مستويات المخزون. ويمكنها أيضًا تعزيز مراقبة الجودة والتعرُّف على العيوب في الوقت الفعلي. تحلل هذه الأنظمة صور المنتج ويمكنها الإبلاغ عن الأخطاء أو التناقضات بسرعة ودقة أكبر مقارنةً بالمفتشين الذين يستخدمون رؤيتهم البشرية.

البيع بالتجزئة والتجارة الإلكترونية

على سبيل المثال، تستخدم تقنية Just Walk Out التابعة لشركة Amazon رؤية الكمبيوتر في المتاجر الصغيرة ومتاجر تقديم الطعام لتتبُّع اختيارات العملاء وأتمتة تجربة الدفع. يمكن للزبائن أخذ أغراضهم والمغادرة دون الاصطفاف في طوابير عند مكاتب الدفع^.6

يمكن للمتاجر عبر الإنترنت أيضًا استخدام الواقع المعزز مع تقنيات التعرُّف على الوجه وتقدير الوضعية لتجارب القياس الافتراضي، ما يُتيح للعملاء تصوُّر شكل الملابس أو النظارات أو المكياج عليهم قبل الشراء.

التشغيل الآلي

مثل المركبات ذاتية القيادة، تستخدم الروبوتات الكاميرات وأجهزة الليدار وأجهزة الاستشعار لرسم خريطة لمحيطها. ثم تطبِّق الخوارزميات القائمة على رؤية الكمبيوتر لإتمام مهامها، مثل مساعدة الجراحين في العمليات المعقدة، والتنقل في المستودعات لنقل البضائع، واختيار المنتجات الناضجة فقط، ووضع العناصر على خطوط التجميع.

استكشاف الفضاء

يمكن لتقنية اكتشاف الكائنات مساعدة المركبات الفضائية على تحديد وتجنُّب المخاطر أثناء الهبوط، في حين يمكن للمركبات الجوالة استخدام التقنية نفسها للتنقل على التضاريس.⁷ يمكن استخدام تصنيف الصور لتصنيف الكويكبات والنيازك وحتى الحطام الفضائي، بينما يراقب تتبُّع الكائنات مسارات هذه الأجسام الفلكية.

أدوات رؤية الكمبيوتر

يوجد العديد من الأدوات لبناء تطبيقات رؤية الكمبيوتر، ما يساعد على تبسيط عملية التطوير. وتتضمن بعض الأدوات الشائعة ما يلي:

Keras
OpenCV
Scikit-image
TensorFlow
Torchvision

Keras

Keras هي واجهة برمجة تطبيقات التعلم العميق (API) التي يمكن تشغيلها على أطر عمل الذكاء الاصطناعي الأخرى مثل PyTorch وTensorFlow. وتوفِّر العشرات من البرامج التعليمية والأمثلة لمختلف مهام رؤية الكمبيوتر، بما في ذلك تصنيف الصور والفيديو، وتجزئة الصور، واكتشاف الكائنات والتعرُّف الضوئي على الأحرف.

OpenCV

OpenCV هي واحدة من أكثر مكتبات رؤية الكمبيوتر استخدامًا. تحتوي هذه المكتبة مفتوحة المصدر على أكثر من 2,500 خوارزمية رؤية كمبيوتر وتحتوي على وحدات لمعالجة الصور واكتشاف الكائنات وتحليل الفيديو وغير ذلك. تمت كتابتها بلغة ++C ولكنها تحتوي أيضًا على غلافات للغات البرمجة مثل Java وPython.

Scikit-image

تُعَد Scikit-image مجموعة مفتوحة المصدر من الخوارزميات لمعالجة الصور في Python. وتدعم المعالجة المسبقة واستخراج الميزات واكتشاف الكائنات وتجزئة الصور، وغير ذلك من المهام. تجعل بساطته من السهل على المبتدئين الوصول إليه واستخدامه.

TensorFlow

TensorFlow هي منصة التعلم الآلي مفتوحة المصدر من Google. على الرغم من أنه يتم استخدامها في تطبيقات التعلم العميق العامة، فإن TensorFlow توفِّر أيضًا مجموعات بيانات متخصصة في رؤية الكمبيوتر، وأدوات للمعالجة المسبقة، ووظائف لتصنيف الصور والفيديو، وتجزئة الصور، واكتشاف الكائنات.

Torchvision

تشكِّل مكتبة Torchvision جزءًا من منظومة PyTorch. يشمل ذلك التحويلات الشائعة للصور، ومجموعات البيانات، وغيرها من الوظائف المساعدة. كما توفِّر الحزمة أيضًا نماذج لتصنيف الصور والفيديو، واكتشاف الكائنات، والتجزئة الدلالية وتجزئة المثيل.

تاريخ موجز لرؤية الكمبيوتر

تُعَد رؤية الكمبيوتر واحدة من أقدم مجالات الذكاء الاصطناعي. لعقود من الزمن، عَمِل باحثو علوم الكمبيوتر على تطوير طرق لتمكين الأجهزة من فهم البيانات البصرية.

بدأت التجارب في الخمسينيات والستينيات من القرن الماضي عندما عرض علماء الأعصاب للقطط مجموعة من الصور أثناء تسجيل النشاط العصبي. اكتشفوا أن الحيوانات تستجيب أولًا للخطوط، واستنتجوا أن معالجة الصور تبدأ بالأشكال البسيطة مثل الحواف المستقيمة.⁸

في نفس الفترة تقريبًا، تم تطوير أول تقنية لفحص الصور بالكمبيوتر، ما منح الكمبيوتر القدرة على رقمنة الصور والحصول عليها.^.9 تم الوصول إلى مرحلة مهمة أخرى عندما اكتسبت أجهزة الكمبيوتر القدرة على تحويل الصور ثنائية الأبعاد إلى أشكال ثلاثية الأبعاد^.10

في عام 1982، أثبت عالم الأعصاب David Marr أن الرؤية تعمل بطريقة هرمية وقدَّم خوارزميات لتمكين الآلات من اكتشاف الزوايا والمنحنيات والحواف والأشكال الأساسية المماثلة.¹¹ خلال العقد نفسه، طوَّر عالم الكمبيوتر Kunihiko Fukushima شبكة من الخلايا قادرة على التعرُّف على الأنماط وأطلق عليها اسم "neocognitron"، والتي شملت طبقات الالتفاف في الشبكة العصبية.¹²

بحلول عام 2000، كان التركيز في الدراسات منصبًّا على تصنيف الصور والتعرف على الأجسام.¹³ في عام 2009، تم تقديم مجموعة بيانات ImageNet، التي تضم ملايين الصور المصنّفة لتدريب خوارزميات رؤية الكمبيوتر.¹⁴ وفي عام 2012، أنشأ فريق من جامعة تورنتو شبكة AlexNet العصبية الالتفافية، التي تم تدريبها على مجموعة بيانات ImageNet وقلّلت بشكل كبير من معدل الخطأ في التعرُّف على الصور، ما مهَّد الطريق لنماذج رؤية الكمبيوتر الحالية.¹⁵

أطلق العنان لقوة الذكاء الاصطناعي التوليدي والتعلم الآلي (ML)

تعرّف على كيفية دمج الذكاء الاصطناعي التوليدي والتعلّم الآلي بثقة في أعمالك

الموارد

طوِّر مستوى خبرتك في التعلم الآلي

تعلّم المفاهيم الأساسية وطوّر مهاراتك من خلال المختبرات العملية والدورات التدريبية والمشاريع الموجهة والتجارب وغيرها.

أطلق العنان لقوة الذكاء الاصطناعي التوليدي والتعلم الآلي (ML)

تعرّف على كيفية دمج الذكاء الاصطناعي التوليدي والتعلّم الآلي بثقة في أعمالك

التفعيل المثمر للذكاء الاصطناعي: جني الأرباح وعائد الاستثمار باستخدام الذكاء الاصطناعي التوليدي

هل ترغب في زيادة عائد استثماراتك في الذكاء الاصطناعي؟ تعرّف على كيفية تأثير توسيع نطاق الذكاء الاصطناعي التوليدي في المجالات الرئيسية، من خلال مساعدة أفضل العقول لديك على وضع حلول مبتكرة جديدة وطرحها.

كيفية اختيار نموذج الأساس المناسب

تعرّف على كيفية اختيار نموذج أساس الذكاء الاصطناعي الأكثر ملاءمة لحالة الاستخدام الخاصة بك.

استكشف IBM Granite

IBM Granite هي مجموعة من نماذج الذكاء الاصطناعي المفتوحة والموثوق بها وذات الأداء العالي والتي صُمِمَت خصيصًا للأعمال وجرى الارتقاء بها على النحو الأمثل لتوسيع نطاق تطبيقات الذكاء الاصطناعي لديك. استكشف خيارات اللغة والتعليمات البرمجية والسلاسل الزمنية والدرابزين.

كيف تزدهر في عصر الذكاء الاصطناعي الجديد بثقة وثبات

تعمّق في العناصر الثلاثة الهامة لاستراتيجية الذكاء الاصطناعي القوية: إنشاء ميزة تنافسية، وتوسيع نطاق الذكاء الاصطناعي عبر الأعمال، وتطوير الذكاء الاصطناعي الجدير بالثقة.

تقرير AI in Action

لقد قمنا باستطلاع آراء 2000 مؤسسة حول مبادرات الذكاء الاصطناعي لديها لمعرفة ما ينجح وما لا ينجح وكيف يمكنك المضي قدمًا.

حلول ذات صلة

IBM Maximo Visual Inspection

إطلاق العنان لقوة رؤية الكمبيوتر بدون رموز برمجية لأتمتة الفحص البصري.

استكشاف Maximo Visual Inspection

الاستشارات والخدمات في مجال الذكاء الاصطناعي

تساعد خدمات الذكاء الاصطناعي التي تقدمها IBM Consulting في إعادة تصور طريقة عمل الشركات باستخدام حلول الذكاء الاصطناعي من أجل النهوض بأعمالها.

استكشف خدمات الذكاء الاصطناعي

حلول الذكاء الاصطناعي

استفِد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها التي ستكون بجانبك.

استكشف حلول الذكاء الاصطناعي

اتخِذ الخطوة التالية

يضع IBM Maximo Visual Inspection قوة الذكاء الاصطناعي لرؤية الكمبيوتر بين أيدي فرق مراقبة الجودة والفحص لديك. أطلق العنان لقوة رؤية الكمبيوتر بدون برمجة لأتمتة الفحص البصري.

استكشاف Maximo Visual Inspection

ألقِ نظرة على قدرات المنتج

الحواشي

1. The three R’s of computer vision: Recognition, reconstruction and reorganization, Pattern Recognition Letters, 8 February 2016
2. Efficient pneumonia detection using Vision Transformers on chest X-rays, Scientific Reports, 30 January 2024
3. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale, arXiv, 3 June 2021
4. NGBoost Classifier Using Deep Features for Pneumonia Chest X-Ray Classification, Applied Sciences, 8 September 2025
5. Computer Vision Lends Precision to Robotic Grappling, NASA Technology Transfer Program, Accessed 11 September 2025
6. Amazon Just Walk Out, AWS, Accessed 11 September 2025
7. The Computer Vision Laboratory, NASA JPL Robotics, Accessed 11 September 2025
8. From Cats to the Cortex: Unravelling the Hierarchical Processing System of Vision and Brain Plasticity, Cureus, 2 September 2024
9. Your Engineering Heritage: Scanners and Computer Image Processing, IEEE-USA InSight, 8 February 2016
10. A Simple World: The Blocks World, Foundations of Computer Vision, 2024
11. Marr’s Computational Theory of Vision, Foundations of Computer Vision, 2024
12. Neocognitron: A Self-organizing Neural Network Model for a Mechanism of Pattern Recognition Unaffected by Shift in Position, Biological Cybernetics, 1980
13. Computer Vision, Foundations of Computer Vision, 2024
14. ImageNet: A large-scale hierarchical image database, IEEE Conference on Computer Vision and Pattern Recognition, 2009
15. CHM Releases AlexNet Source Code, Computer History Museum, 20 March 2025

ما هي رؤية الكمبيوتر؟

المؤلفون

ما هي رؤية الكمبيوتر؟

أحدث اتجاهات الذكاء الاصطناعي، يقدمها لك الخبراء

شكرًا لك! لقد اشتركت بنجاح.

كيف تعمل رؤية الكمبيوتر

جمع البيانات

المعالجة المسبقة

اختيار النموذج

تدريب النماذج

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

مهام رؤية الكمبيوتر

التعرُّف على الصور

تصنيف الصور

اكتشاف الكائنات

تجزئة الصور

تتبُّع الكائنات

فهم المشهد

التعرُّف على الوجه

تقدير الوضعية

التعرف البصري على الأحرف

إنشاء الصور

ميزة الفحص البصري

تطبيقات رؤية الكمبيوتر

الزراعة

المركبات المستلقة

الرعاية الصحية

التصنيع

البيع بالتجزئة والتجارة الإلكترونية

التشغيل الآلي

استكشاف الفضاء

أدوات رؤية الكمبيوتر

Keras

OpenCV

Scikit-image

TensorFlow

Torchvision

تاريخ موجز لرؤية الكمبيوتر

الموارد

الحواشي