ما هو التعرف على الصور؟

المؤلفين

Tim Mucci

IBM Writer

Gather

ما المقصود بالتعرُّف على الصور؟

التعرُّف على الصور هو تطبيق من تطبيقات التعلم الآلي الذي يمكِّن البرامج والأجهزة من التعرُّف على الأشياء والأماكن والأشخاص والكتابة والإجراءات في الصور الرقمية أو الفيديو.

تمكِّن تقنية التعرُّف على الصور أجهزة الكمبيوتر من تحديد عيوب المنتجات، وتساعد المتخصصين الطبيين على اكتشاف الحالات الشاذة، وهي جزء لا يتجزأ من تطوير المركبات ذاتية القيادة.

يعد التعرف على الصور مهمة أساسية في مجال رؤية الكمبيوتر، وهو المجال الأوسع لتكنولوجيا الذكاء الاصطناعي (AI) الذي يمكّن البرامج والآلات من فهم البيانات المرئية والتفاعل معها.

يستخدم المهندسون نماذج التعلم الآلي التقليدية والتعلم العميق في التعرُّف على الصور. عادةً ما تكون هذه الأساليب منفصلة، ويعتمد الجمع بينها أو استخدامها بشكل مستقل على المشكلة المحددة ومتطلبات الموارد.

أحدث اتجاهات الذكاء الاصطناعي، يقدمها لك الخبراء

احصل على رؤى منسقة حول أهم أخبار الذكاء الاصطناعي وأكثرها إثارةً للاهتمام. اشترِك في خدمة رسائل Think الإخبارية الأسبوعية. راجع بيان الخصوصية لشركة IBM.

شكرًا لك! لقد اشتركت بنجاح.

سيتم تسليم اشتراكك باللغة الإنجليزية. ستجد رابط إلغاء الاشتراك في كل رسالة إخبارية. يمكنك إدارة اشتراكاتك أو إلغاء اشتراكك هنا. راجع بيان خصوصية IBM لمزيد من المعلومات.

التعرُّف على الصور باستخدام التعلم الآلي التقليدي
 

يستخدم التعلم الآلي خوارزميات تصنف الصور بناءً على السمات التي يتم استخراجها يدويًا بواسطة مهندسين بشريين. يقوم المهندسون بمعالجة الصور مسبقًا وتحليلها وفقًا للهدف أو المشكلة المحددة التي يحاولون حلها من خلال التعرف على الصور.

ربما يتعلق الأمر بتحديد الوجوه أو اكتشاف الأشياء أو تصنيف القوام. في كل حالة، يستخدم المهندس معرفته بالمجال للمعالجة المسبقة للصور وتدريب الخوارزمية.

برنامج التعرف على الصور باستخدام كشف الأشياء لتمييز أنواع معينة من المركبات برنامج التعرف على الصور باستخدام كشف الأشياء لتمييز أنواع معينة من المركبات

التوحيد

يقوم المهندسون بإعداد الصور للتحليل عن طريق توحدي الصورة، مما يعني تحجيم قيم البكسل إلى نطاق قياسي، عادةً ما يكون بين 0–1 أو -1–1، بحيث تكون البيانات متسقة وأكثر قابلية لمعالجة نماذج التعلم الآلي.

تتضمن المعالجة المسبقة أيضًا تغيير حجم الصور وتحويلها إلى درجات الرمادي لتقليل التعقيد الحسابي أو إزالة الضوضاء باستخدام تقنيات التصفية الغاوسية. تشير «الضوضاء» في التعرف على الصور إلى أي اختلاف غير مرغوب فيه أو عشوائي في وحدات البكسل، على سبيل المثال، صورة مرقطة أو محببة أو ضبابية أو مشوهة.

استخراج الميزات

بعد ذلك، يجب على المهندسين تحديد السمات التي توفر المعلومات الأكثر أهمية. قد تكون الحواف عند اكتشاف الأشكال أو شدة اللون إذا كانت النتيجة هي تمييز الأجسام حسب درجة اللون. نظرا لأن نماذج التعلم الآلي تعتمد على السمات المستخرجة يدويًا، فإن التعليقات التوضيحية للبيانات تسمي المعلومات الأساسية.

من خلال وضع تعليقات توضيحية للأشياء ذات الأهمية داخل الصور، يمكن للنماذج أن تتعرف بسهولة أكبر على أشياء معينة وتصنيفها مثل "قطة" أو "كلب". تسمح البيانات الموضحة بدقة لخوارزميات التعلّم الآلي بتعلّم السمات المرئية لكل فئة بدقة.

التشفير للتعلم الآلي
 

يقوم المهندسون باستخراج هذه السمات وتنسيقها في متجهات رقمية، مما يسهل على نماذج التعلم الآلي معالجة الصور ومقارنتها. يقوم المهندسون بترجمة كل صورة إلى متجه سمة ثابت الطول، وهو عبارة عن قائمة من الأرقام تلخص أهميتها.

التعرُّف على الصور باستخدام التعلم العميق
 

في المقابل، يمكن لنماذج التعلم العميق التعلم مباشرةً من الصورة. يستخدم التعلّم العميق، وهو مجموعة فرعية من التعلّم الآلي، الشبكات العصبية ذات الطبقات لإنجاز مهام المعالجة المسبقة للصور ومهام التعرّف المعقدة، ولكن على حساب متطلبات حاسوبية وبيانات أعلى.

الشبكات العصبية التلافيفية (CNNs) هي بنى التعلم العميق ذات الطبقات التلافيفية التي تحلل وتتعلم الطبيعة المنظمة لبيانات الصور.

طبقة الإدخال
 

تكشف الشبكة العصبية العميقة للشبكة العصبية التلافيفية تلقائيًا قيمة البكسل الأولية للصورة. تمرر الشبكة العصبية التلافيفية هذه المعلومات عبر طبقات الشبكة العميقة لاستخراج الأنماط وإجراء تنبؤات حول الصورة في النهاية.

تبدأ طبقات الشبكة بطبقة الإدخال. تعالج طبقة الإدخال قيم البكسل الأولية للصورة، وتتعامل معها كشبكة من الكثافات العددية وتمررها إلى الطبقات اللاحقة لاستخراج الأنماط.

استخراج الميزات

بعد ذلك، تطبق الطبقة التلافيفية مرشحات أو أنوية صغيرة على الصورة لتكشف الأنماط المحلية مثل الحواف أو القوام. يقلل الالتفاف من الحاجة إلى استخراج السمات يدويًا لأن الشبكة يمكنها تعلم الأنماط مباشرةً من البيانات.

بعد كل عملية التفاف، تُدخل دالة التنشيط اللاخطية إلى النموذج، مما يسمح للشبكة بتعلم الأنماط والأشكال والأجسام المعقدة عن طريق تكديس طبقات متعددة.

التجميع والتسطيح

طبقات التجميع تقوم بتقليل حجم الصورة مع الحفاظ على السمات الهامة لضمان أن يكون النموذج فعالًا من الناحية الحاسوبية في التعامل مع التغيرات مثل الدوران الطفيف أو التحولات في الصورة.

بعد أن تستخرج الشبكة السمات، تقوم بتسطيح البيانات إلى متجه أحادي البُعد وتمررها عبر طبقات متصلة بالكامل. تدمج هذه الطبقات الأنماط المستفادة من المراحل السابقة لتحديد العلاقات المعقدة وتحسين عملية التصنيف.

طبقة الإخراج
 

أخيرًا، تصل البيانات إلى طبقة الإخراج، والتي توحد السمات المستخرجة وتنتج تنبؤًا نهائيًا. تتم مقارنة هذا التنبؤ بمجموعة بيانات التدريب المشروحة لحساب الأخطاء وضبط أوزان الشبكة لتحسين الدقة.

على سبيل المثال، لتدريب نموذج للتعرف على صور القطط، قد يستخدم المهندسون التعلم الخاضع للإشراف، حيث يقومون بتسمية آلاف الصور بعلامات مثل "قطة" أو "ليست قطة" حتى يتمكن النموذج من تعلم السمات الرئيسية مثل ملمس الفراء، والشوارب، وشكل الأذن.

وبدلاً من ذلك، في التعلم غير الخاضع للإشراف، يعمل النموذج مع بيانات غير مصنفة لاكتشاف الأنماط بشكل مستقل. يحدد النموذج العلاقات بدون فئات محددة مسبقًا عن طريق تجميع الصور بناءً على الخصائص المشتركة (على سبيل المثال، الأشكال أو القوام المتشابه).

هذا الأسلوب مفيد لمهام مثل الكشف عن الغش ومراقبة الجودة وتحليل الأنماط عندما تكون البيانات المصنفة غير متوفرة. في التعلم غير الخاضع للإشراف، يقوم النموذج بتجميع الصور بشكل مستقل بناءً على الأنماط المشتركة، وتجميع جميع صور القطط دون معرفة صريحة بأنها قطط.

النهج الثالث، التعلم تحت الإشراف الذاتي، وهو يجمع بين جوانب التعلم غير الخاضع للإشراف بالبدء ببيانات غير مصنفة، ولكنه يولد تسميات زائفة من البنية المتأصلة للبيانات، مما يمكّن النماذج من تعلم تمثيلات ذات معنى بدون تسميات تقليدية، مما يجعلها قوية للمهام ذات مجموعات البيانات المصنفة المحدودة.

من خلال التعلم الخاضع للإشراف الذاتي، يمكن للنموذج تحليل أجزاء من الصورة، مثل إعادة بناء وجه قطة محجوبة جزئيًا، لتحديد الأنماط والسمات. في نهاية المطاف، يمكن للنموذج المُدرَّب—سواء باستخدام التعلم الآلي أو التعلم العميق—تحديد وتصنيف الصور الجديدة غير المرئية للقطط بدقة، وتمييزها عن الحيوانات أو الأشياء الأخرى.

التعرف على الصور باستخدام المربعات المحيطة لتصنيف المركبات التعرف على الصور باستخدام المربعات المحيطة لتصنيف المركبات

التحديات في التعرُّف على الصور
 

بينما تقدمت تقنيات التعرف على الصور، إلا أنها لا تزال تواجه تحديات تؤثر على الدقة والموثوقية. يعمل المهندسون على التخفيف من حدة هذه المشكلات من خلال الجمع بين بنيات النماذج المحسّنة ومجموعات بيانات التدريب المتنوعة وتقنيات المعالجة المسبقة.

الصور المشوَّشة أو المحجوبة
 

يستخدم التعلم الخاضع للإشراف بيانات مصنَّفة، مع وضع علامة على كل صورة بفئتها الصحيحة لتوجيه الخوارزمية من خلال أمثلة واضحة. على سبيل المثال، تدريب نظام للتعرُّف على السيارات يتضمن مجموعة بيانات مصنَّفة بـ "سيارة" و"ليست سيارة". ثم يتعلم النموذج التفريق بناءً على الأنماط المرئية داخل هذه الأمثلة المصنَّفة.

اختلافات الزاوية والمنظور

في التعلم غير الخاضع للإشراف، تستخدم الخوارزمية بيانات غير مصنَّفة، وتكتشف الأنماط بشكل مستقل. يشبه ذلك إعطاء طفل صندوقًا من الألعاب ليصنِّفها حسب التشابه؛ تعمل الخوارزميات غير الخاضعة للإشراف على تجميع الصور بناءً على الخصائص المشتركة (مثل الشوارب و الفراء والأرجل الأربعة والذيل) دون معرفة الفئات المحددة مسبقًا.

ظروف الإضاءة

يمكن أن تؤثر التغييرات في الإضاءة، مثل الظلال أو تغيرات السطوع أو بيئات الإضاءة المنخفضة، على أداء أنظمة التعرف على الصور. قد تحجب البقع الساطعة التفاصيل، في حين أن الظلال قد تحجب الملامح الحساسة، مما يتسبب في إساءة تفسير النموذج لشكل الجسم أو لونه.

الطرق المتقدمة مثل معادلة المدرج التكراري التكيفي أو دمج بيانات التدريب بظروف إضاءة متنوعة تساعد النماذج على الأداء بشكل أفضل في سيناريوهات الإضاءة المختلفة.

القيود في بيانات التدريب
 

يعتمد أداء نموذج التعرف على الصور على تنوع وجودة بيانات التدريب الخاصة به. قد تواجه النماذج المدربة على مجموعات البيانات التي تتميز بشكل أساسي بصور مثالية عالية الدقة صعوبة عند مواجهة اختلافات منخفضة الجودة أو في العالم الحقيقي.

وللتخفيف من ذلك، يتولى المهندسون تنسيق مجموعات بيانات متنوعة تمثل ظروفًا واقعية. تمكّن تقنيات مثل التعلّم التحويلي النماذج من استخدام المعرفة المدربة مسبقًا من مجموعات بيانات كبيرة وقوية وتحسين الأداء حتى مع وجود بيانات محدودة.

حجم الكائنات وقربها
 

يمكن أن يؤثر حجم الجسم في الصورة، الذي يتأثر بقربه من الكاميرا، على قدرة النموذج على تحديده بدقة. قد لا تحتوي الأجسام الصغيرة على تفاصيل كافية للتعرف عليها، بينما قد تظهر الأجسام القريبة جدًا مشوهة أو كبيرة جدًا بحيث لا يمكن للنموذج تصنيفها بشكل صحيح.

يقوم المهندسون بتدريب النماذج على مجموعات البيانات التي تتضمن كائنات ذات أحجام ومسافات مختلفة للتعامل مع ذلك. يتم أيضًا استخدام تقنيات معالجة الصور متعددة المقاييس وأهرامات السمات للمساعدة في ضمان قدرة النموذج على التعامل مع الكائنات عبر نطاق واسع من الأحجام.

Mixture of Experts | 12 ديسمبر، الحلقة 85

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضمّ إلى نخبة من المهندسين والباحثين وقادة المنتجات وغيرهم من الخبراء وهم يقدّمون أحدث الأخبار والرؤى حول الذكاء الاصطناعي، بعيدًا عن الضجيج الإعلامي.

التعرُّف على الصور وكشف الكائنات
 

يعمل كشف الكائنات على توسيع نطاق التعرف على الصور من خلال تحديد الكائنات وتحديد مواقعها داخل الصورة. تسمح هذه التقنية للنظام بالإجابة على أسئلة مثل، "أين القطة في هذه الصورة؟" أو "كم عدد القطط في المشهد؟" يوفر الكشف مزيدًا من السياق، لأنه يتعرف على الكائنات ومواضعها وأحجامها واتجاهاتها داخل الإطار.

على سبيل المثال، بدلًا من تحديد "قطة" في الصورة، يسمح كشف الكائنات للكمبيوتر بتحديد "هناك قطة تجلس على الأريكة في الزاوية اليسرى من الصورة"، مما يوفر فهمًا مكانيًا للمشهد والعلاقات بين الكائنات.

يمكن أن تختلف مهام التعرف على الصور أيضًا في التعقيد. التعرف على الصور أو تصنيف الصور، يعين تسمية واحدة لصورة كاملة بناء على محتواها، والإجابة على السؤال، "ماذا يوجد في هذه الصورة؟"

على سبيل المثال، يتعلم نموذج تم تدريبه على مجموعات البيانات المصنفة للقطط والكلاب التمييز بين الاثنين من خلال تحديد سماتهما الفريدة. عند تقديم صورة جديدة، يحلل النموذج هذه السمات للتنبؤ بما إذا كانت تظهر قطة أو كلبًا.

تستخدم النماذج مربعات محيطة لتحديد هذه الكائنات الفردية د، وفصلها عن الخلفية وتحديد مكان بدء كل كائن وانتهائه. هذه الدقة حساسة لتطبيقات مثل القيادة الذاتية، حيث يُعد الكشف الدقيق عن الأجسام مثل المركبات والمشاة وعلامات الطريق أمرًا ضروريًا للسلامة.

الاستخدامات المتطورة للتعرُّف على الصور
 

تتقدم تقنية التعرف على الصور بسرعة، مما يمهد الطريق لتطبيقات أكثر تطورًا في العديد من الصناعات وحالات الاستخدام. فيما يلي بعض التطبيقات السائدة في العالم الحقيقي للتعرف على الصور:

المركبات المستلقة

تم تجهيز العديد من الهواتف الذكية بتقنية التعرف على الوجه التي تتيح للمستخدمين إلغاء قفل أجهزتهم من خلال النظر إلى الشاشة. أصبح هذا التطبيق للتعرف على الصور شائعاً، حيث تتعرف الأنظمة على ملامح وجه الفرد للتحقق من الهوية.

التعرُّف على الوجه

يُستخدم التعرف على الوجه أيضًا على نطاق واسع في الأمن والمراقبة للتعرف على الأفراد من مواجز الفيديو. وتساعد هذه التقنية وكالات إنفاذ القانون على تتبع المشتبه بهم في الأماكن العامة، بينما تستخدمها الشركات في أمن المبنى للتحكم في الوصول.

إدارة وسائل التواصل الاجتماعي والإشراف عليها
 

تستخدم منصات التواصل الاجتماعي التعرف على الصور لاقتراح علامات في الصور، لتحديد والتعرف على وجوه الأصدقاء والعائلة. تستخدم وسائل التواصل الاجتماعي أيضًا فلاتر الواقع المعزز التي تكتشف معالم الوجه لتحديد موضع العناصر الافتراضية، مثل النظارات أو آذان الحيوانات، بطريقة تتوافق مع حركات الوجه.

وبالإضافة إلى ذلك، تستخدم هذه المنصات خاصية التعرّف على الصور للإشراف على المحتوى من خلال تصفية الصور غير اللائقة، والحفاظ على سلامة المنصة وتعزيز تجربة المستخدم.

النظارات الذكية والمعلومات في الوقت الفعلي
 

بناءً على تطبيقات الواقع المعزز (AR) الحالية في الأجهزة المحمولة، يمكن للنظارات الذكية المزوَّدة ببرنامج التعرُّف على الصور أن توفِّر للمستخدمين مشاهد معززة لمحيطهم، مع توفير معلومات في الوقت الفعلي حول الأشياء والمواقع.

توفر التقنية بيانات سياقية عن أي شيء ينظر إليه المستخدم، بدءاً من تحديد المعالم إلى استرجاع تفاصيل المنتج في التخزين.

الأجهزة المنزلية

يتيح التعرف على الصور في الأجهزة المنزلية ميزات مثل تتبع المخزون في الثلاجات الذكية، وكشف العوائق في المكانس الروبوتية والتعرف على الإنسان أو الأشياء في كاميرات المراقبة.

كما أنه يدعم وظائف مثل كشف نوع القماش في الغسالات والتعرف على الطعام في الأفران الذكية وتحليل الوجه في المرايا الذكية أو أجهزة مراقبة الأطفال.

تعتمد روبوتات التوصيل على التعرف على الصور للتنقل في البيئات واكتشاف العوائق، وتحديد مواقع التسليم لإجراء عمليات توصيل ذاتية دقيقة وفعالة.

في المقابل، تستخدم الروبوتات في المستودعات والأماكن الصناعية نفس التقنية لمسح العناصر واسترجاعها وإجراء فحوصات الجودة وتجميع الأجزاء وفرز المواد.

التصوير الطبي

يساعد تحليل الصور الطبية المتخصصين في الرعاية الصحية في تحليل الأشعة السينية والتصوير بالرنين المغناطيسي والأشعة المقطعية. يمكن لهذه الأنظمة الكشف عن الحالات غير الطبيعية التي قد تغفلها العين البشرية، مثل العلامات المبكرة لسرطان الرئة أو السكتات الدماغية أو الأورام، مما يؤدي إلى تشخيص الحالات في الوقت المناسب.

Merative، التي كانت تُعرف سابقًا باسم Watson® Health، تقوم بتطبيق خاصية التعرف على الصور لتحليل بيانات التصوير المعقدة، ودعم أطباء الأشعة في تحديد النتائج الحساسة.

تتقدم عملية التعرف على الصور الطبية مع التشخيص المدعوم بالذكاء الاصطناعي، بحيث يمكن لأنظمة التعرف على الصور أن تساعد في الكشف عن الأمراض في مراحلها المبكرة بدقة أكبر.

تعمل التقنية بالفعل على تحسين مجالات مثل كشف الأورام، حيث تدعم المتخصصين بـ “مجموعة ثانية من العيون” المدربة تدريباً عالياً لإجراء التشخيصات المتقدمة، خاصة في المجالات التي تكون فيها التفاصيل الدقيقة أمرًا ضروريًا.

التعرُّف الضوئي على الأحرف (OCR)

تعمل تقنية التعرف الضوئي على الحروف (OCR) على تحويل النصوص المطبوعة إلى صيغة رقمية عن طريق المسح الضوئي للمستندات والكتب والإيصالات. تستخدم التطبيقات التعرف الضوئي على الحروف للتعرف على النص المطبوع وتحويله إلى تنسيقات رقمية يمكن للمستخدمين تحريرها أو البحث عنها. كان التعرف الضوئي على الحروف حالة استخدام حساسة للتعرف على الصور، مما ساعد على تمهيد الطريق لانتشار الرقمنة على نطاق واسع في الصناعات.

معالجة الوثائق
 

تستخدم البنوك والمؤسسات المالية ميزة التعرّف على الصور لأتمتة عمليات التحقق من الهويات وغيرها من المستندات، مما يقلل من عمليات الاحتيال ويسهّل عملية تأهيل العملاء. تقوم هذه التقنية بالمسح الضوئي لصور المستندات بحثاً عن التفاصيل المهمة، وتتحقق من صحتها وتضع علامة على أي حالات غير طبيعية لمراجعتها.

حلول ذات صلة
IBM Maximo Visual Inspection

إطلاق العنان لقوة رؤية الكمبيوتر بدون رموز برمجية لأتمتة الفحص البصري.

استكشاف Maximo Visual Inspection
الاستشارات والخدمات في مجال الذكاء الاصطناعي

تساعد خدمات الذكاء الاصطناعي التي تقدمها IBM Consulting في إعادة تصور طريقة عمل الشركات باستخدام حلول الذكاء الاصطناعي من أجل النهوض بأعمالها.

استكشف خدمات الذكاء الاصطناعي
حلول الذكاء الاصطناعي

استفِد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها التي ستكون بجانبك.

استكشف حلول الذكاء الاصطناعي
اتخِذ الخطوة التالية

يضع IBM Maximo Visual Inspection قوة الذكاء الاصطناعي لرؤية الكمبيوتر بين أيدي فرق مراقبة الجودة والفحص لديك. أطلق العنان لقوة رؤية الكمبيوتر بدون برمجة لأتمتة الفحص البصري.

استكشاف Maximo Visual Inspection ألقِ نظرة على قدرات المنتج