ما هو التعرف على الصور؟

12 نوفمبر 2024

المؤلفين

Tim Mucci

Writer

Gather

ما هو التعرف على الصور؟

التعرف على الصور هو تطبيق للتعلم الآلي (أو تكنولوجيا التعلم الآلي) الذي يمكّن البرامج والأجهزة من التعرف على الأشياء والأماكن والأشخاص والكتابة والإجراءات في الصور الرقمية أو الفيديو.

تمكّن التقنية أجهزة الكمبيوتر من تحديد عيوب المنتجات، وتساعد المهنيين الطبيين على اكتشاف الحالات غير الطبيعية، وهي جزء لا يتجزأ من تطوير المركبات ذاتية القيادة.

يعد التعرف على الصور مهمة أساسية في مجال رؤية الكمبيوتر، وهو المجال الأوسع لتكنولوجيا الذكاء الاصطناعي (AI) الذي يمكّن البرامج والآلات من فهم البيانات المرئية والتفاعل معها.

يستخدم المهندسون نماذج التعلم الآلي التقليدية والتعلم العميق في التعرف على الصور. عادةً ما تكون هذه الأساليب منفصلة، ويعتمد الجمع بينها أو استخدامها بشكل مستقل على المشكلة المحددة ومتطلبات الموارد.

التعرف على الصور باستخدام التعلم الآلي التقليدي

يستخدم التعلم الآلي خوارزميات تصنف الصور بناءً على السمات التي يتم استخراجها يدويًا بواسطة مهندسين بشريين. يقوم المهندسون بمعالجة الصور مسبقًا وتحليلها وفقًا للهدف أو المشكلة المحددة التي يحاولون حلها من خلال التعرف على الصور.

ربما يتعلق الأمر بتحديد الوجوه أو اكتشاف الأشياء أو تصنيف القوام. في كل حالة، يستخدم المهندس معرفته بالمجال للمعالجة المسبقة للصور وتدريب الخوارزمية.

التوحيد

يقوم المهندسون بإعداد الصور للتحليل عن طريق توحدي الصورة، مما يعني تحجيم قيم البكسل إلى نطاق قياسي، عادةً ما يكون بين 0–1 أو -1–1، بحيث تكون البيانات متسقة وأكثر قابلية لمعالجة نماذج التعلم الآلي.

تتضمن المعالجة المسبقة أيضًا تغيير حجم الصور وتحويلها إلى درجات الرمادي لتقليل التعقيد الحسابي أو إزالة الضوضاء باستخدام تقنيات التصفية الغاوسية. تشير «الضوضاء» في التعرف على الصور إلى أي اختلاف غير مرغوب فيه أو عشوائي في وحدات البكسل، على سبيل المثال، صورة مرقطة أو محببة أو ضبابية أو مشوهة.

استخراج الميزات

بعد ذلك، يجب على المهندسين تحديد السمات التي توفر المعلومات الأكثر أهمية. قد تكون الحواف عند اكتشاف الأشكال أو شدة اللون إذا كانت النتيجة هي تمييز الأجسام حسب درجة اللون. نظرا لأن نماذج التعلم الآلي تعتمد على السمات المستخرجة يدويًا، فإن التعليقات التوضيحية للبيانات تسمي المعلومات الأساسية.

من خلال وضع تعليقات توضيحية للأشياء ذات الأهمية داخل الصور، يمكن للنماذج أن تتعرف بسهولة أكبر على أشياء معينة وتصنيفها مثل "قطة" أو "كلب". تسمح البيانات الموضحة بدقة لخوارزميات التعلّم الآلي بتعلّم السمات المرئية لكل فئة بدقة.

التشفير للتعلم الآلي

يقوم المهندسون باستخراج هذه السمات وتنسيقها في متجهات رقمية، مما يسهل على نماذج التعلم الآلي معالجة الصور ومقارنتها. يقوم المهندسون بترجمة كل صورة إلى متجه سمة ثابت الطول، وهو عبارة عن قائمة من الأرقام تلخص أهميتها.

التعرف على الصور باستخدام التعلم العميق

في المقابل، يمكن لنماذج التعلم العميق التعلم مباشرةً من الصورة. يستخدم التعلّم العميق، وهو مجموعة فرعية من التعلّم الآلي، الشبكات العصبية ذات الطبقات لإنجاز مهام المعالجة المسبقة للصور ومهام التعرّف المعقدة، ولكن على حساب متطلبات حاسوبية وبيانات أعلى.

الشبكات العصبية التلافيفية (CNNs) هي بنى التعلم العميق ذات الطبقات التلافيفية التي تحلل وتتعلم الطبيعة المنظمة لبيانات الصور.

طبقة الإدخال

تكشف الشبكة العصبية العميقة للشبكة العصبية التلافيفية تلقائيًا قيمة البكسل الاولية للصورة. تمرر الشبكة العصبية التلافيفية هذه المعلومات عبر طبقات الشبكة العميقة لاستخراج الأنماط وإجراء تنبؤات حول الصورة في النهاية.

تبدأ طبقات الشبكة بطبقة الإدخال. تعالج طبقة الإدخال قيم البكسل الأولية للصورة، وتتعامل معها كشبكة من الكثافات العددية وتمررها إلى الطبقات اللاحقة لاستخراج الأنماط.

استخراج الميزات

بعد ذلك، تطبق الطبقة التلافيفية مرشحات أو أنوية صغيرة على الصورة لتكشف الأنماط المحلية مثل الحواف أو القوام. يقلل الالتفاف من الحاجة إلى استخراج السمات يدويًا لأن الشبكة يمكنها تعلم الأنماط مباشرةً من البيانات.

بعد كل عملية التفاف، تُدخل دالة التنشيط اللاخطية إلى النموذج، مما يسمح للشبكة بتعلم الأنماط والأشكال والأجسام المعقدة عن طريق تكديس طبقات متعددة.

التجميع والتسطيح

طبقات التجميع تقوم بتقليل حجم الصورة مع الحفاظ على السمات الهامة لضمان أن يكون النموذج فعالًا من الناحية الحاسوبية في التعامل مع التغيرات مثل الدوران الطفيف أو التحولات في الصورة.

بعد أن تستخرج الشبكة السمات، تقوم بتسطيح البيانات إلى متجه أحادي البُعد وتمررها عبر طبقات متصلة بالكامل. تدمج هذه الطبقات الأنماط المستفادة من المراحل السابقة لتحديد العلاقات المعقدة وتحسين عملية التصنيف.

طبقة الإخراج

أخيرًا، تصل البيانات إلى طبقة الإخراج، والتي توحد السمات المستخرجة وتنتج تنبؤًا نهائيًا. تتم مقارنة هذا التنبؤ بمجموعة بيانات التدريب المشروحة لحساب الأخطاء وضبط أوزان الشبكة لتحسين الدقة.

على سبيل المثال، لتدريب نموذج للتعرف على صور القطط، قد يستخدم المهندسون التعلم الخاضع للإشراف، حيث يقومون بتسمية آلاف الصور بعلامات مثل "قطة" أو "ليست قطة" حتى يتمكن النموذج من تعلم السمات الرئيسية مثل ملمس الفراء، والشوارب، وشكل الأذن.

وبدلاً من ذلك، في التعلم غير الخاضع للإشراف، يعمل النموذج مع بيانات غير مصنفة لاكتشاف الأنماط بشكل مستقل. يحدد النموذج العلاقات بدون فئات محددة مسبقًا عن طريق تجميع الصور بناءً على الخصائص المشتركة (على سبيل المثال، الأشكال أو القوام المتشابه).

هذا الأسلوب مفيد لمهام مثل الكشف عن الغش ومراقبة الجودة وتحليل الأنماط عندما تكون البيانات المصنفة غير متوفرة. في التعلم غير الخاضع للإشراف، يقوم النموذج بتجميع الصور بشكل مستقل بناءً على الأنماط المشتركة، وتجميع جميع صور القطط دون معرفة صريحة بأنها قطط.

النهج الثالث، التعلم تحت الإشراف الذاتي، وهو يجمع بين جوانب التعلم غير الخاضع للإشراف بالبدء ببيانات غير مصنفة، ولكنه يولد تسميات زائفة من البنية المتأصلة للبيانات، مما يمكّن النماذج من تعلم تمثيلات ذات معنى بدون تسميات تقليدية، مما يجعلها قوية للمهام ذات مجموعات البيانات المصنفة المحدودة.

من خلال التعلم الخاضع للإشراف الذاتي، يمكن للنموذج تحليل أجزاء من الصورة، مثل إعادة بناء وجه قطة محجوبة جزئيًا، لتحديد الأنماط والسمات. في نهاية المطاف، يمكن للنموذج المُدرَّب—سواء باستخدام التعلم الآلي أو التعلم العميق—تحديد وتصنيف الصور الجديدة غير المرئية للقطط بدقة، وتمييزها عن الحيوانات أو الأشياء الأخرى.

التحديات في التعرف على الصور

بينما تقدمت تقنيات التعرف على الصور، إلا أنها لا تزال تواجه تحديات تؤثر على الدقة والموثوقية. يعمل المهندسون على التخفيف من حدة هذه المشكلات من خلال الجمع بين بنيات النماذج المحسّنة ومجموعات بيانات التدريب المتنوعة وتقنيات المعالجة المسبقة.

الصور المشوشة أو المحجوبة

يستخدم التعلم الخاضع للإشراف بيانات مصنفة، مع وضع علامة على كل صورة بفئتها الصحيحة لتوجيه الخوارزمية من خلال أمثلة واضحة. على سبيل المثال، يتضمن تدريب نظام للتعرف على السيارات مجموعة بيانات تسمى "قطة" و "ليست قطة". ثم يتعلم النموذج التفريق بناء على الأنماط المرئية داخل هذه الأمثلة المصنفة.

اختلافات الزاوية والمنظور

في التعلم غير الخاضع للإشراف، تستخدم الخوارزمية بيانات غير مصنفة، وتكتشف الأنماط بشكل مستقل. الأمر أشبه بإعطاء الطفل صندوقًا من الألعاب لفرزها حسب التشابه؛ حيث تقوم الخوارزميات غير الخاضعة للإشراف بتجميع الصور بناءً على الخصائص المشتركة (على سبيل المثال، الشوارب والفراء والأرجل الأربعة والذيل) دون معرفة الفئات الواضحة.

ظروف الإضاءة

يمكن أن تؤثر التغييرات في الإضاءة، مثل الظلال أو تغيرات السطوع أو بيئات الإضاءة المنخفضة، على أداء أنظمة التعرف على الصور. قد تحجب البقع الساطعة التفاصيل، في حين أن الظلال قد تحجب الملامح الحساسة، مما يتسبب في إساءة تفسير النموذج لشكل الجسم أو لونه.

الطرق المتقدمة مثل معادلة المدرج التكراري التكيفي أو دمج بيانات التدريب بظروف إضاءة متنوعة تساعد النماذج على الأداء بشكل أفضل في سيناريوهات الإضاءة المختلفة.

القيود في بيانات التدريب

يعتمد أداء نموذج التعرف على الصور على تنوع وجودة بيانات التدريب الخاصة به. قد تواجه النماذج المدربة على مجموعات البيانات التي تتميز بشكل أساسي بصور مثالية عالية الدقة صعوبة عند مواجهة اختلافات منخفضة الجودة أو في العالم الحقيقي.

وللتخفيف من ذلك، يتولى المهندسون تنسيق مجموعات بيانات متنوعة تمثل ظروفًا واقعية. تمكّن تقنيات مثل التعلّم التحويلي النماذج من استخدام المعرفة المدربة مسبقًا من مجموعات بيانات كبيرة وقوية وتحسين الأداء حتى مع وجود بيانات محدودة.

حجم الكائن وقربه

يمكن أن يؤثر حجم الجسم في الصورة، الذي يتأثر بقربه من الكاميرا، على قدرة النموذج على تحديده بدقة. قد لا تحتوي الأجسام الصغيرة على تفاصيل كافية للتعرف عليها، بينما قد تظهر الأجسام القريبة جدًا مشوهة أو كبيرة جدًا بحيث لا يمكن للنموذج تصنيفها بشكل صحيح.

يقوم المهندسون بتدريب النماذج على مجموعات البيانات التي تتضمن كائنات ذات أحجام ومسافات مختلفة للتعامل مع ذلك. يتم أيضًا استخدام تقنيات معالجة الصور متعددة المقاييس وأهرامات السمات للمساعدة في ضمان قدرة النموذج على التعامل مع الكائنات عبر نطاق واسع من الأحجام.

التعرف على الصور وكشف الكائنات

يعمل كشف الكائنات على توسيع نطاق التعرف على الصور من خلال تحديد الكائنات وتحديد مواقعها داخل الصورة. تسمح هذه التقنية للنظام بالإجابة على أسئلة مثل، "أين القطة في هذه الصورة؟" أو "كم عدد القطط في المشهد؟" يوفر الكشف مزيدًا من السياق، لأنه يتعرف على الكائنات ومواضعها وأحجامها واتجاهاتها داخل الإطار.

على سبيل المثال، بدلًا من تحديد "قطة" في الصورة، يسمح كشف الكائنات للكمبيوتر بتحديد "هناك قطة تجلس على الأريكة في الزاوية اليسرى من الصورة"، مما يوفر فهمًا مكانيًا للمشهد والعلاقات بين الكائنات.

يمكن أن تختلف مهام التعرف على الصور أيضًا في التعقيد. التعرف على الصور أو تصنيف الصور، يعين تسمية واحدة لصورة كاملة بناء على محتواها، والإجابة على السؤال، "ماذا يوجد في هذه الصورة؟"

على سبيل المثال، يتعلم نموذج تم تدريبه على مجموعات البيانات المصنفة للقطط والكلاب التمييز بين الاثنين من خلال تحديد سماتهما الفريدة. عند تقديم صورة جديدة، يحلل النموذج هذه السمات للتنبؤ بما إذا كانت تظهر قطة أو كلبًا.

تستخدم النماذج مربعات محيطة لتحديد هذه الكائنات الفردية د، وفصلها عن الخلفية وتحديد مكان بدء كل كائن وانتهائه. هذه الدقة حساسة لتطبيقات مثل القيادة الذاتية، حيث يُعد الكشف الدقيق عن الأجسام مثل المركبات والمشاة وعلامات الطريق أمرًا ضروريًا للسلامة.

تصميم ثلاثي الأبعاد لكرات تتدحرج على مسار

أحدث الأخبار والرؤى حول الذكاء الاصطناعي 


تتوفر معارف وأخبار منسقة بمهارة حول الذكاء الاصطناعي والسحابة وغيرها في نشرة Think الإخبارية الأسبوعية. 

الاستخدامات المتطورة للتعرف على الصور

تتقدم تقنية التعرف على الصور بسرعة، مما يمهد الطريق لتطبيقات أكثر تطورًا في العديد من الصناعات وحالات الاستخدام. فيما يلي بعض التطبيقات السائدة في العالم الحقيقي للتعرف على الصور:

المركبات ذاتية القيادة

تم تجهيز العديد من الهواتف الذكية بتقنية التعرف على الوجه التي تتيح للمستخدمين إلغاء قفل أجهزتهم من خلال النظر إلى الشاشة. أصبح هذا التطبيق للتعرف على الصور شائعاً، حيث تتعرف الأنظمة على ملامح وجه الفرد للتحقق من الهوية.

التعرف على الوجه

يُستخدم التعرف على الوجه أيضًا على نطاق واسع في الأمن والمراقبة للتعرف على الأفراد من مواجز الفيديو. وتساعد هذه التقنية وكالات إنفاذ القانون على تتبع المشتبه بهم في الأماكن العامة، بينما تستخدمها الشركات في أمن المبنى للتحكم في الوصول.

إدارة وسائل التواصل الاجتماعي والإشراف عليها

تستخدم منصات التواصل الاجتماعي التعرف على الصور لاقتراح علامات في الصور، لتحديد والتعرف على وجوه الأصدقاء والعائلة. تستخدم وسائل التواصل الاجتماعي أيضًا فلاتر الواقع المعزز التي تكتشف معالم الوجه لتحديد موضع العناصر الافتراضية، مثل النظارات أو آذان الحيوانات، بطريقة تتوافق مع حركات الوجه.

وبالإضافة إلى ذلك، تستخدم هذه المنصات خاصية التعرّف على الصور للإشراف على المحتوى من خلال تصفية الصور غير اللائقة، والحفاظ على سلامة المنصة وتعزيز تجربة المستخدم.

النظارات الذكية والمعلومات في الوقت الحقيقي

بناءً على تطبيقات الواقع المعزز (AR) الحالية في الأجهزة المحمولة، يمكن للنظارات الذكية المزودة ببرنامج التعرف على الصور أن توفر للمستخدمين مشاهد معززة لمحيطهم، مع توفير معلومات في الوقت الفعلي حول الأشياء والمواقع.

توفر التقنية بيانات سياقية عن أي شيء ينظر إليه المستخدم، بدءاً من تحديد المعالم إلى استرجاع تفاصيل المنتج في التخزين.

الأجهزة المنزلية

يتيح التعرف على الصور في الأجهزة المنزلية ميزات مثل تتبع المخزون في الثلاجات الذكية، وكشف العوائق في المكانس الروبوتية والتعرف على الإنسان أو الأشياء في كاميرات المراقبة.

كما أنه يدعم وظائف مثل كشف نوع القماش في الغسالات والتعرف على الطعام في الأفران الذكية وتحليل الوجه في المرايا الذكية أو أجهزة مراقبة الأطفال.

تعتمد روبوتات التوصيل على التعرف على الصور للتنقل في البيئات واكتشاف العوائق، وتحديد مواقع التسليم لإجراء عمليات توصيل ذاتية دقيقة وفعالة.

في المقابل، تستخدم الروبوتات في المستودعات والأماكن الصناعية نفس التقنية لمسح العناصر واسترجاعها وإجراء فحوصات الجودة وتجميع الأجزاء وفرز المواد.

التصوير الطبي

يساعد تحليل الصور الطبية المتخصصين في الرعاية الصحية في تحليل الأشعة السينية والتصوير بالرنين المغناطيسي والأشعة المقطعية. يمكن لهذه الأنظمة الكشف عن الحالات غير الطبيعية التي قد تغفلها العين البشرية، مثل العلامات المبكرة لسرطان الرئة أو السكتات الدماغية أو الأورام، مما يؤدي إلى تشخيص الحالات في الوقت المناسب.

Merative، التي كانت تُعرف سابقًا باسم ®Watson Health، تقوم بتطبيق خاصية التعرف على الصور لتحليل بيانات التصوير المعقدة، ودعم أطباء الأشعة في تحديد النتائج الحساسة.

تتقدم عملية التعرف على الصور الطبية مع التشخيص المدعوم بالذكاء الاصطناعي، بحيث يمكن لأنظمة التعرف على الصور أن تساعد في الكشف عن الأمراض في مراحلها المبكرة بدقة أكبر.

تعمل التقنية بالفعل على تحسين مجالات مثل كشف الأورام، حيث تدعم المتخصصين بـ "مجموعة ثانية من العيون" المدربة تدريباً عالياً لإجراء التشخيصات المتقدمة، خاصة في المجالات التي تكون فيها التفاصيل الدقيقة أمرًا ضروريًا.

التعرف البصري على الأحرف (OCR)

تعمل تقنية التعرف الضوئي على الحروف (OCR) على تحويل النصوص المطبوعة إلى صيغة رقمية عن طريق المسح الضوئي للمستندات والكتب والإيصالات. تستخدم التطبيقات التعرف الضوئي على الحروف للتعرف على النص المطبوع وتحويله إلى تنسيقات رقمية يمكن للمستخدمين تحريرها أو البحث عنها. كان التعرف الضوئي على الحروف حالة استخدام حساسة للتعرف على الصور، مما ساعد على تمهيد الطريق لانتشار الرقمنة على نطاق واسع في الصناعات.

معالجة الوثائق

تستخدم البنوك والمؤسسات المالية ميزة التعرّف على الصور لأتمتة عمليات التحقق من الهويات وغيرها من المستندات، مما يقلل من عمليات الاحتيال ويسهّل عملية تأهيل العملاء. تقوم هذه التقنية بالمسح الضوئي لصور المستندات بحثاً عن التفاصيل المهمة، وتتحقق من صحتها وتضع علامة على أي حالات غير طبيعية لمراجعتها.

رسائل Think الإخبارية

 

أحدث معارف الذكاء الاصطناعي والتقنية من Think

سجل الاشتراك اليوم

الموارد

أكاديمية الذكاء الاصطناعي من IBM
التعليم المدعوم بالذكاء الاصطناعي
مجموعة متنوعة من الخبراء
البودكاست
كيفية تحسين نتائج Watson Visual Recognition باستخدام المعالجة المسبقة
المدونة
التعلم الخاضع للإشراف مقابل التعلم غير الخاضع للإشراف: ما الفرق؟
المدونة
اتخِذ الخطوة التالية

درب نماذج الذكاء الاصطناعي التوليدي الأساسية وقدرات التعلم الآلي وتحقق من صحتها واضبطها وانشرها باستخدام IBM watsonx.ai، وهو أستوديو المؤسسات من الجيل التالي لمنشئي الذكاء الاصطناعي. ابنِ تطبيقات الذكاء الاصطناعي في وقت أقل باستخدام كمية بيانات محدودة.

استكشف watsonx.ai احجز عرضًا توضيحيًا مباشرًا