ما المقصود بالتعرف البصري على الأحرف (OCR)؟

مؤلف

Jim Holdsworth

Staff Writer

IBM Think

ما المقصود بتقنية التعرُّف البصري على الأحرف (OCR)؟

التعرف البصري على الأحرف (OCR) هو تقنية تعتمد على الاستخراج المؤتمت للبيانات لتحويل الصور النصية بسرعة إلى تنسيق يمكن قراءته آليًا.

يشار أحيانا إلى التعرف البصري على الأحرف باسم التعرف على النصوص. يعمل برنامج التعرف البصري على الأحرف على استخراج وإعادة استخدام البيانات من المستندات الممسوحة ضوئيا والصور الملتقطة بالكاميرا وملفات PDF التي تحتوي على صور فقط. يقوم برنامج التعرف البصري على الحروف بعزل الأحرف عن الصور، وتجميعها في كلمات، ثم تحويل الكلمات إلى جمل، مما يتيح الوصول إلى المحتوى الأصلي وتحريره. كما يلغي الجهد المهدور الناتج عن إدخال البيانات يدويًا بشكل متكرر.

تستخدم أنظمة OCR مزيجًا من الأجهزة (Hardware) والبرمجيات (Software) لتحويل المستندات المطبوعة المادية إلى نصوص يمكن قراءتها آليًا. تقوم الأجهزة، مثل الماسح الضوئي أو لوحة الدوائر المتخصصة، بنسخ النص أو قراءته، ثم يتولى البرنامج عادة معالجة البيانات معالجة متقدمة.

يمكن أن تستفيد برمجيات التعرُّف البصري على الأحرف من الذكاء الاصطناعي (AI) لتطبيق طرق متقدمة مثل التعرُّف الذكي على الأحرف (ICR) للتعرُّف على اللغات أو الخط اليدوي. غالبًا ما تستخدم المؤسسات عملية التعرُّف البصري على الأحرف لتحويل المستندات القانونية أو التاريخية المطبوعة إلى مستندات PDF، ما يُتيح للمستخدمين تحرير المستندات وتنسيقها والبحث فيها كما لو تم إنشاؤها باستخدام معالج النصوص.

أحدث اتجاهات الذكاء الاصطناعي، يقدمها لك الخبراء

احصل على رؤى منسقة حول أهم أخبار الذكاء الاصطناعي وأكثرها إثارةً للاهتمام. اشترِك في خدمة رسائل Think الإخبارية الأسبوعية. راجع بيان الخصوصية لشركة IBM.

شكرًا لك! لقد اشتركت بنجاح.

سيتم تسليم اشتراكك باللغة الإنجليزية. ستجد رابط إلغاء الاشتراك في كل رسالة إخبارية. يمكنك إدارة اشتراكاتك أو إلغاء اشتراكك هنا. راجع بيان خصوصية IBM لمزيد من المعلومات.

تاريخ تقنية OCR

في عام 1974، أسس Ray Kurzweil شركة Kurzweil Computer Products، Inc.، التي طورت منتج OCR يمكنه التعرف على النصوص المطبوعة بأي خط تقريبًا. قرر Kurzweil أن أفضل تطبيق لهذه التقنية سيكون جهازًا يعتمد على التعلم الآلي (ML) لمساعدة ضعاف البصر، فأنشأ آلة قراءة لتحويل النصوص إلى كلام منطوق. في عام 1980، باع Kurzweil شركته إلى Xerox، التي كانت مهتمة بتطوير تقنية تحويل النصوص من الورق إلى الكمبيوتر تجاريًا.

أصبحت تقنية OCR شائعة في أوائل التسعينيات أثناء رقمنة الصحف التاريخية. ومنذ ذلك الحين، شهدت التقنية العديد من التحسينات. وأصبحت المنتجات اليوم قادرة على تقديم دقة OCR شبه مثالية. توفر الطرق المتقدمة إمكانية أتمتة مهام  معالجة المستندات المعقدة.

قبل توفر تقنية OCR، كان الخيار الوحيد لتنسيق المستندات رقميًا هو إعادة إدخال النص يدويًا. لا يقتصر الأمر على أن إعادة الإدخال اليدوي يستغرق وقتًا طويلاً فحسب، بل يؤدي أيضًا إلى عدم دقة وأخطاء حتمية في الكتابة. اليوم، تتوفر خدمات التعرف البصري على الأحرف على نطاق واسع للجمهور. على سبيل المثال، يمكن استخدام Google Cloud Vision OCR لمسح المستندات ضوئيا وتخزينها على هاتفك الذكي.

Mixture of Experts | 12 ديسمبر، الحلقة 85

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضمّ إلى نخبة من المهندسين والباحثين وقادة المنتجات وغيرهم من الخبراء وهم يقدّمون أحدث الأخبار والرؤى حول الذكاء الاصطناعي، بعيدًا عن الضجيج الإعلامي.

كيف تعمل تقنية OCR؟

تستخدم برامج OCR الماسح الضوئي لإعادة معالجة الشكل المادي للمستند وتحويله إلى نص رقمي قابل للتحرير. يمكن أن تعمل برامج OCR كبرنامج مستقل، أو كواجهة برمجة تطبيقات (API)، أو كخدمة عبر الإنترنت.

الحصول على الصور: يتم نسخ جميع صفحات المستند، ثم يقوم محرك التعرف البصري على الأحرف بتحويل المستند الرقمي إلى نسخة ثنائية الألوان، أو بالأبيض والأسود. يتم تحليل الصورة الممسوحة ضوئيًا أو الصورة النقطية (bitmap) الممسوحة ضوئيًا بحثًا عن الأجزاء الفاتحة والداكنة. ثم يحدد البرنامج الأجزاء الداكنة على أنها أحرف تحتاج إلى التعرف عليها، بينما يتم تحديد المناطق الفاتحة على أنها خلفية.

المعالجة المسبقة: تُجرى عملية تنظيف للصورة الرقمية لإزالة وحدات البكسل غير المرغوب فيها. تشمل هذه العملية تصحيح الميل (Deskewing) لتعديل الانحراف الناتج عن عدم محاذاة الصورة أثناء المسح الضوئي، وإزالة القواعد والمربعات الرسومية الموجودة في الصورة المطبوعة، وتحديد ما إذا كان نص يحتوي على كتابات نصية.

التعرّف على النص: تتم معالجة الأجزاء الداكنة للعثور على الحروف الأبجدية أو الأرقام أو الرموز. تُركز هذه المرحلة عادة على التعرف على حرف أو كلمة أو كتلة نص واحدة في كل مرة. ثم يتم تحديد الأحرف باستخدام إحدى خوارزميتين، إما التعرف على الأنماط (Pattern Recognition): أو التعرف على الميزات (Feature Recognition).

  • التعرف على الأنماط (أو مطابقة الأنماط): يتم تدريب برنامج التعرف البصري على الأحرف مسبقا على أمثلة نصية بخطوط وتنسيقات مختلفة للتعرف على الأحرف مقارنتها مع قالب موجود في المستند الممسوح ضوئيًا أو ملف الصورة. كل مجموعة فريدة من الشكل، الحجم، والخط تُعرف باسم الخط الرسومي "Glyph". لكي تعمل هذه الطريقة، يجب أن تكون الأحرف مكتوبة بخط قد تم تدريب برنامج OCR عليه مسبقًا. نظرًا لوجود عدد هائل من الخطوط عالميًا ولغات مختلفة مثل مثل العربية والصينية والإنجليزية والفرنسية والألمانية واليونانية واليابانية والكورية والإسبانية، فإن تدريب النظام على جميع هذه الخطوط واللغات يُعد استنزافًا كبيرًا للموارد.

  • التعرف على (كشف أو الاستخراج) الميزات: تُستخدم هذه الطريقة عندما يقوم برنامج OCR بتحليل خط لم يتم تدريبه عليه مسبقًا. تطبق تقنية OSR قواعد تتعلق بميزات حرف أو رقم معين للتعرف على الأحرف في المستند الممسوح ضوئيا. تتضمن الميزات عدد الخطوط المائلة، أو تقاطعات الخطوط، أو الحلقات، أو الانحناءات في الحرف. على سبيل المثال، يتم تخزين الحرف الكبير "A" كخطين مائلين يلتقيان بخط أفقي في المنتصف. بمجرد التعرف على الحرف، يتم تحويله إلى رمز ASCII (American Standard Code for Information Interchange) الذي تستخدمه أنظمة الكمبيوتر لمعالجة البيانات.

التعرف على التخطيط: يحلل برنامج OCR الأكثر شمولية أيضًا هيكل صورة المستندات. حيث يقسم الصفحة إلى عناصر، مثل وحدات النص أو الجداول أو الصور. وتُقسَّم الأسطر إلى كلمات ثم إلى أحرف. بعد عزل الأحرف، يقوم البرنامج بمقارنتها مع مجموعة من الصور النمطية. بعد معالجة جميع التطابقات المحتملة، يُعيد البرنامج النص المُتعرف عليه.

المعالجة اللاحقة: يتم تخزين المعلومات المجمعة في صورة ملف رقمي، إما بصيغة قابلة للتحرير أو PDF. تحتفظ بعض الأنظمة بكل من صورة الإدخال ونُسخ ما بعد التعرف البصري على الأحرف (OCR) لتسهيل المقارنة وضمان إدارة المستندات بشكل أكثر اكتمالًا.

أنواع OCR

هناك 4 أنواع من برامج التعرف البصري على الأحرف، مع زيادة في التعقيد:

التعرف البصري على الأحرف البسيط: يعتمد التحليل على مطابقة الأنماط حرفًا بحرف، حيث تتم مقارنة الأحرف الممسوحة ضوئيًا مع الرموز المخزنة. مع وجود العديد من الخطوط والتركيبات اللغوية المحتملة، تكون أنواع المستندات التي يمكن تحليلها محدودة.

التعرف الضوئي على العلامات (OMR): مخصصة لتحديد المربعات المؤشرة  والعلامات الأخرى، مثل الفقاعات في الاستطلاعات أو التوقيع على النماذج، بالإضافة إلى الشعارات والرموز والعلامات المائية. يتم تحديد كل ذلك من خلال مطابقتها مع الصور المخزنة، كما هو الحال في التعرف البصري على الأحرف (OCR) البسيط.

التعرف الذكي على الأحرف (ICR): كما ذكرنا سابقًا، يجلب التعرف الذكي على الأحرف (ICR) قوة الذكاء الاصطناعي. من خلال استخدام التعلم الآلي أو التعلم العميق، يتعلم برنامج OCR القراءة مثل البشر: من خلال الممارسة والتدريب المستمرين. تقوم الشبكة العصبية بمراجعة النص بشكل متكرر بحثًا عن السمات المميزة: مواقع الانحناءات والتقاطعات والخطوط والحلقات.

التعرّف الذكي على الكلمات: هذا هو التطور الطبيعي للتعرّف الذكي على الأحرف، حيث يتم تدريب الذكاء الاصطناعي على التعرف على الكلمة كصورة واحدة، مما يجعله أسرع بشكل ملحوظ.

فوائد تقنية OCR

تشمل فوائد استخدام تقنية التعرف البصري على الأحرف (OCR) القدرة على ما يلي:

  • تقليل التكاليف من خلال تقليل الإدخال اليدوي المتكرر أو التخلص منه.
     

  • تبسيط مهام سير العمل باستخدام مستندات مطبوعة مسبقًا أو نماذج مكتوبة، وتسريع البحث بفضل البيانات الرقمية القابلة للبحث.
     

  • أتمتة العمليات مثل توجيه المستندات ومعالجة المحتوى والتحضير لاستخراج النصوص.
     

  • توفير تكاليف التخزين من خلال تقليل الحاجة إلى الاحتفاظ بالمزيد من السجلات الورقية.
     

  • مركزية وأمن مجموعات البيانات: لحمايتها من الحرائق أو الاقتحامات أو فقدان المستندات في خزائن البنوك.
     

  • تسهيل وصول الموظفين والعملاء ضعاف البصر إلى البيانات.
     

  • تحسين الخدمة من خلال تزويد الموظفين بأحدث المعلومات وأكثرها دقة.

حالات استخدام تقنية التعرُّف البصري على الأحرف

تتمثل أشهر حالة استخدام لتقنية OCR في تحويل المستندات الورقية المطبوعة إلى مستندات نصية يمكن قراءتها آليا. بعد أن يخضع المستند الورقي الممسوح ضوئيا للمعالجة باستخدام تقنية التعرف البصري على الحروف (OCR)، يمكن تحرير نص المستند باستخدام معالج نصوص مثل Microsoft Word أو Google Docs. يمكن أن تؤدي حالات الاستخدام المتعددة إلى تسريع أعباء العمل في العديد من القطاعات، مثل التعليم والقطاع المالي وقطاع الرعاية الصحية وقطاع الخدمات اللوجستية والنقل، ومعالجة واسترجاع مستندات القروض وسجلات المرضى ونماذج التأمين والملصقات والفواتير والإيصالات.

تُستخدم تقنية التعرُّف البصري على الأحرف (OCR) غالبًا كتقنية مخفية، حيث تعمل على تشغيل العديد من الأنظمة والخدمات المعروفة التي نعتمد عليها في حياتنا اليومية. من بين حالات الاستخدام المهمة، ولكنها أقل شهرة، لتقنية OCR أتمتة إدخال البيانات، ومساعدة الأشخاص المكفوفين وضعاف البصر، وفهرسة المستندات لمحركات البحث، مثل جوازات السفر ولوحات السيارات والفواتير وكشوف الحسابات المصرفية ومعالجة الشيكات ونسخها وبطاقات الأعمال والتعرُّف التلقائي على لوحات الأرقام.

يتيح التعرف البصري على الأحرف (OCR) تحسين نمذجة البيانات الضخمة من خلال تحويل المستندات الورقية والصور الممسوحة ضوئيًا إلى ملفات PDF يمكن قراءتها آليًا والبحث فيها. تتطلب معالجة المعلومات القيمة واسترجاعها أولا تطبيق تقنية OCR في المستندات التي لا تحتوي على طبقات نصية.

باستخدام خاصية التعرُّف البصري على الأحرف (OCR) على النصوص، يمكن دمج المستندات الممسوحة ضوئيًا في أنظمة البيانات الضخمة التي يمكنها بعد ذلك قراءة بيانات العملاء من كشوف الحسابات المصرفية والعقود وغيرها من المستندات المطبوعة المهمة. بدلًا من جعل الموظفين يراجعون عددًا كبيرًا من الصور يدويًا لتغذية عمليات استخراج البيانات (Data Mining)، يمكن للمؤسسات استخدام تقنية OCR لأتمتة هذه العملية عند مرحلة إدخال البيانات. يمكن لبرامج OCR استخراج النصوص من الصور وحفظ الملفات النصية ودعم تنسيقات متعددة، مثل jpg وjpeg وpng وbmp وtiff وpdf.

أحدث التطورات في تقنية OCR

شهدت تقنية OCR تطورًا ملحوظًا منذ أن تم استخدامها لأول مرة في الأنظمة التجارية في عام 1974، وما زالت التحسينات مستمرة. يمكن لبرامج التعرف البصري على الأحرف (OCR) المتقدمة استخراج رؤى رئيسية من المستندات في ظل ظروف غير مثالية، مثل الخطوط غير المنتظمة، والدقة غير الكافية، والإضاءة السيئة عند التقاط الصور من الهاتف المحمول والألوان والخلفيات المختلفة.

بدمج رؤية الكمبيوتر مع معالجة اللغة الطبيعية، أصبح بإمكان الشركات تحقيق فهم مستندات متقدم باستخدام تمثيل معلومات محسن ونماذج محسنة. تشمل التحسينات تحليل تخطيط المستندات، وترتيب القراءة في المستندات المعقدة، وفهم العناصر المرئية وتمثيلها في شكل جداول ومخططات. أصبحت بعض برامج التعرف البصري على الأحرف (OCR) الآن تعتمد على الذكاء الاصطناعي التوليدي لتسريع تنظيم بيانات المستندات. تُظهر التقنية "القديمة" أنها قادرة على تعلم حيل جديدة.

حلول ذات صلة
IBM Maximo Visual Inspection

إطلاق العنان لقوة رؤية الكمبيوتر بدون رموز برمجية لأتمتة الفحص البصري.

استكشاف Maximo Visual Inspection
الاستشارات والخدمات في مجال الذكاء الاصطناعي

تساعد خدمات الذكاء الاصطناعي التي تقدمها IBM Consulting في إعادة تصور طريقة عمل الشركات باستخدام حلول الذكاء الاصطناعي من أجل النهوض بأعمالها.

استكشف خدمات الذكاء الاصطناعي
حلول الذكاء الاصطناعي

استفِد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها التي ستكون بجانبك.

استكشف حلول الذكاء الاصطناعي
اتخِذ الخطوة التالية

يضع IBM Maximo Visual Inspection قوة الذكاء الاصطناعي لرؤية الكمبيوتر بين أيدي فرق مراقبة الجودة والفحص لديك. أطلق العنان لقوة رؤية الكمبيوتر بدون برمجة لأتمتة الفحص البصري.

استكشاف Maximo Visual Inspection ألقِ نظرة على قدرات المنتج