ما هي قابلية الملاحظة في هندسة موثوقية الموقع (SRE observability)؟

عمال يتبادلون الأفكار داخل مكتب

مؤلف

Chrystal R. China

Staff Writer, Automation & ITOps

IBM Think

ما هي قابلية الملاحظة في هندسة موثوقية الموقع؟

قابلية الملاحظة في هندسة موثوقية المواقع هي ممارسة تشمل أدوات تطوير البرمجيات ومنهجياتها لتوفير رؤية دقيقة لحالة النظام أو العملية من خلال تحليل المخرجات الخارجية لها.

وتستخدم هذه الممارسة أدوات القياس البرمجي لجمع وتحليل البيانات عبر بيئة الحوسبة (بما في ذلك البنية التحتية والتطبيقات)، مما يمكّن فرق تكنولوجيا المعلومات من فهم بنيتهم وصيانتها وتحسين موثوقية المواقع بمرور الوقت.

تتجاوز قابلية الملاحظة في هندسة موثوقية الموقع (SRE) مفهوم مراقبة الأنظمة التقليدية، التي تُعدّ مكونًا أساسيًا في أي استراتيجية مراقبة، لكنها لا توفر الرؤية الشاملة المطلوبة لتحسين شبكات الحوسبة الحديثة.

فعلى سبيل المثال، يمكن لأدوات المراقبة التقليدية تقديم لوحات معلومات لتصور حالة النظام وتنبيه فرق تكنولوجيا المعلومات عند حدوث أعطال. لكن بيئات الحوسبة السحابية الأصلية اليوم أصبحت موزعة بشكل متزايد، وتعتمد على مجموعة من الخدمات المصغّرة، والخوادم الطرفية، وحاويات Docker، ووظائف الحوسبة بدون خوادم.

وتتسم هذه الشبكات بمرونة عالية وتتطلب تدخلًا بشريًا محدودًا لإدارة خدمات الشبكة، مما يجعل أدوات المراقبة التقليدية غير كافية حتى في أبسط مهام المراقبة.

يتمثل الهدف من قابلية الملاحظة في تزويد مهندسي الموثوقية بالبيانات القابلة للتنفيذ التي يحتاجونها للحفاظ على مواقع وخدمات آمنة وقابلة للتوسّع وعالية التوافر. وعندما تكون الأنظمة قابلة للملاحظة، يمكن للمهندسين بسهولة عرض الأنشطة الداخلية واستكشاف المشكلات والثغرات التي قد تؤثر سلبًا في موثوقية المواقع ومعالجتها بشكل أفضل. كما تساعد قابلية الملاحظة في هندسة موثوقية الموقع (SRE) المهندسين على تحسين الأداء العام للشبكة وتنفيذ ممارسات التحسين المستمر عبر خدمات الشبكة.

تصميم ثلاثي الأبعاد لكرات تتدحرج على مسار

أحدث الأخبار والرؤى حول الذكاء الاصطناعي 


تتوفر معارف وأخبار منسقة بمهارة حول الذكاء الاصطناعي والسحابة وغيرها في نشرة Think الإخبارية الأسبوعية. 

نبذة سريعة عن هندسة موثوقية الموقع (SRE) وقابلية الملاحظة

هندسة موثوقية الموقع

هندسة موثوقية الموقع (SRE) SRE هي ممارسة من ممارسات هندسة البرمجيات تجمع بين عمليات التطوير وعمليات تكنولوجيا المعلومات التقليدية (ITOps) بهدف حل مشكلات العملاء، وأتمتة مهام ITOps، وتسريع تسليم البرمجيات، وتقليل مخاطر تكنولوجيا المعلومات. وتركّز هذه الممارسة على تحقيق مستوى عالٍ من المرونة من خلال أتمتة العمليات الرئيسية باستمرار.

تشمل هندسة SRE تقليديًا مهامًا يدوية في عمليات تكنولوجيا المعلومات وإدارة الأنظمة، مثل تحليل السجلات، وتحسين الأداء، والتحديث، واختبار بيئة الإنتاج، وإدارة الحوادث ، وتقييم ما بعد الحوادث. لكن SRE الحديثة تعتمد على الأتمتة لتنفيذ هذه المهام، مما يوفّر الوقت، ويقلّل من الأخطاء البشرية، ويُبسّط التعاون بين فرق التطوير والعمليات.

تستخدم أدوات هندسة موثوقية الموقع (SRE) آلية تُعرف باسم هندسة الفوضى، حيث يتعمّد مهندسو الموثوقية إحداث أعطال في بيئات الإنتاج وما قبل الإنتاج. ويُساعد هذا الأسلوب الفرق على فهم تأثير الإخفاقات على الأنظمة البرمجية وتطوير استراتيجيات لتخفيفها في المستقبل.

كما تُولي هندسة موثوقية الموقع (SRE) أهمية كبيرة لتخطيط السعة، وهي عملية لتحديد متطلبات الموارد للوظائف الحيوية، وتوسيع نطاق هذه الوظائف، وتمكين المطورين من إنشاء تطبيقات وميزات جديدة. باستخدام مؤشرات الأداء الرئيسية المحددة (KPIs)، يمكن لفرق هندسة موثوقية الموقع (SRE) تقييم تسليم التحديثات وتنفيذ الميزات الجديدة.

قابلية الملاحظة

تلعب قابلية الملاحظة دورًا محوريًا في الحفاظ على توفر الأنظمة الحديثة، وأدائها، وأمانها، سواء في البيئات البرمجية أو بيئات الحوسبة السحابية.

مصطلح "قابلية الملاحظة" مستمد من نظرية التحكم (Control Theory)، وهي فرع هندسي يُعنى بأتمتة التحكم في الأنظمة الديناميكية، مثل تنظيم تدفق المياه في الأنابيب استنادًا إلى بيانات أجهزة قياس التدفق.

توفر قابلية الملاحظة رؤية معمّقة لتكدسات التقنيات الحديثة والموزعة، ما يمكّن من التعرف على المشكلات وحلها تلقائيًا وفي الوقت الفعلي. فكلما كانت الأنظمة أكثر قابلية للملاحظة، كان بمقدور فرق تكنولوجيا المعلومات تحديد السبب الأساسي لمشكلات الأداء بسرعة ودقة أكبر، وغالبًا من دون الحاجة إلى اختبارات إضافية أو كتابة تعليمات برمجية جديدة.

يتطلب بناء الأنظمة القابلة للملاحظة وصيانتها استخدام أدوات برمجية قادرة على تجميع وتنسيق وتحليل تدفقات مستمرة من بيانات الأداء من التطبيقات والأجهزة والشبكات التي تعمل عليها. ويمكن لفرق تكنولوجيا المعلومات الاستفادة من هذه البيانات في مراقبة واستكشاف أخطاء كل مكوّن في الشبكة وتصحيحها، مما يساعد المؤسسات على تحسين تجربة العملاء والوفاء باتفاقيات مستوى الخدمة (SLAs).

غالبًا ما يتم الخلط بين قابلية الملاحظة ومفاهيم مثل مراقبة أداء التطبيقات (APM) وإدارة أداء الشبكات (NPM). لكن أدوات قابلية الملاحظة تمثل تطورًا طبيعيًا لأساليب جمع البيانات في APM وNPM، وهي أكثر ملاءمة للشبكات الموزعة ونشر تطبيقات السحابة الأصلية.

مكونات قابلية الملاحظة في هندسة موثوقية الموقع (SRE)

يتطلب تحقيق قابلية الملاحظة جمع بيانات القياس عن بُعد، والتي تشمل:

المقاييس

المقاييس المقاييس: وهي قياسات كمية مُنسّقة، أو مشتقة، أو مجمعة تصف صحة النظام وأدائه (مثل الخادم أو واجهة برمجة التطبيقات) خلال فترات زمنية محددة. فهي تساعد مجموعة على بناء أساس متين لممارسات المراقبة وتحليل البيانات في هندسة موثوقية الموقع (SRE)، بحيث يمكن للمهندسين تحديد الأنماط والتنبؤ بالمشكلات قبل تفاقمها.

تشمل هندسة موثوقية الموقع (SRE) استخدام وحدة المعالجة المركزية، واستهلاك الذاكرة، وزمن انتقال الطلبات، ومعدلات الخطأ، وعرض النطاق الترددي للشبكة، ويوفر كل منها لمحة عن حالة النظام ويساعد الفرق على حل المشكلات المحتملة قبل تفاقمها.

السجلات

السجلات عبارة عن سجلات نصية مفصّلة ومؤرخة للأحداث، تُسجّل عادةً بصيغ نصية أو ثنائية أو مُهيكلة. وغالبا ما توفر نقطة انطلاق للمهندسين الذين يسعون إلى فهم وتشخيص مشكلات النظام.

تقوم أدوات قابلية الملاحظة في هندسة موثوقية المواقع بجمع السجلات وتخزينها وتحليلها وربطها، بما يشمل رسائل الأخطاء وعمليات بدء التشغيل والإيقاف وتغييرات التكوين، مما يتيح لفرق مهندسي موثوقية المواقع (SREs) فهم الأحداث حسب التسلسل الزمني والسياق، وتحديد السبب الأساسي للمشكلة، وتنفيذ مهام سير العمل الخاصة بالمعالجة.

التتبعات

تشمل التتبعات طلبات HTTP واستعلامات قواعد البيانات، وتوفّر رؤية شاملة لدورة حياة الطلب منذ انطلاقه وحتى اكتماله. وتُظهر مسار الطلب عبر شبكة الحوسبة، مُسجِّلة التفاعلات بين المكوّنات والخدمات المختلفة، مثل الاعتماديات.

يعد التتبع - وتحديدًا التتبع الموزع- أداة أساسية في بنيات الخدمات المصغرة، نظرًا لأن الطلبات في هذه البُنى قد تمر عبر خدمات متعددة قبل الوصول إلى وجهتها النهائية.

التنبيهات

تُرسل أدوات قابلية الملاحظة في هندسة موثوقية المواقع (SRE) الإشعارات تلقائيًا عند ظهور المشكلات، مما يمكّن المهندسين من التعامل معها بسرعة وتقليل فترة التعطل بالنسبة للمستخدمين النهائيين.

كما تساعد هذه الحلول المؤسسات على جمع بيانات القياس عن بُعد ومعالجتها في زمن شبه حقيقي، مما يزوّد فرق مهندسي موثوقية المواقع (SREs) برؤى تستند إلى البيانات حول أخطاء النظام وأسباب حدوثها. وتُسهم هذه الرؤى في تقليل العبء المعرفي عن المهندسين خلال مراحل تطوير المواقع وصيانتها، بحيث تتمكن الفرق الصغيرة المستقلة والمتعددة التخصصات من إدارة الخدمات بكفاءة وفاعلية أعلى.

مستقبل قابلية الملاحظة في هندسة موثوقية الموقع (SRE)

يُحدث دمج الذكاء الاصطناعي (AI) والتعلم الآلي (ML) مع حلول قابلية الملاحظة في هندسة موثوقية الموقع (SRE) تحولًا جذريًا في كيفية تعامل المؤسسات مع هندسة موثوقية المواقع (SRE).تمكّن أساليب الذكاء الاصطناعي لعمليات تقنية المعلومات (AIOps) مهندسي موثوقية المواقع (SREs) من دمج أدوات وخوارزميات متقدمة ضمن ممارسات قابلية الملاحظة في هندسة موثوقية المواقع، لتحليل مجموعات البيانات المستخلصة من أدوات قابلية الملاحظة بهدف التعرف على الأنماط، والتنبؤ بانقطاعات الخدمة، واقتراح حلول فعالة.

وبدلًا من التركيز الحصري على المهام اليدوية والبرمجة النصية، يمكن لمهندسي موثوقية المواقع العمل كمدربين ومخططين استراتيجيين للأنظمة الذكية، لتعليم الذكاء الاصطناعي كيفية التعرف على الأنماط، وتصفية الضوضاء، وتجنب الأخطاء المكلفة. ويمثّل هذا التحوّل ارتقاءً لوظيفة مهندس موثوقية المواقع من دور تشغيلي إلى تخصص استراتيجي يركّز على إدارة أنظمة الأتمتة الذكية.

على سبيل المثال، يمكن لأدوات مراقبة هندسة موثوقية الموقع (SRE) استخدام تقنيات الذكاء الاصطناعي لمحاكاة وأتمتة عملية صناعة القرار البشري في عملية الإصلاح. ويمكن لوظائف قابلية الملاحظة المعتمدة على الذكاء الاصطناعي مراقبة البيانات الواردة وتحليلها باستمرار لرصد الأنشطة التي تتجاوز العتبات المحددة مسبقًا، وتنفيذ سلسلة من إجراءات التصحيح، مثل مهام الأتمتة المؤتمتة، لمعالجة المشكلة.

وإذا — وفقط إذا — لم تتمكن البرامج من حل المشكلة، فستقوم تلقائيًا بإنشاء تذكرة دعم تفصيلية على منصة إدارة الأعطال الخاصة بفريق هندسة موثوقية الموقع (SRE)، بحيث يتعامل الفريق فقط مع المشكلات التي تعجز منصة قابلية الملاحظة عن معالجتها.

كما يمكن لأدوات قابلية الملاحظة المعتمدة على الذكاء الاصطناعي الاستفادة من قدرات النماذج اللغوية الكبيرة (LLMs) في معالجة النصوص المتقدمة لتبسيط استخلاص الرؤى من البيانات. تتميّز هذه النماذج اللغوية الكبيرة (LLMs) بالقدرة على التعرف على الأنماط في كميات هائلة من البيانات النصية المتكررة، والتي تتشابه إلى حد كبير مع بيانات القياس عن بُعد في الأنظمة الموزعة والمعقدة. ويمكن تدريب النماذج اللغوية الكبيرة أو توجيهها باستخدام بروتوكولات هندسة الموجّهات لاسترجاع المعلومات والرؤى باستخدام اللغة البشرية من حيث البنية والدلالة.

تساعد هذه النماذج فرق هندسة موثوقية الموقع (SRE) على كتابة الاستعلامات واستكشافها باستخدام اللغة الطبيعية، بدلاً من الاعتماد على لغات الاستعلام المعقدة، مما يمكّن موظفي تكنولوجيا المعلومات من جميع المستويات من إدارة البيانات المعقدة بكفاءة أكبر.

علاوةً على ذلك، تستفيد أدوات قابلية الملاحظة في هندسة موثوقية الموقع (SRE) من دوال الذكاء الاصطناعي السببية التي توضح العلاقات السببية بين المتغيرات وتصوغها بدلاً من الاكتفاء بتحديد الارتباطات. غالبا ما تعتمد تقنيات الذكاء الاصطناعي التقليدية (مثل التعلم الآلي (ML)) على الارتباط الإحصائي للتنبؤ. في حين يسعى الذكاء الاصطناعي السببي إلى اكتشاف الآليات الأساسية التي تُنتج هذه الترابطات، مما يعزز من القدرة التنبؤية لأدوات هندسة موثوقية الموقع (SRE) ويوفّر دعمًا أدق لاتخاذ القرار.

يمكن للذكاء الاصطناعي السببي مساعدة فرق SRE في تحليل العلاقات والاعتماديات بين المواقع ومكونات الشبكة. تعزز هذه الميزات من موثوقية المواقع من خلال توضيح متى وأين تحدث المشكلات، ولكن الأهم: لماذا تحدث.

Mixture of Experts | 28 أغسطس، الحلقة 70

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضمّ إلى نخبة من المهندسين والباحثين وقادة المنتجات وغيرهم من الخبراء وهم يقدّمون أحدث الأخبار والرؤى حول الذكاء الاصطناعي، بعيدًا عن الضجيج الإعلامي.

فائدة أدوات قابلية الملاحظة في هندسة موثوقية الموقع (SRE)

غالبًا ما تتطلب قابلية الملاحظة في هندسة موثوقية الموقع (SRE) استخدام أدوات متقدمة.

الكشف الاستباقي عن المشكلات وتحليل السبب الأساسي

فباستخدام أدوات قابلية الملاحظة، يمكن لفرق هندسة موثوقية الموقع (SRE) استخدام المقاييس والتسجيل والقدرات لاكتشاف مشكلات النظام وتصحيحها قبل أن تؤثر على المستخدمين. تعمل حلول قابلية الملاحظة على مراقبة البيانات وتجميعها عبر الشبكة بأكملها، مما يوفر رؤية واضحة لسلوك النظام ويساعد المهندسين على إجراء تحليلات السبب الأساسي بسرعة. تعزز هذه الأدوات ممارسات هندسة موثوقية الموقع (SRE) الاستباقية على مستوى المؤسسة وساعد الشركات على تحقيق أقصى درجات توافر الشبكة. 

تسريع زمن الاستجابة للحوادث

تعمل حلول قابلية الملاحظة المعتمدة على تجميع البيانات وسياقها على تمكين فرق هندسة موثوقية الموقع (SRE) والمهندسين في حالات الطوارئ من بدء عمليات الاستكشاف بسرعة، واستخلاص رؤى دقيقة عن حالة النظام عند اكتشاف حادث. تُسهِم هذه الحلول في التشخيص السريع ومعالجة المشكلات، وتساعد المؤسسات على الحفاظ على موثوقية المواقع والامتثال لاتفاقيات مستوى الخدمة (SLAs).

اتخاذ قرارات مدروسة وتحسين أداء الموقع

يُعَد اتخاذ القرار المستند إلى البيانات ركيزة أساسية في هندسة موثوقية المواقع (SRE). توفّر منصات قابلية الملاحظة للفرق جميع المعلومات التي تحتاجها لاتخاذ قرارات مدروسة بشأن بنية النظام وتخطيط السعة والاستراتيجيات التشغيلية، مما يضمن أن التغييرات تستند إلى أدلة تجريبية. كما تُمكِّن بيانات القياس عن بُعد الفرق من ضبط أداء النظام باستمرار لتحقيق أقصى قدر من الموثوقية.

تحسين نتائج الأعمال

ترتبط مبادرات هندسة موثوقية الموقع (SRE) ارتباطًا وثيقًا بالأهداف التجارية الأوسع نطاقًا، إذ يؤدي رضا المستخدمين دورًا رئيسيًا في بناء الموثوقية والحفاظ عليها. توفر حلول قابلية الملاحظة في هندسة موثوقية المواقع أدوات لقياس رضا المستخدمين من خلال تمكين المؤسسات من وضع أهداف لمستوى الخدمة (SLOs).

توفّر أهداف مسوى الخدمة رؤى قابلة للتنفيذ حول تجارب المستخدمين، بخلاف المقاييس غير المباشرة مثل استخدام وحدة المعالجة المركزية أو الذاكرة. وبشكل عام، يمكن تكييف أدوات قابلية الملاحظة لتقييم رضا المستخدمين تحديدًا (مثل تحديد المشكلات التي يواجهها المستخدمون أثناء عمليات الشراء). تعزز الاستراتيجيات المستندة إلى أهداف مستوى الخدمة (SLOs) النقاشات المستندة إلى البيانات، ما يساعد المؤسسات على تحديد متى يجب التركيز على الموثوقية ومتى يجب العمل على تطوير ميزات جديدة.

حالات استخدام قابلية الملاحظة في هندسة موثوقية الموقع (SRE)

تساعد قابلية الملاحظة في هندسة موثوقية المواقع المؤسسات على تحسين موثوقية المواقع واستمرارية الخدمة عبر حالات استخدام متنوعة في مختلف القطاعات، ومنها:

التجارة الإلكترونية

في منصات التجارة الإلكترونية، تسهم قابلية الملاحظة في هندسة موثوقية الموقع (SRE) في إنشاء تجارب مستخدم سلسة وضمان موثوقية المعاملات. تستطيع الفرق مراقبة أداء المواقع الإلكترونية، ومعالجة المعاملات، ومقاييس تفاعل المستخدمين في الوقت الفعلي. كما يمكنها استخدام أدوات قابلية الملاحظة لاكتشاف التباطؤات أو الأعطال، مما يساعد على تقليل معدلات ترك عربات التسوق، ويساعد مهندسي المواقع على تحسين أحمال الخوادم وتوسيع الموارد خلال مواسم الذروة.

الخدمات اللوجستية

تمكّن أدوات قابلية الملاحظة في هندسة موثوقية الموقع المؤسسات من مراقبة أوقات تسليم الطرود، وحجم الشحنات، ومستويات المخزون، مما يسهّل اكتشاف الحالات غير المعتادة مثل تأخّر الشحنات أو انخفاض المخزون. كما يمكنها تتبُّع مؤشرات مستوى الخدمة (SLIs) – وهي قياسات كمية لسلوكيات النظام المرتبطة بالخدمات المختلفة – مثل معدلات نجاح التسليم.

الخدمات المصرفية

تُمكِّن قابلية الملاحظة هندسة موثوقية الموقع (SRE) المؤسسات المالية من مراقبة المعاملات الحيوية مثل التحويلات البنكية، والسحب من أجهزة الصراف الآلي، والمدفوعات الإلكترونية. كما تساعد أدوات هندسة موثوقية الموقع (SRE) البنوك على توسيع نطاق مواقعها وأنظمتها تلقائيًا لتلبية الطلب المتزايد على الخدمات المالية الرقمية.

الرعاية الصحية

تمكن قابلية الملاحظة في هندسة موثوقية الموقع (SRE) مقدمي الرعاية الصحية من مراقبة بيانات المرضى وتحليلها في الوقت الفعلي. على سبيل المثال، يمكن لفريق هندسة موثوقية الموقع (SRE) في المستشفى تطبيق نظام لتتبع العلامات الحيوية حتى يتمكن الأطباء والممرضون من التدخل السريع في حالة حدوث حالة طبية طارئة. كما تتيح أدوات قابلية الملاحظة مراقبة البنية التحتية للمستشفى، وتحديد مشكلات الأداء التي قد تمنع الموظفين من تقديم رعاية المرضى بأعلى جودة.

حلول ذات صلة
قابلية ملاحظة الأداء المؤتمتة في الواجهة الأمامية والخلفية للتطبيقات (Full Stack)

تمكَّن من تحديد مصدر المشكلة وإصلاحه سريعًا. حيث توفِّر البيانات عالية الدقة في الوقت الفعلي رؤية شاملة لبيئات التطبيقات والبنية التحتية الديناميكية.

تعرَّف على المزيد عن قابلية الملاحظة المؤتمتة للواجهة الأمامية والخلفية للتطبيقات (Full Stack)
استشارات الذكاء الاصطناعي لعمليات تكنولوجيا المعلومات

تمكَّن من رفع مستوى أتمتة وتشغيل تكنولوجيا المعلومات باستخدام الذكاء الاصطناعي التوليدي، مع ضمان توافق كل جانب من جوانب البنية التحتية لتكنولوجيا المعلومات مع أولويات الأعمال.

تعرَّف على المزيد عن استشارات الذكاء الاصطناعي لعمليات تكنولوجيا المعلومات
IBM SevOne Network Performance Management

IBM SevOne Network Performance Management هو برنامج مراقبة وتحليلات يوفر رؤية ومعارف في الوقت الفعلي للشبكات المعقدة.

مراقبة أداء الشبكة
اتخِذ الخطوة التالية

اكتشِف كيف يمكن لاستخدام الذكاء الاصطناعي في عمليات تقنية المعلومات منحك ما تحتاج إليه من معارف لدفع عجلة أداء أعمالك لمستويات استثنائية من التميز.

استكشف حلول الذكاء الاصطناعي لعمليات تقنية المعلومات احجز عرضًا توضيحيًا مباشرًا