IBM®
Перейти к тексту
    в России и странах СНГ [изменить]    Условия использования
 
 
   
    Главная страница    Продукты    Услуги и решения    Поддержка и загрузка    Мой профиль    
Перейти к тексту

developerWorks Россия  >  XML | Tivoli | WebSphere | Information Management  >

Создайте инфраструктуру очередности выявления проблем

Лежащие в основе этой технологии концепции используют визуализацию событий и симптомы (symptoms) для эффективного выявления проблем

developerWorks
Опции документа

Опции документа, требующие включения JavaScript, не отображаются

Обсудить


Выскажите мнение об этой странице

Помогите нам улучшить содержание


Уровень сложности: средний

Абди Салашур, старший инженер-программист, IBM
Марсело Перасоло, разработчик архитектуры автономных вычислений, IBM

25.06.2007

Итак, как настроить "очередность" выявления проблем? В этой статье рассматриваются аспекты визуализации событий для определения очередности выявления проблем, использующие такие концепции технологии автономных вычислений, как анализатор журналов и трассировок Log and Trace Analyzer for Java Desktop (LTA JD) и симптомы с целью представления, выявления, оценки и разрешения инцидентов и проблем, связанных с действиями и управлением инфраструктурой решения критически важных для бизнеса задач. Данная статья, состоящая из двух частей, охватывает также визуализацию событий и симптомов и методы обработки LTA JD, предназначенные для обеспечения эффективного проактивного предотвращения этих инцидентов и проблем. В первой части статьи вы познакомитесь с лежащими в основе технологии концепциями.

Существует простая формула - сложность задачи мониторинга событий возрастает с ростом объема и количества источников событий. В связи с этим недостаточная визуализация событий приводит к неполноте выявления проблем и анализа основных причин сбоев, что равносильно потере времени, нерациональности ведения бизнеса и повышению затрат на восстановление систем. Назрела потребность в улучшении механизмов визуализации событий и связанных с ними симптомов и, тем самым, в повышении эффективности деятельности персонала в отношении выявления, локализации и предотвращения проблем. Приложения для управления автономными вычислениями могут поддерживать конкретные стили управления, определяющие их функции и требования к набору отслеживаемых ими управляемых ресурсов.

Существует несколько различных подходов к визуализации событий. Обычно решения по мониторингу событий взаимодействуют с оператором-человеком, который отвечает за анализ и реагирование на проблемы, связанные с событиями. При обнаружении возникших проблем и выборе способов их решения оператор полагается на личный опыт и на свое восприятие комбинаций событий. В настоящее время комбинации нескольких событий могут вызвать в IT-средах более сложные проблемы; именно в эти моменты анализ, выполняемый человеком, может превратиться в сложную и отнимающую много времени процедуру.

Кроме того, именно в этот момент решения для мониторинга должны реализовать автоматическую корреляцию комбинаций событий, чтобы сделать работу системных инженеров менее обременительной; такая автоматическая корреляция включает запуск анализа основных причин сбоя и группировку событий по их сравнительному вкладу в развитие проблемы. Затем автоматически выявленные события, ставшие основной причиной сбоя, должны быть переданы для просмотра и реагирования (и, надеемся, для успешного разрешения ситуации) оператору-человеку.

Среди поддерживаемых стилей управления - операторский, автоматический, либо оба стиля. При работе в операторском стиле автономный менеджер опрашивает управляемые им ресурсы, чтобы понять, когда нужно вмешаться и выполнить необходимые действия. Другими словами, это вариант создания комбинации человека и пользовательского интерфейса, играющей роль оператора ручного управления в архитектуре автономных вычислений (см. раздел Ресурсы). Например, оператор ручного управления может отслеживать несколько источников событий, а при обнаружении одного или более событий определенной значимости (то есть шаблона, который в технологии автономных вычислений называется симптомом), инициировать одно или более действий для сдерживания или решения обнаруженной проблемы.

Как правило, симптомы проблемы выявляются в тех случаях, когда наблюдаются все события, удовлетворяющие критериям для данных симптомов (они называются правилами симптомов). В сущности, одна из основных задач этой серии статей - это описание способа облегчить поэтапное выявление и визуализацию симптомов, а также метода совместного использования знаний предметной области операторами-людьми с помощью механизма объединения визуальной семантики событий и симптомов наиболее рациональным образом. Этот метод реализован в форме простого модуля визуализации событий, известного под названием Log and Trace Analyzer for Java Desktop (LTA-JD), инструмента, который способен выполнять сбор, слияние, фильтрацию, сортировку, вывод на экран и анализ контента стандартизованных источников событий (например, форматов событий Common Base Event и Web Services Distributed Management [WSDM] Event Format, или WEF) для локализации проблемы и установления очередности анализа проблем.

Функция установления очередности совместно с превосходными механизмами визуализации, предлагаемыми LTA JD, повышает эффективность анализа основной причины сбоя, а также прогнозирования проблем и реагирования на них. Экспертные знания и аналогичные симптомы в виде полуструктурированной информации могут легко извлекаться и захватываться с помощью выражений XPath - отраслевого стандарта для быстрого обнаружения и визуализации симптоматичных событий.

В двух частях нашей статьи мы расскажем об основах мониторинга событий, выявления симптомов с целью анализа проблем и реагирования, а также о дополнительных атрибутах визуализации, реализуемых LTA-JD. В первой части речь пойдет, главным образом, об основных принципах, а во второй части мы перейдем к более подробному описанию.

Выявление проблем

Выявление проблем - это обнаружение и диагностика ситуаций, нарушающих функциональное состояние или доступность бизнес-приложений. Задача выявления проблем - это достижение максимальной готовности бизнес- и IT-систем посредством минимизации времени на восстановление после ситуаций, которые нарушили нормальную работу системы или ее готовность. Это достигается путем сбора отслеживаемой информации с помощью инструментов для быстрого выявления значимых условий, диагностики причин возникновения проблем и применения доступных знаний для восстановления нормальной деятельности бизнес- и IT-систем. Симптомы проблемы часто выявляются в тех случаях, когда наблюдаются все события, удовлетворяющие критериям для данных симптомов. В этой статье мы рассмотрим:

  • Способ облегчения поэтапного выявления и визуализации симптоматичных событий;
  • Метод совместного использования знаний предметной области операторами-людьми с помощью механизма объединения визуальной семантики событий и симптомов наиболее рациональным образом.

Событиями выявления проблем называют события, которые специально предназначены для использования с целью поддержки процесса выявления проблем. События выявления проблем могут включать многие типы данных, в том числе, информацию о:

  • функциональном состоянии;
  • изменениях состояния;
  • обработке запросов;
  • показателях производительности или сбоях.

Чтобы использовать автономные функции для выявления проблем, необходим стандартный формат событий. Один из доступных в настоящее время форматов - Common Base Event, представляющий собой унифицированное представление события для обмена данными ситуаций выявления проблем между сущностями, принимающими участие в функциях автономных вычислений. Это основной движущий фактор для самоуправляемых систем на основе автономных вычислений. Дополнительную информацию о стандартизации аспектов формата Common Base Event можно найти в разделе Ресурсы.

В автономных вычислениях элементы часто обмениваются данными и знаниями; часто эти знания включают в шаблоны композицию простых событий, описательную информацию о ситуации и действия по исправлению, рекомендуемые для ее разрешения. Симптом, как унифицированный формат знаний, представляет собой форму знаний, которая указывает на возможную проблему или распознанную в управляемой среде ситуацию.

Процесс выявления проблемы может осуществляться двумя различными способами:

  • Вручную; в этом случае инциденты и проблемы обрабатываются непосредственно экспертами соответствующей предметной области;
  • Автоматически; в этом случае симптомы являются абсолютно необходимым средством предоставления информации для автоматического выявления, диагностики, восстановления и разрешения.

В зависимости от степени зрелости автономной системы, функции ручного мониторинга приложения мониторинга событий объединены с автономными функциями автономного менеджера, который может обрабатывать симптомы. Благодаря этому организуется такое сосуществование оператора-человека и менеджера автономных вычислений, при котором менеджеры автономных вычислений выполняют всю тяжелую работу, а человеческий опыт используется для просмотра и утверждения принятых автономными функциями решений.

LTA-JD, инструмент визуализации событий и симптомов

Инструмент LTA-JD реализует гибридное приложение для мониторинга событий/симптомов. Он представляет собой автономный, простой в применении модуль просмотра событий Java, обеспечивающий возможность сбора, слияния, фильтрации, сортировки, вывода на экран, анализа содержимого файлов журналов и событий из большого количества продуктов в общем представлении, позволяющий локализовать неполадки и установить очередность анализа проблем. Для агрегации данных о событии он использует стандартные форматы данных, в том числе, формат Common Base Event. Эти возможности могут быть встроены в несколько продуктов Tivoli® (например, IBM® Tivoli Monitoring), чтобы расширить общие возможности анализа проблем данных продуктов. Фактически, этот инструмент может выполнять глубокий анализ данных захваченных событий для определения основной причины проблем.

Инструмент LTA-JD предоставляет возможность вручную управлять задачами выявления проблем и интегрировать функции автономных вычислений, которые могут помочь в сборе, выявлении, локализации, диагностике для восстановления системы и устранения проблем. Функции установления очередности в сочетании с превосходными механизмами визуализации, предлагаемыми LTA JD, повышают эффективность анализа основной причины и разрешения проблемы. Экспертные знания и простые правила выбора симптоматических событий могут быть легко извлечены и захвачены с помощью выражений XPath, отраслевого стандарта для быстрого выявления и визуализации симптоматических событий.

После сбора и слияния событий для каждого симптома, сопоставленного событию в наборе событий, извлекаются или создаются рекомендуемые действия, ассоциируемые с этим симптомом. Параметры визуализации затем привязываются к событиям, собранным инструментом, и к параметрам визуализации родственных симптомов. Аналогично, текстовая информация событий, собранная инструментом, привязывается к соответствующим рекомендациям действий для родственных симптомов. Затем данные событий и симптомов обрабатываются посредством объединения событий в коллекцию, в которой информация о визуализации и текстовая информация сопоставляются с критериями, принятыми оператором-человеком, осуществляющим взаимодействие с интерфейсом конечного пользователя инструмента. Эта коллекция событий и симптомов помогает конечным пользователям сократить объем подлежащей обработке информации.

Приложение LTA-JD включает следующие основные функции:

  • Модуль нормализации событий, который собирает различные виды информации и преобразует их в понятный системе формат;
  • Модуль фильтрации событий и визуализации, который собирает различные события от управляемого ресурса и выводит их на экран для системного администратора и обслуживающего персонала;
  • Простой модуль выявления симптомов, который компонует симптомы и привязывает их к параметрам визуализации;
  • Интегрированный модуль визуализации симптомов, который представляет симптомы с наложением аспектов их визуализации на аспекты обычных событий (которые, в свою очередь, являются компонентами симптомов);
  • Модуль динамического избежания симптомов, который стремится выявить симптомы и дать рекомендации администратору-человеку по поводу действий, необходимых для предотвращения появления обнаруженного симптома (тем самым предотвращая проблему до ее возникновения).

На рисунке 1 показаны основные архитектурные элементы LTA-JD.


Рисунок 1. Основные архитектурные элементы инструмента Log and Trace Analyzer for Java Desktop
Основные архитектурные элементы инструмента  Log and Trace Analyzer for Java Desktop

Функция нормализации данных LTA-JD осуществляется тесно интегрированной с ним инфраструктурой Generic Log Adapter (GLA). Инфраструктура GLA в настоящий момент предоставляет большое количество готовых адаптеров, которые преобразуют специфическую для приложений информацию в виде файлов журналов приложений в стандартный формат Common Base Event (CBE).

Модуль фильтрации событий и визуализации инструмента LTA-JD оснащен простым модулем визуализации, который дает пользователям возможность отфильтровать шум или не имеющие значения события, и сконцентрироваться только на тех событиях, которые действительно участвуют в возникновении проблемы.

На рисунке 2 показано главное окно инструмента LTA-JD. Этот вид показывает порядок событий в виде таблицы и механизмы выбора и фильтрации для выполнения традиционных функций мониторинга событий. Кроме того, он предоставляет способ более глубоко рассмотреть отдельное событие и изучить его атрибуты и значения. Наконец, есть возможность объединить различные нормализованные источники событий, чтобы получить общее представление всего спектра событий, имеющих место в управляемой системе.


Рисунок 2. Отображение событий в LTA-JD
Отображение событий в  LTA-JD

Типичный администратор IT-системы визуализирует отфильтрованную информацию и вручную выполняет анализ потока событий (применив фильтрацию и визуальное изучение), чтобы понять, какие проблемы возникли и как их разрешить.

Функции фильтрации в LTA-JD оснащены особым улучшенным обработчиком XPath, который называется Fast XPath. Этот обработчик оптимизирован для обработки большого количества событий и фильтруемых выражений и быстрого возвращения подходящих результатов.

Идентификация симптомов и объединенная визуализация

Часто симптомы создаются вручную или посредством полуавтоматического захвата их основных элементов:

  • Метаданных, содержащих значения основных атрибутов;
  • Схемы, описывающей характер информации, присоединенной в процессе выполнения;
  • Правила симптома, описывающего, как распознать симптом;
  • Действия по симптому, описывающего, как реагировать на симптом.

(Раздел Ресурсы содержит дополнительную информацию об аспектах стандартизации симптомов и объясняет понятие действия по симптому.)

Текущие функции LTA-JD могут помочь в создании правил симптомов (с помощью построителя правил Rule Builder), позволяющих определить простой способ распознавания симптомов (другими словами, выполнить локализацию проблемы и диагностику с использованием информации - такой как событие - компонента симптома) и идентифицировать симптоматичные события. Правило может существовать в любой форме: Инструмент LTA-JD использует стандартный синтаксис выражения или правила XPath, поскольку этот язык предлагает более простую функциональную совместимость симптомов, описанных в разных управляемых средах.

Правила, созданные построителем правил Rule Builder, допускают использование дополнительных свойств, таких как description, представляющее собой текст более подробного описания симптома (обычно составленный экспертами в данной предметной области) и highlighter (с настраиваемой цветовой схемой) для выделения цветом событий, которые соответствуют этому правилу. Свойство highlighter улучшает визуализацию симптоматичных событий для выявления проблем и анализа.

На рисунке 2 показано главное окно инструмента LTA-JD, в котором выделены несколько событий, соответствующих конкретному правилу, определенному пользователем. Кроме того, при наведении указателя мыши на любое из выделенных событий отображается подсказка с описанием, присоединенным к этому выделению (правилом).

Чтобы облегчить составление правил (иначе называемых критериями выбора), инструмент LTA-JD предоставляет простой построитель правил Rule Builder -- несложный редактор правил, который позволяет пользователям, не знакомым с языком XPath, быстро создавать простые, но, тем не менее, комплексные запросы для решения трех задач:

  1. Идентифицировать события, которые соответствуют этим правилам, то есть события, которые выглядят, как симптоматичные события;
  2. Выделить события, о которых идет речь, с помощью палитры цветов, чтобы дополнительно улучшить визуализацию симптоматичных событий;
  3. Способствовать сокращению объема событий, оставив только выделенные.

Таким образом, пользователь, не имеющий представления о синтаксисе языка XPath, может создавать правила, используя только свойства событий и реляционные/булевские операторы. На рисунке 3 показано окно простого построителя правил Rule Builder.


Рисунок 3. Простой построитель правил XPath Rule builder
Простой построитель правил XPath Rule builder

На рисунке 4 показано окно добавления/удаления выделенных элементов LTA-JD "Add/Remove Highlighter", в котором информация визуализации присоединена к определениям симптомов. Мы видим, что она включает идентификатор (указываемый создателем симптома или извлекаемый из определения симптома, которое в данном случае эквивалентно его описанию), фоновый и основной цвета, которые используются для выделения компонентов симптома (событий, которые связаны друг с другом и формируют симптом) и фильтр выделения (известный также как простое правило симптома). Такие события определяются в процессе рабочего цикла посредством применения правил симптомов.


Рисунок 4. Привязка параметров визуализации к правилам симптома
Привязка параметров визуализации к правилам симптома

После того как эта информация станет доступной для LTA-JD, инструмент использует ее для установления очередности анализа событий во время рабочего цикла по мере поступления на обработку, и представляет их конечному пользователю.

Более того, инструмент LTA-JD поддерживает формат IBM Symptom 2.0, позволяющий использовать предоставляемые IBM и пользователями каталоги симптомов с описанием известных проблем. Симптомы - это одна из форм компонентов знания автономных вычислений, которая используется для анализа журналов. Это помогает идентифицировать условия возникновения системных ошибок и предпринять действия для разрешения проблемы в LTA-JD или других аналогичных модулях LTA.

Можно выбрать один или более каталогов либо в локальной системе, либо на ftp или http-сайте. В настоящее время IBM предлагает 10 каталогов симптомов для некоторых основных программных продуктов IBM, например, для WebSphere® Application Server и DB2® Universal Database Manager. Эти каталоги симптомов доступны в открытой библиотеке по автоматизации процессов (IBM Tivoli Open Process Automation Library, OPAL); кроме того, адреса каталогов имеются в окне добавления/удаления каталогов симптомов "Add/Remove symptom catalog".

Функция анализа LTA-JD позволяет пользователям выделить одно или более событий, а затем выбрать из раскрывающегося меню команду Analyze. Каждое событие в списке выделенных цветом событий проверяется по выбранному списку каталогов на наличие одного или более совпадений. Чтобы еще более упростить эту процедуру, пользователь может выбрать одно из выделенных событий и команду Analyze; в этом случае будут проанализированы все выделенные цветом события.

После того как искомые каталоги симптомов для выделенных событий и симптом (симптомы) будут найдены, для каждого события отдельно будет выведен отчет с определениями симптомов. Перейдите на вкладку Analysis в подробном представлении события в нижней части главного окна LTA-JD для просмотра результатов анализа. При обнаружении совпадения результаты анализа будут содержать имя, описание, возможные рекомендации для локализации симптома и возможные рекомендуемые действия. На рисунке 5 показано представление анализируемых событий.


Рисунок 5. Результат анализа симптомов
Результат анализа симптомов

Заключение

В этой статье были рассмотрены основы технологии выявления проблем и некоторые артефакты автономных вычислений, необходимые для автоматизации общих задач выявления проблем, которые обычно во многих обстоятельствах выполняются вручную. Мы продемонстрировали общую инфраструктуру, необходимую для выполнения объединенного и более сложного анализа, который затруднительно провести с помощью центрального или ручного управления.

Во второй части статьи мы расскажем о методе и приложении, которые способны согласовать ручные операции, а также продолжим демонстрацию общей инфраструктуры, необходимой для выполнения объединенного и комплексного анализа.

Мы ставим перед собой задачу показать, что инструмент LTA-JD имеет собственную инфраструктуру для проведения анализа очередности, позволяющую выполнить локализацию и диагностику проблем и способную предоставить анализ симптомов, способствующий установлению очередности выявления проблем очень простым и унифицированным способом. Мы показали, что в существующие симптомы можно добавлять в качестве компонентов дополнительные правила предотвращения и действия, чтобы обеспечить высокий уровень прогностического анализа и проактивное предотвращение возникновения проблем.

После того как администратор IT-системы обретет достаточную уверенность в делегировании общих задач автономным элементам, он может приступить к созданию контента, необходимого для решения таких сложных задач, которые мы только что описали, и полностью интегрированного в общую среду визуализации и выполнения. Инфраструктура, необходимая для этого, уже есть - нужно только разработать более эффективный контент для функций прогнозирования и предотвращения проблем, чтобы сделать их жизнеспособными.

Поделитесь мнением...

digg Отзыв на digg.com
del.icio.us Публикация на del.icio.us
Slashdot Публикация на slashdot



Ресурсы

Научиться

Получить продукты и технологии

Обсудить


Об авторах

Абди Салашур (Abdi Salahshour), старший инженер-программист, разработчик архитектуры выявления неполадок и специалист по внедрению в отделе технологии автономных вычислений и внедрения IBM (Autonomic Computing Technology and Enablement) лаборатории Research Triangle Park, штат Северная Каролина, занимается технологией автономных вычислений и инструментами внедрения. Он поступил на работу в IBM в 1982 и с тех пор выполнял много различных функций: от проектирования и разработки инструментов диагностики состояния баз данных до технологий управления системами и архитектуры самодиагностики и внедрения разработок в неоднородных и распределенных средах. Он также входил в состав совета по технологии выявления проблем (IBM Problem Determination Council). Этот совет занимался, главным образом, моделированием артефактов и разработкой архитектуры выявления проблем. Кроме того, Абди является одним из авторов спецификации IBM Common Base Event, он также был одним из разработчиков и реализаторов Generic Log Adapter. В последние два с половиной года его профессиональные интересы лежат в сфере совместной работы с отделом IBM Research по использованию и применению новых технологий и технологий извлечения данных (data mining) в автономных средах.


Марсело Перасоло (Marcelo Perazolo) - сотрудник отдела архитектуры автономных вычислений ( IBM Autonomic Computing Architecture), он занимается архитектурой форматов симптомов и других знаний и определением таксономий интеграций управления (Management Integration Taxonomies), связанных с автономными вычислениями. В IBM он работает с 1990 года, занимаясь различными проектами в области компьютерных сетей и управления системами. В 1994 году Марсело получил степень магистра в области электротехники. Среди его профессиональных интересов - выявление и прогнозирование проблем, технологии оптимизации процессов, безопасность, корреляционные технологии и представление знаний.




Выскажите мнение об этой странице


Пожалуйста, найдите минутку и заполните форму, чтобы повысить уровень сервиса.



ДаНетНе знаю
 


 


12345
 


В начало


IBM обладает всеми авторскими правами касательно информации, расположенной на developerWorks. Использование информации приведенной на этом ресурсе без явного письменного разрешения от IBM или первоначального автора запрещены. Если Вы желаете использовать информацию с developerWorks, пожалуйста воспользуйтесь регистрационной формой для того, чтобы связаться с нами запрос на использование материалов developerWorks Россия.

    IBM в России Конфиденциальность Контакты