 | Уровень сложности: средний Абди Салашур, старший инженер-программист,
IBM
Марсело Перасоло, разработчик архитектуры автономных вычислений,
IBM
25.06.2007 Итак, как настроить "очередность" выявления проблем? В этой статье рассматриваются аспекты визуализации событий для определения очередности выявления проблем, использующие такие концепции технологии автономных вычислений, как анализатор журналов и трассировок Log and Trace Analyzer for Java Desktop (LTA JD) и симптомы с целью представления, выявления, оценки и разрешения инцидентов и проблем, связанных с действиями и управлением инфраструктурой решения критически важных для бизнеса задач. Данная статья, состоящая из двух частей, охватывает также визуализацию событий и симптомов и методы обработки LTA JD, предназначенные для обеспечения эффективного проактивного предотвращения этих инцидентов и проблем. В первой части статьи вы познакомитесь с лежащими в основе технологии концепциями.
Существует простая формула - сложность задачи мониторинга событий возрастает с ростом объема и количества источников событий. В связи с этим недостаточная визуализация событий приводит к неполноте выявления проблем и анализа основных причин сбоев, что равносильно потере времени, нерациональности ведения бизнеса и повышению затрат на восстановление систем. Назрела потребность в улучшении механизмов визуализации событий и связанных с ними симптомов и, тем самым, в повышении эффективности деятельности персонала в отношении выявления, локализации и предотвращения проблем. Приложения для управления автономными вычислениями могут поддерживать конкретные стили управления, определяющие их функции и требования к набору отслеживаемых ими управляемых ресурсов.
Существует несколько различных подходов к визуализации событий. Обычно решения по мониторингу событий взаимодействуют с оператором-человеком, который отвечает за анализ и реагирование на проблемы, связанные с событиями. При обнаружении возникших проблем и выборе способов их решения оператор полагается на личный опыт и на свое восприятие комбинаций событий. В настоящее время комбинации нескольких событий могут вызвать в IT-средах более сложные проблемы; именно в эти моменты анализ, выполняемый человеком, может превратиться в сложную и отнимающую много времени процедуру.
Кроме того, именно в этот момент решения для мониторинга должны реализовать автоматическую корреляцию комбинаций событий, чтобы сделать работу системных инженеров менее обременительной; такая автоматическая корреляция включает запуск анализа основных причин сбоя и группировку событий по их сравнительному вкладу в развитие проблемы. Затем автоматически выявленные события, ставшие основной причиной сбоя, должны быть переданы для просмотра и реагирования (и, надеемся, для успешного разрешения ситуации) оператору-человеку.
Среди поддерживаемых стилей управления - операторский, автоматический, либо оба стиля. При работе в операторском стиле автономный менеджер опрашивает управляемые им ресурсы, чтобы понять, когда нужно вмешаться и выполнить необходимые действия. Другими словами, это вариант создания комбинации человека и пользовательского интерфейса, играющей роль оператора ручного управления в архитектуре автономных вычислений (см. раздел Ресурсы). Например, оператор ручного управления может отслеживать несколько источников событий, а при обнаружении одного или более событий определенной значимости (то есть шаблона, который в технологии автономных вычислений называется симптомом), инициировать одно или более действий для сдерживания или решения обнаруженной проблемы.
Как правило, симптомы проблемы выявляются в тех случаях, когда наблюдаются все события, удовлетворяющие критериям для данных симптомов (они называются правилами симптомов). В сущности, одна из основных задач этой серии статей - это описание способа облегчить поэтапное выявление и визуализацию симптомов, а также метода совместного использования знаний предметной области операторами-людьми с помощью механизма объединения визуальной семантики событий и симптомов наиболее рациональным образом. Этот метод реализован в форме простого модуля визуализации событий, известного под названием Log and Trace Analyzer for Java Desktop (LTA-JD), инструмента, который способен выполнять сбор, слияние, фильтрацию, сортировку, вывод на экран и анализ контента стандартизованных источников событий (например, форматов событий Common Base Event и Web Services Distributed Management [WSDM] Event Format, или WEF) для локализации проблемы и установления очередности анализа проблем.
Функция установления очередности совместно с превосходными механизмами визуализации, предлагаемыми LTA JD, повышает эффективность анализа основной причины сбоя, а также прогнозирования проблем и реагирования на них. Экспертные знания и аналогичные симптомы в виде полуструктурированной информации могут легко извлекаться и захватываться с помощью выражений XPath - отраслевого стандарта для быстрого обнаружения и визуализации симптоматичных событий.
В двух частях нашей статьи мы расскажем об основах мониторинга событий, выявления симптомов с целью анализа проблем и реагирования, а также о дополнительных атрибутах визуализации, реализуемых LTA-JD. В первой части речь пойдет, главным образом, об основных принципах, а во второй части мы перейдем к более подробному описанию.
Выявление проблем
Выявление проблем - это обнаружение и диагностика ситуаций, нарушающих функциональное состояние или доступность бизнес-приложений. Задача выявления проблем - это достижение максимальной готовности бизнес- и IT-систем посредством минимизации времени на восстановление после ситуаций, которые нарушили нормальную работу системы или ее готовность. Это достигается путем сбора отслеживаемой информации с помощью инструментов для быстрого выявления значимых условий, диагностики причин возникновения проблем и применения доступных знаний для восстановления нормальной деятельности бизнес- и IT-систем. Симптомы проблемы часто выявляются в тех случаях, когда наблюдаются все события, удовлетворяющие критериям для данных симптомов. В этой статье мы рассмотрим:
- Способ облегчения поэтапного выявления и визуализации симптоматичных событий;
- Метод совместного использования знаний предметной области операторами-людьми с помощью механизма объединения визуальной семантики событий и симптомов наиболее рациональным образом.
Событиями выявления проблем называют события, которые специально предназначены для использования с целью поддержки процесса выявления проблем. События выявления проблем могут включать многие типы данных, в том числе, информацию о:
- функциональном состоянии;
- изменениях состояния;
- обработке запросов;
- показателях производительности или сбоях.
Чтобы использовать автономные функции для выявления проблем, необходим стандартный формат событий. Один из доступных в настоящее время форматов - Common Base Event, представляющий собой унифицированное представление события для обмена данными ситуаций выявления проблем между сущностями, принимающими участие в функциях автономных вычислений. Это основной движущий фактор для самоуправляемых систем на основе автономных вычислений. Дополнительную информацию о стандартизации аспектов формата Common Base Event можно найти в разделе Ресурсы.
В автономных вычислениях элементы часто обмениваются данными и знаниями; часто эти знания включают в шаблоны композицию простых событий, описательную информацию о ситуации и действия по исправлению, рекомендуемые для ее разрешения. Симптом, как унифицированный формат знаний, представляет собой форму знаний, которая указывает на возможную проблему или распознанную в управляемой среде ситуацию.
Процесс выявления проблемы может осуществляться двумя различными способами:
- Вручную; в этом случае инциденты и проблемы обрабатываются непосредственно экспертами соответствующей предметной области;
- Автоматически; в этом случае симптомы являются абсолютно необходимым средством предоставления информации для автоматического выявления, диагностики, восстановления и разрешения.
В зависимости от степени зрелости автономной системы, функции ручного мониторинга приложения мониторинга событий объединены с автономными функциями автономного менеджера, который может обрабатывать симптомы. Благодаря этому организуется такое сосуществование оператора-человека и менеджера автономных вычислений, при котором менеджеры автономных вычислений выполняют всю тяжелую работу, а человеческий опыт используется для просмотра и утверждения принятых автономными функциями решений.
LTA-JD, инструмент визуализации событий и симптомов
Инструмент LTA-JD реализует гибридное приложение для мониторинга событий/симптомов. Он представляет собой автономный, простой в применении модуль просмотра событий Java, обеспечивающий возможность сбора, слияния, фильтрации, сортировки, вывода на экран, анализа содержимого файлов журналов и событий из большого количества продуктов в общем представлении, позволяющий локализовать неполадки и установить очередность анализа проблем. Для агрегации данных о событии он использует стандартные форматы данных, в том числе, формат Common Base Event. Эти возможности могут быть встроены в несколько продуктов Tivoli® (например, IBM® Tivoli Monitoring), чтобы расширить общие возможности анализа проблем данных продуктов. Фактически, этот инструмент может выполнять глубокий анализ данных захваченных событий для определения основной причины проблем.
Инструмент LTA-JD предоставляет возможность вручную управлять задачами выявления проблем и интегрировать функции автономных вычислений, которые могут помочь в сборе, выявлении, локализации, диагностике для восстановления системы и устранения проблем. Функции установления очередности в сочетании с превосходными механизмами визуализации, предлагаемыми LTA JD, повышают эффективность анализа основной причины и разрешения проблемы. Экспертные знания и простые правила выбора симптоматических событий могут быть легко извлечены и захвачены с помощью выражений XPath, отраслевого стандарта для быстрого выявления и визуализации симптоматических событий.
После сбора и слияния событий для каждого симптома, сопоставленного событию в наборе событий, извлекаются или создаются рекомендуемые действия, ассоциируемые с этим симптомом. Параметры визуализации затем привязываются к событиям, собранным инструментом, и к параметрам визуализации родственных симптомов. Аналогично, текстовая информация событий, собранная инструментом, привязывается к соответствующим рекомендациям действий для родственных симптомов. Затем данные событий и симптомов обрабатываются посредством объединения событий в коллекцию, в которой информация о визуализации и текстовая информация сопоставляются с критериями, принятыми оператором-человеком, осуществляющим взаимодействие с интерфейсом конечного пользователя инструмента. Эта коллекция событий и симптомов помогает конечным пользователям сократить объем подлежащей обработке информации.
Приложение LTA-JD включает следующие основные функции:
- Модуль нормализации событий, который собирает различные виды информации и преобразует их в понятный системе формат;
- Модуль фильтрации событий и визуализации, который собирает различные события от управляемого ресурса и выводит их на экран для системного администратора и обслуживающего персонала;
- Простой модуль выявления симптомов, который компонует симптомы и привязывает их к параметрам визуализации;
- Интегрированный модуль визуализации симптомов, который представляет симптомы с наложением аспектов их визуализации на аспекты обычных событий (которые, в свою очередь, являются компонентами симптомов);
- Модуль динамического избежания симптомов, который стремится выявить симптомы и дать рекомендации администратору-человеку по поводу действий, необходимых для предотвращения появления обнаруженного симптома (тем самым предотвращая проблему до ее возникновения).
На рисунке 1 показаны основные архитектурные элементы LTA-JD.
Рисунок 1. Основные архитектурные элементы инструмента Log and Trace Analyzer for Java Desktop
Функция нормализации данных LTA-JD осуществляется тесно интегрированной с ним инфраструктурой Generic Log Adapter (GLA). Инфраструктура GLA в настоящий момент предоставляет большое количество готовых адаптеров, которые преобразуют специфическую для приложений информацию в виде файлов журналов приложений в стандартный формат Common Base Event (CBE).
Модуль фильтрации событий и визуализации инструмента LTA-JD оснащен простым модулем визуализации, который дает пользователям возможность отфильтровать шум или не имеющие значения события, и сконцентрироваться только на тех событиях, которые действительно участвуют в возникновении проблемы.
На рисунке 2 показано главное окно инструмента LTA-JD. Этот вид показывает порядок событий в виде таблицы и механизмы выбора и фильтрации для выполнения традиционных функций мониторинга событий. Кроме того, он предоставляет способ более глубоко рассмотреть отдельное событие и изучить его атрибуты и значения. Наконец, есть возможность объединить различные нормализованные источники событий, чтобы получить общее представление всего спектра событий, имеющих место в управляемой системе.
Рисунок 2. Отображение событий в LTA-JD
Типичный администратор IT-системы визуализирует отфильтрованную информацию и вручную выполняет анализ потока событий (применив фильтрацию и визуальное изучение), чтобы понять, какие проблемы возникли и как их разрешить.
Функции фильтрации в LTA-JD оснащены особым улучшенным обработчиком XPath, который называется Fast XPath. Этот обработчик оптимизирован для обработки большого количества событий и фильтруемых выражений и быстрого возвращения подходящих результатов.
Идентификация симптомов и объединенная визуализация
Часто симптомы создаются вручную или посредством полуавтоматического захвата их основных элементов:
- Метаданных, содержащих значения основных атрибутов;
- Схемы, описывающей характер информации, присоединенной в процессе выполнения;
- Правила симптома, описывающего, как распознать симптом;
- Действия по симптому, описывающего, как реагировать на симптом.
(Раздел Ресурсы содержит дополнительную информацию об аспектах стандартизации симптомов и объясняет понятие действия по симптому.)
Текущие функции LTA-JD могут помочь в создании правил симптомов (с помощью построителя правил Rule Builder), позволяющих определить простой способ распознавания симптомов (другими словами, выполнить локализацию проблемы и диагностику с использованием информации - такой как событие - компонента симптома) и идентифицировать симптоматичные события. Правило может существовать в любой форме: Инструмент LTA-JD использует стандартный синтаксис выражения или правила XPath, поскольку этот язык предлагает более простую функциональную совместимость симптомов, описанных в разных управляемых средах.
Правила, созданные построителем правил Rule Builder, допускают использование дополнительных свойств, таких как description, представляющее собой текст более подробного описания симптома (обычно составленный экспертами в данной предметной области) и highlighter (с настраиваемой цветовой схемой) для выделения цветом событий, которые соответствуют этому правилу. Свойство highlighter улучшает визуализацию симптоматичных событий для выявления проблем и анализа.
На рисунке 2 показано главное окно инструмента LTA-JD, в котором выделены несколько событий, соответствующих конкретному правилу, определенному пользователем. Кроме того, при наведении указателя мыши на любое из выделенных событий отображается подсказка с описанием, присоединенным к этому выделению (правилом).
Чтобы облегчить составление правил (иначе называемых критериями выбора), инструмент LTA-JD предоставляет простой построитель правил Rule Builder -- несложный редактор правил, который позволяет пользователям, не знакомым с языком XPath, быстро создавать простые, но, тем не менее, комплексные запросы для решения трех задач:
- Идентифицировать события, которые соответствуют этим правилам, то есть события, которые выглядят, как симптоматичные события;
- Выделить события, о которых идет речь, с помощью палитры цветов, чтобы дополнительно улучшить визуализацию симптоматичных событий;
- Способствовать сокращению объема событий, оставив только выделенные.
Таким образом, пользователь, не имеющий представления о синтаксисе языка XPath, может создавать правила, используя только свойства событий и реляционные/булевские операторы. На рисунке 3 показано окно простого построителя правил Rule Builder.
Рисунок 3. Простой построитель правил XPath Rule builder
На рисунке 4 показано окно добавления/удаления выделенных элементов LTA-JD "Add/Remove Highlighter", в котором информация визуализации присоединена к определениям симптомов. Мы видим, что она включает идентификатор (указываемый создателем симптома или извлекаемый из определения симптома, которое в данном случае эквивалентно его описанию), фоновый и основной цвета, которые используются для выделения компонентов симптома (событий, которые связаны друг с другом и формируют симптом) и фильтр выделения (известный также как простое правило симптома). Такие события определяются в процессе рабочего цикла посредством применения правил симптомов.
Рисунок 4. Привязка параметров визуализации к правилам симптома
После того как эта информация станет доступной для LTA-JD, инструмент использует ее для установления очередности анализа событий во время рабочего цикла по мере поступления на обработку, и представляет их конечному пользователю.
Более того, инструмент LTA-JD поддерживает формат IBM Symptom 2.0, позволяющий использовать предоставляемые IBM и пользователями каталоги симптомов с описанием известных проблем. Симптомы - это одна из форм компонентов знания автономных вычислений, которая используется для анализа журналов. Это помогает идентифицировать условия возникновения системных ошибок и предпринять действия для разрешения проблемы в LTA-JD или других аналогичных модулях LTA.
Можно выбрать один или более каталогов либо в локальной системе, либо на ftp или http-сайте. В настоящее время IBM предлагает 10 каталогов симптомов для некоторых основных программных продуктов IBM, например, для WebSphere® Application Server и DB2® Universal Database Manager. Эти каталоги симптомов доступны в открытой библиотеке по автоматизации процессов (IBM Tivoli Open Process Automation Library, OPAL); кроме того, адреса каталогов имеются в окне добавления/удаления каталогов симптомов "Add/Remove symptom catalog".
Функция анализа LTA-JD позволяет пользователям выделить одно или более событий, а затем выбрать из раскрывающегося меню команду Analyze. Каждое событие в списке выделенных цветом событий проверяется по выбранному списку каталогов на наличие одного или более совпадений. Чтобы еще более упростить эту процедуру, пользователь может выбрать одно из выделенных событий и команду Analyze; в этом случае будут проанализированы все выделенные цветом события.
После того как искомые каталоги симптомов для выделенных событий и симптом (симптомы) будут найдены, для каждого события отдельно будет выведен отчет с определениями симптомов. Перейдите на вкладку Analysis в подробном представлении события в нижней части главного окна LTA-JD для просмотра результатов анализа. При обнаружении совпадения результаты анализа будут содержать имя, описание, возможные рекомендации для локализации симптома и возможные рекомендуемые действия. На рисунке 5 показано представление анализируемых событий.
Рисунок 5. Результат анализа симптомов
Заключение
В этой статье были рассмотрены основы технологии выявления проблем и некоторые артефакты автономных вычислений, необходимые для автоматизации общих задач выявления проблем, которые обычно во многих обстоятельствах выполняются вручную. Мы продемонстрировали общую инфраструктуру, необходимую для выполнения объединенного и более сложного анализа, который затруднительно провести с помощью центрального или ручного управления.
Во второй части статьи мы расскажем о методе и приложении, которые способны согласовать ручные операции, а также продолжим демонстрацию общей инфраструктуры, необходимой для выполнения объединенного и комплексного анализа.
Мы ставим перед собой задачу показать, что инструмент LTA-JD имеет собственную инфраструктуру для проведения анализа очередности, позволяющую выполнить локализацию и диагностику проблем и способную предоставить анализ симптомов, способствующий установлению очередности выявления проблем очень простым и унифицированным способом. Мы показали, что в существующие симптомы можно добавлять в качестве компонентов дополнительные правила предотвращения и действия, чтобы обеспечить высокий уровень прогностического анализа и проактивное предотвращение возникновения проблем.
После того как администратор IT-системы обретет достаточную уверенность в делегировании общих задач автономным элементам, он может приступить к созданию контента, необходимого для решения таких сложных задач, которые мы только что описали, и полностью интегрированного в общую среду визуализации и выполнения. Инфраструктура, необходимая для этого, уже есть - нужно только разработать более эффективный контент для функций прогнозирования и предотвращения проблем, чтобы сделать их жизнеспособными.
Ресурсы Научиться
- Оригинал статьи: Build a framework for problem determination triage;
- Прекрасный ресурс, посвященный работе с симптомами - серия "Symptoms deep dive" (Подробно о симптомах), в которую входят статьи intro to the symptoms format (введение в форматы симптомов) (сайт developerWorks, октябрь 2005 г.), fun things to do with symptoms (трюки с симптомами) (декабрь 2005 г.) и standard taxonomy to help classify symptoms (стандартная таксономия, облегчающая классификацию симптомов) (май 2006 г.);
- Дополнительную информацию о формате Common Base Event можно найти на следующих ресурсах:
- С дополнительной информацией о формате событий WSDM можно ознакомиться в проекте OASIS Committee WSDM: Management Using Web Services (MUWS) Part 1 and Part 2 (Управление с использованием Web-сервисов (MUWS), части 1 и 2);
- Дополнительную информацию о языке XPath можно найти в спецификации W3C version 1.0 и на сайте developerWorks: серии core XML standards (основные стандарты XML), Знакомство со спецификациями (стандарт WS-RT 1.0) (сайт developerWorks, первая статья вышла в сентябре 2006 г.);
- Библиотека инфраструктур IT IT Infrastructure Library (ITIL) представляет собой сводный набор лучших практических методов, взятых из открытых и частных секторов всех стран, созданный для публикации информации о принципах решения проблем технического обслуживания IT-систем.
Получить продукты и технологии
Обсудить
Об авторах  | |  | Абди Салашур (Abdi Salahshour), старший инженер-программист, разработчик архитектуры выявления неполадок и специалист по внедрению в отделе технологии автономных вычислений и внедрения IBM (Autonomic Computing Technology and Enablement) лаборатории Research Triangle Park, штат Северная Каролина, занимается технологией автономных вычислений и инструментами внедрения. Он поступил на работу в IBM в 1982 и с тех пор выполнял много различных функций: от проектирования и разработки инструментов диагностики состояния баз данных до технологий управления системами и архитектуры самодиагностики и внедрения разработок в неоднородных и распределенных средах. Он также входил в состав совета по технологии выявления проблем (IBM Problem Determination Council). Этот совет занимался, главным образом, моделированием артефактов и разработкой архитектуры выявления проблем. Кроме того, Абди является одним из авторов спецификации IBM Common Base Event, он также был одним из разработчиков и реализаторов Generic Log Adapter. В последние два с половиной года его профессиональные интересы лежат в сфере совместной работы с отделом IBM Research по использованию и применению новых технологий и технологий извлечения данных (data mining) в автономных средах. |
 | |  | Марсело Перасоло (Marcelo Perazolo) - сотрудник отдела архитектуры автономных вычислений ( IBM Autonomic Computing Architecture), он занимается архитектурой форматов симптомов и других знаний и определением таксономий интеграций управления (Management Integration Taxonomies), связанных с автономными вычислениями. В IBM он работает с 1990 года, занимаясь различными проектами в области компьютерных сетей и управления системами. В 1994 году Марсело получил степень магистра в области электротехники. Среди его профессиональных интересов - выявление и прогнозирование проблем, технологии оптимизации процессов, безопасность, корреляционные технологии и представление знаний. |
Выскажите мнение об этой странице
|  |