Reliability, Availability, Serviceability (RAS)
Снижение стоимости владения системой
- Уменьшение времени простоя
- Снижение рисков
- Упрощение технической поддержки
RAS - надёжность, доступность, ремонтопригодность
Мир информационных технологий переживает глубокие перемены, охватывающие все уровни, от поведения потребителя и запросов клиентов до спектра запрашиваемых услуг, включая даже такие, как критерии выбора аппаратного и программного обеспечения и архитектуры для построения инфраструктуры.
Сегодня делается все для того, чтобы обеспечить доступ к информации и приложениям из любого места и в любой момент времени.
В тоже время данная эволюция заставила всех IT-специалистов пересмотреть аспекты безопасности своих систем.
В таких условиях необходимо быстро реагировать и адаптироваться к постоянно меняющимся требованиям и запросам рынка, в связи с этим появляется новое понятие - Бизнес по требованию (On Demand Business). В рамках концепции бизнеса по требованию, компания IBM постоянно ведет разработку новых технологий. Одной из таких технологий является программа автономных вычислений (Autonomic Computing Initiative).
Цель программы автономных вычислений IBM - создание IT-систем, способных к автоматическому управлению своими компонентами и изолирующих сложную инфраструктуру от администраторов и пользователей. Данная работа базируется на открытых стандартах, необходимых для полноценной реализации этой стратегии в современном разнородном мире ИТ.
Инициатива Autonomic Computing
Автономные вычисления
Автономные вычисления - динамическая самоопределяющаяся среда для поддержания корректного баланса того, что управляется человеком и самой системой
В долгосрочной перспективе автономные вычисления станут неизбежными, поскольку сложность зачастую сводит на нет преимущества доступности ресурсов. Среди технологий, появившихся с наступлением эпохи электронного Бизнеса по требованию, автономные вычисления, наверное, самая простая в понимании, но и потенциально самая сложная инновационная область. Самоуправляемая система должна обладать четырьмя атрибутами:
- самоконфигурирование (Self-Configuring) - скрывает сложность системы и учитывает происходящие изменения;
- самовосстановление (Self-Healing) - позволяет автоматически справляться с пиковыми нагрузками и делать процесс устранения неисправностей незаметным для пользователей с целью повышения доступности серверов;
- самоопитмизация (Self-Optimizing) - обеспечивает автоматическое распределение собственных ресурсов и их оптимальное использование;
- самозащита (Self-Protecting) - решает проблемы обеспечения безопасности.
Обеспечение эффективной имунной системы сервера
- Защита от ошибок резервированием
- ЕСС кэш и память (исправление одиночных ошибок)
- Chipkill память (исправление двойных ошибок)
- Защита от ошибок изоляцией
- Динамическое освобождение процессоров
- Освобождение шины PCI
- Защита от ошибок переназначением
- Bit steering память
- Горячий резерв
Зачастую приложения, устанавливаемые на сервер, должны функционировать 24 часа в сутки и остановка сервера ведет к значительным финансовым потерям предприятия. Поэтому одним из основных факторов, влияющих на выбор той или иной платформы, является отказоустойчивость аппаратных комплексов.
Компания IBM потратила много времени на развитие технологии RAS для мэйнфреймов, получивших широкую известность благодаря своей исключительной надежности. Наряду с прекрасно зарекомендовавшими себя технологиями мэйнфреймов, в серверах pSeries применен ряд новейших уникальных технологических разработок, которые позволили обеспечить еще больший уровень надежности по сравнению с системами подобного класса.
Поднимает планку готовности UNIX-систем
- Каждая критичная часть системы сообщает о своём статусе в реальном времени
- Информация постоянно отслеживается системой
- Система точно отслеживает сбойный компонент
- Система выполняет действие для предотвращения, исправления или изоляции сбоя
- При необходимости замены компонента система сообщает в сервис
Отличное качество и надежность присуще линейке серверов pSeries во всех аспектах. Это делается для того, чтобы гарантировать работу этих серверов в тех случаях, когда требуется:
- надежно работать
- эффективно справляться с редко повторяющимися отказами, не прерывая работу сервера
- обеспечивать своевременное и профессиональное устранение неисправностей, которое позволит быстро восстановить работу системы и причинить минимум неудобств
Возможности мэйнфреймов по диагностике, основанные на внутренних проверках ошибок, сборе данных об отказах, анализе результатов проверки ошибок без прекращения работы оборудования, доступны для процессоров, памяти, устройств ввода/вывода, элементов питания и охлаждения.
Датчики на МСМ
Процессор расположен на многокристальном модуле (Multi-Chip Module), который напрямую соединен с системной платой. Такой способ размещения был разработан специально для того, чтобы повысить надежность, исключив ярусный способ расположения, при котором отдельные процессорные модули располагаются на процессорных платах, которые, в свою очередь, располагаются на системной плате. Кроме того, сочетание в МСМ технологии медной металлизации и «Кремний на изоляторе» (SOI) позволяют производить компактные компьютерные чипы, потребляющие минимум электроэнергии, что, несомненно, повышает их надежность.
Основные компоненты RAS в pSeries
Компоненты RAS
Вот лишь некоторые функции, применяемые в серверах pSeries, позволяющие существенно повысить надежность аппаратно-программных комплексов:
- Автоматический сбор данных об отказах и диагностика возможностей локализации неисправностей. •Самовосстанавливающиеся после сбоев внутренние процессорные матрицы
- Первая промышленная шина PCI с восстановлением после ошибок четности
- Динамическое исправление ошибок
- Применение кодов коррекции ошибок (ЕСС) для оперативной памяти и кэш 1,2 и 3 уровней. •Технология Chipkill для коррекции ошибок оперативной памяти
- Предсказание возникновения ошибок процессора, кэш, оперативной памяти, подсистемы ввода/вывода •Отключение процессора во время работы и в процессе загрузки системы (Dynamic Processor Deallocation, Persistent Processor Deallocation)
- Диагностика в реальном времени, основанная на сборе данных об отказах подсистемы питания, охлаждения и ввода/вывода
Сбор информации об ошибках в реальном времени
- First Failure Data Capture предоставляет информацию об ошибках в реальном времени и даёт возможность определить компоненты (FRU/s), необходимые для устранения проблемы
- Попытки воссоздать ситуацию, приведшую к сбою, могут занять много времени, быть неэффективными или невозможными
Основываясь на данных об использовании серверов без возможности диагностики отказов в реальном времени, можно сказать, что серьезные отказы случаются в 2-3 раза чаще, если диагностика в реальном времени не используется. Система не может деконфигурировать какой-либо неисправный элемент, если его нельзя продиагностировать. Опыт и сравнение данных об эксплуатации серверов с и без возможности диагностики показывают, что сервера с такой возможностью имеют значительные преимущества.
Диагностика в системах pSeries выявляет примерно 95% отказов в FRU (Field Replaceable Unit). В остальных 5% случаях можно вручную выявить отказ. Для достижения таких показателей используется система датчиков, расположение которых хорошо продумано.
- Отдельный микропроцессор
- Независим от основных процессоров
- Повышение доступности и управляемости системы
- Изолированное электропитание, энергонезависимая память (EPROM), доступ по последовательному порту
- BPOWER5: доступ по TCP/IP
- Доступ с НМС (Ethernet)
- Встроенный Web-интерфейс
- Автоматические действия
- Протоколирование событий в NVRAM
- Рестарт системы
- Обращение в сервисный центр
- Удалённое управление - включение системы, диагностика, настройка
Сервисный процессор — это отдельный независимый процессор, который обеспечивает инициализацию устройств во время IPL, оперативное наблюдение за случаями возникновения ошибок, а так же помогает в техническом обслуживании серверов pSeries. Абсолютно все датчики снабжены доступными для чтения регистрами (Fault Isolation Register) и блокирующей логикой, которая обеспечивает запись обнаруженной ошибки только одним датчиком. Такой вид диагностики улучшает качество других форм диагностирования, таких, как В 1ST, который чаще выявляет постоянные отказы, а не случайные, возникающие только во время работы. Диагностика в реальном времени является детерминистической, так как для каждого датчика определено и задокументировано свое уникальное множество ошибок. Корректность диагностики проверяется следующим образом: в случайные моменты времени создаются условия для возникновения отказа и проверяется правильный ли компонент выявила диагностика. Например, в системе р690 установлено более 15000 внутренних датчиков, а общий размер FIR составляет свыше 5600 бит.
- Запуск диагностических тестов
- Замена компонентов, основываясь на симптомах и прошлом опыте
- Метод коррелляции
- Открытый план действия сервиса при невозможности воссоздать ситуацию
- Тестирование для идентификации и изоляции сбойного компонента
Надёжная идентификация каждого сбойного компонента приводит к уменьшению времени
- Специализированное аппаратное обеспечение, предназначенное для сбора информации о сбое в момент сбоя
- Ремонт, основанный на понимании первопричины сбоя
- Непосредственное понимание проблемы
- Встроенная система обнаружения и протоколирования сбоев
- План действий сервиса, основанный на собранной информации
- Тестирование используется только для окончательной проверки
Для проведения диагностики в реальном времени, сервисный процессор «общается» с сервером через сигналы предупреждения (Attention signals) и специальный порт JTAG, посредством операций записи/чтения из/в него. Операции записи/чтения из регистров FIR асинхронны и прозрачны для работы системы. Другими словами, о существовании регистров FIR «знает» только сервисный процессор.
При выявлении ошибки в каком-либо устройстве система посылает сервисному процессору соответствующий сигнал предупреждения. В ответ на такой сигнал сервисный процессор читает содержимое соответствующего регистра FIR и, анализируя структуру «Who's On First», проверяет активные биты и записывает идентификатор этого регистра в NVRAM. NVRAM служит как бы буфером между сервисным процессором, системным ПО и ОС АIX. Идентификатор регистра вместе с сообщением о природе ошибки системным ПО записывается в лог ошибок AIX. После восстановления сервисный процессор сбрасывает регистры. Теперь они снова могут протоколировать случаи возникновения ошибок.
Повышенное качество компонентов, заложенное в дизайне, помогает предотвратить сбои
- Компоненты и технологии уровня мэйнфрэймов
- Пониженное энергопотребление, сниженная рабочая температура позволяют повысить надёжность
- Специальный дизайн процессорных блоков и карт памяти
- Самонаправляющие рельсы для установки карт памяти, PCI адаптеров и процессорных модулей помогают избежать повреждения контактов
Основная конструкторская работа при разработке линейки pSeries была направлена на анализ и выявление критических точек в СЕС для того, чтобы или совсем их исключить или добиться снижения вероятности отказа. Лучший способ сделать систему отказоустойчивой - это, в первую очередь, предотвратить появление ошибок. Компоненты внутри СЕС спроектированы таким образом, чтобы обеспечить уровень надежности, сравнимый с мэйнфреймами. Они проходят дополнительное тестирование в экстремальных условиях и подвергаются более жесткому отбору, чем стандартные промышленные компоненты, устанавливаемые в обычных UNIX-серверах.
Усиленная конструкция для высокой надёжности:
- Электроника устанавливается в специальные карты (формат book)
- Направляющие рельсы
- Направляющие штыри
- Фиксация замком
- Результат:
- Не повреждаются штыри
- Надёжное соединение
Установка карты памяти
Расположение элементов внутри СЕС хорошо продумано и обеспечивает электромагнитную совместимость, снижает вероятность возникновения ошибок, вызванных электрическими помехами, а также обеспечивает надежное крепление, которое предотвращает разрыв критически важных соединений при ударах или вибрации.
Избыточность используется для поддержания полной работоспособности при сбоях
- Резервные чипы памяти
- N+1 вентиляторы, источники питания
- Избыточные каналы ввода-вывода
- Резервный сервисный процессор
- Резервная НМС
Внутри корпуса N+1 подсистема питания и охлаждения обеспечивают полную избыточность на случай выхода из строя блоков питания, контроллеров питания, устройств охлаждения, и даже кабелей питания. Как и в мэйнфреймах zSeries, возможна немедленная замена компонентов питания и охлаждения.
В серверах pSeries имеется резервный внутренний аккумулятор IBF (Internal Battery Features), который поддерживает работоспособность системы в случае падения напряжения. Для защиты от полного отключения питания сервер pSeries может использовать блоки бесперебойного питания (UPS) в сочетании с IBF или вместо него.
Замена компонентов без остановки системы
"Горячая" замена сбойных компонентов позволяет поддержать работоспособность системы
- Жёсткие диски
- Вентиляторы, воздушные фильтры
- Блоки питания
- PCI адаптеры
Дисковая корзина позволяет производить горячую замену дисков, обеспечивая динамическую реконфигурацию и замену дисков. Каждый PCI-адаптер имеет функцию горячей замены и доступен с тыльной стороны корзины ввода/вывода. Таким образом, при обслуживании PCI-адаптеров нет необходимости переключать корзину в режим обслуживания, при котором необходимо выдвинуть корзину и все подключенные к ней кабели для извлечения PCI адаптера из верхней части корзины. Такие движения корзины туда и обратно могут вызвать дополнительные сбои, связанные с повреждением самих адаптеров или подключенных к ним кабелей.
Использование технологии автономных вычислений для обеспечения самоуправляемости системы
- Технология bit-steering в модулях памяти с избыточностью для поддержания работоспособности сервера
- Исправление одиночных сбоев (ЕСС) в оперативной памяти и L2, L3 кэшах
- Технология error scrubbing для предотвращения сбоев памяти
Стандартные чипы памяти имеют схему исправления одиночных ошибок и обнаружения двойных (ЕСС). Чип памяти устроен так, что выход из строя одного модуля памяти влияет только на один бит ЕСС слова (bit scattering), таким образом, есть возможность исправить ошибку и продолжить работу даже при выходе из строя целого модуля памяти (Chipkill recovery). В чипах памяти также используется «чистка» памяти (Memory scrubbing) и устанавливается критическое число исправляемых ошибок, превышение которого приводит к замене соответствующего модуля на резервный (dynamic bit steering). «Чистка» памяти - это процесс, состоящий из чтения содержимого памяти во время бездействия, проверки и исправления одиночных ошибок. Одиночные ошибки могут быть устойчивыми (заводской брак) или случайными (вызванные, например, электрическим шумом).
Раз в год в одном из пяти серверов с памятью 1GB может возникнуть многобитовая ошибка памяти*
- Восстановление сервера с 4GB памяти после системного сбоя занимает 8-12 часов
Память Advanced ЕСС или Chipkill обеспечивает наилучшие возможности по выявлению и исправлению ошибок памяти
- Исправляет ошибки памяти до 4-х бит на одну линейку чипа, т.е.компесирует потерю чипа памяти
- Высокоэффективная технология IBM обеспечивает исправление ошибок "на лету" прямо в DIMM
- Базируется на стандартной памяти ЕСС
- Надежность по сравнению с ЕСС возрастает в 600 раз
* Данные IBM MicroElectronics
Если удалось обнаружить ошибку, то данные пропускаются через ЕСС логику и исправленные данные записываются обратно по соответствующим адресам. Такой алгоритм используется и после замены неисправного модуля на резервный. «Чисткой» занимается контроллер памяти и производит ее только во время бездействия, поэтому процесс чистки никак не отражается на производительности памяти.
Если возникает ситуация, когда в модуле памяти возникает ошибка, а все резервные биты уже исчерпаны, то для предотвращения отказа системы сервисный процессор инициирует запрос на обслуживание модуля памяти.
System Power Control Network (SPCN)
Набор контроллеров и датчиков слежения за состоянием внутри системы, соединённых последовательной шиной
Функция управления может быть интегрирована в сервисный процессор
- Включение и выключение электропитания для отдельных устройств
- Выключение элементов системы при нарушениях в электропитании
- Контроль за состоянием вентиляторов, температурой и оповещение сервисного процессора о нештатном значении параметров
- Оповещение об нарушениях (индикаторная панель, сигнал сервисному процессору)
- Запись о сбойном состоянии устройств в память устройства
Надёжность для дисковой подсистемы
- Информация записывается одновременно на два или три устройства Поддержка разнообразных уровней RAID
- RAID I - зеркалирование дисков
- RAID 5 - контрольное суммирование с записью контрольной суммы на отдельный диск
Дублирование контроллеров и путей доступа к данным
- Два контроллера в одной системе
- Два пути доступа к данным в одной системе (SSA)
- Два подключения к устройству от разных систем (SAN)
- Замена устройства без остановки системы
- Индикация состяния устройства на панели устройства
Дисковая корзина позволяет производить горячую замену дисков, обеспечивая их динамическую реконфигурацию и замену. Системы pSeries используют такие возможности ОС AIX, как AIX online diagnostics, Error Log Analysis, Service Aids. Это позволяет системному администратору или техническому специалисту IBM обнаруживать потенциальные отказы системы, не прерывая работу сервера. Если включена функция автоматической перезагрузки, то система будет сама перезагружаться в случае возникновения неустранимых ошибок в работе приложений, зависания приложений или неисправностей оборудования.
Автоматические исправления и повторные попытки без вмешательства оператора
- Повторные попытки запросов по шине СЕС
- Восстановление шины PCI
- Исправление ошибок памяти - Chipkill
При достижении порогового значения ошибок ресурсы могут быть деактивизированы с сохранением работоспособности системы
- Деактивизация процессоров
- Деактивизация L2 и L3 кэшей
- Деактивизация раздела (LPAR) при перезагрузке
- Деактивизация PCI шины
Динамическая деактивизация процессоров
Сохранение работоспособности системы при сбое процессора
Системы pSeries обладают огромными возможностями по обнаружению и предотвращению ошибок, так как обладают уникальными возможностями: «Динамическим отключением процессора» и «Постоянным отключением процессора». Обе используют такие возможности процессорной платы, как обнаружение ошибок и их изоляция, а также средства записи информации об ошибках. Таким образом, обеспечивается запись ключевой информации о сбоях. Запись происходит тогда, когда количество исправимых ошибок достигло критического числа.
Если процессор достигает критического числа сбоев, это событие записывается, а процессор будет помечен и деконфигурирован из системы. Операционная система продолжит работать на оставшихся процессорах.
Резервирование процессоров
При наличии резервного процессора (процессоров), установленного по программе Capacity on Demand, он будет автоматически активизирован в случае выхода из строя основного процессора.
Восстановление шин и адаптеров PCI
- Повреждение соединения приводит к ошибке на шине PCI.
- Этот конкретный слот отключается системой. Остальные слоты остаются активными.
- Система сохраняет работоспособность.
- При повреждении PCI адаптера его можно заменить "на лету".
- При повреждении слота - планирование времени простоя для замены
Взаимодействие корзин ввода/вывода, системного ПО, а так же ОС AIX позволяют исправлять периодические ошибки на шине и переводить устройства в недоступное состояние в случае постоянной ошибки четности. Этот механизм называется «Расширенной Обработкой Ошибок» (Extended Error Handling).
Для работы этого механизма необходимо, чтобы драйвер соответствующего устройства поддерживал функцию ЕЕН. Такой драйвер должен отвечать на специальную последовательность данных, состоящую из одних единиц, обращением к системному ПО, которое, в свою очередь, должно протестировать PCI-слот и разрешить драйверу отключить его. Для достижения наивысших показателей доступности и отказоустойчивости компания IBM рекомендует использовать PCI-адаптеры только с поддержкой ЕЕН.
- Light Path Diagnostics - световая дорожка, указывающая на сбойный компонент
- Панели (LED) на системах и I/O drawer для сообщения информации о состоянии, необходимости вмешательства причине сбоя
- НМС Service History Log -журнал сбоев и ремонтных воздействий за последние 90 дней
- Service Focal Point- консолидирование информации об ошибках позволяет избежать ложного появления множественных ошибок (сбойные компоненты в разделах)
Обычно, наличие логических разделов (LPAR) усложняет обслуживание сервера. Для того, что бы приспособить существующие средства диагностики, анализа и восстановления ошибок к работе с логическими разделами, было разработано специальное приложение, устанавливаемое на консоль управления. Это приложение называется Service Focal Point. Оно состоит из менеджеров ресурсов (resource managers), которые ведут наблюдение и записывают информацию о различных объектах системы. SFP сортирует и коррелирует информацию от менеджеров ресурсов и в случае необходимости инициирует звонок сервисному провайдеру. Оно так же имеет пользовательский интерфейс, через который можно просмотреть информацию о произошедших событиях и выполнить необходимые действия. После устранения проблемы, пользователь может записать последовательность действий, которую он выполнил. Эти данные в дальнейшем будут доступны представителям сервисного провайдера для того, чтобы определить какие действия предпринимались и соответственно скорректировать свои действия.
Light Path Diagnostics - это уникальная разработка IBM, которая позволяет сервисному инженеру или системному администратору легко и быстро обнаружить вышедший из строя компонент системы. Когда происходит тот или иной сбой в системе, то на специальной панели загорается индикация, говорящая о наличии неисправности. Внутри сервера расположена основная светодиодная панель, на которой будет зажжен индикатор, соответствующий конкретному компоненту системы. Корзины ввода/вывода так же имеют светодиодные индикаторы, которые позволяют точно определить PCI слот, в котором установлен вышедший из строя адаптер.
Electronic service agent
- ПО для автоматизированного техобслуживания и повышения доступности системы
- Бесплатная опция при контракте на техобслуживание
- Проактивный предсказательный анализ сбоев и оповещение
Electronic service agent
Сервисный агент состоит из 2 основных компонентов. Клиентская часть устанавливается на все копии операционной системы и наблюдает за ее состоянием. Она ведет наблюдение и анализирует все исправимые ошибки и при необходимости отправляет запрос на обслуживание SFP приложению.
Вторая составляющая сервисного агента - это шлюз, который устанавливается на консоль управления как часть SFP приложения и формирует как бы фокусную точку, в которой собирается вся необходимая информация для «звонка домой». Таким образом, уменьшается время простоя из-за отказа одного из компонентов системы, так как сервисному провайдеру предоставляется доступ к отчетам об ошибках, а также есть возможность заказать необходимые компоненты для замены прежде, чем сервисный инженер выедет на место. Следовательно, возможность неверного истолкования или недопонимания при выявлении ошибки исключается.
Разработан для непрерывных операций
- Failure Data Capture
- Chipkill™ память
- Bit-steering/redundant память
- Memory soft scrubbing
- Избыточные вентиляторы и блоки питания
- Динамическое освобождение процессоров
- ECC память
- Освобождение памяти
- Hot-plug PCI слооты, вентиляторы источники питания
- Light path diagnostics
- Диски с горячей заменой
- Concurrent firmware updates
- Service Processor Failover
- Hot Swap I/O drawers
- Dynamic power management
В системах на базе POWER5 появились такие дополнительные возможности, как резервирование сервисного процессора или замена I/O Drawer "на лету".
Встроенное программное обеспечение (firmware) записывается в двух копиях - Permanent и Temporary. При обновлении firmware нет необходимости в долговременном отключении системы - одна часть обновляется, в то время, как работа идёт со второй частью. Для активизации достаточно перезагрузки.
В случае некорректного обновления firmware можно загрузиться с оставшейся копии.
Выбор firmware при загрузке определяется через сервисный процессор.
RAS
Надёжность — один из важнейших факторов в производстве продукции класса hi-end. Технология RAS — неотъемлемая часть серверов pSeries и ОС AIX. Ее развитие начинается с создания архитектуры. Затем продолжается на стадиях разработки рабочего проекта и самого продукта, где идеи RAS еще раз пересматриваются, оцениваются и совершенствуются. Им следуют в процессе изготовления и выпуска серверов, когда качество находится под строгим контролем. И завершается в процессе обслуживания и технической поддержки, когда за надежностью сервера постоянно следят и когда проблемы, возникающие у заказчика, направляются по адресу.
Компоненты Reliablity, Availability, Serviceability:
- Замена в "горячем" режиме
- Избыточность
- Блокирование сбойных ресурсов
- Диагностика сбоев в момент их появления
- Предотвращение сбоев