Облачное масштабирование : Часть 2. Достижения в проектировании высокопроизводительных облачных систем

Использование совместной обработки данных, энергонезависимой памяти, межсоединений и хранилища

Революционные достижения в аппаратных технологиях заставляют разработчиков систем переосмыслить подходы к разработке управляющего и прикладного ПО, чтобы реализовать потенциальные выгоды от устранения разрыва доступа или выполнения обработки в канале ввода/вывода с помощью сопроцессоров. Изучите влияние новейших подсистем и устройств памяти, вычислительных средств и технологий межсоединений на конструирование масштабируемых ориентированных на данные высокопроизводительных систем облачных вычислений. Прорывы в аппаратных технологиях можно использовать для перехода от архитектур, ориентированных на вычисления, к более сбалансированным архитектурам, ориентированным на данные.

Автор рассматривает возможности памяти Storage-Class Memory (память с оперативным доступом и длительным хранением данных) и показывает, как заполнить давно сложившийся разрыв в производительности между ОЗУ и дисковой памятью; освещает подробности использования сопроцессоров шины ввода/вывода для приближения обработки к данным; объясняет, как использовать InfiniBand для построения недорогих высокопроизводительных сетей межсоединений; обсуждает масштабирование систем хранения для неструктурированных данных.

Сэм Б. Сиверт, старший преподаватель, University of Alaska Anchorage

Сэм Сиверт – фотографияДоктор Сэм Сиверт (Sam B. Siewert) работает старшим преподавателем на факультете информатики и вычислительной техники в Университете Аляски, Анкоридж. Он также является приглашенным старшим преподавателем в Университете Колорадо, Боулдер, где читает несколько летних курсов на факультетах электротехники, вычислительной техники и энергетики. С 1988 года доктор Сиверт работал инженером-разработчиком компьютерных систем в аэрокосмической и телекоммуникационной отраслях, а также в отрасли хранения информации. В сферу его интересов как исследователя и консультанта входят масштабируемые системы, компьютерное и машинное зрение, гибридная реконфигурируемая архитектура и операционные системы. Он также интересуется теорией систем реального времени, цифровыми медиа и фундаментальными вопросами компьютерной архитектуры.



25.10.2013

В развитии вычислительных систем исторически традиционно доминировало масштабирование процессоров и динамических (DRAM) интерфейсов к рабочей памяти; при этом оставался огромный разрыв между алгоритмами, управляемыми данными, и вычислительными алгоритмами (см. раздел Ресурсы). Сегодня быстро растет интерес к вычислениям, ориентированным на данные, равно как и к новым подходам к проектированию программного обеспечения и аппаратных компонентов для поддержки преобразования больших наборов данных.

Повышенное внимание к данным в программном обеспечении неудивительно, учитывая сегодняшний интерес к таким приложениям, как анализ видео, сенсорные сети, социальные сети, компьютерное зрение и дополненная реальность, интеллектуальные транспортные системы, системы машина-машина и проекты больших данных, например IBM Smarter Planet и IBM Smarter Cities.

Сегодня в центре внимания оказались обработка, преобразование и глубинный анализ наборов больших данных:

  • Следствием ориентации на данные является прорыв на новый уровень устройств энергонезависимой памяти (память Storage-Class Memory – SCM), которые приближают большие данные к обработке.
  • В то же самое время сопроцессоры ввода/вывода приближают обработку к данным.
  • Наконец, межсоединения с малой задержкой и высокой пропускной способностью, такие как InfiniBand, позволяют исследователям быстро создавать кластеры с топологией трехмерного тора и утолщенного дерева, которые ранее применялись лишь в наиболее экзотических специализированных проектах высокопроизводительных вычислительных систем (HPC).

В то же время системное программное обеспечения и даже конструкция систем часто страдают от старых проблем с пропускной способностью и старых подходов. Рассмотрим, например, поточную обработку и многозадачность. Сама идея возникла из-за медленного доступа к диску: пока одна программа находится в ожидании данных, можно запустить другую. Конечно, у нас есть RAID-масштабирование и твердотельные NAND флэш-диски (SSD), но как отметил исследовательский центр IBM Almaden Research, временная шкала различий в разрыве времени доступа огромна в понятных человеку терминах.

Разрыв времени доступа между процессором, оперативной памятью и внешней памятью можно измерить в единицах производительности каждого устройства, но этот разрыв будет более понятен, если описать его привычным для человека способом (как сделано для наглядности в анализе IBM Almaden Research).

Если обычная операция процессора подобна тому, что может сделать человек за считанные секунды, то доступ к оперативной памяти в 100 раз медленнее, т.е. похож на то, что человек может сделать за несколько минут. Доступ к диску в 100000 раз медленнее доступа к оперативной памяти, что соответствует нескольким месяцам (около 100 дней). (См. рисунок 1).

Рисунок 1. Разрыв доступа к данным
Разрыв доступа к данным

Многие опытные компьютерные инженеры никогда не задумывались над тем, что 100-200 произвольных операций ввода/вывода в секунду (IOPS) – это механический предел для дисковода. (Конечно, скорость последовательного доступа достигает сотен мегабайт в секунду, но произвольный доступ остается тем же, что и более 50 лет назад, с такими же скоростью (15 тыс. об/мин) и временем ожидания вращения.)

Наконец, как отмечает IBM Almaden Research, время доступа к ленточным устройствам аналогично времени до наступления ледникового периода. Ради чего мы вообще ими пользуемся? Конечно, ради емкости. Но как можно более эффективно получить обработку для данных или данные для обработки?

Посмотрим еще раз на рисунок 1. Усовершенствования флэш-памяти NAND, позволяющие использовать ее в мобильных устройствах, а в последнее время и в SSD-дисках, помогли сократить разрыв, однако многие считают, что технология флэш-устройств NAND достигнет своих пределов довольно быстро, что отмечают многочисленные исследователи (см. раздел Ресурсы). Используемая технология транзисторов с плавающим затвором уже достигла пределов масштабирования, продолжение которого приводит к снижению надежности, т.е. это временное решение для ориентированных на данные вычислений, вероятно, не снимает проблему.

Похоже, решением могут быть новые технологии устройств с энергонезависимой памятью (NVRAM):

  • Память на основе фазового перехода (PCRAM). Такая память использует нагревательный элемент для превращения материалов, известных как халькогениды, либо в кристаллическое, либо в аморфное стекло, тем самым выполняя переключение между двумя состояниями. Эти состояния можно программировать и считывать, и они сохраняются даже при отсутствии питания. PCRAM, по-видимому, является наиболее перспективным кандидатом на роль синхронной энергонезависимой памяти (NVM) М-типа на ближайшее время.
  • Резистивная память (RRAM). RRAM, чаще всего описываемая как элемент электрической цепи, отличающийся от конденсатора, катушки индуктивности или резистора, обеспечивает уникальную связь между током и напряжением, в отличие от других известных устройств, которые накапливают заряд и магнитную энергию или обеспечивают линейное сопротивление току. Материалы с подобными свойствами, называемые мемристорами, известны много десятилетий, но инженеры обычно избегают их использования из-за нелинейности свойств и отсутствия области применения. Член IEEE Леон Чуа (Leon Chua) описывает их в статье "Мемристор: отсутствующий элемент цепи". Поведение мемристора можно описать следующим образом: ток в одном направлении вызывает увеличение электрического сопротивления, а в противоположном – уменьшение сопротивления; при этом мемристор сохраняет последнее сопротивление. Таким образом, он может сохранять энергонезависимое состояние, которое можно программировать и читать. Дополнительную информацию и даже дискуссию о том, что является и что не является мемристором, можно найти в разделе Ресурсы.
  • Память с переносом спинового вращательного момента (STT-RAM). Ток, проходящий через магнитный слой, может вырабатывать спин-поляризованный ток, который, будучи направленным в магнитный слой, может менять свое направление под воздействием углового момента. Такое поведение можно использовать для возбуждения колебаний и переключения ориентации нанометровых магнитных устройств. Основным недостатком является высокий ток, необходимый для переключения ориентации.

В разделе Ресурсы приведены ссылки на подробные источники информации о каждой из технологий.

С системной точки зрения на развитие этих устройств, сферу их использования и заполнение каждым их них разрыва во времени доступа влияют следующие факторы:

  • Стоимость.
  • Масштабируемость (чтобы превзойти флэш-память, размер устройства должен быть меньше транзистора, т.е. менее 20 нанометров).
  • Время ожидания (задержка) при записи и чтении.
  • Надежность устройства.
  • Возможно, самое главное – это долговечность (как часто можно выполнять запись и стирание, прежде чем устройство станет ненадежным).

Исходя из соображений производительности, IBM разделила SCM-устройства на два основных класса:

  • S-тип: асинхронный доступ посредством контроллера ввода/вывода. Чтобы скрыть задержку ввода/вывода, используется поточная обработка или многозадачность.
  • М-тип: синхронный доступ посредством контроллера памяти. В качестве аналога можно рассматривать состояния ожидания доступа к оперативной памяти, приводящие к останову ядра процессора.

Кроме того, в качестве быстродействующего устройства хранения данных можно рассматривать NAND SSD-диск, доступ к которому осуществляется посредством блочно-ориентированного контроллера внешней памяти (намного выше скорость ввода/вывода, но пропускная способность аналогична вращающемуся диску).

Может показаться, что исключение асинхронного ввода/вывода при обработке данных (исключая, конечно, доступ к архивам и масштабирование кластера) может быть панацеей для обработки, ориентированной на данные. В некотором смысле это так, но проектировщикам систем и разработчикам программного обеспечения придется менять привычки. Необходимость скрывать задержку ввода/вывода на каждом узле системы уменьшится, но полностью не исчезнет. Кластеры, созданные при помощи InfiniBand, взаимодействуют со схемами Message Passing Interface или MapReduce с задержкой передачи данных от узла к узлу и обладают производительностью, аналогичной SCM-узлу, за исключением случаев, когда выполняется начальная загрузка или объем данных превышает размер рабочей оперативной памяти узла.

Таким образом, в целях масштабирования все еще нужно скрывать задержки кластерных межсоединений и ввода/вывода между узлами кластера.

Приближение обработки к данным при помощи сопроцессоров

Более быстрый доступ к большим данным является идеалом и выглядит многообещающе, но некоторые приложения всегда будут использовать альтернативный подход, приближая обработку к данным. Существует множество примеров: графика (графические процессоры – GPU), сетевые процессоры, механизмы разгрузки протоколов (такие как TCP/IP Offload Engine), RAID on Chip, сопроцессоры шифрования, а также появившаяся совсем недавно идея сопроцессоров компьютерного зрения. Мое исследование касается компьютерного зрения и графических сопроцессоров (как кластерных, так и встроенных). Я исследую т.н. процессоры обработки компьютерного зрения, сравнивая несколько сопроцессоров, которые приобрели популярность после того, как в 2012 году консорциум Khronos инициировал разработку стандарта OpenVX (см. раздел Ресурсы).

В мире встроенных систем примером подобного подхода может быть интеллектуальный датчик или умная камера, в которых предварительную обработку необработанных данных выполняют интерфейс датчика и встроенное логическое устройство или микропроцессор или, может быть, даже многоядерная однокристальная система (SoC).

В масштабируемом мире такой подход - это чаще всего использование сопроцессорной шины или адаптера канала (например, PCI Express, PCIe и Ethernet или InfiniBand), которые обеспечивают обработку данных между источником данных (сторона сети) и контроллером ввода/вывода узла (принимающая сторона).

Вопрос о том, какая обработка более эффективна – в канале ввода/вывода или в ядре процессора - всегда был предметом горячих дискуссий, но само существование графических и сетевых процессоров доказывает, что они могут быть полезны, а рост или снижение их популярности основаны на сравнении сопроцессорной и процессорной технологий. Давайте рассмотрим несколько распространенных подходов:

Векторная обработка методом SPMD (единая программа, множество данных)
В настоящее время она обеспечивается графическими процессорами (GPU), графическими процессорами для вычислений общего назначения (GPGPU), а также процессорами приложений (APU). Идея состоит в том, чтобы преобразовывать данные на пути к устройству вывода (например, дисплею) или отправлять их на GPGPU/APU и преобразовывать на пути (туда-обратно) к хост-устройству. Термин "общего назначения" подразумевает более сложные функции, такие как арифметика с двойной точностью (в отличие от одинарной точности только для обработки графики).
Многоядерность
Традиционные многоядерные сопроцессорные платы (см. раздел Ресурсы) предлагает множество производителей. Идея заключается в снижении стоимости и потребляемой мощности с помощью более простых, но многочисленных ядер на шине ввода/вывода, берущих на себя обработку данных на пути (туда-обратно) к платам более производительного, но энергоемкого и дорогостоящего полномасштабного многоядерного хост-устройства. Как правило, многоядерный сопроцессор имеет на порядок больше ядер, чем хост-устройство, и часто включает в себя Ethernet 1G/10G и другие виды сетевых интерфейсов.
FPGA-устройства шины ввода/вывода
FPGA-платы чаще всего используются для создания прототипов новых сопроцессоров на ранних стадиях разработки, а также в качестве решения при мелкосерийном производстве сопроцессоров.
Встроенные однокристальные системы
Многоядерные решения используются в устройствах ввода/вывода при создании интеллектуальных устройств, таких как стерео- и времяпролетные (TOF) камеры.
Интерфейсные FPGA/программируемые логические устройства
Конечный цифровой автомат может обеспечивать буферизацию и непрерывное преобразование данных ввода/вывода (например, кодирование цифрового видео).

Рассмотрим пример разгрузки обработки в канале ввода/вывода. Преобразование данных имеет очевидное значение для систем декодирования цифрового видео в формате MPEG4. На рисунке 2 показана такая система, состоящая из графического сопроцессора на пути между плеером и дисплеем для видеодекодера Linux® MPlayer и программного интерфейса устройства ускорения представления (VDPAU) для декодирования MPEG NVIDIA на GPU.

Рисунок 2. Простой пример разгрузки декодирования видео
Простой пример разгрузки декодирования видео

Аналогичным образом имеет смысл любая обработка (или преобразование) данных, которую можно выполнить на входе или на выходе из базового процессора, особенно если сопроцессор эффективно делает это по более низкой цене или с более низким энергопотреблением, чем процессор общего назначения.

Чтобы сравнить GPGPU с многоядерным сопроцессором, загрузите два примера функции рассеяния точек для увеличения четкости границ изображения (пример поточного преобразования) в сравнении с преобразованием на GPU. Оба примера выполняют одно и то же преобразование изображения с разрешением 320x240 пикселов, но в одном случае C-код архитектуры CUDA выполняется на GPU или GPGPU-сопроцессоре, а в другом случае на многоядерном хост-компьютере или многоядерном сопроцессоре (например, MICA).


Так что же лучше?

Ни один из подходов не является безусловно лучшим, главным образом потому, что NVRAM-решения еще не слишком распространены (за исключением памяти с резервным батарейным питанием и SCM-устройств S-типа от IBM Texas Memory Systems Division), а перемещение обработки в канал ввода/вывода данных традиционно требует более сложного программирования. В то же время оба подхода развиваются. Сопроцессоры начинают поддерживать языки высокого уровня, например, Open Compute Language (OpenCL); код на таком языке, написанный для многоядерных хост-устройств, будет столь же успешно работать на архитектурах Intel MICA или Altera Startix IV/V.

Кроме того, все основные производители компьютерных систем лихорадочно работают над SCM- памятью, и скорее всего первой станет общедоступной PCRAM. Я предполагаю, что в течение некоторого времени мы будем использовать оба подхода, поэтому операционные системы и приложения должны быть в состоянии иметь дело с обоими. Мемристор (или RRAM), напоминает придуманный Айзеком Азимовым позитронный мозг, который полностью интегрирует память и обработку аналогично нервной системе человека, но с помощью металлических материалов. Концепцию полной интеграции энергонезависимой памяти и обработки называют, как правило, обработкой в памяти (processing in memory – PIM) или нейроморфной обработкой (см. раздел Ресурсы). Интегрированная с энергонезависимой памятью масштабируемая обработка имеет очень хорошие перспективы в области биологических интеллектуальных систем - например, выполняющих функции зрительной зоны коры головного мозга. Движение в направлении интегрированной энергонезависимой памяти и применение обоих подходов к обработке в памяти является, вероятно, хорошим решением, поэтому я планирую не отставать и продолжать работать на системах, которые используют оба метода – сопроцессоры и энергонезависимую память. Сама природа явно отдает предпочтение прямой низкоуровневой полной интеграции PIM-обработки в интеллектуальных системах.


Масштабирование узлов с помощью межсоединений InfiniBand

Разработчикам систем всегда приходится искать компромисс между вертикальным масштабированием каждого узла системы и горизонтальным масштабированием решения, которое использует сетевую или более взаимосвязанную кластеризацию для масштабирования обработки, ввода/вывода и хранения данных. В какой-то момент масштабирование памяти, обработки и хранения, выполняемое для единичного узла, достигает практического предела с точки зрения стоимости, энергоэффективности и размера. Кроме того, по соображениям надежности, доступности и обслуживания часто удобней распределить мощность между несколькими узлами; если один потребует восстановления или обновления, другие смогут продолжать выполнять свои обязанности в режиме разделения нагрузки.

На рисунке 3 показан типичный трехмерный тор межсоединений InfiniBand.

Рисунок 3. Пример трехмерного тора InfiniBand 4x4x4 с 1152 узлами (суперкомпьютер SDSC Gordon)
Пример трехмерного тора InfiniBand 4x4x4 с 1152 узлами (суперкомпьютер SDSC Gordon)

На рисунке 3 показан трехмерный тор 4x4x4 для суперкомпьютера Gordon в суперкомпьютерном центре Сан-Диего (SDSC), который, как указано в документации Mellanox, использует коммутатор InfiniBand на 36 портов для подключения узлов друг к другу и к вводу/выводу хранилища.

Наиболее часто используемыми масштабируемыми интерфейсами систем хранения для доступа к большим данным являются InfiniBand, Converged Enhanced Ethernet iSCSI (CEE) и Fibre Channel. Такие масштабированные посредством сетей хранения данных (SAN) RAID-массивы используются для размещения распределенных масштабируемых файловых систем, таких как Ceph, Lustre, Apache Hadoop или IBM General Parallel File System (GPFS). Использование CEE и InfiniBand для доступа к системе хранения посредством протокола удаленного прямого доступа к памяти (RDMA) SCSI от консорциума Open Fabric Alliance и расширения iSCSI для RDMA являются естественными подходами для SAN-систем хранения, интегрированных с кластером InfiniBand. Система хранения выступает скорее в качестве распределенного архива неструктурированных данных с возможностью поиска, глубинного анализа и загрузки в NVRAM-узел для кластерной обработки. Чтобы перенести код (программное обеспечение) к данным в каждом узле, можно также использовать высокоуровневые ориентированные на данные методики кластерной обработки, такие как Hadoop MapReduce. Темам, связанным с большими данными, посвящена последняя статья этой серии из четырех частей.


Будущее масштабирования, ориентированного на данные

В статье приводятся аргументы в пользу конструкций и архитектур систем, которые приближают процессоры к устройствам, генерирующим и потребляющим данные, а также упрощают иерархию памяти, уменьшая число уровней при помощи масштабируемых энергонезависимых устройств памяти с более низкой задержкой. Такой подход определяет дизайн ориентированных на данные узлов, которые в дальнейшем можно масштабировать при помощи имеющихся сетей межсоединений с низкой задержкой, таких как InfiniBand. Основной проблемой ориентированных на данные вычислительных систем является не столько число инструкций в секунду или число операций с плавающей точкой в секунду, сколько число операций ввода/вывода в секунду и общая энергоэффективность обработки данных.

В части 1 этой серии я осветил методы и инструменты для построения вычислительного узла и небольшого кластера, которые можно масштабировать по требованию при помощи облачных HPC-систем. В этой статье я подробно описал достижения в разработке высокопроизводительных систем, такие как совместная обработка данных, энергонезависимая память, межсоединения и системы хранения.

В части 3 серии я подробно остановлюсь на анализе видео как конкретном примере применения ориентированных на данные вычислений. Анализ видео охватывает распознавание лиц для обеспечения безопасности и проведения компьютерной экспертизы, использование камер для интеллектуального мониторинга транспорта, розничную торговлю и маркетинг с интеграцией видео (например, визуализация изображения покупателя в костюме, выбранном в Web-каталоге), а также многочисленные новые приложения компьютерного зрения и дополненной реальности. Хотя многие из этих приложений предусматривают наличие встроенных средств компьютерного зрения, большинству из них требуются также анализ, преобразование и генерирование цифрового видео на облачных масштабируемых серверах. Алгоритмы, подобные преобразованию Собеля, можно выполнять на обычных серверах, но алгоритмы, подобные обобщенному преобразованию Хафа, а также распознавание лиц, регистрация изображений, стереоотображение (облака точек), требуют для масштабирования энергонезависимой памяти и сопроцессоров, рассматриваемых в данной статье.

Последняя часть серии будет посвящена проблемам больших данных.


Загрузка

ОписаниеИмяРазмер
Образец кодаsharpenCUDA.zip644КБ
Образец кодаhpc_dm_cloud_grid.zip1.08МБ
Образец кодаCactus-320x240-pixel.ppm.zip206КБ

Ресурсы

Научиться

  • Оригинал статьи: Cloud scaling, Part 2: Tour high-performance cloud system design advances (EN).
  • Исследовательский центр IBM Almaden Research создал теорию систем SCM-памяти, чтобы описать использование и масштабирование новых устройств энергонезависимой памяти, таких как racetrack-память, памяти для устройств хранения, чтобы описать использование и масштабирование новых NVM-устройств, таких как беговая дорожка памяти (racetrack memory), STT-RAM и PCRAM (разработка IBM Zurich). Также были созданы методики интеграции и подключения созданных в исследовательском центре IBM T.J. Watson Research Center новых устройств энергонезависимой памяти с произвольным доступом с использованием PCRAM на базе материалов со смешанной ионно-электронной проводимостью.
  • Компании HP и Hynix отложили работу над конкурирующим проектом энергонезависимой памяти на мемристорах, которые Леон Чуа (Leon Chua) описал как четвертый элемент электрической цепи (наряду с резисторами, конденсаторами и катушками индуктивности), но Hynix вместе с несколькими партнерами по исследованиям изучает возможные методы производства различных вариантов энергонезависимой памяти.
  • Существовали определенные разногласия по поводу того, что такое мемристор, но, невзирая на споры, достигнут прогресс в создании различных двухполюсных NVM-устройств, включая ReRAM и RRAM. Независимо от того, какое устройство выйдет на рынок первым, ясно, что появление такой энергонезависимой памяти, гораздо более быстрой, чем флэш-память NAND, произведет революцию в области вычислений, ориентированных на данные.
  • Идея мемристора породила ажиотаж вокруг прямой интеграции обработки в энергонезависимую память, что очень напоминает нервную систему человека. Можно даже представить себе нейроморфный аналог коры головного мозга, как это сделано в исследовательском проекте Neuromorphic Research Project компании Intel, а также в многочисленных исследовательских проектах FPGA- и встроенных архитектур, выполняемых организацией Institute of Neuromorphic Engineering. Слабым местом нейроморфной инженерии всегда было то, что масштабирование в кремнии далеко не достигает возможностей биологического масштабирования нейронов, но не исключено, что сочетание мемристоров и концепций вычислений в памяти поможет сделать еще один шаг к сближению.
  • Тем временем SCM-устройства S-типа с флэш-памятью NAND, такие как IBM® FlashSystem™ 710 и FlashSystem 810 с интерфейсами InfiniBand, а также FlashSystem 720 и FlashSystem 820 с интерфейсами Fibre Channel, обеспечивают промежуточное решение для высоких рабочих нагрузок ввода/вывода и заполняют пробел между DRAM и механическими дисками с помощью асинхронных SCM-решений S-типа.
  • Если вы новичок в HPC, начните свое знакомство со статьи developerWorks Высокопроизводительные Linux-кластеры, часть 1. Основы кластеризации (Адитья Нараян (Aditya Narayan), сентябрь 2005 года); если же вы никогда не настраивали кластеры в Linux (Beowulf или OSCAR), вам поможет статья developerWorks Высокопроизводительные Linux-кластеры, часть 2. Создание рабочего кластера (Адитья Нараян (Aditya Narayan), октябрь 2005 года) (EN).
  • Применение сопроцессоров (в том числе нового сопроцессора MICA Xeon Phi™, используемого в серверах IBM iDataPlex®, и инструментов разработки Intel MIC) в канале ввода/вывода к энергонезависимой памяти S-типа, в камерах и датчиках, в дисплеях и сетевых интерфейсах более перспективно для ориентированных на данные вычислений, чем для заполнения разрыва времени доступа к данным.
  • Если вы работаете с SCM-устройствами S-типа уже сегодня, планируете в числе первых осваивать устройства М-типа или использовать сопроцессоры в канале ввода/вывода, однажды все равно единичный узел не сможет обеспечить облачное масштабирование, необходимое для ориентированных на данные приложений (таких как анализ видео), требующих высокопроизводительной обработки данных. Если это ваш случай, то вам подойдет готовое решение для масштабирования межсоединений – InfiniBand-кластеризация с топологией трехмерного тора, которая описана на YouTube и используется в кластере SDSC Gordon, а также в суперкомпьютере Red Sky.
  • Делитесь опытом и получайте ценную информацию от разработчиков сервисов и приложений, создающих проекты для развертывания в облачной среде, в разделе облачных технологий на developerWorks.
  • Следите за developerWorks в Твиттере.
  • Смотрите демонстрационные материалы по требованию на developerWorks – от инструкций по установке и настройке продукта для начинающих до продвинутых функциональных возможностей для опытных разработчиков.
  • Для масштабирования обработки в канале ввода/вывода также можно использовать конкурирующую технологию PCIe-сопроцессоров, предлагаемую компаниями Cavium (с ее процессором OCTEON) и Tilera. Эти многоядерные сопроцессоры конкурируют с NVIDIA Fermi GPGPU и векторными сопроцессорами GPU, программируемыми с помощью CUDA5 или OpenCL 1.2, а также с векторными сопроцессорами AMD APU, которые тоже используют OpenCL.
  • После разработки консорциумом Khronos стандарта OpenVX должны появиться специализированные сопроцессоры для компьютерного зрения, подобные тем, что смоделировал в своем исследовании автор с помощью сопроцессоров Altera Startix IV/V PCIe FPGA, которые также можно программировать на поддерживаемом Altera языке OpenCL или на традиционных языках проектирования аппаратных средств.
  • Каждому узлу масштабируемого кластера может потребоваться доступ к большим объемам неструктурированных данных, также известным как большие данные. В такой ситуации скорее всего будет полезна масштабируемая файловая система, такая как GPFS, Ceph, Hadoop MapReduce HDFS, pNFS или Lustre.

Обсудить

Комментарии

developerWorks: Войти

Обязательные поля отмечены звездочкой (*).


Нужен IBM ID?
Забыли Ваш IBM ID?


Забыли Ваш пароль?
Изменить пароль

Нажимая Отправить, Вы принимаете Условия использования developerWorks.

 


Профиль создается, когда вы первый раз заходите в developerWorks. Информация в вашем профиле (имя, страна / регион, название компании) отображается для всех пользователей и будет сопровождать любой опубликованный вами контент пока вы специально не укажите скрыть название вашей компании. Вы можете обновить ваш IBM аккаунт в любое время.

Вся введенная информация защищена.

Выберите имя, которое будет отображаться на экране



При первом входе в developerWorks для Вас будет создан профиль и Вам нужно будет выбрать Отображаемое имя. Оно будет выводиться рядом с контентом, опубликованным Вами в developerWorks.

Отображаемое имя должно иметь длину от 3 символов до 31 символа. Ваше Имя в системе должно быть уникальным. В качестве имени по соображениям приватности нельзя использовать контактный e-mail.

Обязательные поля отмечены звездочкой (*).

(Отображаемое имя должно иметь длину от 3 символов до 31 символа.)

Нажимая Отправить, Вы принимаете Условия использования developerWorks.

 


Вся введенная информация защищена.


static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=40
Zone=Облачные вычисления
ArticleID=950118
ArticleTitle=Облачное масштабирование : Часть 2. Достижения в проектировании высокопроизводительных облачных систем
publish-date=10252013