Обзор

Что такое интеграция данных?

Интеграция данных — это совокупность технических и деловых процессов, таких как ETL, репликация и виртуализация данных. Интеграция данных используется для объединения информации из разрозненных источников в виде понятного и ценного набора данных для целей интеллектуальной обработки и бизнес-аналитики. Комплексное решение для интеграции данных предоставляет достоверные данные из различных локальных и облачных источников для обеспечения конвейера достоверных данных, готового к работе с DataOps.

Продукты IBM для интеграции данных, включая интеграцию данных в IBM Cloud Pak® for Data, являются масштабируемыми мультиоблачными решениями, которые помогут ускорить внедрение ИИ. Извлекайте большие объемы данных из различных источников, преобразовывайте их любым способом и загружайте в корпоративное хранилище данных или облачные сервисы.

Продукты IBM для интеграции данных также можно использовать отдельно или в качестве управляемых услуг в рамках IBM Cloud®.

Узнайте, почему компания IBM была признана лидером в отчете Gartner Magic Quadrant за 2021 год в категории инструментов для интеграции данных.

Андре Де Лохт объясняет процесс интеграции данных

Разбор за 30 секунд: Что такое интеграция данных? (00:30)

IBM занимает второе место в категории «Варианты использования фабрик данных»

Узнайте больше из отчета Gartner «Самые необходимые функции для инструментов интеграции данных», 2021 г.

Варианты использования интеграции данных

Интеграция данных о клиентах

фигура человека внутри шестиугольника

Объединение данных из распределенных баз данных и систем позволяет улучшить взаимоотношение с клиентами (CRM) и предоставлять им то, что они ожидают.

Интеграция данных в сфере здравоохранения

планшет с медицинской информацией

Объединение клинических данных, результатов геномного анализа, радиологических исследований и снимков позволяет ускорить получение ценной информации и сделать ее доступной для лечения пациентов, когортных исследований и анализа состояния здоровья населения.

Интеграция больших данных

вложенные шестиугольники

Современные хранилища данных, обеспечивающие унифицированное представление больших данных из нескольких источников, позволяют упростить процессы интеллектуальной обработки деловой информации.

Преимущества решений IBM для интеграции данных

Платформа с открытым исходным кодом

Воспользуйтесь платформой интеграции данных на основе Red Hat® OpenShift®, обеспечивающей масштабируемость корпоративного класса и безопасность.

Автоматизация на основе ИИ

Ускорьте доставку и сократите совокупную стоимость владения за счет автоматизации задач на основе ИИ.

Возможность развертывания в мультиоблачных средах

Воспользуйтесь преимуществами технологии контейнеров для интеграции данных в гибридных и мультиоблачных средах.

IBM DataStage

Продукт IBM® DataStage® является лидером в сфере ETL и представляет собой масштабируемый инструмент интеграции данных для проектирования, разработки и выполнения заданий по перемещению и преобразованию данных в среде заказчика и в облачных средах.

Благодаря современной архитектуре на основе контейнеров в Red Hat OpenShift решение IBM DataStage for IBM Cloud Pak for Data объединяет лучшие в отрасли инструменты интеграции данных с DataOps, механизмами контроля и аналитики на базе единой платформы данных и ИИ. Предоставляйте достоверные данные в большом масштабе в гибридных или мультиоблачных средах.

Ресурсы

Более глубокое представление

Методы интеграции данных

Интеграция данных играет важнейшую роль для консолидации корпоративных данных в единое, достоверное представление для аналитики и развития бизнеса. Например, унифицированное представление данных о клиентах способствует созданию более эффективных маркетинговых стратегий. При этом используются различные методы интеграции данных, например:

  • Извлечение, преобразование и загрузка (ETL): извлечение, преобразование и загрузка данных из нескольких источников в один массив данных, который затем передается в хранилище данных или другую целевую систему. Преобразование (или очистка и подготовка) исходных данных в промежуточной области вместо исходной системы повышает производительность и снижает вероятность повреждения данных.
  • Извлечение, загрузка и преобразование (ELT): извлечение и загрузка неструктурированных данных из исходных расположений в целевое хранилище данных для дальнейшего преобразования. В качестве целевой системы для процессов ELT часто выступает озеро данных, вмещающее огромные объемы структурированных и неструктурированных данных, или облачное хранилище данных. Этот метод идеально подходит для поддержки искусственного интеллекта (ИИ), машинного обучения, прогнозной аналитики и приложений, использующих данные в режиме реального времени.
  • Репликация данных: предоставление дополнительных функций, таких как синхронизация или распространение данных практически в реальном времени с использованием эффективных методов сбора данных из журналов.
  • Виртуализация данных: абстрагирование доступа к данным из нескольких источников путем создания виртуального представления для бизнес-пользователей, которым требуется доступ к данным и возможность выполнения запросов по требованию.

Сложные задачи интеграции данных

Многие организации сталкиваются с ростом объемов данных, поступающих из разных систем, включая реляционные базы данных и службы потоковой передачи данных. Интеллектуальная обработка данных, скрывающихся в разнообразных источниках, позволяет принимать более обоснованные решения, однако для обеспечения контроля, регулирования и доверия необходимо реализовать последовательные процессы интеграции данных. Препятствием на пути интеграции могут стать следующие факторы:

Высокое время отклика данных в мультиоблачных средах
Низкая скорость перемещения томов данных между мультиоблачными средами и озерами данных не позволяет использовать данные в приложениях или операционных системах в режиме реального времени.

Большое количество сложных и дорогих инструментов
Управление несколькими инструментами интеграции данных требует высоких денежных затрат и усилий.

Неавтоматизированные рабочие процессы
Задачи, выполняемые вручную, например написание кода и проектирование задач, могут увеличивать сроки разработки и модернизации приложений. Кроме того, неавтоматизированные процессы должны быть спроектированы для каждой облачной среды, что в случае нескольких облачных сред увеличивает продолжительность и стоимость разработки.

Низкое качество данных и уровень управления
Данные, поступающие из множества разнотипных систем, могут быть непростыми в управлении, что подвергает ваш бизнес риску. Надежные и достоверные данные также являются обязательным условием для создания эффективных моделей ИИ.

Облачная интеграция данных

К хранилищам данных относятся локальные среды, облачные среды и среды озер данных. Кроме того, организации часто используют несколько облачных сред от разных поставщиков для решения различных задач в области хранения или развертывания приложений. Интеграция облачных данных направлена на создание унифицированного представления данных из разных сред.

Для уменьшения сложности при интеграции облачных данных требуется более современный подход. Надежный инструмент интеграции данных в мультиоблачных средах должен решать следующие задачи:

  • Упрощение и ускорение синхронизации различных источников данных в гибридных мультиоблачных средах
  • Размещение сред выполнения ближе к источникам данных
  • Использование встроенной аналитики и услуг ИИ на разных облачных платформах
  • Автоматизация проектирования заданий и предоставление готовых коннекторов для более быстрого доступа к источникам данных
  • Встроенный контроль качества данных для управления соблюдением нормативных требований и регулированием

Такой современный подход реализован в IBM DataStage for IBM Cloud Pak for Data.

Отличия между интеграцией данных и интеграцией приложений

На первый взгляд, интеграция данных и интеграция приложений — схожие понятия, но на самом деле они сильно отличаются друг от друга. Как отмечалось выше, интеграция данных — это деятельность, направленная на поиск и получение информации из разрозненных источников, а также формирование унифицированного представления данных. Интеграция приложений напрямую связывает несколько независимых приложений для обеспечения их взаимодействия, как правило, с помощью современных API или традиционных сервис-ориентированных архитектур. Объединение и оптимизация данных и рабочих процессов позволяют сократить разрыв между локальными системами и облачными приложениями.

Отличия между интеграцией данных и миграцией данных

Миграция данных представляет собой процесс перемещения данных между хранилищами разных типов. Сюда входит перемещение данных из локальных сред в облако. Интеграция данных — более сложный процесс, включающий шаги ETL или ELT для подготовки данных к анализу.

Связанные продукты

IBM Cloud Pak for Data

Интегрируйте и защитите все данные, хранящиеся локально или в любом облаке, помощью этой гибкой мультиоблачной платформы данных.

IBM InfoSphere Master Data Management

Управление основными данными для одного или нескольких доменов, включая клиентов, поставщиков, продукты, учетные записи и т. д.

IBM InfoSphere Data Replication

Повысьте эффективность репликации данных между широким спектром реляционных и нереляционных баз данных — с малой задержкой и улучшением целостности транзакций.

Дальнейшие действия