Visión general de Cloud Pak for Data
IBM Cloud Pak for Data es un conjunto de servicios en IBMSoftware Hub que realiza todas las tareas de gobernanza de datos, ingeniería de datos, análisis de datos y ciclo de vida de la IA. Cloud Pak for Data Implementa una solución de estructura de datos para que puedas proporcionar acceso instantáneo y seguro a datos fiables a tu organización, automatizar procesos y el cumplimiento normativo, y ofrecer una IA fiable en tus aplicaciones.
Una arquitectura de estructura de datos implementa la gestión activa de metadatos para automatizar el procesamiento de metadatos con IA. Los resultados del análisis de metadatos facilitan el descubrimiento automatizado de datos, mejoran la confianza en los datos y permiten la protección y la gobernanza de los datos a gran escala.
Cloud Pak for Data proporciona herramientas integradas para que su organización trabaje con sus datos y mejore su negocio. Sus ingenieros de datos necesitan herramientas para gestionar, preparar, integrar y virtualizar datos. Sus analistas de calidad de datos necesitan herramientas para medir la calidad de los datos. Tu equipo de gobernanza necesita herramientas para controlar, proteger y enriquecer tus datos. Los consumidores de datos, como los analistas de negocios y los científicos de datos, necesitan herramientas para desarrollar conocimientos y modelos de forma colaborativa.
Para obtener más información sobre la solución de estructura de datos, consulte Casos de uso. Para experimentar la implementación de la estructura de datos, realice los tutoriales sobre la estructura de datos.
Vea este vídeo para obtener una visión general de Cloud Pak for Data
Este vídeo ofrece un método visual para aprender los conceptos y tareas que se describen en esta documentación.
Arquitectura de la plataforma
Cloud Pak for Data incluye un conjunto de servicios integrados en IBM Software Hub. La IBMSoftware Hub plataforma cuenta con múltiples experiencias integradas que comparten servicios y espacios de trabajo. Las experiencias a las que puede acceder dependen de los servicios que estén instalados en su IBMSoftware Hub clúster. Una experiencia proporciona acceso específico a las herramientas necesarias para tareas concretas.
La IBMSoftware Hub plataforma incluye estas experiencias integradas:
- watsonx, que contiene los servicios Watson Studio, Watson Machine LearningIBMwatsonx.governance y para crear y gestionar soluciones de IA.
- Data Fabric, que contiene el watsonx.data intelligence servicio para preparar y compartir productos de datos fiables y de alta calidad.
- watsonx.data, que contiene los servicios watsonx.data Premium, watsonx.data intelligence, watsonx.ai y relacionados para preparar datos no estructurados para la IA.
- Cloud Pak for Data, que contiene muchos de los mismos servicios que las otras experiencias, pero sin IA generativa ni capacidades de procesamiento de datos no estructurados.
- Data Product Hub, que contiene el Data Product Hub servicio para compartir productos de datos sin el resto de las Data Fabric capacidades.
Los proyectos se comparten entre las experiencias para que los usuarios con diferentes tareas puedan trabajar juntos. Puede cambiar entre las experiencias a las que tiene permiso para acceder y utilizar diferentes herramientas. Los usuarios que colaboran en el mismo proyecto pueden trabajar en diferentes experiencias. Por ejemplo, supongamos que un ingeniero de datos y un ingeniero de IA colaboran en el mismo proyecto. El ingeniero de datos, que trabaja en el ámbito de Data Fabric la experiencia, prepara un activo de datos. El ingeniero de IA, que trabaja en el ámbito de watsonx la experiencia, utiliza los activos de datos para entrenar un modelo. Consulte Cambiar entre experiencias.
La siguiente ilustración muestra la arquitectura de las experiencias integradas en la IBMSoftware Hub plataforma, los servicios y capacidades para cada experiencia, y la funcionalidad compartida que proporciona una experiencia de usuario integrada.
Servicios de Cloud Pak for Data
Cloud Pak for Data Los servicios proporcionan herramientas para gestionar datos, integrar datos, analizar y crear modelos de aprendizaje automático con datos, y gobernar datos. Las herramientas y los recursos de hardware y software a los que tienes acceso dependen de los servicios que estén instalados en tu sistema.
Almacenamiento y gestión de datos: los administradores de bases de datos pueden gestionar las fuentes de datos instaladas en su clúster y crear conexiones con muchos otros tipos de fuentes de datos.
Preparación e integración de datos: los ingenieros de datos pueden transformar datos, virtualizarlos, replicarlos y gestionar datos maestros.
Análisis de datos y creación de modelos: los científicos de datos pueden analizar y visualizar datos, entrenar modelos de aprendizaje automático y gestionar soluciones de IA.
Gobernanza de datos: los administradores de datos pueden seleccionar datos, gestionar la calidad de los datos, protegerlos y compartirlos en catálogos.
Servicios principales comunes
Muchos de los servicios de las experiencias en IBMSoftware Hub requieren características e interfaces similares. Estas funciones son proporcionadas por el IBMSoftware Hubcommon core services. Proporcionan conexiones common core services a fuentes de datos, espacios de trabajo como proyectos y espacios de implementación, gestión de tareas, notificaciones y búsqueda.
Conectividad
Puede crear conexiones con fuentes de datos remotas e importar los datos conectados. Puede configurar conexiones con credenciales personales o compartidas. Para obtener una lista de los conectores compatibles, consulte Fuentes de datos compatibles.
Puedes compartir conexiones con otras personas a través de la plataforma en el Platform assets catalog.
Administración
Los administradores de clústeres gestionan a través IBMwatsonx de IBM Software Hub. Los administradores pueden realizar los siguientes tipos de tareas:
- Instalación, actualización o migración del software
- Copia de seguridad o restauración del software
- Supervisión de la plataforma
- Protección del entorno
- Sucesos de auditoría
- Reenvío de alertas, notificaciones y anuncios
- Configuración de servicios
- Gestión de recursos
- Gestión de usuarios
Consulte Administración IBMSoftware Hub en la IBMSoftware Hub documentación.
Almacenamiento
watsonxIBM y Cloud Pak for Data requieren una solución de almacenamiento persistente que sea accesible para su Red Hat OpenShift clúster. Todos los activos que creas con watsonx.ai y watsonx.governance se almacenan en esa solución de almacenamiento persistente.
Consulte los requisitos de almacenamiento en la IBMSoftware Hub documentación.
Espacios de trabajo y activos
Cloud Pak for Data está organizado como un conjunto de espacios de trabajo colaborativos donde puedes trabajar con tu equipo u organización. Cada espacio de trabajo tiene un conjunto de miembros con roles que proporcionan permisos para realizar acciones. La mayoría de los usuarios trabajan con activos, que son los elementos que los usuarios añaden a la plataforma. Los activos de datos contienen metadatos que representan datos, mientras que los activos que se crean en herramientas, como canalizaciones de datos y modelos, ejecutan código para trabajar con datos. El diagrama siguiente muestra los espacios de trabajo principales, sus propósitos y cómo se mueven los activos y otros elementos alrededor de la plataforma.
Puedes trabajar en este tipo de espacios de trabajo en Cloud Pak for Data :
- Proyectos
- Espacios de despliegue
- Catálogos
- Categorías
- Otros espacios de trabajo para servicios específicos
Puedes buscar activos en todos los espacios de trabajo a los que perteneces.
Proyectos
Los proyectos son donde los equipos de ciencia de datos, ingeniería de datos u ordenación de datos trabajan con datos para crear activos, tales como cuadernos, paneles de control, modelos, interconexiones de datos o activos de datos enriquecidos.
Si tienes la watsonx experiencia, tus proyectos aparecerán en ambas experiencias. Sin embargo, solo puede ver y ejecutar los activos que son válidos en la experiencia actual. Por ejemplo, en la Cloud Pak for Data experiencia, no se puede inferir un modelo básico.
La imagen siguiente muestra el aspecto que podría tener la página Visión general de un proyecto.

Catálogos
Los catálogos son donde su organización encuentra y almacena datos de alta calidad y de confianza y otros activos, como las hojas de datos de modelos. Puede encontrar activos de datos en un catálogo y moverlos a un proyecto para trabajar con los datos. O bien puede conservar los datos en proyectos y publicar los activos de datos de alta calidad en un catálogo para que los utilicen otros. Los catálogos requieren el IBM Knowledge Catalog servicio.
La imagen siguiente muestra el aspecto que podría tener la página Activos de un catálogo.

Espacios de despliegue
Los espacios de implementación son aquellos en los que su ModelOps equipo implementa modelos y otros activos implementables en producción y, a continuación, prueba y gestiona las implementaciones en producción. Después de crear modelos y activos implementables en proyectos, los promociona a espacios de implementación.
La imagen siguiente muestra el aspecto que podría tener la página Visión general de un espacio de despliegue.

Categorías
Las categorías son donde el equipo de gobierno crea y gestiona artefactos de gobierno que enriquecen los activos de datos en catálogos. Las categorías requieren el IBM Knowledge Catalog servicio.
La imagen siguiente muestra el aspecto que podría tener una categoría.

Otros espacios de trabajo
Puede crear activos de datos especializados en otros espacios de trabajo y moverlos a proyectos y catálogos:
- El Data Virtualization servicio proporciona un espacio de trabajo para virtualizar activos de datos en múltiples fuentes de datos.
- El servicio Match360 proporciona un espacio de trabajo para configurar y explorar una vista de 360 grados de los datos del cliente.
- El servicio de linaje de datos proporciona un espacio de trabajo para configurar y explorar el linaje.