¿Qué es IBM Watson Knowledge Catalog?

IBM Watson® Knowledge Catalog es un repositorio de metadatos empresariales basado en la nube que le permite catalogar sus activos de conocimiento y de analítica, incluyendo modelos de machine learning, así como datos estructurados y no estructurados, dondequiera que estén, de modo que se pueda acceder a ellos fácilmente y utilizarlos para alimentar la ciencia de datos y todas las formas de IA.

Para los tipos de origen seleccionados, Watson Knowledge Catalog puede descubrir y registrar automáticamente activos de datos en la conexión proporcionada. A medida que se añaden activos al catálogo, estos se indexan y clasifican automáticamente, lo que facilita a los usuarios, como los ingenieros de datos, los científicos de datos, los administradores de datos y los analistas de negocios, a encontrar, comprender, compartir y utilizar los activos. Las recomendaciones y la búsqueda basadas en la IA guían a los usuarios hacia los activos más relevantes del catálogo, en función de la comprensión de las relaciones entre los activos, cómo se utilizan esos activos y las conexiones sociales entre los usuarios.

Watson Knowledge Catalog también proporciona un marco de gobierno inteligente y robusto que permite definir y aplicar políticas y acceso de datos para asegurar que los datos correctos vayan a las personas adecuadas.  

A través de Watson Knowledge Catalog Business Glossary, los usuarios pueden crear un vocabulario empresarial común y asociarlo a sus activos, políticas y reglas, lo que conecta el dominio empresarial y sus activos técnicos.

¿En qué regiones puede implementar Watson Knowledge Catalog?

Si tiene restricciones regionales para los de datos, puede implementarse en una de las siguientes ciudades: Dallas, Londres, Frankfurt o Tokio.

¿Watson Knowledge Catalog está disponible en cualquier otro lugar del mundo?

Sí. Además de los EE. UU., es posible suscribirse a Watson Knowledge Catalog en el Reino Unido, Alemania y Japón.

¿Tengo que mover mis datos a Watson Knowledge Catalog?

No. Es posible conservar los datos en los repositorios actuales. Watson Knowledge Catalog almacena los metadatos de sus activos.

¿Qué orígenes de datos y tipos de activos cuentan con soporte?

IBM proporciona más de 30 conectores a tipos de orígenes de datos en la nube u on premises que le permitirán conectarse a sus activos de datos remotos. Por ejemplo, en IBM hay disponibles conectores a IBM Db2® en la nube u on promises, IBM Cloudant®, IBM Cloud™ Object Storage, Oracle, Microsoft SQL Server, Microsoft Azure, Amazon S3, Salesforce.com, Hortonworks HDFS, Sybase.

Además de los activos de orígenes de datos remotos, Watson Knowledge Catalog da soporte a otros tipos de activos como, por ejemplo, los datos estructurados (fila/columna), semiestructurados y no estructurados. Por ejemplo, puede añadir archivos CSV, Microsoft Excel, PDF, de texto, Microsoft Word, Jupyter Notebook (IPYNB), imagen y HTML, por citar algunos, al catálogo para crear perfiles y compartir con otros usuarios.

¿Cuál es el número máximo de activos que puedo tener en Watson Knowledge Catalog?

Con el plan Professional, no hay límite en el número de activos que se puede tener en Knowledge Catalog. Con los Planes Standard y Lite, los límites son de 500 y 50 activos, respectivamente.

¿Watson Knowledge Catalog proporciona servicios de gobernanza?

Watson Knowledge Catalog incluye un mecanismo de aplicación de políticas automatizado que determinará los resultados con base en las políticas y en la acción que se ha llevado a cabo. Watson Knowledge Catalog proporciona la posibilidad de configurar las políticas de gobierno dentro del sistema, para poder restringir el acceso a los datos o transformar los datos mediante el enmascaramiento de contenido confidencial. 

¿Se puede suprimir o cambiar la fuente de datos original con una política de datos que enmascara los datos?

No. Cuando una política de protección de datos convierte en anónimos los datos confidenciales del catálogo, solo se transforman los datos de vista previa que la aplicación gestiona. Los datos originales no se modifican.

¿Watson Knowledge Catalog proporciona servicios de clasificación?

Watson Knowledge Catalog puede clasificar automáticamente columnas de los activos de datos cuando estos se añaden al catálogo. Los componentes incorporados proporcionan más de 160 clasificadores de atributos, entre ellos nombres, e-mails, direcciones postales, números de tarjetas de crédito, números de licencia de conducir, números de identificación del gobierno, fechas de nacimiento, información demográfica, números de DUNS (Data Universal Numbering System), etc. Los catálogos también crean perfiles de activos de datos no estructurados y extraen metadatos de su contenido, como categorías, conceptos, pareceres y emociones. Vea Crear perfiles de activos de datos.

¿En Watson Knowledge Catalog existen recursos de preparación de datos?

Sí. Los recursos de preparación de datos están disponibles a través de Data Refinery, que forma parte de Watson Knowledge Catalog. Data Refinery proporciona un amplio conjunto de recursos que no solo le permiten descubrir, limpiar y transformar sus datos con operaciones incorporadas, sino que también viene con herramientas potentes de creación de perfiles y visualización, como gráficos y estadísticas para ayudarlo a interactuar con los datos y comprenderlos. Las políticas de acceso y transformación de datos que se definen en Watson Knowledge Catalog también se aplican en Data Refinery para asegurarse de que los datos confidenciales que se originan desde los catálogos gobernados sigan protegidos.

¿Se pueden configurar grupos de acceso para personas de diferentes líneas de negocio?

Sí. Los grupos de acceso se pueden configurar a través de IBM Cloud Identity and Asset Management. En el módulo de control de accesos de Watson Knowledge Catalog, se puede añadir un colaborador y un grupo de usuarios.

¿Qué son las horas unitarias de capacidad?

Los flujos de Data Refinery, la interfaz de usuario interactiva de Data Refinery y los trabajos de creación de perfiles se cobran por el número de horas completas o unidades de capacidad necesarias por hora para cada tipo de capacidad:

  • Los flujos de Data Refinery necesitan 1,5 unidades de capacidad por hora con un entorno Spark predeterminado. Para otros entornos personalizados, el cálculo depende del número de ejecutores y recursos que se utilizan para el controlador Spark y el ejecutor.
  • La interfaz de usuario interactiva de Data Refinery requiere 1,5 unidades de capacidad por hora, empezando cuando la interfaz de usuario de la refinería se inicia y finalizando cuando se cierra.
  • Los trabajos de creación de perfiles necesitan de seis unidades de capacidad por hora. Se aplicará un cargo mínimo de 0,96 (el equivalente a 10 minutos) para cada ejecución de trabajos.

En cada plan se incluye un número establecido de horas gratuitas de unidades de capacidad para el mes. En los planes Standard y Professional, los cargos se aplicarán después de que se alcance el límite del plan para ese mes. Para el plan Lite, cuando se alcance el límite del plan para ese mes, no se podrán ejecutar flujos de Data Refinery ni trabajos de creación de perfiles hasta el mes siguiente o hasta que el plan se actualice al plan Professional.

Ejemplos de flujo de Data Refinery que utilizan el Tipo de Capacidad 3 predeterminado:

  1. Un flujo de Data Refinery se ejecuta durante 1 hora: 1,5 CUH
  2. Dos flujos de Data Refinery se ejecutan durante 1 hora cada uno: 2 horas * 1,5 CUH = 3 CUH
  3. Un flujo de Data Refinery se ejecuta durante 30 minutos: 0,5 horas * 1,5 CUH = 0,75 CUH
  4. La interfaz de usuario interactiva de Data Refinery se utiliza durante 1 hora: 1,5 CUH

Ejemplos de creación de perfiles (los trabajos de creación de perfiles se pueden accionar de forma automática o manual):

  1. Un trabajo de creación de perfiles se ejecuta durante 30 minutos: 0,5 horas * 6 CUH = 3 CUH
  2. Un trabajo de creación de perfiles se ejecuta durante 9 minutos. El cargo mínimo se aplica en este caso: 0,16 horas * 6 CUH = 0,96 CUH

Después de la compra de un plan Standard o Professional, ¿cuánta configuración se necesita para poder aprovechar al máximo el producto?

Watson Knowledge Catalog es completamente de autoservicio, por lo que un administrador puede empezar creando un catálogo y, luego, agregar y seleccionar activos de inmediato. Las tareas adicionales pueden incluir:

  • Creación de un glosario empresarial
  • Definición de políticas de protección de datos para controlar el acceso a los datos
  • Invitación de usuarios al catálogo

¿Está disponible en IBM Cloud Pak for Data?

Sí. Descubra más acerca de la plataforma de datos integrada más reciente de IBM: IBM Cloud Pak™ for Data

Pruebe Watson Knowledge Catalog

Aproveche el machine learning y la IA para analizar sus datos. Catalogue los datos para que sean fáciles de encontrar y utilizar.