La inteligencia de datos (DI) combina los principios básicos de la gestión de datos y la gestión de metadatos con herramientas avanzadas, como la inteligencia artificial y el machine learning, para ayudar a las organizaciones a comprender cómo se producen y utilizan los datos empresariales. Los insights de DI pueden desbloquear el valor empresarial de los datos e impulsar la toma de decisiones basada en datos.
Dicho de otra manera, la inteligencia de datos ayuda a las organizaciones a responder preguntas centrales sobre sus datos, que incluyen:
¿Qué datos tiene la organización? ¿Por qué existen estos datos?
¿De dónde provinieron los datos y dónde residen?
¿Quién emplea los datos? ¿Cómo lo están usando y cómo deberían usarlos para obtener mejores resultados?
¿Cómo se relacionan los distintos conjuntos de datos entre sí?
La inteligencia de datos responde a estas preguntas mediante el uso de un conjunto interconectado de procesos y herramientas para automatizar y agilizar la gestión de metadatos, el descubrimiento de datos, la gobernanza de datos, el control de calidad, el análisis de datos y otras actividades.
El 68 % de los datos empresariales nunca se analizan, según el IBM Data Differentiator. Debido a la gran cantidad de datos a su alcance, a las organizaciones les puede costar aplicar controles de calidad y hacer cumplir las políticas de gobernanza. Los usuarios no siempre pueden encontrar los datos adecuados para su trabajo y es posible que ni siquiera sepan cuándo existen.
La inteligencia de datos surgió para abordar este problema mediante la unión de las herramientas existentes, como los catálogos de datos, las soluciones de linaje de datos, los mercados de datos, la inteligencia artificial (IA) y el aprendizaje automático (ML), en un único proceso integral.
Este proceso unificado ofrece a las organizaciones más insights sobre sus datos y cómo obtener el máximo valor de ellos. De este modo, DI permite los analytics de autoservicio y respalda iniciativas clave como la business intelligence y la IA generativa.
La gestión de datos es una disciplina amplia que supervisa todo el ciclo de vida de los datos, desde la creación hasta la eliminación. Mientras que la gestión de datos se ocupa de los aspectos prácticos de la recopilación, almacenar y el procesamiento de datos, la inteligencia de datos consiste en comprender esos datos.
La inteligencia de datos complementa la gestión de datos al brindar a las organizaciones los insights que necesitan para tomar decisiones más informadas sobre la captura, protección, limpieza y uso compartido de datos.
Desde los albores de la Web 2.0 y el auge de la computación en la nube, las organizaciones han estado recopilando más datos (datos de clientes, datos operativos, datos de transacción) de más fuentes de datos (aplicaciones web, sistemas empresariales, dispositivos del Internet de las cosas). El nacimiento de la IA generativa no ha hecho más que aumentar el valor (y la cantidad) de todos estos datos.
Gestionar estos datos (hacer un seguimiento de cómo se utilizan y cómo cambian, almacenarlos de forma segura, facilitar el acceso, mantenerlos limpios y actualizados) puede ser difícil. Si los datos no se gestionan adecuadamente, puede ser difícil para los consumidores encontrar los datos que necesitan, y mucho menos obtener insights aplicables en la práctica a partir de ellos.
Las organizaciones han tenido durante mucho tiempo las capacidades para gestionar datos: herramientas de linaje de datos para mapear ciclos de vida de datos de extremo a extremo, herramientas de gobernanza para definir políticas de uso, herramientas de perfilado y limpieza de datos, etc. Sin embargo, estas capacidades a menudo estaban fragmentadas, dispersas en productos y funciones dispares.
La principal innovación de la disciplina de inteligencia de datos es reunir estas herramientas con tecnologías avanzadas de IA y aprendizaje automático (ML), ya sea en una única plataforma o en una pila de datos estrechamente integrada.
Según IDC, muchas de las plataformas actuales de inteligencia de datos evolucionaron a partir de herramientas de catálogo de datos. Desde 2020, los proveedores han agrupado cada vez más sus catálogos con soluciones complementarias, como herramientas de linaje de datos y mercados de datos, o han incorporado estas funciones directamente en sus catálogos.1
La inteligencia de datos es un campo en desarrollo, con diferentes proveedores y profesionales que presentan sus propias opiniones sobre la disciplina. Sin embargo, la mayoría está de acuerdo en que la inteligencia de datos incluye cinco funciones principales:
Los metadatos son información sobre un punto de datos o conjunto de datos, como el autor o el tamaño del archivo. La gestión de metadatos es fundamental para las iniciativas de inteligencia de datos porque los metadatos bien gestionados ayudan a los usuarios a navegar fácilmente por sistemas de datos complejos.
La gestión de metadatos ayuda a organizar, etiquetar, filtrar y ordenar conjuntos de datos para que los usuarios obtengan una imagen completa de los datos disponibles y puedan recuperar rápidamente la información que necesitan.
La gestión activa de metadatos es especialmente importante para la inteligencia de datos. Mientras que la gestión tradicional de metadatos es en gran medida manual, la gestión activa de metadatos emplea IA y aprendizaje automático (ML) para automatizar el procesamiento de metadatos.
A medida que los datos se transforman y utilizan, sus metadatos pueden cambiar. La gestión activa de metadatos realiza un seguimiento de estos cambios, actualiza automáticamente los metadatos y los utiliza para generar recomendaciones y alertas. De esta manera, puede optimizar el descubrimiento de datos, mejorar la confianza en los datos y permitir la protección y gobernanza de datos a escala.
El linaje de datos es el proceso de seguimiento del flujo de datos a lo largo del tiempo. Proporciona una comprensión clara de dónde se originaron los datos, cómo han cambiado y su destino final dentro de la canalización de datos.
El linaje de datos ayuda a los usuarios a comprender cómo cambian los datos a lo largo de su ciclo de vida, lo que hace que los datos empresariales sean más confiables. También ayuda a las organizaciones a detectar errores, identificar dependencias y anticipar cómo los cambios en un conjunto de datos podrían afectar las operaciones empresariales y los sistemas de TI más amplios.
La gobernanza de datos ayuda a garantizar la integridad y la seguridad de los datos mediante la definición e implementación de políticas, estándares y procedimientos para la recopilación, propiedad, almacenamiento, procesamiento y uso de datos.
La gobernanza de datos ayuda a mantener datos seguros y de alta calidad que son fácilmente accesibles y cumplen con las reglas y regulaciones relevantes. En los esfuerzos de inteligencia de datos, las políticas de gobernanza ayudan a los usuarios a comprender cómo pueden y deben usar los datos.
Por ejemplo, las políticas de gobernanza pueden impedir que los científicos de datos alimenten los modelos de IA con datos sensibles de los clientes, violando las leyes de privacidad de datos.
Las herramientas y prácticas de calidad de datos ayudan a garantizar la precisión, integridad, validez, consistencia, singularidad, puntualidad y adecuación de un conjunto de datos para su propósito. Los esfuerzos de calidad de los datos crean la confianza de los usuarios en las conclusiones e insights que extraen de los datos empresariales.
Las iniciativas de DI suelen incluir también gestión de datos maestros (MDM). Los datos maestros son los datos básicos de una organización sobre entidades empresariales clave, como clientes, productos y ubicaciones. La MDM garantiza que estos datos sean limpios y coherentes mediante la validación, la fusión, la deduplicación y el enriquecimiento.
La integración de datos es el proceso de combinar y armonizar datos procedentes de múltiples fuentes para facilitar su uso con fines analíticos, operativos y decisorios. La integración puede implicar la estandarización de formatos de datos, la transformación de datos en formatos más utilizables y la recopilación de datos de fuentes dispares en lagos de datos, almacenes de datos o lakehouses de datos.
La integración de datos agiliza el acceso y el intercambio de datos, lo que facilita a los consumidores de datos recuperar los datos que necesitan y colaborar entre sí.
Algunos proveedores ofrecen plataformas de inteligencia de datos que combinan diversas características y funciones en una única solución. Otros ofrecen carteras integradas de soluciones complementarias. En cualquier caso, las herramientas tecnológicas fundamentales detrás de la mayoría de las iniciativas de inteligencia de datos incluyen:
Un catálogo de datos utiliza metadatos para crear un inventario detallado y con capacidad de búsqueda de todos los activos de datos de una organización. Esto facilita que los consumidores de datos descubran los datos más apropiados para cualquier propósito analítico o comercial.
Además de inventariar datos, muchos catálogos de datos modernos ofrecen capacidades como:
Mecanismos de gobernanza de datos, incluida la capacidad de establecer y aplicar políticas de uso y privacidad de datos, por ejemplo, mediante la redacción automática de información confidencial.
Gestión activa de metadatos, mediante el uso de IA y aprendizaje automático (ML) para generar automáticamente metadatos y actualizar registros a medida que cambian los datos.
Glosarios empresariales, que permiten a las organizaciones crear definiciones estándar y infraestructura para términos, conceptos y entidades centrales clave en toda la organización.
Controles de calidad de datos, como la creación de perfiles, la limpieza, la validación y las métricas de calidad.
Las herramientas de linaje de datos mapean automáticamente los flujos de datos, las transformaciones y las dependencias, ofreciendo insights clave sobre los ciclos de vida de los datos. Las soluciones de linaje de datos permiten a las organizaciones ver de dónde provienen los datos, cómo se mueven a través del ecosistema de TI empresarial, cómo cambian y cómo los usan los consumidores de datos.
Los productos de datos son conjuntos de datos preempaquetados, preprocesados y fácilmente consumibles o activos relacionados con datos que las personas pueden usar para respaldar los esfuerzos de BI, analytics y ciencia de datos. Algunos ejemplos de productos de datos son los conjuntos de datos curados, los paneles de analytics, los modelos de machine learning, las aplicaciones especializadas y las visualizaciones de datos.
Los mercados centralizan y agilizan la creación, curaduría, gestión e intercambio de productos de datos. Los mercados ayudan a garantizar la calidad de los datos y el cumplimiento de los marcos de gobernanza integrados. También rompen el silo de datos automatizando la entrega de productos de datos y permitiendo compartir a gran escala productos de datos procedentes de fuentes dispares.
Las herramientas de IA y aprendizaje automático (ML), las nuevas aplicaciones de IA generativa y los modelos de lenguaje de gran tamaño (LLM), ayudan a elevar las prácticas de inteligencia de datos más allá de la gestión de datos tradicional. Ya sea como soluciones independientes o integradas en otras herramientas, la IA y el ML pueden automatizar el enriquecimiento de datos y metadatos, agilizar la minería de datos y permitir una gestión avanzada de datos de IA.
Por ejemplo, un LLM integrado puede generar y actualizar automáticamente metadatos en un catálogo de datos, proporcionando explicaciones más fáciles de usar para que los datos sean más accesibles para más stakeholders. Las interfaces de lenguaje natural impulsadas por LLM permiten a los usuarios consultar conjuntos de datos y obtener insights de datos sin necesidad de usar lenguaje de consulta estructurado (SQL) u otros lenguajes especializados.
Las herramientas de AI también pueden ayudar a aplicar políticas de gobernanza y controles de calidad, por ejemplo, descubriendo y clasificando datos confidenciales o identificando conjuntos de datos duplicados.
Los lagos de datos, los almacenes de datos y los lakehouses de datos son soluciones de gestión y almacenamiento de datos con diferentes características y funciones.
Los almacenes de datos agrupan, limpian y preparan los datos para que puedan usarse en los esfuerzos de business intelligence y analytics de datos.
Los lagos de datos almacenan grandes cantidades de datos sin procesar a bajo costo.
Los lakehouses de datos combinan el almacenamiento de datos flexible de un lago y las capacidades de analytics de alto rendimiento de un almacén en una solución única.
Los almacenes, lagos y lakehouses respaldan los esfuerzos de integración de datos al permitir que las organizaciones reúnan datos de diferentes fuentes en llagas centralizadas. También facilitan el acceso y el uso de esos datos para aplicaciones de analytics, BI, AI, aprendizaje automático (ML) y ciencia de datos.
La inteligencia de datos ayuda a las organizaciones a:
Comprender sus datos a través de catálogos de datos completos, herramientas de linaje de datos y gestión activa de metadatos.
Facilite el acceso a los datos mediante catálogos de datos con función de búsqueda, almacenes de datos integrados y centros de productos de datos centralizados.
Garantice la calidad de los datos mediante metadatos actualizados automáticamente, creación de perfiles de datos y limpieza.
Guíe el uso de datos a través de políticas de gobernanza definidas y centros de productos de datos que alojan activos curados para usos específicos.
Como resultado, las organizaciones pueden obtener beneficios como:
La inteligencia de datos promueve la alfabetización de datos y permite los analytics de autoservicio al brindar a los usuarios la visión que necesitan para comprender y emplear los datos empresariales. Los stakeholders en todos los niveles y en todos los roles pueden emplear los datos para tomar decisiones más informadas.
El IBM Data Differentiator informa que el 82 % de las empresas experimentan silos de datos que entorpecen los flujos de trabajo clave. La inteligencia de datos ayuda a erradicar estos silos y a reducir la complejidad de la infraestructura de datos mediante catálogos de datos y mercados centralizados y unificados.
Los usuarios de toda la organización pueden encontrar los datos adecuados para sus propósitos, optimizando la eficiencia operativa e impulsando la colaboración.
Según Gartner, las organizaciones pierden un promedio de USD 12,9 millones debido a la mala calidad de los datos.2 A través del linaje de datos, la creación de perfiles de datos y los esfuerzos de gobernanza, la inteligencia de datos mantiene altos niveles de calidad de datos para que las organizaciones puedan obtener más valor de sus datos.
La inteligencia de datos integra infraestructuras de gobernanza en puntos clave de acceso a los datos, como catálogos y mercados de datos. Esto ayuda a garantizar que los consumidores de datos los empleen solo para fines autorizados, protegiéndolos contra el hackeo, el robo, el uso indebido y el incumplimiento. La gobernanza es especialmente importante en industrias muy reguladas, como la financiera y de atención médica.
Según el IBM Institute for Business Value, el 72 % de los directores ejecutivo (CEO) con mejor rendimiento están de acuerdo en que disponer de las herramientas de IA generativa más avanzadas proporciona a una organización una ventaja competitiva. Y la IA generativa avanzada requiere cantidades masivas de datos de alta calidad y fácilmente accesibles.
La inteligencia de datos ayuda a mejorar la calidad de los datos, facilitar el acceso y aplicar políticas de gobernanza para garantizar que los datos se utilicen solo para los fines correctos, una parte fundamental de la IA responsable.
Un caso de uso particular para la inteligencia de datos es en el ámbito de la inteligencia de modelos de IA. La inteligencia de modelos es la práctica de comprender, administrar y gobernar los ciclos de vida de los diversos modelos de AI y aprendizaje automático (ML) en la cartera de una organización.
En lugar de depender de un solo modelo, muchas organizaciones hoy en día utilizan varios modelos para diferentes fines. Las iniciativas de inteligencia de datos brindan a las organizaciones la transparencia que necesitan para seleccionar los datos correctos para los modelos correctos por las razones correctas.
Específicamente, la inteligencia de datos puede ayudar a las organizaciones a seleccionar los datos correctos en términos de gobernanza (¿estos datos están autorizados para su uso en este modelo?) y aptitud: ¿estos datos son lo suficientemente precisos y relevantes para este modelo?
Además, muchos proveedores están incorporando funciones de gestión de modelos en sus ofertas de inteligencia de datos. Por ejemplo, algunos catálogos de datos están introduciendo funciones de catálogo de modelos, lo que les permite inventariar los modelos de IA y aprendizaje automático (ML) de una organización del mismo modo que hacen inventario de los datos de la empresa.
La inteligencia de datos es una forma de comprender los datos que tiene una organización: sus características definitorias, cómo acceder a ellos y cómo utilizarlos. Los analytics datos, la ciencia de datos y la business intelligence son formas de utilizar esos datos.
Los analytics de datos extraen insights aplicables en la práctica de los datos para tomar mejores decisiones. Los analytics de datos pueden adoptar muchas formas, como los analytics predictivos,que utilizan datos para hacer predicciones sobre el futuro, y los analytics prescriptivos, que utilizan datos para determinar qué hacer a continuación.
La ciencia de datos es una disciplina especializada que combina matemáticas, estadísticas, programación, analytics avanzados, IA, aprendizaje automático(ML) y experiencia en la materia.
La business intelligence (BI) se refiere a las herramientas y técnicas que las personas utilizan para recopilar, gestionar y analizar datos empresariales para informar las operaciones comerciales.
La inteligencia de datos facilita los analytics de datos, la ciencia de datos y la business intelligence al ayudar a los usuarios a comprender y emplear mejor los conjuntos de datos de sus organizaciones. Cuando los usuarios saben qué tipo de datos tiene la organización y para qué se pueden emplear, pueden conectarse más fácilmente con los conjuntos de datos adecuados para sus propósitos.
Por ejemplo, los científicos de datos pueden encontrar datos de alta calidad que cumplan con las normas para capacitar algoritmos de machine learning; Los usuarios de BI pueden encontrar conjuntos de datos curados y adaptados a sus dominios específicos.
Todos los enlaces son externos a ibm.com.
1 IDC MarketScape: Worldwide Data Intelligence Platform Software 2024 Vendor Assessment, IDC, noviembre de 2024.
2 Data Quality: Best Practices for Accurate Insights, Gartner.
IBM fue nombrado líder por 19.º año consecutivo en Gartner Magic Quadrant 2024 para herramientas de integración de datos.
Descubra por qué la inteligencia de datos impulsada por IA y la integración de datos son críticos a la hora de impulsar la preparación de datos estructurados y no estructurados y acelerar los resultados de IA.
Descubra el potencial de integrar una estrategia de lakehouse de datos en su arquitectura de datos, incluida la optimización de costos de sus cargas de trabajo y el escalado de IA y analytics, con todos sus datos, en cualquier lugar.
Explore la guía del líder de datos para crear una organización basada en datos e impulsar la ventaja empresarial.
Indague sobre las 5 razones principales por las que debería modernizar su integración de datos en IBM Cloud Pak for Data.
Obtenga insights únicos del panorama en evolución de las soluciones ABI, en el que se destaquen las principales conclusiones, suposiciones y recomendaciones para los líderes de datos y analytics.
Active los datos para IA y analytics con catalogación inteligente y gestión de políticas. IBM Knowledge Catalog es un software de gobernanza de datos que proporciona un catálogo de datos para automatizar el descubrimiento de datos, la gestión de la calidad de los datos y la protección de datos.
Explore cómo IBM permite la creación de una base de datos gobernada y lista para el cumplimiento. Implemente la transparencia de datos con IBM Manta Data Lineage hoy mismo para que pueda ver su historial de datos, flujo y resultados para que funcione para usted de principio a fin.
Descubra cómo IBM Data Product Hub ayuda a optimizar el intercambio de datos y automatiza la entrega de productos de datos a los consumidores de datos en toda la organización.