La inteligencia de datos (DI) combina los principios básicos de la gestión de datos y la gestión de metadatos con herramientas avanzadas, como la inteligencia artificial y el machine learning,para ayudar a las organizaciones a comprender cómo se producen y utilizan los datos empresariales. Los conocimientos de DI pueden desbloquear el valor empresarial de los datos e impulsar la toma de decisiones basada en datos.
Dicho de otro modo, la inteligencia de datos ayuda a las organizaciones a responder a preguntas fundamentales sobre sus datos, entre ellas:
¿Qué datos tiene la organización? ¿Por qué existen estos datos?
¿De dónde procedían los datos y dónde residen?
¿Quién utiliza los datos? ¿Cómo lo están utilizando y cómo deberían utilizarlo para obtener mejores resultados?
¿Cómo se relacionan entre sí los distintos conjuntos de datos?
La inteligencia de datos responde a estas preguntas mediante el uso de un conjunto interconectado de procesos y herramientas para automatizar y agilizar la gestión de metadatos, la detección de datos, el gobierno del dato, el control de calidad, el análisis de datos y otras actividades.
El 68 % de los datos empresariales nunca se analizan, según IBM Data Differentiator. Debido a la gran cantidad de datos a su alcance, a las organizaciones les puede costar aplicar controles de calidad y hacer cumplir las políticas de gobierno. Los usuarios no siempre pueden encontrar los datos adecuados para su trabajo y es posible que ni siquiera sepan cuándo existen.
La inteligencia de datos surgió para abordar este problema mediante la unión de las herramientas existentes, como los catálogos de datos, las soluciones de linaje de datos, los mercados de datos, la inteligencia artificial (IA) y el machine learning (ML), en un único proceso integral.
Este proceso unificado ofrece a las organizaciones más conocimiento sobre sus datos y cómo obtener el máximo valor de ellos. De este modo, DI permite el análisis de autoservicio y respalda iniciativas clave como la inteligencia empresarial y la IA generativa.
La gestión de datos es una disciplina amplia que supervisa todo el ciclo de vida de los datos, desde su creación hasta su eliminación. Mientras que la gestión de datos se ocupa de los aspectos prácticos de la recopilación, almacenar y el procesamiento de datos, la inteligencia de datos se refiere a la comprensión de esos datos.
La inteligencia de datos complementa la gestión de datos al proporcionar a las organizaciones los conocimientos que necesitan para tomar decisiones más informadas sobre la captura, protección, limpieza y uso compartido de datos.
Desde los albores de la Web 2.0 y el auge del cloud computing, las organizaciones han estado recopilando más datos (datos de clientes, datos operativos, datos de transacción) de más fuentes de datos (aplicaciones web, sistemas empresariales, dispositivos de Internet de las cosas). El nacimiento de la IA generativa no ha hecho más que aumentar el valor (y la cantidad) de todos estos datos.
Gestionar estos datos (hacer un seguimiento de cómo se utilizan y cómo cambian, almacenarlos de forma segura, facilitar el acceso, mantenerlos limpios y actualizados) puede ser difícil. Si los datos no se gestionan adecuadamente, a los consumidores de datos les puede resultar complicado encontrar los datos que necesitan, y mucho menos obtener de ellos conocimientos que se pueden ejecutar.
Las organizaciones han tenido durante mucho tiempo las capacidades para gestionar los datos: herramientas de linaje de datos para mapear los ciclos de vida de los datos de extremo a extremo, herramientas de gobierno para definir políticas de uso, herramientas de creación de perfiles y limpieza de datos, etc. Sin embargo, estas capacidades estaban a menudo fragmentadas, dispersas en productos y funciones dispar.
La principal innovación de la disciplina de inteligencia de datos es reunir estas herramientas con tecnologías avanzadas de IA y ML, ya sea en una única plataforma o en una pila de datos estrechamente integrada.
Según IDC, muchas de las plataformas actuales de inteligencia de datos evolucionaron a partir de herramientas de catálogo de datos. Desde 2020, los proveedores han agrupado cada vez más sus catálogos con soluciones complementarias, como herramientas de linaje de datos y mercados de datos, o han incorporado estas funciones directamente en sus catálogos.1
La inteligencia de datos es un campo en desarrollo, con diferentes proveedores y profesionales que presentan sus propias opiniones sobre la disciplina. Sin embargo, la mayoría está de acuerdo en que la inteligencia de datos incluye cinco funciones principales:
Los metadatos son información sobre un punto de datos o conjunto de datos, como el autor o el tamaño del archivo. La gestión de metadatos es fundamental para las iniciativas de inteligencia de datos porque los metadatos bien gestionados ayudan a los usuarios a navegar fácilmente por sistemas de datos complejos.
La gestión de metadatos ayuda a organizar, etiquetar, filtrar y ordenar conjuntos de datos para que los usuarios obtengan una imagen completa de los datos disponibles y puedan recuperar rápidamente la información que necesitan.
La gestión activa de metadatos es especialmente importante para la inteligencia de datos. Mientras que la gestión de metadatos tradicional es en gran medida manual, la gestión activa de metadatos utiliza IA y ML para automatizar el procesamiento de metadatos.
A medida que los datos se transforman y utilizan, sus metadatos pueden cambiar. La gestión activa de metadatos rastrea estos cambios, actualiza automáticamente los metadatos y los utiliza para generar recomendaciones y alertas. De esta manera, puede agilizar la detección de datos, mejorar la confianza en los datos y permitir la protección y el gobierno de los datos a escala.
El linaje de datos es el proceso de seguimiento del flujo de datos a lo largo del tiempo. Proporciona una comprensión clara de dónde se originaron los datos, cómo han cambiado y su destino final dentro de la canalización de datos.
El linaje de datos ayuda a los usuarios a entender cómo cambian los datos a lo largo de su ciclo de vida, lo que hace que los datos empresariales sean más fiables. También ayuda a las organizaciones a detectar errores, identificar dependencias y anticipar cómo los cambios en un conjunto de datos podrían afectar a las operaciones empresariales y a los sistemas de TI en general.
El gobierno de datos ayuda a garantizar la integridad y la seguridad de los datos mediante la definición e implementación de políticas, estándares y procedimientos para la recopilación, propiedad, almacenamiento, procesamiento y uso de datos.
El gobierno de datos ayuda a mantener datos seguros y de alta calidad, a los que se puede acceder fácilmente y que cumplen con las normas y reglamentos pertinentes. En las iniciativas de inteligencia de datos, las políticas de gobierno ayudan a los usuarios a entender cómo pueden y deben utilizar los datos.
Por ejemplo, las políticas de gobierno pueden impedir que los científicos de datos proporcionen datos confidenciales de clientes a los modelos de IA, violando así las leyes de privacidad de datos.
Las herramientas y prácticas de calidad de los datos ayudan a garantizar la precisión, la integridad, la validez, la coherencia, la singularidad, la puntualidad y la aptitud del conjunto de datos para su propósito. Los esfuerzos por la calidad de los datos aumentan la confianza de los usuarios en las conclusiones y los conocimientos que extraen de los datos empresariales.
Las iniciativas de DI suelen incluir también MDM (gestión de datos maestros). Los datos maestros son los datos básicos de una organización sobre entidades empresariales clave, como clientes, productos y ubicaciones. La MDM garantiza que estos datos sean limpios y coherentes mediante la validación, la fusión, la deduplicación y el enriquecimiento.
La integración de datos es el proceso de combinar y armonizar datos de múltiples fuentes para facilitar su uso con fines analíticos, operativos y de toma de decisiones. La integración puede implicar la estandarización de formatos de datos, la transformación de datos en formatos más utilizables y la recopilación de datos de fuentes dispares en data lakes compartidos, almacenes de datos o lakehouses de datos.
La integración de datos agiliza el acceso y el intercambio de datos, lo que facilita a los consumidores de datos la recuperación de los datos que necesitan y la colaboración entre ellos.
Algunos proveedores ofrecen plataformas de inteligencia de datos que combinan varias características y funciones en una única solución. Otros ofrecen carteras integradas de soluciones complementarias. En cualquier caso, las herramientas tecnológicas fundamentales detrás de la mayoría de las iniciativas de inteligencia de datos incluyen:
Un catálogo de datos utiliza metadatos para crear un inventario detallado y consultable de todos los activos de datos de una organización. Esto facilita a los consumidores de datos descubrir los datos más adecuados para cualquier propósito analítico o empresarial.
Más allá del inventario de datos, muchos catálogos de datos modernos cuentan con capacidades como:
Mecanismos de gobierno del dato, incluida la capacidad de establecer y aplicar políticas de uso y protección de datos, por ejemplo redactando automáticamente la información sensible.
Gestión activa de metadatos, mediante el uso de IA y ML para generar automáticamente metadatos y actualizar registros a medida que cambian los datos.
Glosarios empresariales, que permiten a las organizaciones crear definiciones y marcos estándar para términos clave, conceptos y entidades centrales en toda la organización.
Controles de calidad de los datos, como la elaboración de perfiles de datos, la limpieza, la validación y las métricas de calidad.
Las herramientas de linaje de datos mapean automáticamente los flujos de datos, las transformaciones y las dependencias, lo que ofrece conocimiento clave sobre los ciclos de vida de los datos. Las soluciones de linaje de datos permiten a las organizaciones ver de dónde provienen los datos, cómo se mueven a través del ecosistema de TI de la empresa, cómo cambian y cómo los consumidores de datos los utilizan.
Los mercados de datos, también llamados centros de productos de datos, son plataformas digitales en las que los usuarios pueden acceder a productos de datos y compartirlos.
Los productos de datos son conjuntos de datos o activos relacionados con datos preempaquetados, preprocesados y fácilmente consumibles que las personas pueden utilizar para respaldar los esfuerzos de BI, análisis y ciencia de datos. Algunos ejemplos de productos de datos son conjuntos de datos organizados, paneles de control de análisis, modelos de machine learning, aplicaciones especializadas y visualizaciones de datos.
Los mercados centralizan y agilizan la creación, curación, gestión y compartición de productos de datos. Los mercados de datos ayudan a garantizar la calidad de los datos y el cumplimiento de los marcos de gobierno integrados. También eliminan los silos de datos al automatizar la entrega de productos de datos y permitir el intercambio a gran escala de productos de datos de fuentes dispar.
Las herramientas de IA y ML, las nuevas aplicaciones de IA generativa y los modelos de lenguaje de gran tamaño (LLM), ayudan a elevar las prácticas de inteligencia de datos más allá de la gestión de datos tradicional. Ya sea como soluciones independientes o integradas en otras herramientas, la IA y el ML pueden automatizar el enriquecimiento de datos y metadatos, agilizar la minería de datos y permitir una gestión avanzada de datos de IA.
Por ejemplo, un LLM integrado puede generar y actualizar automáticamente metadatos en un catálogo de datos, proporcionando explicaciones más fáciles de usar para que los datos sean más accesibles para más partes interesadas. Las interfaces de lenguaje natural impulsadas por LLM permiten a los usuarios consultar conjuntos de datos y obtener conocimientos sobre los datos sin necesidad de utilizar el lenguaje de consulta estructurado (SQL) u otros lenguajes especializados.
Las herramientas de IA también pueden ayudar a hacer cumplir las políticas de gobierno y los controles de calidad, por ejemplo, mediante la detección y clasificación de datos confidenciales o la identificación de conjuntos de datos duplicados.
Los data lakes, almacenes de datos y lakehouses de datos son soluciones de gestión de datos y almacenamiento con diferentes características y funciones.
Los almacenes de datos agrupan, limpian y preparan los datos para que puedan usarse en los esfuerzos de business intelligence y análisis de datos.
Los data lakes almacenan grandes cantidades de datos sin procesar a bajo coste.
Los lakehouses de datos combinan el almacenamiento de datos flexible y las potentes capacidades analíticas de un almacén en una solución única.
Los almacenes, lakes y lakehouses respaldan los esfuerzos de integración de datos al permitir que las organizaciones reúnan datos de diferentes fuentes en llagas centralizadas. También facilitan el acceso y el uso de esos datos para aplicaciones de análisis, BI, IA, ML y ciencia de datos.
La inteligencia de datos ayuda a las organizaciones a:
comprender sus datos a través de catálogos de datos completos, herramientas de linaje de datos y gestión activa de metadatos.
facilitar el acceso a datos a través de catálogos de datos en los que se pueden realizar búsquedas, almacenes de datos integrados y centros de productos de datos centralizados.
garantizar la calidad de los datos mediante metadatos actualizados automáticamente, perfiles de datos y limpieza.
guiar el uso de datos a través de políticas de gobierno definidas y centros de productos de datos que alojan activos organizados para usos específicos.
Como resultado, las organizaciones pueden obtener beneficios como:
La inteligencia de datos promueve la alfabetización en datos y permite el análisis de autoservicio al proporcionar a los usuarios la información que necesitan para comprender y utilizar los datos empresariales. Las partes interesadas de todos los niveles y funciones pueden utilizar los datos para tomar decisiones más informadas.
El IBM Data Differentiator informa de que el 82 % de las empresas experimentan silos de datos que obstaculizan los flujos de trabajo clave. La inteligencia de datos ayuda a erradicar estos silos y a reducir la complejidad de la infraestructura de datos a través de catálogos y mercados de datos centralizados y unificados.
Los usuarios de toda la organización pueden encontrar los datos adecuados para sus fines, lo que agiliza la eficiencia operativa e impulsa la colaboración.
Según Gartner, las organizaciones pierden una media de 12,9 millones de dólares debido a la mala calidad de los datos.2 A través del linaje de datos, la creación de perfiles de datos y los esfuerzos de gobierno, la inteligencia de datos mantiene altos niveles de calidad de los datos para que las organizaciones puedan obtener más valor de sus datos.
La inteligencia de datos integra los marcos en los puntos clave de acceso a datos, como los catálogos de datos y los mercados. Esto ayuda a garantizar que los consumidores de datos los utilicen sólo para los fines autorizados, protegiéndolos contra la piratería informática, el robo, el uso indebido y el incumplimiento. El gobierno es especialmente importante para los sectores altamente regulados, como las finanzas y la sanidad.
Según el IBM Institute for Business Value, el 72 % de los CEO con mejor rendimiento están de acuerdo en que disponer de las herramientas de IA generativa más avanzadas proporciona a una organización una ventaja competitiva. Y la IA generativa avanzada requiere cantidades masivas de datos de alta calidad y fácilmente accesibles.
La inteligencia de datos ayuda a mejorar la calidad de los datos, facilitar el acceso y aplicar políticas de gobierno para garantizar que los datos se utilicen solo para los fines correctos, una parte fundamental de la IA responsable.
Un caso de uso particular de la inteligencia de datos es el ámbito de la inteligencia de modelos de IA. La inteligencia de modelos es la práctica de comprender, gestionar y gobernar los ciclos de vida de los diversos modelos de IA y ML en la cartera de una organización.
En lugar de confiar en un solo modelo, muchas organizaciones hoy en día utilizan varios modelos para diferentes fines. Las iniciativas de inteligencia de datos dan a las organizaciones la transparencia que necesitan para seleccionar los datos correctos para los modelos correctos y por los motivos correctos.
En concreto, la inteligencia de datos puede ayudar a las organizaciones a seleccionar los datos adecuados en términos de gobierno (¿están autorizados estos datos para su uso en este modelo?) y aptitud: ¿son estos datos lo suficientemente precisos y relevantes para este modelo?
Además, muchos proveedores están incorporando funciones de gestión de modelos en sus ofertas de inteligencia de datos. Por ejemplo, algunos catálogos de datos están introduciendo funciones de catálogo de modelos, lo que les permite inventariar los modelos de IA y ML de una organización del mismo modo que hacen inventario de los datos de la empresa.
La inteligencia de datos es una forma de comprender los datos que tiene una organización: sus características definitorias, cómo acceder a ellos y cómo utilizarlos. El análisis de datos, la ciencia de datos y la inteligencia empresarial son formas de utilizar esos datos.
El análisis de datos extrae conocimientos útiles de los datos para tomar mejores decisiones. El análisis de datos puede adoptar muchas formas, como el análisis predictivo (uso de datos para hacer predicciones sobre el futuro) y el análisis prescriptivo (uso de datos para determinar qué hacer a continuación).
La ciencia de datos es una disciplina especializada que combina matemáticas, estadística, programación, análisis avanzados, IA, ML y experiencia en la materia.
La inteligencia empresarial (BI) se refiere a las herramientas y técnicas que se utilizan para recopilar, gestionar y analizar los datos empresariales con el fin de informar las operaciones empresariales.
La inteligencia de datos facilita el análisis de datos, la ciencia de datos y la BI al ayudar a los usuarios a comprender y utilizar mejor los conjuntos de datos de sus organizaciones. Cuando los usuarios saben qué tipo de datos tiene la organización y para qué se pueden utilizar, pueden conectarse más fácilmente con los conjuntos de datos adecuados para sus propósitos.
Por ejemplo, los científicos de datos pueden encontrar datos de alta calidad y compatibles para entrenar machine learning; los usuarios de BI pueden encontrar conjuntos de datos organizados y adaptados a sus dominios específicos.
Enlaces externos a ibm.com
1 IDC MarketScape: Worldwide Data Intelligence Platform Software 2024 Vendor Assessment. IDC. Noviembre de 2024.
2 Data Quality: Best Practices for Accurate Insights. Gartner.
IBM nombrada Líder por 19.º año consecutivo en el 2024 Gartner Magic Quadrant for Data Integration Tools.
Descubra por qué la inteligencia de datos con IA y la integración de datos son críticos a la hora de impulsar la preparación de datos estructurados y no estructurados y acelerar los resultados de IA.
Descubra el potencial de integrar una estrategia de lakehouse de datos en su arquitectura de datos, incluida la optimización de costes de sus cargas de trabajo y el escalado de IA y analítica, con todos sus datos, en cualquier lugar.
Explore la guía del líder de datos para crear una organización basada en datos e impulsar la ventaja empresarial.
Sumérjase en las cinco razones principales por las que debería modernizar su integración de datos en IBM Cloud Pak for Data.
Obtenga una visión única del panorama en evolución de las soluciones ABI, en el que se destaquen las principales conclusiones, suposiciones y recomendaciones para los líderes de datos y análisis.
Active los datos para la IA y el análisis con catalogación inteligente y gestión de políticas. IBM Knowledge Catalog es un software de gobierno de datos que proporciona un catálogo de datos para automatizar el descubrimiento, la gestión de la calidad y la protección de los datos.
Explore cómo IBM permite la creación de una base de datos gobernada y lista para el cumplimiento. Implemente la transparencia de los datos con IBM Manta Data Lineage hoy mismo para que pueda ver el historial, el flujo y los resultados de sus datos y que funcionen para usted de principio a fin
.Descubra cómo IBM Data Product Hub ayuda a agilizar el intercambio de datos y automatiza la entrega de productos de datos a los consumidores de datos de toda la organización.