Un conjunto de datos es una colección de datos normalmente organizados en tablas, matrices o formatos específicos, como CSV o JSON, para facilitar su recuperación y análisis. Los conjuntos de datos son esenciales para el análisis de datos, el machine learning (ML), la inteligencia artificial (IA) y otras aplicaciones que requieren datos fiables y accesibles.
Hoy en día, las organizaciones recopilan grandes cantidades de datos de diversas fuentes, incluidas las interacciones con los clientes, las transacciones financieras, los dispositivos IoT y las plataformas de redes sociales.
Para desbloquear el valor empresarial de todos estos datos, a menudo deben organizarse en conjuntos de datos: colecciones organizadas que hacen que la información sea accesible para su análisis y aplicación.
Los diferentes tipos de conjuntos de datos almacenan datos de varias maneras. Por ejemplo, los conjuntos de datos estructurados suelen organizar los puntos de datos en tablas con filas y columnas definidas. Los conjuntos de datos no estructurados pueden contener formatos variados, como archivos de texto, imágenes y audio.
Aunque no todos los conjuntos de datos implican datos estructurados, siempre tienen alguna estructura general, ya sean esquemas definidos o sintaxis poco organizada en formatos de datos semiestructurados como JSON o XML.
Algunos ejemplos de conjuntos de datos incluyen:
Las organizaciones suelen utilizar y mantener varios conjuntos de datos para apoyar diversas iniciativas empresariales, incluidos el análisis de datos y la inteligencia empresarial (BI).
El big data, en particular, se basa en conjuntos de datos masivos y complejos para ofrecer valor. Cuando se recopilan, gestionan y analizan correctamente mediante el análisis de macrodatos, estos conjuntos de datos pueden ayudar a descubrir nueva información y permitir la toma de decisiones basada en los datos.
En los últimos años, el auge de la inteligencia artificial (IA) y el machine learning han aumentado aún más la atención prestada a los conjuntos de datos. Las organizaciones necesitan datos de entrenamiento amplios y bien organizados para desarrollar modelos precisos de machine learning y perfeccionar los algoritmos predictivos.
Según Gartner, el 61 % de las organizaciones afirman tener que evolucionar o replantearse su modelo operativo de datos y análisis debido al impacto de las tecnologías de IA1
Aunque el término "conjunto de datos" suele utilizarse en sentido amplio, ciertas cualidades determinan si una colección de datos constituye un conjunto de datos. En general, los conjuntos de datos tienen tres características fundamentales: variables, esquemas y metadatos.
No todas las colecciones de datos pueden considerarse conjuntos de datos. Las acumulaciones aleatorias de puntos de datos sin relación entre sí no suelen constituir un conjunto de datos sin una cierta organización y estructura adecuadas que permitan un análisis significativo.
Del mismo modo, aunque las interfaces de programación de aplicaciones (API), las bases de datos y las hojas de cálculo pueden interactuar con conjuntos de datos o contenerlos, no son necesariamente conjuntos de datos en sí mismos.
Las API permiten que las aplicaciones se comuniquen entre sí, lo que a veces implica acceder e intercambiar conjuntos de datos. Las bases de datos y las hojas de cálculo son contenedores de información, que pueden incluir conjuntos de datos.
Las organizaciones generalmente trabajan con tres tipos principales de conjuntos de datos, generalmente clasificados según el tipo de datos que manejan:
Las organizaciones a menudo utilizan múltiples tipos de conjuntos de datos en combinación para respaldar estrategias de análisis de datos integrales. Por ejemplo, una empresa de venta al por menor puede analizar datos de ventas estructurados junto con opiniones de clientes no estructuradas y análisis web semiestructurados para conocer mejor el comportamiento y las preferencias de los clientes.
Los conjuntos de datos estructurados organizan la información en formatos predefinidos, normalmente tablas con filas y columnas claramente definidas. Estos conjuntos de datos son la base de muchos procesos empresariales críticos, como la gestión de la relación con el cliente (CRM) y la gestión del inventario.
Como los conjuntos de datos estructurados siguen esquemas coherentes, permiten realizar consultas rápidas y un análisis fiable. Esto los hace ideales para las herramientas de inteligencia empresarial y los sistemas de informes que requieren datos precisos y cuantificables.
Algunos ejemplos comunes de conjuntos de datos estructurados son:
Los conjuntos de datos no estructurados contienen información que no se ajusta a los modelos de datos tradicionales ni a los esquemas rígidos. Aunque estos conjuntos de datos requieren herramientas de procesamiento más sofisticadas, a menudo contienen conocimientos que los formatos de datos estructurados no pueden capturar.
Las organizaciones se basan en conjuntos de datos no estructurados para impulsar los modelos de inteligencia artificial y machine learning. Estos conjuntos de datos proporcionan los diversos datos del mundo real necesarios para entrenar modelos de IA y desarrollar capacidades de análisis más avanzadas.
Algunos ejemplos comunes de conjuntos de datos no estructurados son:
Los conjuntos de datos semiestructurados tienden un puente entre los datos estructurados y los no estructurados. Aunque no siguen esquemas rígidos, incorporan sintaxis definida o marcadores para ayudar a organizar la información en formatos flexibles pero analizables.
Este enfoque híbrido hace que los conjuntos de datos semiestructurados sean valiosos para los proyectos y aplicaciones modernos de integración de datos que necesitan manejar diversos tipos de datos manteniendo una cierta estructura organizativa.
Algunos ejemplos comunes de conjuntos de datos semiestructurados son:
Las organizaciones recopilan datos de múltiples fuentes para crear conjuntos de datos que respalden diversas iniciativas empresariales. Las fuentes de datos pueden determinar directamente tanto la calidad como la utilidad de los conjuntos de datos.
Algunas fuentes de datos comunes incluyen:
Los repositorios de datos son almacenes centralizados de datos. Los repositorios de datos propietarios suelen albergar datos sensibles o críticos para la empresa, como registros de clientes, transacciones financieras o métricas operativas que proporcionan ventajas competitivas.
Otros repositorios de datos están disponibles públicamente. Por ejemplo, una plataforma como GitHub aloja conjuntos de datos de código abierto junto con el código. Los investigadores y las organizaciones pueden utilizar estos conjuntos de datos públicos para colaborar abiertamente en modelos de machine learning y proyectos de ciencia de datos.
Las bases de datos son repositorios de datos digitales optimizados para almacenar de forma segura y recuperar fácilmente los datos según sea necesario.
Una base de datos puede contener un único conjunto de datos o varios conjuntos de datos. Los usuarios pueden extraer rápidamente puntos de datos relevantes ejecutando consultas de bases de datos que utilizan lenguajes especializados como el lenguaje de consulta estructurado (SQL).
Las API conectan aplicaciones de software para que puedan comunicarse. Los consumidores de datos pueden utilizar las API para capturar datos en tiempo real de fuentes conectadas, como servicios web y plataformas digitales, y canalizarlos a otras aplicaciones y repositorios para su uso.
Los científicos de datos suelen crear canalizaciones automatizadas de recopilación de datos utilizando lenguajes como Python, que ofrece bibliotecas sólidas para la integración de API y el proceso de datos. Por ejemplo, un sistema de análisis minorista podría utilizar estas canalizaciones automatizadas para recopilar continuamente datos de compra de clientes y niveles de inventario de tiendas de comercio electrónico y sistemas de gestión de inventario.
Sitios como Data.gov e iniciativas de datos abiertos a nivel de ciudad como New York City Open Data brindan acceso gratuito a conjuntos de datos que incluyen métricas de salud, transporte y medio ambiente. Los investigadores pueden utilizar estos conjuntos de datos para estudiar desde pautas de transporte hasta tendencias de salud pública.
Desde la potenciación de la inteligencia artificial hasta la habilitación de conocimientos basados en datos, los conjuntos de datos son fundamentales para varias iniciativas empresariales y tecnológicas clave.
Algunas de las aplicaciones más comunes de los conjuntos de datos incluyen:
La inteligencia artificial (IA) tiene el potencial de ser un diferenciador crítico para muchas organizaciones.
Según el IBM Institute for Business Value, el 72 % de los CEO con mejor rendimiento creen que su ventaja competitiva depende de tener la IA generativa (IA gen) más avanzada. Estos sistemas de IA de vanguardia se basan en vastos conjuntos de datos, tanto etiquetados como no etiquetados, para entrenar modelos de manera efectiva.
Con datos de entrenamiento completos, las organizaciones pueden desarrollar sistemas de IA que realicen tareas complejas como:
Los científicos de datos y analistas utilizan conjuntos de datos para extraer conocimientos valiosos e impulsar el descubrimiento en todas las disciplinas. A medida que las organizaciones recopilan más datos que nunca, el análisis de datos se ha vuelto crucial para probar hipótesis, identificar tendencias y descubrir relaciones que informen las decisiones estratégicas.
Algunas formas comunes en que los conjuntos de datos ayudan al análisis de datos incluyen:
Las organizaciones utilizan la inteligencia empresarial para descubrir conocimientos en conjuntos de datos e impulsar la toma de decisiones en tiempo real.
Las herramientas de BI pueden ayudar a analizar varios tipos de datos para identificar tendencias, monitorear el rendimiento y descubrir nuevas oportunidades. Algunas aplicaciones incluyen:
Gestionar conjuntos de datos grandes y complejos para cualquier iniciativa puede introducir varios desafíos y consideraciones. Algunos de los más sobresalientes incluyen:
Enlaces externos a ibm.com
1 Organizations are evolving their D&A operating model because of AI technologies. Gartner. 29 de abril de 2024.
Obtenga una visión única del panorama en evolución de las soluciones ABI, en el que se destaquen las principales conclusiones, suposiciones y recomendaciones para los líderes de datos y análisis.
Simplifique el acceso a los datos y automatice su gobierno. Descubra el potencial de integrar una estrategia de lakehouse de datos en su arquitectura de datos, incluida la optimización de costes de sus cargas de trabajo y el escalado de IA y analítica, con todos sus datos, en cualquier lugar.
Explore la guía del líder de datos para crear una organización basada en datos e impulsar la ventaja empresarial.
Descubra cómo un enfoque de lakehouse de datos abierto puede proporcionar datos fiables y una ejecución más rápida de los proyectos de análisis e IA.
Con el fin de prosperar, las empresas deben utilizar los datos para fidelizar a sus clientes, automatizar los procesos empresariales e innovar con soluciones impulsadas por IA.
Desbloquee el valor de los datos empresariales con IBM Consulting y cree una organización impulsada por conocimientos que ofrezca ventajas empresariales.
Presentamos Cognos Analytics 12.0: conocimientos potenciados por IA para una mejor toma de decisiones.
IBM web domains
ibm.com, ibm.org, ibm-zcouncil.com, insights-on-business.com, jazz.net, mobilebusinessinsights.com, promontory.com, proveit.com, ptech.org, s81c.com, securityintelligence.com, skillsbuild.org, softlayer.com, storagecommunity.org, think-exchange.com, thoughtsoncloud.com, alphaevents.webcasts.com, ibm-cloud.github.io, ibmbigdatahub.com, bluemix.net, mybluemix.net, ibm.net, ibmcloud.com, galasa.dev, blueworkslive.com, swiss-quantum.ch, blueworkslive.com, cloudant.com, ibm.ie, ibm.fr, ibm.com.br, ibm.co, ibm.ca, community.watsonanalytics.com, datapower.com, skills.yourlearning.ibm.com, bluewolf.com, carbondesignsystem.com