¿Qué es la ciencia de datos?

La ciencia de datos combina matemáticas y estadísticas, programación especializada, analítica avanzada, inteligencia artificial (IA) y machine learning con experiencia en distintas materias para descubrir insights accionables ocultos en los datos de una organización. Estos insights se pueden utilizar como guía para la toma de decisiones y la planificación estratégica.

El aumento del volumen de orígenes de datos y, por lo tanto, de datos, ha convertido a la ciencia de datos en uno de los campos de más rápido crecimiento de todas las industrias. Como resultado, no sorprende que el rol de científico de datos haya sido calificado como el "trabajo más sexy del siglo XXI" por Harvard Business Review (enlace externo a IBM). Las organizaciones dependen cada vez más de ellos para interpretar los datos y proporcionar recomendaciones prácticas para mejorar los resultados de negocio.

El ciclo de vida de la ciencia de datos involucra varios roles, herramientas y procesos, lo que permite a los analistas obtener insights accionables. Por lo general, un proyecto de ciencia de datos pasa por las siguientes etapas:

Ingestión de datos: el ciclo de vida comienza con la recopilación de datos, tanto datos estructurados sin procesar como datos no estructurados, de todas las fuentes relevantes y mediante diversos métodos. Estos métodos pueden incluir la entrada manual, el web scraping y la transmisión de datos en tiempo real desde sistemas y dispositivos. Las fuentes de datos pueden incluir datos estructurados, como datos de clientes, junto con datos no estructurados como archivos de registro, video, audio, imágenes, Internet de las cosas (IoT), redes sociales y más.

Almacenamiento y procesamiento de datos: dado que los datos pueden tener diferentes formatos y estructuras, las empresas deben considerar diferentes sistemas de almacenamiento según el tipo de datos que necesitan capturar. Los equipos de gestión de datos ayudan a establecer estándares en torno al almacenamiento y la estructura de datos, lo que facilita los flujos de trabajo en torno a modelos de análisis, machine learning y deep learning. Esta etapa incluye limpieza de datos, deduplicación, transformación y combinación de datos mediante trabajos ETL (extraer, transformar, cargar) u otras tecnologías de integración de datos. Esta preparación de datos es esencial para promover la calidad de los datos antes de cargarlos en un almacén de datos, data lake u otro repositorio.

Análisis de los datos: aquí, los científicos de datos realizan un análisis exploratorio de datos para examinar sesgos, patrones, rangos y distribuciones de valores dentro de los datos. Esta exploración de análisis de datos impulsa la generación de hipótesis para las pruebas a/b. También permite a los analistas determinar la relevancia de los datos para su uso dentro de los esfuerzos de modelado para análisis predictivo, machine learning y/o deep learning. Dependiendo de la precisión de un modelo, las organizaciones pueden depender de estos insights para tomas decisiones de negocio, lo que les permite impulsar una mayor escalabilidad.

Comunicación: por último, los insights se presentan en forma de informes y otras visualizaciones de datos que facilitan su comprensión (y la de su repercusión en el negocio) a los analistas de negocio y otros responsables de tomar decisiones. Los lenguajes de programación de ciencia de datos como R o Python incluyen componentes para generar visualizaciones, aunque los científicos de datos también pueden optar por utilizar herramientas de visualización dedicadas.

Ciencia de datos frente a científico de datos

La ciencia de datos se considera una disciplina, mientras que los científicos de datos son los practicantes dentro de ese campo. Los científicos de datos no son necesariamente responsables directos de todos los procesos involucrados en el ciclo de vida de la ciencia de datos. Por ejemplo, las segmentaciones de datos suelen ser manejadas por ingenieros de datos, pero el científico de datos puede hacer recomendaciones sobre qué tipo de datos son útiles o necesarios. Si bien los científicos de datos pueden crear modelos de machine learning, escalar estos esfuerzos a un nivel mayor requiere más habilidades de ingeniería de software para optimizar un programa para que se ejecute más rápidamente. Como resultado, es común que un científico de datos se asocie con ingenieros de machine learning para escalar modelos de machine learning.

Las responsabilidades del científico de datos comúnmente pueden superponerse con un analista de datos, particularmente con el análisis exploratorio de datos y la visualización de datos. Sin embargo, las habilidades de un científico de datos suelen ser más numerosas que las de un analista de datos típico. En términos comparativos, los científicos de datos aprovechan los lenguajes de programación comunes, como R y Python, para realizar más inferencias estadísticas y visualización de datos.

Para realizar estas tareas, los científicos de datos deben tener más conocimientos de ciencia informática y ciencias puras más allá de las de un analista de negocios o analista de datos típico. El científico de datos también debe comprender los detalles del negocio, como la fabricación de automóviles, el comercio electrónico o el cuidado de la salud.

En resumen, un científico de datos debe ser capaz de:

Conocer lo suficiente sobre el negocio para hacer preguntas pertinentes e identificar los puntos débiles de la empresa.
Aplicar las estadísticas y la informática, junto con la perspicacia comercial, al análisis de datos.
Utilizar una amplia variedad de herramientas y técnicas para preparar y extraer datos, desde bases de datos y SQL hasta minería de datos y métodos de integración de datos.
Extraer insights de big data mediante analítica predictiva e inteligencia artificial (IA), incluyendo modelos de machine learning, procesamiento de lenguaje natural, y deep learning.
Escribir aplicaciones que automaticen el proceso de datos y los cálculos.
Trazar (e ilustrar) relatos que transmitan claramente el significado de los resultados a los tomadores de decisiones y los stakeholders en todos los niveles de conocimiento y comprensión técnica.
Explicar cómo se pueden usar los resultados para resolver problemas empresariales.
Colaborar con otros miembros del equipo de ciencia de datos, como analistas de datos y de negocio, arquitectos de TI, ingenieros de datos y desarrolladores de aplicaciones.

Estas habilidades tienen una gran demanda y, como resultado, muchas personas que se están iniciando en una carrera de ciencia de datos exploran una variedad de programas de ciencia de datos, como programas de certificación, cursos de ciencia de datos y programas de grado ofrecidos por instituciones educativas.

Ciencia de datos frente a inteligencia de negocios

Puede ser fácil confundir los términos "ciencia de datos" e "inteligencia empresarial" (BI) porque ambos están relacionados con los datos de una organización y el análisis de esos datos, pero difieren en el enfoque.

La inteligencia empresarial (BI) suele ser un término general para la tecnología que permite la preparación, la minería, la gestión y la visualización de datos. Las herramientas y los procesos de inteligencia empresarial permiten a los usuarios finales identificar insights accionables a partir de datos en bruto, lo que facilita la toma de decisiones basada en datos dentro de organizaciones de diversas industrias. Si bien las herramientas de ciencia de datos se superponen en gran parte de este aspecto, la inteligencia empresarial se enfoca más en datos del pasado, y los insights de las herramientas de BI son de naturaleza más descriptiva. Utiliza datos para comprender lo que sucedió antes para informar un curso de acción. La BI está orientada a datos estáticos (que no cambian) que generalmente están estructurados. Si bien la ciencia de datos usa datos descriptivos, generalmente los utiliza para determinar variables predictivas, que luego se usan para categorizar datos o hacer pronósticos.

La ciencia de datos y BI no son mutuamente excluyentes: las organizaciones con insights digitales utilizan las dos para comprender sus datos por completo y extraer todo su valor.

Herramientas de ciencia de datos

Los científicos de datos confían en lenguajes de programación populares para realizar análisis de datos exploratorios y regresión estadística. Estas herramientas de código abierto admiten funciones preintegradas gráficas, de machine learning y de creación de modelos estadísticos. Estos lenguajes incluyen lo siguiente (lea más en "Python frente a R: ¿cuál es la diferencia?"):

R Studio: un lenguaje de programación y un entorno de código abierto para desarrollar computación y gráficos estadísticos.
Python: es un lenguaje de programación dinámico y flexible. Python incluye numerosas bibliotecas, como NumPy, Pandas o Matplotlib para analizar datos rápidamente.

Para facilitar el intercambio de código y otra información, los científicos de datos pueden usar cuadernos de GitHub y Jupyter.

Algunos científicos de datos pueden preferir una interfaz de usuario. Aquí se indican dos herramientas empresariales habituales de análisis estadístico:

SAS: una completa suite de herramientas que incluye visualizaciones y paneles de control interactivos para análisis, generación de informes, extracción de datos y modelado predictivo.
IBM SPSS: ofrece análisis estadístico avanzado, una vasta biblioteca de algoritmos de machine learning, análisis de texto, extensibilidad de código abierto, integración con big data y una fácil implementación en las aplicaciones.

Los científicos de datos también adquieren competencia en el uso de grandes plataformas de procesamiento de datos, como Apache Spark, el marco de código abierto Apache Hadoop y las bases de datos NoSQL. También están capacitados con una amplia gama de herramientas de visualización de datos, incluidas las herramientas gráficas simples que se incluyen con las aplicaciones empresariales de presentaciones y hojas de cálculo (como Microsoft Excel), herramientas de visualización comerciales especializadas, como Tableau e IBM Cognos, y herramientas de código abierto, como D3.js (una biblioteca JavaScript para crear visualizaciones de datos interactivos) y RAW Graphs Para crear modelos de machine learning, los científicos de datos suelen recurrir a distintos marcos de trabajo, como PyTorch, TensorFlow, MXNet y Spark MLib.

Dada la pronunciada curva de aprendizaje en la ciencia de datos, muchas empresas buscan acelerar el retorno de inversión en proyectos de IA. A menudo tienen dificultades para contratar el talento necesario para aprovechar todo el potencial del proyecto de ciencia de datos. Para cubrir esta carencia, se está recurriendo a plataformas multipersona de ciencia de datos y machine learning (DSML), que están dando lugar al rol de "ciudadano científico de datos".

Las plataformas DSML multipersona utilizan automatización, portales de autoservicio e interfaces de usuario de bajo código o sin código para que las personas con poca o ninguna experiencia en tecnología digital o ciencia de datos experta puedan crear valor empresarial utilizando la ciencia de datos y el machine learning. Estas plataformas también admiten científicos de datos expertos al ofrecer una interfaz más técnica. El uso de una plataforma DSML multipersona fomenta la colaboración en toda la empresa.

Ciencia de datos y computación en la nube

La computación en la nube escala la ciencia de datos proporcionando acceso a más potencia de proceso, almacenamiento y otras herramientas necesarias para proyectos de ciencia de datos.

Dado que la ciencia de datos con frecuencia aprovecha grandes conjuntos de datos, las herramientas que pueden escalar con el tamaño de los datos son increíblemente importantes, sobre todo para proyectos con estrechos márgenes de tiempo. Las soluciones de almacenamiento en la nube, como los data lakes, brindan acceso a la infraestructura de almacenamiento, que es capaz de ingerir y procesar grandes volúmenes de datos con facilidad. Estos sistemas de almacenamiento brindan flexibilidad a los usuarios finales, lo que les permite activar grandes clústeres según sea necesario. También pueden agregar nodos de computación incrementales para agilizar los trabajos de procesamiento de datos, lo que permite que la empresa realice compensaciones a corto plazo para obtener un resultado mayor a largo plazo. Las plataformas en la nube suelen tener diferentes modelos de precios, como por uso o suscripciones, para satisfacer las necesidades de su usuario final, ya sean grandes empresas o pequeñas startups.

Las tecnologías de código abierto se utilizan ampliamente en conjuntos de herramientas de ciencia de datos. Cuando están alojadas en la nube, los equipos no necesitan instalarlas, configurarlas, mantenerlas o actualizarlas localmente. Varios proveedores de la nube, incluido IBM® Cloud, también ofrecen kits de herramientas preempaquetados que permiten a los científicos de datos crear modelos sin codificación, democratizando aún más el acceso a las innovaciones tecnológicas y los insights extraídos de los datos.

Casos de uso de la ciencia de datos

Las empresas pueden desbloquear numerosos beneficios de la ciencia de datos. Los casos de uso comunes incluyen la optimización de procesos a través de la automatización inteligente y la orientación y personalización mejoradas para mejorar la experiencia del cliente (CX). Sin embargo, también hay ejemplos más específicos.

Estos son algunos de los casos de uso más representativos de la ciencia de datos y la inteligencia artificial:

Un banco internacional ofrece servicios de préstamo más rápidos con una aplicación móvil que utiliza modelos de riesgo de crédito impulsados por machine learning y una arquitectura de computación en la nube híbrida que es poderosa y segura.
Una empresa de electrónicos está desarrollando sensores ultrapotentes impresos en 3D que guiarán a los vehículos autónomos del mañana. La solución se basa en herramientas de analítica y ciencia de datos para mejorar sus capacidades de detección de objetos en tiempo real.
Un proveedor de soluciones de automatización de procesos robóticos (RPA) desarrolló una solución de minería de procesos empresariales cognitivos que reduce los tiempos de gestión de incidentes entre un 15 % y un 95 % para sus empresas clientes. La solución está entrenada para comprender el contenido y el sentimiento de los e-mails de los clientes, y dirige a los equipos de servicio a priorizar aquellos que son más relevantes y urgentes.
Una empresa de tecnología de medios digitales creó una plataforma de analítica de audiencia que permite a sus clientes ver qué es lo que atrae a las audiencias de televisión a las que se les ofrece una gama cada vez mayor de canales digitales. La solución emplea analítica profunda y machine learning para recopilar insights en tiempo real sobre el comportamiento del espectador.
Un departamento de policía urbana creó herramientas de análisis estadístico de incidentes para ayudar a los agentes a comprender cuándo y dónde implementar recursos para prevenir delitos. La solución basada en datos crea informes y paneles de control para aumentar el conocimiento de la situación de los oficiales de campo.
Shanghai Changjiang Science and Technology Development utilizó la tecnología IBM® Watson® para crear una plataforma de evaluación médica basada en IA que pueda analizar los registros médicos existentes para categorizar a los pacientes en función de su riesgo de sufrir un accidente cerebrovascular, y que pueda prever el índice de éxito de los diferentes planes de tratamiento.

Soluciones relacionadas

ModelOps

Sincronice DevOps y ModelOps. Cree y escale modelos de IA con sus aplicaciones nativas de la nube en prácticamente cualquier nube.

Explore ModelOps

IA explicable

Aumente la interpretabilidad de IA. Evalúe y mitigue los riesgos de la IA. Implemente la IA con confianza y seguridad.

Descubra más acerca de la IA explicable

AutoAI

Cree y entrene rápidamente modelos predictivos de alta calidad. Simplifique la gestión del ciclo de vida de la IA.

Explore AutoAI

Recursos

Autostrade per l'Italia

Autostrade per l'Italia implementó varias soluciones de IBM para lograr una completa transformación digital para mejorar la forma de supervisar y mantener su amplia gama de activos de infraestructura.

MANA Community

MANA Community se asoció con IBM Garage para crear una plataforma de IA para realizar minería de datos en grandes volúmenes de datos ambientales de diversos canales digitales y miles de fuentes.

Dé el siguiente paso

El portafolio de productos de ciencia de datos y ciclo de vida de IA de IBM se basa en nuestro duradero compromiso con las tecnologías de código abierto e incluye una gama de funcionalidades que permiten a las empresas desbloquear el valor de sus datos de nuevas formas. AutoAI, una nueva y potente capacidad de desarrollo automatizado en IBM Watson® Studio, que acelera la preparación de datos, el desarrollo de modelos y las etapas de ingeniería de funciones del ciclo de vida de la ciencia de datos. Esto permite que los científicos de datos sean más eficientes y les ayuda a tomar decisiones mejor informadas sobre qué modelos funcionarán mejor para los casos de uso reales. AutoAI simplifica la ciencia de datos empresarial en cualquier entorno de nube.

Pruebe IBM Watson® Studio