La ciencia de datos combina matemáticas y estadísticas, programación especializada, analítica avanzada, inteligencia artificial (IA) y machine learning con experiencia en distintas materias para descubrir insights accionables ocultos en los datos de una organización. Estos insights se pueden utilizar como guía para la toma de decisiones y la planificación estratégica.
El aumento del volumen de orígenes de datos y, por lo tanto, de datos, ha convertido a la ciencia de datos en uno de los campos de más rápido crecimiento de todas las industrias. Como resultado, no sorprende que el rol de científico de datos haya sido calificado como el "trabajo más sexy del siglo XXI" por Harvard Business Review (enlace externo a IBM). Las organizaciones dependen cada vez más de ellos para interpretar los datos y proporcionar recomendaciones prácticas para mejorar los resultados de negocio.
El ciclo de vida de la ciencia de datos involucra varios roles, herramientas y procesos, lo que permite a los analistas obtener insights accionables. Por lo general, un proyecto de ciencia de datos pasa por las siguientes etapas:
La ciencia de datos se considera una disciplina, mientras que los científicos de datos son los practicantes dentro de ese campo. Los científicos de datos no son necesariamente responsables directos de todos los procesos involucrados en el ciclo de vida de la ciencia de datos. Por ejemplo, las segmentaciones de datos suelen ser manejadas por ingenieros de datos, pero el científico de datos puede hacer recomendaciones sobre qué tipo de datos son útiles o necesarios. Si bien los científicos de datos pueden crear modelos de machine learning, escalar estos esfuerzos a un nivel mayor requiere más habilidades de ingeniería de software para optimizar un programa para que se ejecute más rápidamente. Como resultado, es común que un científico de datos se asocie con ingenieros de machine learning para escalar modelos de machine learning.
Las responsabilidades del científico de datos comúnmente pueden superponerse con un analista de datos, particularmente con el análisis exploratorio de datos y la visualización de datos. Sin embargo, las habilidades de un científico de datos suelen ser más numerosas que las de un analista de datos típico. En términos comparativos, los científicos de datos aprovechan los lenguajes de programación comunes, como R y Python, para realizar más inferencias estadísticas y visualización de datos.
Para realizar estas tareas, los científicos de datos deben tener más conocimientos de ciencia informática y ciencias puras más allá de las de un analista de negocios o analista de datos típico. El científico de datos también debe comprender los detalles del negocio, como la fabricación de automóviles, el comercio electrónico o el cuidado de la salud.
En resumen, un científico de datos debe ser capaz de:
Estas habilidades tienen una gran demanda y, como resultado, muchas personas que se están iniciando en una carrera de ciencia de datos exploran una variedad de programas de ciencia de datos, como programas de certificación, cursos de ciencia de datos y programas de grado ofrecidos por instituciones educativas.
Puede ser fácil confundir los términos "ciencia de datos" e "inteligencia empresarial" (BI) porque ambos están relacionados con los datos de una organización y el análisis de esos datos, pero difieren en el enfoque.
La inteligencia empresarial (BI) suele ser un término general para la tecnología que permite la preparación, la minería, la gestión y la visualización de datos. Las herramientas y los procesos de inteligencia empresarial permiten a los usuarios finales identificar insights accionables a partir de datos en bruto, lo que facilita la toma de decisiones basada en datos dentro de organizaciones de diversas industrias. Si bien las herramientas de ciencia de datos se superponen en gran parte de este aspecto, la inteligencia empresarial se enfoca más en datos del pasado, y los insights de las herramientas de BI son de naturaleza más descriptiva. Utiliza datos para comprender lo que sucedió antes para informar un curso de acción. La BI está orientada a datos estáticos (que no cambian) que generalmente están estructurados. Si bien la ciencia de datos usa datos descriptivos, generalmente los utiliza para determinar variables predictivas, que luego se usan para categorizar datos o hacer pronósticos.
La ciencia de datos y BI no son mutuamente excluyentes: las organizaciones con insights digitales utilizan las dos para comprender sus datos por completo y extraer todo su valor.
Los científicos de datos confían en lenguajes de programación populares para realizar análisis de datos exploratorios y regresión estadística. Estas herramientas de código abierto admiten funciones preintegradas gráficas, de machine learning y de creación de modelos estadísticos. Estos lenguajes incluyen lo siguiente (lea más en "Python frente a R: ¿cuál es la diferencia?"):
Para facilitar el intercambio de código y otra información, los científicos de datos pueden usar cuadernos de GitHub y Jupyter.
Algunos científicos de datos pueden preferir una interfaz de usuario. Aquí se indican dos herramientas empresariales habituales de análisis estadístico:
Los científicos de datos también adquieren competencia en el uso de grandes plataformas de procesamiento de datos, como Apache Spark, el marco de código abierto Apache Hadoop y las bases de datos NoSQL. También están capacitados con una amplia gama de herramientas de visualización de datos, incluidas las herramientas gráficas simples que se incluyen con las aplicaciones empresariales de presentaciones y hojas de cálculo (como Microsoft Excel), herramientas de visualización comerciales especializadas, como Tableau e IBM Cognos, y herramientas de código abierto, como D3.js (una biblioteca JavaScript para crear visualizaciones de datos interactivos) y RAW Graphs Para crear modelos de machine learning, los científicos de datos suelen recurrir a distintos marcos de trabajo, como PyTorch, TensorFlow, MXNet y Spark MLib.
Dada la pronunciada curva de aprendizaje en la ciencia de datos, muchas empresas buscan acelerar el retorno de inversión en proyectos de IA. A menudo tienen dificultades para contratar el talento necesario para aprovechar todo el potencial del proyecto de ciencia de datos. Para cubrir esta carencia, se está recurriendo a plataformas multipersona de ciencia de datos y machine learning (DSML), que están dando lugar al rol de "ciudadano científico de datos".
Las plataformas DSML multipersona utilizan automatización, portales de autoservicio e interfaces de usuario de bajo código o sin código para que las personas con poca o ninguna experiencia en tecnología digital o ciencia de datos experta puedan crear valor empresarial utilizando la ciencia de datos y el machine learning. Estas plataformas también admiten científicos de datos expertos al ofrecer una interfaz más técnica. El uso de una plataforma DSML multipersona fomenta la colaboración en toda la empresa.
La computación en la nube escala la ciencia de datos proporcionando acceso a más potencia de proceso, almacenamiento y otras herramientas necesarias para proyectos de ciencia de datos.
Dado que la ciencia de datos con frecuencia aprovecha grandes conjuntos de datos, las herramientas que pueden escalar con el tamaño de los datos son increíblemente importantes, sobre todo para proyectos con estrechos márgenes de tiempo. Las soluciones de almacenamiento en la nube, como los data lakes, brindan acceso a la infraestructura de almacenamiento, que es capaz de ingerir y procesar grandes volúmenes de datos con facilidad. Estos sistemas de almacenamiento brindan flexibilidad a los usuarios finales, lo que les permite activar grandes clústeres según sea necesario. También pueden agregar nodos de computación incrementales para agilizar los trabajos de procesamiento de datos, lo que permite que la empresa realice compensaciones a corto plazo para obtener un resultado mayor a largo plazo. Las plataformas en la nube suelen tener diferentes modelos de precios, como por uso o suscripciones, para satisfacer las necesidades de su usuario final, ya sean grandes empresas o pequeñas startups.
Las tecnologías de código abierto se utilizan ampliamente en conjuntos de herramientas de ciencia de datos. Cuando están alojadas en la nube, los equipos no necesitan instalarlas, configurarlas, mantenerlas o actualizarlas localmente. Varios proveedores de la nube, incluido IBM® Cloud, también ofrecen kits de herramientas preempaquetados que permiten a los científicos de datos crear modelos sin codificación, democratizando aún más el acceso a las innovaciones tecnológicas y los insights extraídos de los datos.
Las empresas pueden desbloquear numerosos beneficios de la ciencia de datos. Los casos de uso comunes incluyen la optimización de procesos a través de la automatización inteligente y la orientación y personalización mejoradas para mejorar la experiencia del cliente (CX). Sin embargo, también hay ejemplos más específicos.
Estos son algunos de los casos de uso más representativos de la ciencia de datos y la inteligencia artificial:
Sincronice DevOps y ModelOps. Cree y escale modelos de IA con sus aplicaciones nativas de la nube en prácticamente cualquier nube.
Aumente la interpretabilidad de IA. Evalúe y mitigue los riesgos de la IA. Implemente la IA con confianza y seguridad.
Cree y entrene rápidamente modelos predictivos de alta calidad. Simplifique la gestión del ciclo de vida de la IA.
Autostrade per l'Italia implementó varias soluciones de IBM para lograr una completa transformación digital para mejorar la forma de supervisar y mantener su amplia gama de activos de infraestructura.
MANA Community se asoció con IBM Garage para crear una plataforma de IA para realizar minería de datos en grandes volúmenes de datos ambientales de diversos canales digitales y miles de fuentes.