Un científico de datos estudia grandes conjuntos de datos utilizando análisis estadísticos avanzados y algoritmos de machine learning. Al hacerlo,identifican patrones en los datos para generar conocimientos empresariales críticos y, a continuación, suelen utilizar esos patrones para desarrollar soluciones de machine learning para obtener conocimientos más eficientes y precisos a escala. Fundamentalmente, combinan esta experiencia estadística con la experiencia en ingeniería de software.
Algunas de sus responsabilidades clave incluyen:
- Transformar y limpiar grandes conjuntos de datos en un formato utilizable
- Aplicar técnicas como la agrupación, las redes neuronales y los árboles de decisión para obtener conocimiento a partir de los datos
- Analizar datos para identificar patrones y detectar tendencias que puedan afectar al negocio
- Desarrollo de algoritmos de machine learning (enlace externo a ibm.com) para evaluar datos
- Creación de modelos de datos para pronosticar resultados
Las habilidades importantes para un científico de datos incluyen:
- Experiencia en SAS, R y Python
- Amplia experiencia en machine learning, acondicionamiento de datos y matemáticas avanzadas
- Experiencia en el uso de herramientas de big data
- Comprensión de desarrollo api y operaciones
- Experiencia en optimización y minería de datos
- Fuertes habilidades de pensamiento creativo y toma de decisiones
¿Cómo encaja todo?
Incluso ver las descripciones de ingeniero de datos, científico de datos e ingeniero analítico una al lado de la otra puede causar confusión, ya que ciertamente hay superposiciones en las habilidades y áreas de enfoque en cada uno de estos roles. Entonces, ¿cómo encaja todo?
Un ingeniero de datos crea programas que generan datos y, aunque su objetivo es que esos datos sean significativos, seguirán teniendo que combinarse con otras fuentes. Un ingeniero analítico reúne esas fuentes de datos para crear sistemas que permitan a los usuarios acceder a conocimientos consolidados de forma repetible y de fácil acceso. Por último, un científico de datos desarrolla herramientas para analizar todos esos datos a escala e identificar patrones y tendencias más rápido y mejor que cualquier humano.
Es crucial que exista una relación sólida entre estos roles. Pero con demasiada frecuencia, termina siendo disfuncional. Jeff Magnuson, vicepresidente de plataforma de datos en Stitch Fix, escribió sobre este tema hace varios años en un artículo titulado Engineers Shouldn’t Write ETL (enlace externo a ibm.com).El quid de su artículo era que los equipos no deberían tener “pensadores” y “hacedores” separados. Más bien, los equipos de datos de alto rendimiento necesitan la propiedad integral del trabajo que producen, lo que significa que no debería haber una mentalidad de “tirarlo por la borda” entre estos roles.
El resultado es una gran demanda de científicos de datos con formación en ingeniería y que entiendan cosas como cómo crear procesos repetibles y la importancia del tiempo de actividad y los SLA. A su vez, este enfoque tiene un impacto en el papel de los ingenieros de datos, que pueden trabajar codo con codo con los científicos de datos de una manera completamente diferente. Y, por supuesto, eso también afecta a los ingenieros analíticos.
Comprender la diferencia entre ingeniero de datos, científico de datos e ingeniero analítico, por ahora
La verdad es que muchas organizaciones definen cada uno de estos roles de manera diferente. Es difícil trazar una línea firme entre dónde termina uno y dónde comienza, porque todos tienen tareas similares hasta cierto punto. Como concluye Josh Laurito: “Todo el mundo escribe SQL. Todo el mundo se preocupa por la calidad. Todo el mundo evalúa diferentes tablas y escribe datos en algún lugar, y todo el mundo se queja de las zonas horarias. Todo el mundo hace muchas de las mismas cosas. Así que realmente la forma en que dividimos las cosas es dónde están las personas en relación con nuestros principales almacenes de datos analíticos”.
En Squarespace, esto significa que los ingenieros de datos son responsables de todo el trabajo realizado para crear y mantener esos almacenes, los ingenieros analíticos están integrados en los equipos funcionales para apoyar la toma de decisiones, elaborar narrativas en torno a los datos y utilizarlos para impulsar la acción y las decisiones, y, por último, los científicos de datos se sientan en el medio, estableciendo las estructuras de incentivos y las métricas para tomar decisiones y guiar a las personas.
Por supuesto, será ligeramente diferente para cada organización. Y por muy borrosas que sean las líneas ahora, cada uno de estos roles solo continuará evolucionando y cambiando aún más la dinámica en cada uno de ellos. Pero con suerte, esta descripción general ayudará a resolver la cuestión de cuál es la diferencia entre ingeniero de datos, científico de datos e ingeniero analítico, por ahora.
Más información sobre la plataforma de observabilidad continua de datos de IBM® Databand y cómo ayuda a detectar antes los incidentes de datos, resolverlos más rápido y ofrecer datos más fiables a la empresa. Si está listo para profundizar, solicite una demo hoy mismo.