Un científico de datos estudia grandes conjuntos de datos mediante análisis estadístico avanzado y algoritmos de machine learning. Al hacerlo,identifica patrones en los datos para generar insights críticos empresariales y, a continuación, suele utilizar esos patrones para desarrollar soluciones de machine learning para obtener insights más eficientes y precisos a escala. Fundamentalmente, combina esta experiencia estadística con la experiencia en ingeniería de software.
Algunas de sus responsabilidades clave incluyen:
- Transformar y limpiar grandes conjuntos de datos en un formato utilizable
- Aplicar técnicas como agrupación en clústeres, redes neuronales y árboles de decisión para obtener insights de los datos
- Analizar datos para identificar patrones y detectar tendencias que puedan afectar al negocio
- Desarrollo de algoritmos de machine learning (enlace externo a ibm.com) para evaluar datos
- Crear modelos de datos para pronosticar resultados
Las habilidades importantes para un científico de datos incluyen:
- Experiencia en SAS, R y Python
- Amplia experiencia en machine learning, acondicionamiento de datos y matemáticas avanzadas
- Experiencia en el uso de herramientas de big data
- Comprensión de desarrollo de API y operaciones
- Experiencia en optimización y minería de datos
- Fuertes habilidades de pensamiento creativo y toma de decisiones
¿Cómo funciona todo en conjunto?
Incluso ver las descripciones de ingeniero de datos, científico de datos e ingeniero de analytics una al lado de la otra puede causar confusión, ya que ciertamente hay superposiciones en las habilidades y áreas de enfoque en cada uno de estos roles. Entonces, ¿cómo funciona todo en conjunto?
Un ingeniero de datos crea programas que generan datos y, si bien su objetivo es que esos datos sean significativos, aún deberán combinarse con otras fuentes. Un ingeniero de analytics reúne esas fuentes de datos para crear sistemas que permitan a los usuarios acceder a insights consolidados de una manera repetible y de fácil acceso. Finalmente, un científico de datos desarrolla herramientas para analizar todos esos datos a escala e identificar patrones y tendencias más rápido y mejor que cualquier humano.
Es fundamental que exista una relación sólida entre estos roles. Pero con demasiada frecuencia, termina siendo disfuncional. Jeff Magnuson, vicepresidente de Plataforma de datos en Stitch Fix, escribió sobre este tema hace varios años en un artículo titulado Los ingenieros no deben escribir ETL (enlace externo a ibm.com).La idea central de su artículo era que los equipos no deberían tener “pensadores” y “ejecutores” separados. Por el contrario, los equipos de datos de alto rendimiento necesitan tener la responsabilidad total del trabajo que producen, lo que significa que no debería existir una mentalidad de “pasarlo por alto” entre estos roles.
El resultado es una gran demanda de científicos de datos que tengan experiencia en ingeniería y comprendan cosas como cómo crear procesos repetibles y la importancia del tiempo de actividad y los SLA. A su vez, este enfoque tiene un impacto en el papel de los ingenieros de datos, quienes pueden trabajar codo a codo con los científicos de datos de una manera completamente diferente. Y, por supuesto, eso también afecta a los ingenieros de analytics.
Comprender la diferencia entre ingeniero de datos, científico de datos e ingeniero de analytics de una vez por todas, por ahora
La verdad es que muchas organizaciones definen cada uno de estos roles de manera diferente. Es difícil trazar una línea firme entre dónde termina uno y dónde comienza porque todos tienen tareas similares hasta cierto punto. Como concluye Josh Laurito: “Todo el mundo escribe SQL. A todos les importa la calidad. Todos evalúan diferentes tablas y escriben datos en algún lugar, y todos se quejan de las zonas horarias. Todo el mundo hace muchas de las mismas cosas. Así que realmente la forma en que dividimos las cosas es dónde están las personas en relación con nuestros principales almacenes de datos”.
En Squarespace, esto significa que los ingenieros de datos son responsables de todo el trabajo realizado para crear y mantener esos almacenes, los ingenieros de analytics están integrados en los equipos funcionales para respaldar la toma de decisiones, elaborar narrativas en torno a los datos y utilizarlos para impulsar acciones y decisiones, y, finalmente, los científicos de datos se sientan en medio, configurando las estructuras de incentivos y las métricas para tomar decisiones y guiar a las personas.
Por supuesto, será ligeramente diferente para cada organización. Y por muy borrosas que sean las líneas ahora, cada uno de estos roles solo continuará evolucionando y cambiando aún más la dinámica en cada uno de ellos. Pero con suerte, esta descripción general ayudará a resolver la pregunta de cuál es la diferencia entre ingeniero de datos, científico de datos y ingeniero de analytics, por ahora.
Aprenda más sobre la plataforma de observabilidad de los datos continua de IBM® Databand y cómo ayuda a detectar incidentes de datos antes, resolverlos más rápido y entregar datos más confiables a la empresa. Si está listo para profundizar, agende una demostración hoy mismo.