Um cientista de dados estuda grandes conjuntos de dados usando análises estatísticas avançadas e algoritmos de aprendizado de máquina. Ao fazer isso, ele identifica padrões nos dados para gerar insights críticos para os negócios e, em seguida, normalmente usa esses padrões para desenvolver soluções de aprendizado de máquina para obter insights mais eficientes e precisos em escala. De forma crítica, combina essa experiência em estatística com a experiência em engenharia de software.
Algumas de suas principais responsabilidades incluem:
- Transformação e limpeza de grandes conjuntos de dados em um formato utilizável
- Aplicação de técnicas como agrupamento, redes neurais e árvores de decisão para obter insights de dados
- Análise de dados para identificar padrões e detectar tendências que podem afetar os negócios
- Desenvolvimento de algoritmos de aprendizado de máquina (link externo a ibm.com) para avaliar dados
- Criação de modelos de dados para prever resultados
Habilidades importantes para um cientista de dados incluem:
- Experiência em SAS, R e Python
- Profundo conhecimento especializado em aprendizado de máquina, condicionamento de dados e matemática avançada
- Experiência no uso de ferramentas de big data
- Conhecimento de desenvolvimento e operações de APIs
- Experiência em otimização de dados e mineração de dados
- Fortes habilidades de pensamento criativo e tomada de decisão
Como tudo isso se encaixa?
Até mesmo ver as descrições do engenheiro de dados, cientista de dados e engenheiro de análise de dados lado a lado pode causar confusão, pois certamente há sobreposições de habilidades e áreas de foco em cada uma dessas funções. Então, como tudo isso se encaixa?
Um engenheiro de dados cria programas que geram dados e, embora pretenda que esses dados sejam significativos, eles ainda precisarão ser combinados com outras fontes. Um engenheiro de análise de dados reúne essas fontes de dados para criar sistemas que permitem aos usuários acessar insights consolidados de maneira fácil de acessar e repetível. Por fim, um cientista de dados desenvolve ferramentas para analisar todos esses dados em escala e identificar padrões e tendências mais rápida e melhor do que qualquer ser humano poderia.
Essencialmente, é necessário que haja uma forte relação entre essas funções. Mas, muitas vezes, acaba sendo disfuncional. Jeff Magnuson, Vice-presidente de Plataforma de Dados da Stitch Fix, escreveu sobre esse tópico há vários anos em um artigo intitulado Engenheiros não deveriam escrever ETL (link externo a ibm.com). O ponto crucial de seu artigo era que as equipes não deveriam ter “pensadores” e “realizadores” separados. Em vez disso, as equipes de dados altamente eficientes precisam de propriedade de ponta a ponta do trabalho que produzem, o que significa que não deve haver uma mentalidade de “jogar por cima da cerca” entre essas funções.
O resultado é uma alta demanda por cientistas de dados que tenham formação em engenharia e entendam coisas como criar processos repetíveis e a importância do tempo de atividade e dos SLAs. Por sua vez, essa abordagem tem um impacto no papel dos engenheiros de dados, que podem trabalhar lado a lado com os cientistas de dados de uma maneira completamente diferente. E, claro, isso também impacta os engenheiros de análise de dados.
Entenda a diferença entre engenheiro de dados, cientista de dados e engenheiro de análise de dados de uma vez por todas — por enquanto
A verdade é que muitas organizações definem cada um desses papéis de forma diferente. É difícil traçar uma linha firme entre onde um termina e onde outro começa porque todos eles têm tarefas semelhantes até certo ponto. Como ele conclui: “Todos escrevem SQL. Todos se importam com a qualidade. Todo mundo avalia diferentes tabelas e escreve dados em algum lugar, e todos reclamam dos fusos horários. Todo mundo faz muitas das mesmas coisas. Então, a maneira como dividimos as coisas é onde as pessoas estão em relação ao nosso principal armazenamento de dados analíticos.”
Na Squarespace, isso significa que os engenheiros de dados são responsáveis por todo o trabalho realizado para criar e manter esses armazenamentos. Os engenheiros de análise de dados estão incorporados às equipes funcionais para apoiar a tomada de decisão, criar narrativas em torno dos dados e usá-los para impulsionar ações e decisões, e, por fim, os cientistas de dados ficam no meio, configurando as estruturas de incentivos e as métricas para tomar decisões e orientar as pessoas.
Claro, será ligeiramente diferente para cada organização. E por mais borradas que as linhas sejam agora, cada uma dessas funções continuará a evoluir e mudar ainda mais a dinâmica em cada uma delas. Mas espero que essa visão geral ajude a resolver a questão de qual é a diferença entre engenheiro de dados, cientista de dados e engenheiro de análise de dados, por enquanto.
Saiba mais sobre a plataforma de observabilidade contínua de dados IBM® Databand e como ela ajuda a detectar incidentes de dados mais cedo, resolvê-los de forma mais rápida e entregar dados mais confiáveis para a empresa. Se você está pronto para fazer uma análise mais detalhada, agende uma demonstração hoje mesmo.