O que é ciência de dados?

Jovem afro-americana concentrada, trabalhando em relatório econômico

O que é ciência de dados?

A ciência de dados combina matemática e estatística, programação especializada, análise de dados avançada, inteligência artificial (IA) e aprendizado de máquina com conhecimento específico do assunto para descobrir insights praticáveis ocultos nos dados de uma organização. Esses insights podem ser usados para orientar a tomada de decisão e o planejamento estratégico.

O volume crescente de fontes de dados e, consequentemente, de dados, tornou a ciência de dados um dos campos de crescimento mais rápido em todos os setores. Como resultado, não é surpresa que o papel do cientista de dados tenha sido apelidado de "o trabalho mais atraente do século 21" pela Harvard Business Review. As organizações estão cada vez mais dependentes deles para interpretar dados e fornecer recomendações praticáveis para melhorar os resultados de negócios.

O ciclo de vida da ciência de dados envolve várias funções, ferramentas e processos, o que permite que os analistas obtenham insights acionáveis. Normalmente, um projeto de ciência de dados passa pelos seguintes estágios:

  • Ingestão de dados: o ciclo de vida começa com a coleta de dados — tanto dados estruturados brutos quanto não estruturados de todas as fontes relevantes usando uma variedade de métodos. Esses métodos podem incluir entrada manual, web scraping e dados de streaming em tempo real de sistemas e dispositivos. As fontes de dados podem incluir dados estruturados, como dados de clientes, junto com dados não estruturados como arquivos de log, vídeo, áudio, imagens, a Internet das coisas (IoT) redes sociais e muito mais.
  • Armazenamento e processamento de dados: como os dados podem ter diferentes formatos e estruturas, as empresas precisam considerar diferentes sistemas de armazenamento com base no tipo de dados que precisam ser capturados. As equipes de gerenciamento de dados ajudam a definir padrões em torno do armazenamento e estrutura de dados, o que facilita fluxos de trabalho em torno de análise de dados, aprendizado de máquina e modelos de deep learning. Esse estágio inclui a limpeza de dados, a eliminação de duplicações, a transformação e a combinação de dados usando tarefas de ETL (extrair, transformar, carregar) ou outras tecnologias de integração de dados. Essa preparação de dados é essencial para promover a qualidade dos dados antes de carregá-los em um data warehousedata lake ou outro repositório.
  • Análise de dados: aqui, cientistas de dados conduzem uma análise exploratória de dados para examinar viés, padrões, faixas e distribuições de valores dentro dos dados. Esta exploração de análise de dados impulsiona a geração de hipóteses para testes a/b. Também permite aos analistas determinar a relevância dos dados para uso em esforços de modelagem para análises preditivas, aprendizado de máquina e/ou deep learning. Dependendo da precisão de um modelo, organizações podem se tornar dependentes desses insights para tomada de decisões de negócios, permitindo-lhes impulsionar mais escalabilidade.
  • Comunique: finalmente, os insights são apresentados como relatórios e outras visualizações de dados que tornam os insights (e seu impacto nos negócios) mais fáceis de serem compreendidos por analistas de negócios e outros tomadores de decisão. Uma linguagem de programação de ciência de dados como R ou Python inclui componentes para gerar visualizações; ou então, cientistas de dados podem usar ferramentas de visualização dedicadas.

O que os cientistas de dados fazem

Cientistas de dados são especialistas em extrair insights e respostas específicos do setor dos dados. Eles possuem habilidades de ciência da computação e ciências exatas além daquelas de um analista de negócios ou analista de dados típico, bem como uma compreensão profunda das especificidades do setor ou disciplina de negócios em que trabalham (como fabricação de automóveis, comércio eletrônico ou saúde).  

Um cientista de dados deve ser capaz de:

  • Conhecer o suficiente sobre a empresa para fazer perguntas pertinentes e identificar pontos problemáticos na empresa.

  • Aplicar estatística e ciência da computação, juntamente com conhecimento de negócios, à análise de dados.

  • Utilizar uma ampla gama de ferramentas e técnicas para preparação e extração de dados — tudo, desde bancos de dados e SQL até mineração de dados e métodos de integração de dados.

  • Extrair insights de big data usando análise preditiva de dados e inteligência artificial (IA), incluindo modelos de aprendizado de máquinaprocessamento de linguagem naturaldeep learning.

  • Escrever programas e algoritmos que automatizem o processamento de dados e cálculos.

  • Contar e ilustrar histórias que transmitam claramente o significado dos resultados para tomadores de decisão e stakeholders em todos os níveis de entendimento técnico.

  • Explicar como os resultados podem ser usados para resolver problemas de negócios.

  • Colaborar com outros membros da equipe de ciência de dados, como analistas de dados e de negócios, arquitetos de TI, engenheiros de dados e desenvolvedores de aplicações.

Essas skills são altamente demandadas, e como resultado, muitos indivíduos que estão iniciando uma carreira em ciência de dados exploram uma variedade de programas de ciência de dados, como programas de certificação, cursos de ciência de dados e programas de graduação oferecidos por instituições educacionais.

Cientistas de dados não são necessariamente responsáveis diretamente por todos os processos envolvidos no ciclo de vida da ciência de dados. Por exemplo, pipelines de dados são tipicamente gerenciados por engenheiros de dados, mas o cientista de dados pode fazer recomendações sobre que tipo de dado é útil ou necessário. Enquanto cientistas de dados podem construir modelos de aprendizado de máquina, escalar esses esforços em um nível maior requer mais habilidades de engenharia de software para otimizar um programa para ser executado mais rapidamente. Como resultado, é comum para um cientista de dados se associar a engenheiros de aprendizado de máquina para escalar modelos de aprendizado de máquina.

As responsabilidades de cientistas de dados muitas vezes coincidem com as de analistas de dados, particularmente com análise exploratória de dados e visualização de dados. No entanto, o conjunto de skills de um cientista de dados é tipicamente mais amplo do que o de um analista de dados médio. Comparativamente, cientistas de dados usam linguagens de programação comuns, como R e Python, para conduzir mais inferências estatísticas e visualização de dados.

Mixture of Experts | 28 de agosto, episódio 70

Decodificando a IA: resumo semanal das notícias

Participe do nosso renomado painel de engenheiros, pesquisadores, líderes de produtos e outros enquanto filtram as informações sobre IA para trazerem a você as mais recentes notícias e insights sobre IA.

Ciência de dados vs business intelligence

Pode ser fácil confundir os termos "ciência de dados" e "business intelligence" (BI), pois ambos se relacionam com os dados de uma organização e a análise desses dados, mas eles diferem em foco.

Business intelligence (BI) é tipicamente um termo guarda-chuva para a tecnologia que possibilita a preparação de dados, mineração de dados, gerenciamento de dados e visualização de dados. Ferramentas e processos de business intelligence permitem que usuários finais identifiquem informações acionáveis a partir de dados brutos, facilitando a tomada de decisões baseada em dados dentro de organizações em vários setores. Embora exista uma sobreposição significativa com as ferramentas de ciência de dados, o business intelligence se concentra mais em dados do passado e os insights das ferramentas de BI são de natureza mais descritiva. Ele usa dados para entender o que aconteceu antes para informar um curso de ação. BI é voltado para dados estáticos (inalterados) que geralmente são estruturados. Enquanto a ciência de dados usa dados descritivos, ela normalmente os utiliza para determinar variáveis preditivas, que são então usadas para categorizar dados ou fazer previsões.

Ciência de dados e BI não são mutuamente exclusivos — organizações digitalmente experientes usam ambos para entender e extrair valor de seus dados completamente.

Ferramentas de ciência de dados

Cientistas de dados dependem de linguagens de programação populares para conduzir análise exploratória de dados e regressão estatística. Essas ferramentas de código aberto são compatíveis com modelagem estatística criada previamente, aprendizado de máquina e recursos gráficos. Essas linguagens incluem as seguintes (leia mais em "Python versus R: qual é a diferença?"):

  • R Studio: uma linguagem de programação de código aberto e um ambiente para desenvolver computação estatística e gráficos.
  • Python: é uma linguagem de programação dinâmica e flexível. O Python inclui inúmeras bibliotecas, como NumPy, Pandas, Matplotlib, para analisar dados rapidamente.

Para facilitar o compartilhamento de código e outras informações, os cientistas de dados podem usar o GitHub e o Jupyter Notebook.

Alguns cientistas de dados podem preferir uma interface de usuário, e duas ferramentas empresariais comuns para análise estatística incluem:

  • SAS: um pacote de ferramentas abrangente, incluindo visualizações e dashboards interativos, para análise, relatórios, mineração de dados e modelagem preditiva.
  • IBM SPSS: oferece análise estatística avançada, uma ampla biblioteca de algoritmos de aprendizado de máquina, análise de texto, extensibilidade de código aberto, integração com big data e implementação contínua em aplicações.

Cientistas de dados também ganham proficiência no uso de plataformas de processamento de big data, como Apache Spark, o framework de código aberto Apache Hadoop e bancos de dados NoSQL. Eles também são habilidosos com uma ampla gama de ferramentas de visualização de dados, incluindo ferramentas gráficas simples incluídas em aplicações de apresentação de negócios e planilhas (como o Microsoft Excel), ferramentas de visualização comerciais feitas para esse propósito como Tableau e IBM Cognos, e ferramentas de código aberto como D3.js (uma biblioteca JavaScript para criar visualizações de dados interativas) e RAW Graphs. Para construir modelos de aprendizado de máquina, cientistas de dados frequentemente recorrem a vários frameworks como PyTorch, TensorFlow, MXNet e Spark MLib.

Dada a íngreme curva de aprendizado em ciência de dados, muitas empresas buscam acelerar o retorno sobre investimento em projetos de IA; frequentemente, elas enfrentam dificuldades para contratar o talento necessário para realizar todo o potencial do projeto de ciência de dados. Para enfrentar essa lacuna, estão recorrendo a plataformas de ciência de dados e aprendizado de máquina (DSML) multipersona, dando origem ao papel do “cientista de dados cidadão”.

Plataformas DSML multipersona utilizam automação, portais de autoatendimento e interfaces de usuário de pouco código/sem código para que pessoas com pouco ou nenhum conhecimento em tecnologia digital ou ciência de dados especializada possam criar valor comercial usando ciência de dados e aprendizado de máquina. Essas plataformas também oferecem suporte a cientistas de dados experientes, disponibilizando uma interface mais técnica. Utilizar uma plataforma DSML multipessoal incentiva a colaboração em toda a empresa.

Ciência de dados e computação em nuvem

A computação em nuvem amplia a ciência de dados fornecendo acesso a capacidade adicional de processamento, armazenamento e outras ferramentas necessárias para projetos de ciência de dados.

Como a ciência de dados frequentemente aproveita grandes conjuntos de dados, ferramentas que podem escalar com o tamanho dos dados são incrivelmente importantes, especialmente para projetos sensíveis ao tempo. Soluções de armazenamento em nuvem, como data lakes, oferecem acesso a infraestrutura de armazenamento capaz de ingerir e processar grandes volumes de dados com facilidade. Esses sistemas de armazenamento oferecem flexibilidade aos usuários finais, permitindo-lhes criar grandes clusters conforme a necessidade. Eles também podem adicionar nós de computação incrementais para agilizar os trabalhos de processamento de dados, possibilitando à empresa fazer concessões de curto prazo em favor de resultados mais significativos a longo prazo. Plataformas de nuvem tipicamente possuem diferentes modelos de preços, como por uso ou assinaturas, para atender às necessidades de seus usuários finais, seja uma grande empresa ou uma startup pequena.

Tecnologias de código aberto são amplamente utilizadas em conjuntos de ferramentas de ciência de dados. Quando hospedadas na nuvem, as equipes não precisam instalar, configurar, manter ou atualizar localmente. Vários provedores de nuvem, incluindo o IBM Cloud, também oferecem kits de ferramentas predefinidos que permitem aos cientistas de dados construir modelos sem programação, democratizando ainda mais o acesso a inovações tecnológicas e insights de dados.

Casos de uso de ciência de dados

As empresas podem liberar inúmeros benefícios da ciência de dados. Casos de uso comuns incluem otimização de processos por meio de automação inteligente, targeting aprimorado e personalização para melhorar a experiência do cliente (CX). No entanto, exemplos mais específicos incluem:

Aqui estão alguns casos de uso representativos para ciência de dados e inteligência artificial:

  • Um banco internacional oferece serviços de empréstimo mais rápidos com um aplicativo móvel usando modelos de risco de crédito impulsionados por aprendizado de máquina e uma arquitetura de computação em nuvem híbrida poderosa e segura.
  • Uma empresa de eletrônicos está desenvolvendo sensores extremamente potentes produzidos por impressão 3D para orientar os veículos autônomos do futuro. A solução depende de ferramentas de ciência de dados e análise de dados para aprimorar seus recursos de detecção de objetos em tempo real.
  • Um provedor de soluções de automação robótica de processos (RPA) desenvolveu uma solução cognitiva de mineração de processos de negócios que reduz os tempos de tratamento de incidentes entre 15% e 95% para suas empresas clientes. A solução é treinada para compreender o conteúdo e o sentimento dos e-mails dos clientes, direcionando as equipes de serviço a priorizar aqueles que são mais relevantes e urgentes.
  • Uma empresa de tecnologia de mídia digital criou uma plataforma de análise de audiência que permite a seus clientes ver o que está engajando as audiências de TV à medida que lhes são oferecidos uma gama crescente de canais digitais. A solução utiliza análises profundas e aprendizado de máquina para coletar insights em tempo real sobre o comportamento dos espectadores.
  • Um departamento de polícia urbana criou ferramentas estatísticas de análise de incidentes para ajudar os policiais a entender quando e onde implementar recursos para evitar crimes. A solução baseada em dados cria relatórios e dashboards para aumentar a consciência situacional para os policiais em campo.
  • A Shanghai Changjiang Science and Technology Development utilizou a tecnologia IBM® Watson para construir uma plataforma de avaliação médica baseada em IA capaz de analisar registros médicos existentes para categorizar pacientes com base no risco de sofrerem um AVC e que pode prever a taxa de sucesso de diferentes planos de tratamento.
Soluções relacionadas
Ferramentas e soluções de ciência de dados

Use ferramentas e soluções de ciência de dados para descobrir padrões e fazer previsões utilizando dados, algoritmos, aprendizado de máquina e técnicas de IA.

Explore as soluções de ciência de dados
Análise de dados do IBM Cognos

Apresentamos o Cognos Analytics 12.0, insights impulsionados por IA para maior eficiácia na tomada de decisão.

Explore o IBM Cognos Analytics
Serviços de consultoria de dados e análise de dados

Libere o valor dos dados empresariais com a IBM® Consulting, construindo uma organização orientada por insights, que proporciona vantagem comercial.

Conheça os serviços de análise de dados
Dê o próximo passo

Use ferramentas e soluções de ciência de dados para descobrir padrões e fazer previsões utilizando dados, algoritmos, aprendizado de máquina e técnicas de IA.

Explore as soluções de ciência de dados Explore os serviços de análise de dados