Início
topics
Mineração de dados
Atualizado em: 28 de junho de 2024
Colaborador: Jim Holdsworth
A mineração de dados é o uso de aprendizado de máquina e análise estatística para descobrir padrões e outras informações valiosas de grandes conjuntos de dados.
Dada a evolução do aprendizado de máquina (ML), do data warehousing e do crescimento do big data, a adoção da mineração de dados, também conhecida como descoberta de conhecimento em bancos de dados (KDD), acelerou rapidamente nas últimas décadas. No entanto, embora essa tecnologia evolua continuamente para lidar com dados em grande escala, os líderes ainda podem enfrentar desafios com escalabilidade e automação.
As técnicas de mineração de dados que sustentam as análises de dados podem ser implementadas para duas finalidades principais. Elas podem descrever o conjunto de dados de destino ou prever os resultados usando algoritmos de aprendizado de máquina.
Esses métodos são usados para organizar e filtrar dados, trazendo à tona as informações mais úteis, desde fraudes até comportamentos de usuários, gargalos e até violações de segurança. O uso de algoritmos de ML e inteligência artificial (IA) permite a automação da análise, o que pode acelerar bastante o processo.
Quando combinado com ferramentas de análise e visualização de dados, como o Apache Spark, o software de mineração de dados está se tornando mais simples, e a extração de insights relevantes pode ser obtida mais rapidamente do que nunca. Os avanços na IA continuam acelerando a adoção em todos os setores.
Saiba como incorporar com confiança a IA generativa e o aprendizado de máquina em sua empresa.
Descubra insights e tendências ocultos: a mineração de dados pega dados brutos e encontra ordem no caos: vendo a floresta pelas árvores. Isso pode resultar em um planejamento mais bem informado em todas as funções corporativas e setores, incluindo publicidade, finanças, governo, saúde, recursos humanos (RH), fabricação, marketing, pesquisa, vendas e gerenciamento da cadeia de suprimentos (SCM).
Economize seu orçamento: ao analisar dados de desempenho de várias fontes, gargalos nos processos de negócios podem ser identificados para acelerar a resolução e aumentar a eficiência.
Resolva vários desafios: a mineração de dados é uma ferramenta versátil. Dados de praticamente qualquer fonte e qualquer aspecto de uma organização podem ser analisados para descobrir padrões e melhores formas de conduzir os negócios. Quase todos os departamentos de uma organização que coleta e analisa dados podem se beneficiar da mineração de dados.
Complexidade e risco: insights úteis exigem dados válidos, além de especialistas com experiência em programação. Conhecimento de linguagens de mineração de dados, incluindo Python, R e SQL, é útil.
Uma abordagem insuficientemente cautelosa à mineração de dados pode resultar em resultados enganosos ou perigosos. Alguns dados do consumidor usados na mineração de dados podem ser informações de identificação pessoal (PII), que devem ser tratadas com cuidado para evitar problemas legais ou de relações públicas.
Custo: para obter os melhores resultados, muitas vezes é necessária uma coleta ampla e profunda de conjuntos de dados. Se novas informações forem coletadas por uma organização, a configuração de um pipeline de dados pode representar uma nova despesa. Se os dados precisarem ser adquiridos de uma fonte externa, isso também terá um custo.
Incerteza: primeiro, um grande esforço de mineração de dados pode ser bem executado, mas produzir resultados pouco claros, sem grandes benefícios. Ou dados imprecisos podem levar a insights incorretos, independentemente de terem sido selecionados dados incorretos ou de o pré-processamento ter sido mal manejado.
Outros riscos incluem erros de modelagem ou dados desatualizados de um mercado em rápida mudança.
Outro problema potencial é que os resultados podem parecer válidos, mas na verdade são aleatórios e não são confiáveis.
É importante lembrar que "correlação não é causalidade". Um exemplo famoso de "dragagem de dados" (ver uma correlação aparente e exagerar sua importância) foi apresentado recentemente pelo blogueiro Tyler Vigen: "O preço das ações da Amazon.com tem uma estreita correspondência com o número de crianças chamadas 'Stevie' de 2002 a 2022."1 Mas, é claro, os nomes Stevies não influenciaram o preço das ações ou vice-versa. As aplicações de mineração de dados encontram os padrões, mas o julgamento humano ainda é significativo.
A mineração de dados é o processo geral de identificação de padrões e extração de insights úteis de conjuntos de big data. Isso pode ser usado para avaliar dados estruturados e não estruturados para identificar novas informações e é comumente usado para analisar o comportamento do consumidor por equipes de marketing e vendas.
Por exemplo, métodos de mineração de dados podem ser usados para observar e prever comportamentos, incluindo rotatividade de clientes, detecção de fraudes, análise de cestas de mercado e muito mais.
A mineração de texto, também conhecida como mineração de dados de texto, é um subcampo da mineração de dados, destinado a transformar texto não estruturado em um formato estruturado para identificar padrões significativos e gerar novos insights.
Os dados não estruturados podem incluir texto de fontes, incluindo postagens de redes sociais, análises de produtos, artigos, e-mail ou formatos de mídia avançada, como arquivos de vídeo e áudio. Grande parte dos dados publicamente disponíveis em todo o mundo não são estruturados, tornando a mineração de texto uma prática valiosa.
A mineração de processos fica na interseção entre o gerenciamento de processo empresarial (BPM) e a mineração de dados. A mineração de processos fornece uma maneira de aplicar algoritmos aos dados do log de eventos para identificar tendências, padrões e detalhes de como os processos se desenrolam. A mineração de processos aplica a ciência de dados para descobrir gargalos e, em seguida, validar e melhorar os fluxos de trabalho.
O BPM geralmente coleta dados de forma mais informal, por meio de workshops e entrevistas, e, em seguida, usa o software para documentar esse fluxo de trabalho como um mapa de processo. Como os dados que informam esses mapas de processo são frequentemente qualitativos, a mineração de processos traz uma abordagem mais quantitativa para um problema de processo, detalhando o processo real por meio de dados de eventos.
Sistemas de informação, como ferramentas de planejamento de recursos empresariais (ERP) ou de gerenciamento de relacionamento com o cliente (CRM), fornecem uma trilha de auditoria dos processos a partir dos dados de log. A mineração de processos usa esses dados dos sistemas de TI para montar um modelo de processo ou um gráfico de processo. A partir daí, as organizações podem examinar o processo de ponta a ponta com os detalhes e quaisquer variações descritas.
O processo de mineração de dados envolve várias etapas, desde a coleta de dados até a visualização, para extrair informações valiosas de grandes conjuntos de dados. Técnicas de mineração de dados podem ser usadas para gerar descrições e previsões sobre um conjunto de dados de destino.
Cientistas de dados ou especialistas em business intelligence (BI) descrevem os dados por meio de observações de padrões, associações e correlações. Eles também classificam e agrupam dados por meio de métodos de classificação e regressão e identificam valores discrepantes para casos de uso, como detecção de spam.
A mineração de dados geralmente inclui cinco etapas principais: definição de objetivos, seleção de dados, preparação de dados, construção do modelo de dados, e mineração de padrões e avaliação de resultados.
1. Definir os objetivos de negócios: essa pode ser a parte mais difícil do processo de mineração de dados, e muitas organizações gastam muito pouco tempo nessa etapa importante. Mesmo antes de os dados serem identificados, extraídos ou limpos, cientistas de dados e stakeholders de negócios podem trabalhar juntos para definir o problema de negócios preciso, o que ajuda a informar as perguntas e os parâmetros de dados para um projeto. Os analistas também podem precisar fazer mais pesquisas para entender completamente o contexto de negócios.
2. Seleção de dados: quando o escopo do problema é definido, é mais fácil para os cientistas de dados identificar qual conjunto de dados ajudará a responder às perguntas pertinentes ao negócio. Eles e a equipe de TI também podem determinar onde os dados devem ser armazenados e protegidos.
3. Preparação de dados: os dados relevantes são reunidos e limpos para remover qualquer ruído, como duplicatas, valores ausentes e valores discrepantes. Dependendo do conjunto de dados, uma etapa adicional de gerenciamento de dados pode ser adotada para reduzir o número de dimensões, pois funcionalidades em excesso podem desacelerar qualquer cálculo subsequente.
Os cientistas de dados procuram reter os preditores mais importantes, para ajudar a garantir a precisão ideal em qualquer modelo. Ciência de dados responsável significa pensar no modelo além do código e do desempenho, e é extremamente impactada pelos dados que estão sendo usados e pela sua confiabilidade.
4. Construção de modelos e mineração de padrões: dependendo do tipo de análise, os cientistas de dados podem investigar quaisquer tendências ou relacionamentos de dados interessantes, como padrões sequenciais, regras de associação ou correlações. Embora os padrões de alta frequência tenham aplicações mais amplas, às vezes os desvios nos dados podem ser mais interessantes, destacando áreas de possível fraude. Modelos preditivos podem ajudar a avaliar tendências ou resultados futuros. Nos sistemas mais sofisticados, os modelos preditivos podem fazer previsões em tempo real para respostas rápidas a mercados em mudança.
Algoritmos de deep learning também podem ser usados para classificar ou agrupar um conjunto de dados dependendo dos dados disponíveis. Se os dados de entrada forem rotulados (como no aprendizado supervisionado), um modelo de classificação pode ser usado para categorizar os dados ou, alternativamente, uma regressão pode ser aplicada para prever a probabilidade de uma tarefa específica. Se o conjunto de dados não for rotulado (ou seja, aprendizado não supervisionado), os pontos de dados individuais no conjunto de treinamento serão comparados para descobrir semelhanças subjacentes, agrupando-os com base nessas características.
5. Avaliação dos resultados e implementação do conhecimento: quando os dados são agregados, eles podem ser preparados para apresentação, geralmente usando técnicas de visualização de dados, para que os resultados possam ser avaliados e interpretados. O ideal é que os resultados finais sejam válidos, novos, úteis e compreensíveis. Quando esses critérios são atendidos, os tomadores de decisões podem usar esse conhecimento para implementar novas estratégias, atingindo os objetivos pretendidos.
Aqui estão alguns dos tipos mais populares de mineração de dados:
Uma regra de associação é um método baseado em regras "if/then" para encontrar relações entre variáveis em um conjunto de dados. Os pontos fortes dos relacionamentos são medidos pelo suporte e confiança. O nível de confiança é baseado na frequência com que as declarações "if" ou "then" são verdadeiras. A medida de suporte é a frequência com que os elementos relacionados são mostrados nos dados.
Esses métodos são frequentemente usados para análise de cesta de mercado, permitindo que as empresas entendam melhor as relações entre diferentes produtos, como aqueles que são frequentemente comprados juntos. Compreender os hábitos do cliente permite que as empresas desenvolvam melhores estratégias de venda cruzada e mecanismos de recomendação.
As classes de objetos são predefinidas, conforme a necessidade da organização, com definições das características que os objetos têm em comum. Isso permite que os dados subjacentes sejam agrupados para facilitar a análise.
Por exemplo, uma empresa de produtos de consumo pode examinar sua estratégia de cupons analisando resgates de cupons anteriores, juntamente com dados de vendas, estatísticas de estoque e quaisquer dados do consumidor disponíveis para encontrar a melhor estratégia de campanhas futuras.
Intimamente relacionado à classificação, o agrupamento relata semelhanças, mas também fornece mais agrupamentos com base nas diferenças. As classificações predefinidas para um fabricante de sabão podem incluir detergente, alvejante, amaciante de roupa, limpador de chão e cera de chão, enquanto o agrupamento pode criar grupos que incluem produtos de lavanderia e cuidados com o chão.
Essa técnica de mineração de dados usa análise de classificação ou regressão para classificar ou prever possíveis resultados com base em um conjunto de decisões. Como o nome da Decision Tree sugere, ela usa uma visualização semelhante a uma árvore para representar os possíveis resultados dessas decisões.
Também conhecido como algoritmo KNN, o K-vizinho mais próximo é um algoritmo não paramétrico que classifica pontos de dados com base em sua proximidade e associação com outros dados disponíveis. Esse algoritmo pressupõe que pontos de dados semelhantes são encontrados próximos uns dos outros. Como resultado, ela busca calcular a distância entre pontos de dados, geralmente por meio da distância euclidiana, e, em seguida, atribui uma categoria com base na categoria ou média mais frequente.
Usadas principalmente para algoritmos de deep learning, as redes neurais processam dados de treinamento, ao imitar a interconectividade do cérebro humano através de camadas de nós. Cada nó é composto de entradas, pesos, um bias (ou limite) e uma saída.
Se esse valor de saída excede o limite definido, ele "dispara" ou ativa o nó, enviando dados para a próxima camada da rede. As redes neurais aprendem essa função de mapeamento por meio de aprendizado supervisionado, fazendo ajustes com base na função de perda por meio do processo de descida do gradiente. Quando a função de custo está igual ou próxima de zero, uma organização pode confiar na precisão do modelo para obter a resposta correta.
Ao combinar mineração de dados com técnicas de modelagem estatística e aprendizado de máquina, os dados históricos podem ser analisados usando análise de dados preditiva para criar modelos gráficos ou matemáticos destinados a identificar padrões, prever eventos e resultados futuros e identificar riscos e oportunidades.
Essa técnica descobre relações nos dados prevendo resultados com base em variáveis predeterminadas. Isso pode incluir Decision Trees e regressão multivariada e linear. Os resultados podem ser priorizados pela proximidade do relacionamento para ajudar a determinar quais dados são mais ou menos significativos.
Um exemplo seria um fabricante de refrigerantes estimar o estoque necessário de bebidas antes da chegada do clima quente previsto para o verão.
As técnicas de mineração de dados são amplamente adotadas pelas equipes de business intelligence e análise de dados, ajudando-as a extrair conhecimento para sua organização e setor. Alguns casos de uso de mineração de dados incluem:
Embora padrões que ocorrem com frequência nos dados possam fornecer às equipes insights valiosos, observar anomalias nos dados também é benéfico, ajudando as organizações na detecção de fraudes, invasões de rede e defeitos de produtos.
Embora esse seja um caso de uso bem conhecido em bancos e outras instituições financeiras, as empresas baseadas em SaaS também começaram a adotar essas práticas para eliminar contas de usuário falsas de seus conjuntos de dados. A detecção de anomalias também pode ser uma oportunidade para encontrar estratégias novas e inovadoras ou mercados-alvo que foram negligenciados no passado.
As organizações podem localizar e determinar com mais precisão a escala de risco com a mineração de dados. Padrões e anomalias podem ser descobertos nos campos de cibersegurança, finanças e jurídico para identificar negligências ou ameaças.
Ao pesquisar em vários bancos de dados para encontrar relacionamentos próximos, a mineração de dados pode conectar com precisão comportamentos e históricos de clientes com vendas de itens específicos. Isso pode permitir campanhas mais direcionadas para ajudar a aumentar as vendas.
Os problemas do cliente podem ser descobertos e corrigidos mais cedo se a soma total das ações do cliente (no local, online, por aplicativos móveis ou por telefone) puder ser analisada com mineração de dados. Os agentes de atendimento ao cliente podem ter acesso a informações mais completas e perspicazes sobre os clientes que atendem.
Dados operacionais podem ser minerados de equipamentos industriais, podendo ajudar a prever o desempenho futuro e o downtime, além de permitir o planejamento da manutenção de proteção.
A mineração de processos usa técnicas de mineração de dados para reduzir custos em todas as funções operacionais, permitindo que as organizações funcionem com mais eficiência. Essa prática pode ajudar a identificar gargalos dispendiosos e melhorar a tomada de decisões para os líderes de negócios.
A mineração de dados pode criar uma fonte de dados mais rica para o atendimento ao cliente, ajudando a determinar quais fatores mais agradam aos clientes e quais fatores causam atrito ou insatisfação.
As instituições educacionais começaram a coletar dados para entender suas populações estudantis e quais ambientes são propícios ao sucesso. Com cursos que muitas vezes usam plataformas online, elas podem usar várias dimensões e métricas para observar e avaliar o desempenho, como pressionamentos de teclas, perfis de alunos, aulas assistidas e tempo gasto.
Ao pesquisar riscos, instituições financeiras e bancos geralmente querem lançar uma rede ampla, para capturar quaisquer fatores que possam afetar negativamente o fluxo de caixa e a recuperação. As ferramentas de mineração de dados podem ser úteis para encontrar e ponderar uma combinação de fatores que indicam um risco bom ou ruim.
A mineração de dados é uma ferramenta útil para o diagnóstico de condições médicas, incluindo a leitura de varreduras e imagens, e depois auxilia na sugestão de tratamentos benéficos.
As organizações podem obter novos insights sobre o desempenho e a satisfação dos funcionários analisando vários fatores e encontrando padrões. Os dados podem incluir data de início, posse, promoções, salário, treinamento, desempenho de colegas, entrega de trabalhos, uso de benefícios e viagens.
Das matérias-primas à entrega final, todos os aspectos do processo de fabricação podem ser analisados para melhorar o desempenho. Qual é o custo dos materiais, e há opções? Qual é o nível de eficiência da produção? Onde estão os gargalos? Quais são os problemas de qualidade e onde eles surgem, tanto internamente quanto com os clientes?
Ao extrair dados e ações dos clientes, os varejistas podem identificar as campanhas, preços, promoções, ofertas especiais de produtos e vendas cruzadas e adicionais mais produtivas.
As empresas coletam grandes quantidades de dados sobre seus clientes e clientes potenciais. Ao observar dados demográficos do consumidor, as respostas nas redes e o comportamento do cliente, as empresas podem usar dados para otimizar suas campanhas de marketing, melhorando a segmentação e o direcionamento, além dos programas de fidelidade do cliente, tudo isso ajudando a gerar maior retorno sobre o investimento (ROI) nos esforços de marketing.
As análises preditivas também podem ajudar as equipes a definir expectativas com seus stakeholders, fornecendo estimativas de rendimento para quaisquer aumentos ou diminuições no investimento em marketing.
A análise dos dados do usuário pode ajudar a descobrir novas oportunidades editoriais ou novas fontes de receita publicitária para públicos-alvo específicos.
Usando a mineração de dados, os gerentes de produtos podem prever melhor a demanda, acelerar a produção, ajustar os fornecedores ou adaptar os esforços de marketing. Os gerentes da cadeia de suprimentos podem planejar melhor o envio e o armazenamento.
Encontre respostas e insights críticos de seus dados de negócios usando a tecnologia de Enterprise Search impulsionada por IA.
Um data warehouse totalmente gerenciado e elástico na nuvem, criado para análise de dados e IA de alto desempenho.
Importe grandes volumes de dados de várias fontes díspares para revelar padrões e tendências de dados ocultos.
¹ "Spurious Correlations" (link externo a ibm.com), Tyler Vigen.