O que é aprendizado supervisionado?
Descubra como o aprendizado supervisionado funciona e como ele pode ser usado para criar modelos de machine learning altamente precisos
Segundo plano azul com triângulos azul turquesa
O que é aprendizado supervisionado?

O aprendizado supervisionado, conhecido também como machine learning supervisionado, é uma subcategoria de machine learning e de inteligência artificial. É definido pelo uso de conjuntos de dados rotulados para treinar algoritmos que classificam dados ou preveem resultados com precisão. À medida que os dados de input são inseridos no modelo, ele adapta sua ponderação até que o modelo seja ajustado adequadamente, o que ocorre como parte do processo de validação cruzada. O aprendizado supervisionado ajuda as organizações a resolver diversos problemas do mundo real em grande escala, como a classificação de spam em uma pasta separada da sua caixa de entrada.

Produtos em destaque

Watson Studio

SPSS Statitiscs

Como funciona o aprendizado supervisionado?

O aprendizado supervisionado usa um conjunto de treinamento para ensinar modelos a mostrar o output desejado. Este conjunto de dados de treinamento inclui inputs e outputs corretos, que permitem que o modelo aprenda com o tempo. O algoritmo mede sua precisão através da função de perda, ajustando até que o erro seja suficientemente minimizado.

O aprendizado supervisionado pode ser separado em dois tipos de problemas durante a mineração de dados, ou seja, a classificação e regressão:

  • Classificação  usa um algoritmo para separar com precisão os dados de teste em categorias específicas. Ele reconhece entidades específicas dentro do conjunto de dados e tenta desenhar algumas conclusões sobre como essas entidades devem ser rotuladas ou definidas. Algoritmos de classificação comuns são classificadores lineares, máquinas de vetores de suporte (SVM), árvores de decisão, k-vizinhos mais próximos e floresta aleatória, que são descritos em mais detalhe abaixo.
  • Regressão  é usada para entender a relação entre variáveis dependentes e independentes. É comumente usada para fazer projeções, como de receita de vendas para um determinado negócio. Regressão linearregressão logística e regressão polinomial são algoritmos de regressão conhecidos.
Algoritmos de aprendizado supervisionado

Vários algoritmos e técnicas de computação são usados em processos de machine learning supervisionado. Abaixo estão as explicações breves sobre alguns dos métodos de aprendizado mais usados, normalmente calculados pelo uso de programas como R ou Python:

  • Redes neurais: usadas principalmente para algoritmos de deep learning, as redes neurais processam dados de treinamento imitando a interconectividade do cérebro humano por meio de camadas de nós. Cada nó é composto de entradas, pesos, um viés (ou limite) e uma saída. Se esse valor de saída exceder um determinado limite, ele "dispara" ou ativa o nó, passando dados para a camada seguinte na rede. As redes neurais aprendem essa função de mapeamento por meio do aprendizado supervisionado, ajustando-se com base na função de perda por meio do processo de descida do gradiente. Quando a função de custo é igual ou próxima de zero, podemos confiar na precisão do modelo para fornecer a resposta correta.
  • Naive Bayes:  é uma abordagem de classificação que adota o princípio da independência condicional de classe a partir do Teorema de Bayes. Isso significa que a presença de um recurso não impacta a presença de outro na probabilidade de um determinado resultado, e cada preditor tem um efeito igual sobre aquele resultado. Existem três tipos de classificadores Naïve Bayes: Multinomial Naïve Bayes, Bernoulli Naïve Bayes e Gaussian Naïve Bayes. Esta técnica é usada principalmente em classificação de textos, identificação de spam e sistemas de recomendações.
  • Regressão linear:  a regressão linear é usada para identificar o relacionamento entre uma variável dependente e uma ou mais variáveis independente e normalmente é usada para fazer previsões sobre resultados futuros. Quando há apenas uma variável independente e uma variável dependente, isso é conhecido como regressão linear simples. À medida que o número de variáveis independentes aumenta, ela é chamada de regressão linear múltipla. Para cada tipo de regressão linear, busca-se traçar uma reta de melhor ajuste, que é calculada através do método dos mínimos quadrados. No entanto, diferente de outros modelos de regressão, esta linha é reta quando traçada em um gráfico.
  • Regressão logística:  enquanto a regressão linear é usada quando as variáveis dependentes são contínuas, a regressão logística é escolhida quando a variável dependente é categórica, ou seja, quando tem outputs binários, como "verdadeiro" e "falso" ou "sim" e "não". Ambos os modelos de regressão buscam entender as relacionamentos entre os inputs de dados, porém, a regressão logística é usada principalmente para resolver problemas de classificação binária, como a identificação de spam.
  • Máquinas de vetores de suporte (SVM):  uma máquina de vetores de suporte é um modelo de aprendizado supervisionado conhecido desenvolvido por Vladimir Vapnik, usado para classificação e regressão de dados. Dito isso, normalmente é usado para classificar problemas, criando um hiperplano em que a distância entre duas classes de pontos de dados é máxima. Este hiperplano é conhecido como o limite de decisão, separando as classes de pontos de dados (por exemplo, laranjas vs. maçãs) em cada lado do plano.
  • K-vizinhos mais próximos:o K-vizinhos mais próximos, também conhecido como algoritmo KNN, é um algoritmo não paramétrico que classifica pontos de dados com base em sua proximidade e associação a outros dados disponíveis. Este algoritmo assume que pontos de dados semelhantes podem ser encontrados próximos uns dos outros. Como resultado, ele procura calcular a distância entre os pontos de dados, geralmente através da distância euclidiana e, então, atribui uma categoria com base na categoria ou média mais frequente. Sua facilidade de uso e baixo cálculo de tempo o tornam um algoritmo preferencial por cientistas de dados, mas à medida que o conjunto de dados de teste aumenta, o tempo de processamento se prolonga, tornando-o menos atrativo para tarefas de classificação. O KNN é normalmente usado para mecanismos de recomendação e reconhecimento de imagem.
  • Floresta aleatória: a floresta aleatória é outro de algoritmo flexível de machine learning supervisionado usado para classificação e regressão. A "floresta" faz referência a uma coleção de árvores de decisão não correlacionadas, que são mescladas para reduzir a variação e criar previsões de dados mais precisas.

 

Aprendizado não supervisionado vs. supervisionado vs. semissupervisionado

Machine learning não supervisionado e machine learning supervisionado são geralmente discutidos juntos. Diferente do aprendizado supervisionado, o aprendizado não supervisionado usa dados não rotulados. A partir desses dados, o método descobre padrões que ajudam a resolver problemas de agrupamento ou de associação. Isso é particularmente útil quando especialistas não têm certeza de propriedades comuns dentro de um conjunto de dados. Algoritmos de agrupamento comuns são modelos hierárquicos, k-médias e Gaussianos combinados.

O aprendizado semissupervisionado ocorre quando apenas parte dos dados de input fornecidos foi rotulada. O aprendizado não supervisionado e o semissupervisionado podem ser alternativas mais atrativas uma vez que pode ser demorado e dispendioso depender do conhecimento em um determinado domínio para rotular dados de forma adequada para o aprendizado supervisionado.

Para obter mais informações sobre as diferenças entre essas abordagens, consulte "Aprendizado supervisionado vs. não supervisionado: qual é a diferença?"

Exemplos de aprendizado supervisionado

Modelos de aprendizado supervisionado podem ser usados para criar e desenvolver diversos aplicativos de negócios, incluindo as opções a seguir:

  • Reconhecimento de imagem e objeto:  os algoritmos de aprendizado supervisionado podem ser usados para localizar, isolar e categorizar objetos de vídeos ou imagens, tornando-os úteis quando aplicados a várias técnicas de Computer Vision e análise de imagens.
  • Análise de dados preditiva:  um caso de uso bastante difundido para modelos de aprendizado supervisionado é a criação de sistemas de análise de dados preditiva para fornecer insights profundos sobre vários pontos de dados de negócios. Isso permite que as empresas antecipem determinados resultados com base em uma variável de output específica, ajudando os líderes de negócios a justificar decisões ou repensá-las para o benefício da organização.
  • Análise de sentimentos do cliente:  com o uso de algoritmos de machine learning supervisionado, as organizações podem extrair e classificar informações importantes de grandes volumes de dados, incluindo contexto, emoção e intenção, com pouquíssima intervenção humana. Isso pode ser incrivelmente útil ao obter um melhor entendimento das interações com o cliente e pode ser usado para melhorar os esforços de engajamento da marca.
  • Detecção de spam:  a detecção de spam é outro exemplo de modelo de aprendizado supervisionado. Usando algoritmos de classificação supervisionados, as organizações podem treinar bancos de dados para reconhecer padrões ou anomalias em novos dados para diferenciar mensagens de spam daquelas não relacionadas a spam de forma eficaz.
Desafios do aprendizado supervisionado

Embora o aprendizado supervisionado possa oferecer vantagens às empresas, como insights profundos de dados e automação aprimorada, existem alguns desafios ao criar modelos sustentáveis de aprendizado supervisionado. A seguir estão alguns desses desafios:

  • Os modelos de aprendizado supervisionado podem exigir níveis de conhecimento específico para serem estruturados com precisão.
  • Os modelos de aprendizado supervisionado de treinamento podem exigir muito tempo.
  • Os conjuntos de dados podem apresentar uma probabilidade maior de erro humano, resultando no aprendizado incorreto de algoritmos.
  • Ao contrário dos modelos de aprendizado não supervisionado, o aprendizado supervisionado não pode agrupar ou classificar dados por conta própria.
Soluções relacionadas
IBM Watson® Studio

Desenvolva e ajuste a escala da IA confiável em qualquer cloud. Automatize o ciclo de vida de IA para ModelOps.

Conheça o IBM Watson® Studio
Cloud Pak for Data

Conecte os dados certos, na hora certa, para as pessoas certas e em qualquer lugar.

Conheça o Cloud Pak for Data
Soluções IBM Cloud

Híbrida. Aberto. Resiliente. Sua plataforma e parceira para a transformação digital.

Conheça as soluções de cloud
Recursos Aprendizagem supervisionada versus não supervisionada: qual é a diferença?

Neste artigo, apresentaremos os fundamentos de duas abordagens da ciência de dados: supervisionada e não supervisionada.

Modelos de aprendizado supervisionado

Conheça algumas abordagens de aprendizado supervisionado, como máquinas de vetores de suporte e classificadores probabilísticos

Dê o próximo passo

Os modelos de aprendizado supervisionado podem ser uma solução valiosa para eliminar o trabalho manual de classificação e para fazer previsões futuras com base em dados rotulados. No entanto, a definição de seus algoritmos de machine learning requer conhecimento humano e experiência para evitar o sobreajuste dos modelos de dados.A IBM e suas equipes de IA e ciência de dados dedicaram anos aperfeiçoando o desenvolvimento e a implementação de modelos de aprendizado supervisionado com diversos casos de uso de negócios. Com a ajuda de ferramentas potentes como o IBM Watson Studio no IBM Cloud Pak for Data, as organizações podem criar modelos de machine learning altamente escaláveis independentemente de onde seus dados estiverem, além disso, podem contar com o suporte do ambiente robusto da multicloud híbrida.

Conheça o IBM Watson® Studio