O aprendizado supervisionado é uma técnica de aprendizado de máquina que usa conjuntos de dados rotulados para treinar modelos de IA para identificar os padrões subjacentes nos pontos de dados. Os dados rotulados incluem funcionalidades e rótulos, saídas correspondentes que o modelo usa para entender a relação entre os dois.
Muitas empresas contratam grandes equipes de anotadores de dados humanos, que às vezes são assistidos por máquinas. Esses anotadores geralmente exigem conhecimento do domínio para garantir que os dados sejam rotulados adequadamente. Por exemplo, ao rotular dados legais, os anotadores podem precisar de uma formação em direito. O processo de usar anotadores humanos para ajudar a garantir a rotulagem adequada às vezes é chamado de "human-in-the-loop".
Um exemplo clássico de aprendizado supervisionado é a detecção de spam. Para ensinar um modelo a identificar spam, pode-se expô-lo a um conjunto de dados composto por milhares de e-mails, cada um rotulado por humanos como "spam" ou "não spam". O modelo avaliaria os padrões nos e-mails, percebendo vários padrões. Por exemplo, os e-mails que têm a palavra “grátis” no assunto têm maior probabilidade de serem spam. O modelo calcularia a probabilidade estatística de que a palavra "grátis" na linha de assunto corresponda ao rótulo "spam". Então, quando receber um novo e-mail sem rótulo, o modelo poderá aplicar esse cálculo, juntamente com muitos outros, para determinar se o novo e-mail é spam ou não.
Esse tipo de aprendizado de máquina é chamado de "supervisionado" porque envolve a supervisão humana para rotular todos esses dados.