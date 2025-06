Cientistas e engenheiros vêm tentando desenvolver formas de fazer com que máquinas vejam e compreendam dados visuais há cerca de 60 anos. Os experimentos começaram em 1959, quando neurofisiologistas mostraram uma série de imagens a um gato, tentando correlacionar a resposta em seu cérebro. Eles descobriram que a resposta vinha primeiro a contornos nítidos ou linhas e, cientificamente, isso significava que o processamento de imagens começa com formas simples, como linhas retas.2

Quase na mesma época, a primeira tecnologia de digitalização de imagens por computador foi desenvolvida, permitindo que os computadores digitalizassem e adquirissem imagens. Outro marco foi alcançado em 1963, quando os computadores foram capazes de transformar imagens bidimensionais em formas tridimensionais. Na década de 1960, a IA emergiu como um campo de estudo acadêmico e também marcou o início da busca da IA para resolver o problema da visão humana.

Em 1974, foi introduzida a tecnologia de reconhecimento óptico de caracteres (OCR), que conseguia reconhecer texto impresso em qualquer fonte ou tipo de letra.3 De forma semelhante, o reconhecimento inteligente de caracteres (ICR) podia decifrar texto manuscrito com o uso de redes neurais.4 Desde então, OCR e ICR passaram a ser utilizados no processamento de documentos e faturas, reconhecimento de placas de veículos, pagamentos móveis, conversão por máquina e outras aplicações comuns.

Em 1982, o neurocientista David Marr estabeleceu que a visão funciona hierarquicamente e introduziu algoritmos para máquinas detectarem bordas, cantos, curvas e formas básicas semelhantes. Ao mesmo tempo, a cientista da computação Kunihiko Fukushima desenvolveu uma rede de células capazes de reconhecer padrões. A rede, chamada de Neocognitron, incluía camadas convolucionais em uma rede neural.

Em 2000, o foco dos estudos passou a ser o reconhecimento de objetos; e, em 2001, surgiram as primeiras aplicações de reconhecimento facial em tempo real. A padronização de como os conjuntos de dados visuais são marcados e anotados surgiu ao longo dos anos 2000. Em 2010, o conjunto de dados ImageNet foi disponibilizado. Ele continha milhões de imagens marcadas em mil classes de objetos e serve de base para as CNNs e modelos de deep learning usados atualmente. Em 2012, uma equipe da Universidade de Toronto inscreveu uma CNN em um concurso de reconhecimento de imagens. O modelo, chamado AlexNet, reduziu significativamente a taxa de erro no reconhecimento de imagens. Após esse avanço, as taxas de erro caíram para apenas alguns por cento.5