O que é visão computacional?

Autores

Rina Diane Caballar

Staff Writer

IBM Think

Cole Stryker

Staff Editor, AI Models

IBM Think

O que é visão computacional?

A computer vision é um subcampo da inteligência artificial (IA) que equipa máquinas com a capacidade de processar, analisar e interpretar entradas visuais, como imagens e vídeos. Ela usa aprendizado de máquina para ajudar computadores e outros sistemas a obter informações significativas a partir de dados visuais.

A computer vision pode ser retratada como a interação entre três grandes processos, cada um trabalhando em conjunto e informando uns aos outros: reconhecimento, reconstrução e reorganização. O reconhecimento de imagens consiste em identificar ações, objetos, pessoas, lugares e escrita em imagens ou vídeos digitais. A reconstrução deriva as características tridimensionais dessas entidades, enquanto a reorganização infere as relações entre as entidades.1

As mais recentes tendências em IA, trazidas a você por especialistas

Receba insights selecionados sobre as notícias mais importantes (e intrigantes) sobre IA. Inscreva-se no nosso boletim informativo semanal Think. Consulte a Declaração de privacidade da IBM.

Agradecemos a você! Você se inscreveu.

Sua assinatura será entregue em inglês. Você encontrará um link para cancelar a assinatura em cada boletim informativo. Você pode gerenciar suas assinaturas ou cancelar a assinatura aqui. Consulte nossa Declaração de privacidade da IBM para obter mais informações.

Como a visão computacional funciona

A imagem radiológica no diagnóstico de pneumonia é um caso de uso comum em computer vision. Os radiologistas têm que interpretar cuidadosamente as radiografias de tórax, um processo que pode ser propenso a erros e demorado devido à sutileza dos sintomas de pneumonia e às suas semelhanças com outras condições pulmonares.2 Um sistema de computer vision pode ajudar.

Há vários tipos de modelos e abordagens para tarefas de computer vision, mas o exemplo hipotético a seguir ilustra um fluxo de trabalho comum:

  1. Coleta de dados
  2. Pré-processamento
  3. Seleção de modelos
  4. Treinamento de modelo

Coleta de dados

A primeira etapa é coletar os dados visuais necessários. Os hospitais geram grandes volumes de radiografias de tórax, que podem ser usados para treinar um algoritmo de computer vision. Como o objetivo é que o algoritmo classifique se uma imagem de raios-X mostra pneumonia ou não, os hospitais precisarão compilar um conjunto de dados de radiografias de tórax e rotular ou anotar corretamente cada exame como normal ou indicativo de pneumonia.

Para outros casos de uso, as imagens e vídeos podem vir de fontes como câmeras e sensores. Conjuntos de dados como COCO, ImageNet e Open Images fornecem grandes coleções de imagens anotadas.

Pré-processamento

Um modelo de IA é tão bom quanto os dados usados para treiná-lo, o que torna os dados de alta qualidade cruciais para a computer vision. O pré-processamento pode ajudar a melhorar a qualidade de dados por meio de limpeza de dados e aprimoramentos, como ajuste de brilho ou contraste para aprimorar imagens, bem como redimensionamento e suavização.

Os conjuntos de dados também devem ser suficientemente grandes e diversos o suficiente para que os algoritmos de computer vision produzam resultados precisos. A geração de dados sintéticos e o aumento de dados podem ajudar a expandir o tamanho e a diversidade dos conjuntos de dados. Por exemplo, os hospitais podem usar transformações geométricas como girar imagens de radiografia de tórax para a esquerda ou para a direita ou virar imagens de cabeça para baixo para aumentar seus dados.

Seleção do modelo

A seleção do modelo de aprendizado de máquina certo é crucial para otimizar a eficiência e o desempenho. Redes neurais convolucionais (CNNs) continuar sendo o principal modelo de deep learning para tarefas de processamento de imagens, enquanto redes neurais recorrentes (RNNs) são particularmente adequadas para processar dados sequenciais, como quadros de vídeo.

No entanto, os avanços em IA estão impulsionando uma mudança para modelos de transformadores. Por exemplo, um transformador de visão (ViT) aplica elementos de um modelo de linguagem baseado em transformadores à computer vision. As ViTs processam uma imagem em patches e os tratam como sequências, semelhantes a tokens em um transformador de linguagem. Em seguida, o transformador de visão implementa um mecanismo de autoatenção nesses patches para criar uma representação baseada em transformadores da imagem de entrada. As ViTs frequentemente igualam ou excedem o desempenho das CNNs em tarefas de computer vision, como classificação de imagens.3

Treinamento de modelo

Depois que um modelo tiver sido escolhido, segue-se o treinamento do modelo. O estágio de treinamento envolve a execução do modelo em dados de treinamento específicos para uma tarefa de computer vision, medindo o desempenho em relação à verdade fundamental e otimizando parâmetros para melhorar o desempenho ao longo do tempo.

As CNNs consistem em três tipos de camadas: uma camada convolucional, uma camada de agrupamento e uma camada totalmente conectada. A camada convolucional é onde a extração de funcionalidades acontece. A extração de funcionalidades envolve determinar e capturar atributos visuais importantes de dados de imagem brutos, como cores, edge, formas e texturas. No caso de imagens de raios X com pneumonia, as funcionalidades a serem extraídas incluem contornos pulmonares assimétricos, regiões claras que indicam inflamação ou presença de fluido (em oposição a regiões escuras e cheias de ar), áreas pulmonares turvas ou opacas e texturas grosseiras ou irregulares4 A extração de funcionalidades permite que os algoritmos distingam relações e padrões significativos em dados visuais.

Uma imagem de raios-X é tratada como uma matriz de valores de pixels. Outra matriz de pesos (parâmetros que controlam a quantidade de influência que uma determinada funcionalidade de entrada tem na saída do modelo) conhecida como filtro ou kernel é aplicada a uma área da imagem de raios-X, com um produto de ponto calculado entre os valores de pixels de entrada. O filtro se move (ou "convolui") ao longo da imagem para extrair funcionalidades, e todo o processo é conhecido como uma convolução. A saída final da série de produtos escalares é chamado de mapa de ativação ou mapa de funcionalidade. Cada filtro é ajustado para responder a padrões específicos, como edges, formas ou texturas, permitindo que a CNN aprenda várias funcionalidades visuais simultaneamente.

 O mapa de funcionalidades é alimentado em uma camada de agrupamento para reduzir ainda mais o tamanho da funcionalidade e comprimir suas dimensões. Outro filtro varre toda a entrada, tomando os valores máximos ou médios dentro de um grupo de células na funcionalidade. Isso retém as funcionalidades mais essenciais, permitindo que o modelo concentre sua atenção nelas.

 O ato de se mover por uma imagem para extrair funcionalidades, reduzir dimensões e produzir uma classificação é conhecido como passagem para a frente. Após esse avanço, o modelo aplica uma função de perda para calcular seu erro ou a diferença entre sua classificação prevista e a classificação verdadeira.

Para minimizar a função de perda, a retropropagação é empregada. A retropropagação é uma passagem para trás para calcular o gradiente da função de perda em relação a cada peso. Em seguida, a técnica de gradiente descendente é implementada para atualizar os pesos do modelo e otimizar o modelo.

Finalmente, a camada totalmente conectada conduz a tarefa de classificação baseada nas funcionalidades extraídas através das camadas anteriores e seus diferentes filtros. A CNN então gera suas saídas, que são probabilidades para cada classe (neste caso, normal versus pneumonia). Para a tarefa de classificação de imagens de radiografia de tórax, essa saída indicará um exame normal ou, se a probabilidade passar de um limite predeterminado, um exame positivo para pneumonia.

Mixture of Experts | 12 de dezembro, episódio 85

Decodificando a IA: resumo semanal das notícias

Participe do nosso renomado painel de engenheiros, pesquisadores, líderes de produtos e outros enquanto filtram as informações sobre IA para trazerem a você as mais recentes notícias e insights sobre IA.

Tarefas da visão computacional

Os algoritmos de computer vision podem ser treinados em uma ampla variedade de tarefas, algumas das quais incluem:

  • Reconhecimento de imagens
  • Classificação de imagens
  • Detecção de objetos
  • Segmentação de imagens
  • Rastreamento de objetos
  • Compreensão de cenas
  • Reconhecimento facial
  • Estimativa de poses
  • Reconhecimento óptico de caracteres
  • Geração de imagens
  • Inspeção visual

Reconhecimento de imagens

O reconhecimento de imagens é a forma mais ampla de computer vision. Ele engloba a identificação de pessoas, lugares, objetos e outras entidades em imagens digitais e serve como base para tarefas como classificação de imagens, detecção de objetos e segmentação de imagens.

Classificação de imagens

A classificação de imagens é uma tarefa central de computer vision que categoriza imagens em grupos ou classes predefinidos. Ele prevê o rótulo mais adequado para uma imagem ou objetos dentro de uma imagem. O cenário ilustrado anteriormente de diagnóstico de pneumonia usando radiografias de tórax é um exemplo de classificação de imagem.

Detecção de objetos

A detecção de objetos tem como objetivo identificar onde os objetos estão nas imagens digitais. Ela combina duas técnicas de aprendizado: localização de objetos e classificação de imagens.

A localização de objetos identifica a localização de objetos específicos em uma imagem desenhando caixas delimitadoras em torno deles. Em seguida, a classificação de imagens distingue a categoria à qual os objetos pertencem. Em filmagens de tráfego rodoviário, por exemplo, aplicativos de computer vision podem usar a detecção de objetos não apenas para classificar veículos, mas também para localizá-los na estrada.

Software de detecção de objetos sendo usado em tráfego

Arquiteturas de CNN comuns para detecção de objetos incluem R-CNN (region-based convolutional neural network) e YOLO (you only look once). A R-CNN implementa a detecção em dois estágios, primeiro determinando as regiões que transportam objetos e, em seguida, executando essas regiões através de redes separadas para classificação e localização mais exata. Enquanto isso, a YOLO realiza detecção de estágio único combinando localização e classificação em uma única passagem de rede, tornando-a rápida o suficiente para detecção de objetos em tempo real.

A detecção de objetos para vídeos geralmente aplica modelos baseados em transformadores e RNNs, especialmente a arquitetura de memória de curto prazo.

Segmentação de imagens

A segmentação de imagens é uma versão mais precisa em nível de pixel da detecção de objetos. Ela particiona uma imagem digital em grupos discretos de pixels conhecidos como segmentos de imagem e, em seguida, rotula os pixels de acordo com sua classe ou instância.

Enquanto a detecção de objetos pode classificar vários elementos dentro de uma imagem e aproximar a largura e altura de cada elemento, a segmentação de imagens discerne boundaries ou formas exatas. Isso torna a segmentação de imagens valiosa para delinear objetos unidos de perto com caixas delimitadoras sobrepostas.

A segmentação de imagens pode ser subdividida em três tipos de tarefas:

  • A segmentação semântica é o tipo mais simples, atribuindo uma classe semântica (a categoria específica à qual um determinado pixel pode pertencer)a cada pixel.
  • A segmentação de instâncias prevê as boundaries exatas em pixels de cada instância de objeto individual em uma imagem.
  • A segmentação panóptica combina segmentação semântica e de instâncias, determinando a classificação semântica de todos os pixels e diferenciando cada instância de objeto em uma imagem.

Por exemplo, em uma imagem de uma rua de cidade, a segmentação semântica pode tratar carros estacionados um na frente do outro como um longo segmento de carros, enquanto a segmentação de instâncias separa e determina a forma de cada carro.

Gráfico comparando imagens de origem com segmentação semântica, de instância e panóptica.

Rastreamento de objetos

O rastreamento de objetos segue e rastreia um objeto à medida que ele migra por uma sequência de quadros de vídeo ou imagens. Ele identifica e distingue o objeto em cada quadro e preserva a continuidade do objeto durante a travessia.

Compreensão de cenas

A compreensão de cenas vai além do reconhecimento de objetos, capturando um nível mais elevado de informações visuais. Ao identificar objetos em uma imagem, os modelos de deep learning preveem conexões entre eles, como ações, eventos e interações.

Redes neurais (GNNs) podem ser usadas para representar as relações espaciais entre objetos em uma imagem. No exemplo das imagens de trânsito, os sistemas de computer vision podem inferir que um táxi está se movendo na frente de um carro, um carro está estacionado à esquerda de um táxi ou um carro está virando à direita.

Os modelos de linguagem de visão (VLMs) também podem ajudar na compreensão de cenas. Esse emparelhamento de grandes modelos de linguagem (LLMs) com transformadores de visão pode reconhecer e classificar objetos em uma imagem e fornecer descrições contextuais, como a posição de um objeto em relação a outros elementos visuais.

Reconhecimento facial

O reconhecimento facial aplica reconhecimento de imagem às funcionalidades faciais. Ele captura a forma geométrica de um rosto e identifica padrões-chave, como a distância entre os olhos, a distância da testa ao queixo, o contorno do nariz e o formato dos olhos.

O reconhecimento facial pode identificar pessoas em tempo real ou em fotos ou vídeos. Um exemplo popular é a autenticação biométrica por meio de reconhecimento facial para liberar smartphones.

 

Autenticação facial biométrica

Estimativa de posturas

A estimativa de poses mede a posição espacial de diferentes partes do corpo para reconhecer gestos e rastrear movimentos do corpo. Por exemplo, a estimativa de poses pode ajudar a marcar a orientação dos braços e das mãos de um jogador durante o jogo na realidade virtual. Um exemplo mais real é o software de computer vision da NASA, que fornece aos operadores de braços robóticos a bordo da Estação Espacial Internacional uma estimativa de postura em tempo real para a captura precisa de alvos.5

Reconhecimento óptico de caracteres

O reconhecimento óptico de caracteres (OCR), também conhecido como reconhecimento de texto, extrai e converte texto de imagens, documentos digitalizados e outras fontes em um formato legível por máquina. Dessa forma, ajuda a automatizar a digitalização de texto manuscrito e registros em papel.

O fluxo de trabalho de OCR segue estas etapas:

  1. A aquisição de imagens converte a imagem ou documento digital em uma versão em preto e branco, com áreas claras marcadas como fundo e áreas escuras marcadas como caracteres para reconhecimento.
  2. O pré-processamento remove pixels estranhos e pode incluir o desalinhamento para corrigir o alinhamento incorreto da imagem durante a digitalização.
  3. O reconhecimento de texto localiza letras alfabéticas, dígitos numéricos ou símbolos, direcionando um caractere de cada vez. Em seguida, identifica os caracteres por meio do reconhecimento de padrões, combinando a fonte, a escala e a forma de um caractere com um modelo.

CNNs e modelos baseados em transformadores são capazes de reconhecer caracteres mais inteligente, extraindo funcionalidades como curvas, interseções de linha, loops e o número de linhas angulares em um caractere. Esses algoritmos também são capazes de reconhecer palavras inteligentes, distinguindo palavras em vez de caracteres para um processamento mais rápido.

Geração de imagens

A geração de imagens emprega modelos de IA generativa para produzir imagens. Aqui estão alguns modelos generativos comuns utilizados para geração de imagens:

  • Os modelos de difusão são treinados para criar novas imagens aprendendo a eliminar o ruído ou reconstruir amostras em seus dados de treinamento que foram gradualmente difundidos com ruído aleatório e embaralhados além do reconhecimento.
  • As redes adversárias generativas (GANs) consistem em duas redes neurais: um gerador que cria imagens e um discriminador que atua como adversário, discriminando entre imagens artificiais e reais. Ambas as redes são treinadas iterativamente, com o feedback do discriminador melhorando a saída do gerador até que o discriminador não seja mais capaz de distinguir dados artificiais de reais.
  • Os autocodificadores variacionais (VAEs) são modelos de deep learning que geram variações das imagens nas quais são treinados. Um codificador compacta as imagens de entrada em um espaço de dimensão inferior, capturando as informações significativas contidas nas imagens. Em seguida, um decodificador reconstrói novas imagens a partir dessa representação compactada.

Os VLMs também são capazes de gerar imagens com uma descrição de texto.

Inspeção visual

A inspeção visual automatiza a identificação de defeitos. Por meio da detecção de objetos, os sistemas de computer vision inspecionam imagens ou vídeos para detectar falhas e defeitos. A segmentação de imagens também pode ser implementada para localizar defeitos com mais precisão.

As máquinas de inspeção visual com tecnologia de computer vision podem ajudar as empresas a realizar inspeções mais rápidas e seguras com maior consistência e precisão, seja apontando corrosão em áreas de difícil acesso de pontes ou encontrando conectores defeituosos em produtos eletrônicos montados.

Aplicações de visão computacional

Como um campo maduro da IA, a computer vision passou por muitos avanços, levando a uma ampla gama de casos de uso. Veja a seguir algumas aplicações do mundo real da computer vision:

Agricultura

Câmeras, drones e satélites capturam imagens de alta resolução de culturas e áreas agrícolas. Tecnologias de computer vision analisam essas imagens para auxiliar na avaliação da saúde das plantas e identificar pragas e ervas daninhas para uma aplicação mais direcionada de herbicidas.

Veículos autônomos

No setor automotivo, carros autônomos compõem um modelo 3D de seu ambiente usando uma combinação de câmeras, lidar, radar e sensores. Em seguida, aplicam detecção de objetos, segmentação de imagens e compreensão de cenas para uma navegação segura, evitando obstáculos como pedestres e outros veículos e detectando com precisão as funcionalidades da estrada, como faixas, semáforos e sinais de trânsito.

Saúde

A geração de imagens médicas é uma área de aplicação fundamental para a computer vision. Por exemplo, a detecção de objetos pode automatizar a análise de imagens, localizando e identificando possíveis marcadores de doenças em raios-X, tomografia computadorizada (TC), ressonância magnética e ultrassom. Além disso, a segmentação de instâncias pode delinear boundaries específicas de órgãos, tecidos e tumores, auxiliando em um diagnóstico mais preciso que pode informar melhor a tomada de decisão para tratamentos e cuidados com o paciente.

Fabricação

Os sistemas de computer vision ajudam no gerenciamento de inventário, escaneando itens para determinar os níveis de estoque. Eles também podem potencializar o controle de qualidade, reconhecendo defeitos em tempo real. Esses sistemas analisam imagens de produtos e podem sinalizar falhas ou inconsistências de forma rápida e precisa em comparação com os inspetores que usam sua própria visão humana.

Varejo e comércio eletrônico

A tecnologia Just Walk Out da Amazon, por exemplo, usa computer vision em pequenas lojas de varejo e serviços de alimentação para rastrear as seleções de clientes e automatizar a experiência. Os clientes podem simplesmente pegar seus itens e sair sem fila nos balcões de pagamento.6

As lojas online podem usar realidade aumentada com reconhecimento facial e estimativa de poses para experiências de prova virtual, permitindo que os clientes visualizem como as roupas, óculos ou maquiagem ficarão neles antes de comprar.

Robótica

Assim como os veículos autônomos, os robôs usam câmeras, lidar e sensores para mapear seus arredores. Em seguida, eles aplicam algoritmos de computer vision para realizar suas tarefas, como auxiliar cirurgiões em procedimentos complexos, navegar por armazéns para transportar mercadorias, escolher apenas produtos maduros e colocar objetos em linhas de montagem.

Exploração espacial

A detecção de objetos pode ajudar as espaçonaves a localizar e evitar perigos durante o pouso, enquanto os robôs podem implementar o mesmo recurso para navegar em terrenos.7 A classificação de imagens pode ser empregada para categorizar asteróides, meteoros e até detritos espaciais, enquanto o rastreamento de objetos monitora as trajetórias desses objetos astronômicos.

Ferramentas de computer vision

Existem muitas ferramentas para a criação de aplicativos de computer vision, ajudando a simplificar o processo de desenvolvimento. Algumas ferramentas populares incluem:

  • Keras
  • OpenCV
  • Scikit-image
  • TensorFlow
  • Torchvision

Keras

A Keras é uma interface de programação de aplicativos de deep learning que pode ser executada sobre outros frameworks de IA, como PyTorch e TensorFlow. Ela fornece dezenas de tutoriais e exemplos para várias tarefas de computer vision, incluindo classificação de imagens e vídeos, segmentação de imagens, detecção de objetos e OCR.

OpenCV

OpenCV é uma das bibliotecas de computer vision mais utilizadas. Essa biblioteca de código aberto abriga mais de 2.500 algoritmos de computer vision e contém módulos para processamento de imagens, detecção de objetos, análise de vídeo e muito mais. É escrita em C++, mas também possui wrappers para linguagens de programação como Java e Python.

Scikit-image

O Scikit-image é uma coleção de algoritmos de processamento de imagens em código aberto em Python. Ele é compatível com pré-processamento, extração de funcionalidades, detecção de objetos e segmentação de imagens, entre outras tarefas. Sua simplicidade o torna acessível para iniciantes.

TensorFlow

O TensorFlow é uma plataforma de aprendizado de máquina de código aberto do Google. Embora atenda a aplicações de deep learning de uso mais geral, o TensorFlow também fornece conjuntos de dados específicos de computer vision, ferramentas para pré-processamento e funções para classificação de imagens e vídeos, segmentação de imagens e detecção de objetos.

Torchvision

A biblioteca torchvision faz parte do ecossistema PyTorch. Ela engloba transformações de imagens comuns, conjuntos de dados e outras funções utilitárias. O pacote também oferece modelos para classificação de imagens e vídeos, detecção de objetos e segmentação semântica e de instâncias.

Uma breve história da computer vision

A computer vision é uma das primeiras disciplinas da IA. Durante décadas, pesquisadores de ciência da computação têm desenvolvido maneiras de fazer com que as máquinas entendam dados visuais.

A experimentação começou nas décadas de 1950 a 1960, quando neurofisiologistas mostraram a gato uma série de imagens enquanto registravam a atividade neural. Eles descobriram que os animais respondiam primeiro às linhas, concluindo que o processamento de imagens começa com formas simples, como edges.8

Mais ou menos na mesma época, foi desenvolvida a primeira tecnologia de digitalização de imagens por computador, equipando computadores com a capacidade de digitalizar e adquirir imagens.9 Outro marco foi alcançado quando os computadores desenvolveram a capacidade de transformar imagens bidimensionais em formas tridimensionais.10

Em 1982, o neurocientista David Marr estabeleceu que a visão funciona hierarquicamente e introduziu algoritmos para máquinas detectar cantos, curvas, edges e formas básicas semelhantes.11 Durante a mesma década, o cientista da computação Kunihiko Fukushima desenvolveu uma rede de células que poderia reconhecer padrões e a chamou de "neocognitron", que incluía camadas convolucionais em uma rede neural.12

Em 2000, o foco do estudo estava na classificação de imagens e reconhecimento de objetos.13 Em 2009, o conjunto de dados ImageNet foi lançado, contendo milhões de imagens rotuladas para treinar algoritmos de computer vision.14 Em 2012, uma equipe da University of Toronto criou o AlexNet CNN, que foi treinado no conjunto de dados ImageNet e reduziu significativamente a taxa de erro no reconhecimento de imagens, abrindo caminho para os modelos de computer vision atuais.15

Soluções relacionadas
IBM Maximo Visual Inspection

Aproveite todo o poder da visão computacional sem código para automatizar inspeções visuais.

Conheça o Maximo Visual Inspection
Consultoria e serviços em inteligência artificial (IA)

Os serviços de IA da IBM® Consulting ajudam a reinventar a forma como as empresas trabalham com IA para gerar transformações.

Explore os serviços de inteligência artificial
Soluções de inteligência artificial

Coloque a IA em ação na sua empresa tendo a seu lado o conhecimento técnico em IA líder do setor e o portfólio de soluções da IBM.

Explore as soluções de IA
Dê o próximo passo

O IBM Maximo Visual Inspection coloca o poder dos recursos de visão computacional por IA nas mãos de suas equipes de controle de qualidade e inspeção. Aproveite todo o poder da visão computacional sem código para automatizar inspeções visuais.

Conheça o Maximo Visual Inspection Faça um tour pelo produto
Notas de rodapé

1. The three R’s of computer vision: Recognition, reconstruction and reorganization, Pattern Recognition Letters, 8 de fevereiro de 2016
2. Efficient pneumonia detection using Vision Transformers on chest X-rays, Scientific Reports, 30 de janeiro de 2024
3. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale, arXiv, 3 de junho de 2021
4. NGBoost Classifier Using Deep Features for Pneumonia Chest X-Ray Classification, Applied Sciences, 8 de setembro de 2025
5. Computer Vision Lends Precision to Robotic Grappling, NASA Technology Transfer Program, acessado em 11 de setembro de 2025
6. Amazon Just Walk Out, AWS, acessado em 11 de setembro de 2025
7. The Computer Vision Laboratory, NASA JPL Robotics, acessado em 11 de setembro de 2025
8. From Cats to the Cortex: Unravelling the Hierarchical Processing System of Vision and Brain Plasticity, Cureus, 2 de setembro de 2024
9. Your Engineering Heritage: Scanners and Computer Image Processing, IEEE-USA InSight, 8 de fevereiro de 2016
10. A Simple World: The Blocks World, Foundations of Computer Vision, 2024
11. Marr’s Computational Theory of Vision, Foundations of Computer Vision, 2024
12. Neocognitron: A Self-organizing Neural Network Model for a Mechanism of Pattern Recognition Unaffected by Shift in Position, Biological Cybernetics, 1980
13. Computer Vision, Foundations of Computer Vision, 2024
14. ImageNet: A large-scale hierarchical image database, IEEE Conference on Computer Vision and Pattern Recognition, 2009
15. CHM Releases AlexNet Source Code, Computer History Museum, 20 de março de 2025