Início

topics

Computer Vision

O que é visão computacional?
Explore a solução Computer Vision da IBM Cadastre-se para receber atualizações sobre sustentabilidade
Ilustração com colagem de pictogramas de perfil facial, folha, nuvem
O que é visão computacional?

Computer Vision é um campo da inteligência artificial que usa aprendizado de máquina e redes neurais para ensinar computadores e sistemas a extrair informações significativas de imagens digitais, vídeos e outras entradas visuais — e para fazer recomendações ou tomar medidas quando defeitos ou problemas são identificados.  

Se a IA permite que os computadores pensem, a Computer Vision permite que eles vejam, observem e entendam. 

A Computer Vision funciona da mesma forma que a visão humana, exceto que os humanos têm uma vantagem inicial. A visão humana tem a vantagem de vidas de contexto para treinar como distinguir objetos, a que distância eles estão, se estão se movendo ou se há algo errado com uma imagem.

A Computer Vision treina máquinas para executar essas funções, mas deve fazê-lo em muito menos tempo com câmeras, dados e algoritmos, em vez de retinas, nervos ópticos e córtex visual. Como um sistema treinado para inspecionar produtos ou observar um ativo de produção pode analisar milhares de produtos ou processos por minuto, percebendo defeitos ou problemas imperceptíveis, ele pode superar rapidamente as capacidades humanas.

O Computer Vision é usado em setores que vão desde energia e serviços públicos até fabricação e automotivo — e o mercado continua a crescer. Espera-se que atinja US$ 48,6 bilhões até 2022.1

Aprofunde-se com nosso guia exclusivo sobre a CSRD da UE

Com divulgações ESG começando já em 2025 para algumas empresas, certifique-se de estar preparado com nosso guia.

Conteúdo relacionado Cadastre-se pare receber o playbook de práticas para um gerenciamento de ativos mais inteligente.
Como funciona a Computer Vision?

A Computer Vision precisa de muitos dados. Ela executa análises de dados repetidamente até discernir distinções e, finalmente, reconhecer imagens. Por exemplo, para treinar um computador para reconhecer pneus de automóveis, ele precisa ser alimentado com grandes quantidades de imagens de pneus e itens relacionados a pneus para aprender as diferenças e reconhecer um pneu, especialmente um que não tenha defeitos.

Duas tecnologias essenciais são usadas para realizar isso: um tipo de aprendizado de máquina chamado deep learning e uma rede neural convolucional (CNN).

O aprendizado de máquina usa modelos algorítmicos que permitem que um computador se ensine sobre o contexto dos dados visuais. Se o modelo for alimentado com dados suficientes, o computador “olhará” os dados e aprenderá a distinguir uma imagem da outra. Os algoritmos permitem que a máquina aprenda por si mesma, em vez de alguém programá-la para reconhecer uma imagem.

Uma CNN ajuda um modelo de aprendizado de máquina ou deep learning a "olhar" dividindo as imagens em pixels, que recebem tags ou rótulos. Ela usa os rótulos para realizar convoluções (uma operação matemática em duas funções para produzir uma terceira função) e faz previsões sobre o que está "vendo". A rede neural executa convoluções e verifica a precisão de suas previsões em uma série de iterações até que as previsões comecem a se tornar realidade. Então, passa a reconhecer ou ver imagens de forma semelhante aos humanos.

Assim como um ser humano percebe uma imagem à distância, uma CNN primeiro discerne bordas e formas simples e, em seguida, preenche informações enquanto executa iterações de suas previsões. Uma CNN é usada para entender imagens únicas. Uma rede neural recorrente (RNN) é usada de maneira semelhante para aplicações de vídeo para ajudar os computadores a entender como as imagens em uma série de quadros estão relacionadas umas às outras.

A história da Computer Vision

Cientistas e engenheiros vêm tentando desenvolver maneiras para as máquinas verem e entenderem dados visuais há cerca de 60 anos. A experimentação começou em 1959, quando neurofisiologistas mostraram a um gato uma série de imagens, tentando correlacionar uma resposta em seu cérebro. Descobriram que ele respondia primeiro a bordas ou linhas rígidas e, cientificamente, isso significava que o processamento de imagens começa com formas simples, como bordas retas.2

Quase na mesma época, a primeira tecnologia de digitalização de imagens por computador foi desenvolvida, permitindo que os computadores digitalizassem e adquirissem imagens. Outro marco foi alcançado em 1963, quando os computadores foram capazes de transformar imagens bidimensionais em formas tridimensionais. Na década de 1960, a IA emergiu como um campo de estudo acadêmico e também marcou o início da busca da IA para resolver o problema da visão humana.

1974 viu a introdução da tecnologia de reconhecimento óptico de caracteres (OCR), que poderia reconhecer texto impresso em qualquer fonte ou face tipográfica.3 De forma similar, o reconhecimento inteligente de caracteres (ICR) poderia decifrar texto manuscrito que está usando redes neurais.4 Desde então, OCR e ICR encontraram seu caminho no processamento de documentos e faturas, reconhecimento de placas de veículos, pagamentos móveis, conversão de máquinas e outras aplicações comuns.

Em 1982, o neurocientista David Marr estabeleceu que a visão funciona hierarquicamente e introduziu algoritmos para máquinas detectarem bordas, cantos, curvas e formas básicas semelhantes. Ao mesmo tempo, a cientista da computação Kunihiko Fukushima desenvolveu uma rede de células capazes de reconhecer padrões. A rede, chamada de Neocognitron, incluía camadas convolucionais em uma rede neural.

Em 2000, o foco do estudo estava no reconhecimento de objetos; e em 2001, surgiram as primeiros aplicações de reconhecimento facial em tempo real. A padronização de como os conjuntos de dados visuais são marcados e anotados surgiu na década de 2000. Em 2010, o conjunto de dados ImageNet foi disponibilizado. Ele continha milhões de imagens marcadas em milhares de classes de objetos e fornece uma base para CNNs e modelos de deep learning usados atualmente. Em 2012, uma equipe da University of Toronto inscreveu uma CNN em um concurso de reconhecimento de imagens. O modelo, chamado AlexNet, reduziu significativamente a taxa de erro no reconhecimento de imagens. Após esse avanço, as taxas de erro caíram para apenas alguns por cento.5

Pesquisa de Computer Vision Computer Vision e multimídia na IBM Research

Acesse vídeos, artigos, workshops e muito mais.

Aplicações de Computer Vision

Há muita pesquisa sendo feita no campo da Computer Vision, mas não para por aí. Aplicações do mundo real demonstram a importância da Computer Vision para empreendimentos nos negócios, entretenimento, transporte, saúde e vida cotidiana. Um dos principais fatores para o crescimento dessas aplicações é a enxurrada de informações visuais que fluem de smartphones, sistemas de segurança, câmeras de trânsito e outros dispositivos com instrumentação visual. Esses dados poderiam desempenhar um papel importante nas operações de todos os setores, mas hoje não são utilizados. As informações criam um ambiente de teste para treinar aplicações de Computer Vision e uma plataforma de lançamento para que eles se tornem parte de uma série de atividades humanas:

  • A IBM usou a Computer Vision para criar o My Moments para o torneio de golfe Masters de 2018. O IBM Watson assistiu a centenas de horas de filmagens do Masters e conseguiu identificar as imagens (e os sons) de cenas importantes. Ele selecionou esses momentos importantes e os entregou aos fãs na forma de vídeos de destaques personalizados.
  • O Google Tradutor permite que os usuários apontem a câmera de um smartphone para uma placa em outro idioma e quase imediatamente obtenham uma tradução da placa em seu idioma preferido.6
  • O desenvolvimento de veículos autônomos depende da Computer Vision para dar sentido à entrada visual das câmeras e outros sensores do carro. É essencial identificar outros carros, placas de trânsito, marcadores de faixas, pedestres, bicicletas e todas as outras informações visuais encontradas na estrada.
  • A IBM está aplicando a tecnologia de Computer Vision com parceiros como a Verizon para levar a IA inteligente para a edge e ajudar os fabricantes automotivos a identificar defeitos de qualidade antes de um veículo sair da fábrica.
Exemplos de Computer Vision

Muitas organizações não têm recursos para financiar laboratórios de Computer Vision e criar modelos de deep learning e redes neurais. Elas também podem não ter o poder de computação necessário para processar grandes conjuntos de dados visuais. Empresas como a IBM estão ajudando ao oferecer serviços de desenvolvimento de software de Computer Vision. Esses serviços oferecem modelos de aprendizagem criados previamente disponíveis na nuvem e também facilitam a demanda por recursos de computação. Os usuários se conectam aos serviços por meio de uma interface de programação de aplicativos (API) e os usam para desenvolver aplicações de Computer Vision.

A IBM também introduziu uma plataforma de Computer Vision que lida com preocupações de recursos de desenvolvimento e computação. O IBM Maximo Visual Inspection inclui ferramentas que permitem que especialistas no assunto rotulem, treinem e implementem modelos de visão de deep learning, sem conhecimento especializado em programação ou deep learning. Os modelos de visão podem ser implementados em data centers locais, na nuvem e em dispositivos de edge.

Embora esteja ficando mais fácil obter recursos para desenvolver aplicações de Computer Vision, uma pergunta importante a ser respondida desde o início é: o que exatamente essas aplicações farão? Compreender e definir tarefas específicas de Computer Vision pode concentrar e validar projetos e aplicações e facilitar o início.

Aqui estão alguns exemplos de tarefas de Computer Vision estabelecidas:

  • A classificação de imagens vê uma imagem e pode classificá-la (um cachorro, uma maçã, o rosto de uma pessoa). Mais precisamente, ela é capaz de prever com precisão que uma determinada imagem pertence a uma determinada classe. Por exemplo, uma empresa de mídias sociais pode querer usá-la para identificar e segregar automaticamente imagens questionáveis carregadas pelos usuários.
  • A detecção de objetos pode usar a classificação de imagens para identificar uma determinada classe de imagem e, em seguida, detectar e tabular sua aparência em uma imagem ou vídeo. Os exemplos incluem a detecção de danos em uma linha de montagem ou a identificação de máquinas que requerem manutenção.
  • O rastreamento de objetos segue ou rastreia um objeto quando ele é detectado. Essa tarefa geralmente é executada com imagens capturadas em sequência ou feeds de vídeo em tempo real. Os veículos autônomos, por exemplo, precisam não apenas classificar e detectar objetos como pedestres, outros carros e infraestrutura rodoviária, mas também rastreá-los em movimento para evitar colisões e obedecer às leis de trânsito.7
  • A recuperação de imagens baseada em conteúdo usa a Computer Vision para navegar, pesquisar e recuperar imagens de grandes armazenamentos de dados, com base no conteúdo das imagens em vez de tags de metadados associadas a elas. Essa tarefa pode incorporar a anotação automática de imagens. que substitui a marcação manual de imagens. Essas tarefas podem ser usadas para sistemas de gerenciamento de ativos digitais e podem aumentar a precisão da pesquisa e recuperação.
Soluções relacionadas
Software de inspeção visual

Coloque o poder da Computer Vision nas mãos de suas equipes de qualidade e inspeção. O IBM Maximo Visual Inspection torna a Computer Vision com deep learning mais acessível aos usuários corporativos, com ferramentas de inspeção visual que capacitam.

Explore o IBM Maximo Visual Inspection
Recursos Blog da IBM Research

A IBM Research é um dos maiores laboratórios de pesquisa corporativa do mundo. Saiba mais sobre as pesquisas que estão sendo feitas em diversos setores.

O que é inspeção visual?

Saiba mais sobre a evolução da inspeção visual e como a inteligência artificial está melhorando a segurança e a qualidade.

Recursos do desenvolvedor

Saiba mais sobre como começar a usar o Visual Recognition e o IBM Maximo Visual Inspection. Explore recursos e cursos para desenvolvedores.

Sund & Baelt: Construindo pontes para uma melhor compreensão

Leia como a Sund & Baelt usou a tecnologia de Computer Vision para simplificar as inspeções e melhorar a produtividade.

Melhorando as inspeções de qualidade

Saiba como a tecnologia de Computer Vision pode melhorar as inspeções de qualidade na fabricação.

Dê o próximo passo

Libere o poder da visão computacional sem código para inspeção visual automatizada com o IBM Maximo Visual Inspection — um conjunto intuitivo de ferramentas para rotulação, treinamento e implementação de modelos de visão de inteligência artificial.

Conheça o Maximo Visual Inspection Experimente a demo