Início
topics
Computer Vision
Computer Vision é um campo da inteligência artificial que usa aprendizado de máquina e redes neurais para ensinar computadores e sistemas a extrair informações significativas de imagens digitais, vídeos e outras entradas visuais — e para fazer recomendações ou tomar medidas quando defeitos ou problemas são identificados.
Se a IA permite que os computadores pensem, a Computer Vision permite que eles vejam, observem e entendam.
A Computer Vision funciona da mesma forma que a visão humana, exceto que os humanos têm uma vantagem inicial. A visão humana tem a vantagem de vidas de contexto para treinar como distinguir objetos, a que distância eles estão, se estão se movendo ou se há algo errado com uma imagem.
A Computer Vision treina máquinas para executar essas funções, mas deve fazê-lo em muito menos tempo com câmeras, dados e algoritmos, em vez de retinas, nervos ópticos e córtex visual. Como um sistema treinado para inspecionar produtos ou observar um ativo de produção pode analisar milhares de produtos ou processos por minuto, percebendo defeitos ou problemas imperceptíveis, ele pode superar rapidamente as capacidades humanas.
O Computer Vision é usado em setores que vão desde energia e serviços públicos até fabricação e automotivo — e o mercado continua a crescer. Espera-se que atinja US$ 48,6 bilhões até 2022.1
Com divulgações ESG começando já em 2025 para algumas empresas, certifique-se de estar preparado com nosso guia.
A Computer Vision precisa de muitos dados. Ela executa análises de dados repetidamente até discernir distinções e, finalmente, reconhecer imagens. Por exemplo, para treinar um computador para reconhecer pneus de automóveis, ele precisa ser alimentado com grandes quantidades de imagens de pneus e itens relacionados a pneus para aprender as diferenças e reconhecer um pneu, especialmente um que não tenha defeitos.
Duas tecnologias essenciais são usadas para realizar isso: um tipo de aprendizado de máquina chamado deep learning e uma rede neural convolucional (CNN).
O aprendizado de máquina usa modelos algorítmicos que permitem que um computador se ensine sobre o contexto dos dados visuais. Se o modelo for alimentado com dados suficientes, o computador “olhará” os dados e aprenderá a distinguir uma imagem da outra. Os algoritmos permitem que a máquina aprenda por si mesma, em vez de alguém programá-la para reconhecer uma imagem.
Uma CNN ajuda um modelo de aprendizado de máquina ou deep learning a "olhar" dividindo as imagens em pixels, que recebem tags ou rótulos. Ela usa os rótulos para realizar convoluções (uma operação matemática em duas funções para produzir uma terceira função) e faz previsões sobre o que está "vendo". A rede neural executa convoluções e verifica a precisão de suas previsões em uma série de iterações até que as previsões comecem a se tornar realidade. Então, passa a reconhecer ou ver imagens de forma semelhante aos humanos.
Assim como um ser humano percebe uma imagem à distância, uma CNN primeiro discerne bordas e formas simples e, em seguida, preenche informações enquanto executa iterações de suas previsões. Uma CNN é usada para entender imagens únicas. Uma rede neural recorrente (RNN) é usada de maneira semelhante para aplicações de vídeo para ajudar os computadores a entender como as imagens em uma série de quadros estão relacionadas umas às outras.
Cientistas e engenheiros vêm tentando desenvolver maneiras para as máquinas verem e entenderem dados visuais há cerca de 60 anos. A experimentação começou em 1959, quando neurofisiologistas mostraram a um gato uma série de imagens, tentando correlacionar uma resposta em seu cérebro. Descobriram que ele respondia primeiro a bordas ou linhas rígidas e, cientificamente, isso significava que o processamento de imagens começa com formas simples, como bordas retas.2
Quase na mesma época, a primeira tecnologia de digitalização de imagens por computador foi desenvolvida, permitindo que os computadores digitalizassem e adquirissem imagens. Outro marco foi alcançado em 1963, quando os computadores foram capazes de transformar imagens bidimensionais em formas tridimensionais. Na década de 1960, a IA emergiu como um campo de estudo acadêmico e também marcou o início da busca da IA para resolver o problema da visão humana.
1974 viu a introdução da tecnologia de reconhecimento óptico de caracteres (OCR), que poderia reconhecer texto impresso em qualquer fonte ou face tipográfica.3 De forma similar, o reconhecimento inteligente de caracteres (ICR) poderia decifrar texto manuscrito que está usando redes neurais.4 Desde então, OCR e ICR encontraram seu caminho no processamento de documentos e faturas, reconhecimento de placas de veículos, pagamentos móveis, conversão de máquinas e outras aplicações comuns.
Em 1982, o neurocientista David Marr estabeleceu que a visão funciona hierarquicamente e introduziu algoritmos para máquinas detectarem bordas, cantos, curvas e formas básicas semelhantes. Ao mesmo tempo, a cientista da computação Kunihiko Fukushima desenvolveu uma rede de células capazes de reconhecer padrões. A rede, chamada de Neocognitron, incluía camadas convolucionais em uma rede neural.
Em 2000, o foco do estudo estava no reconhecimento de objetos; e em 2001, surgiram as primeiros aplicações de reconhecimento facial em tempo real. A padronização de como os conjuntos de dados visuais são marcados e anotados surgiu na década de 2000. Em 2010, o conjunto de dados ImageNet foi disponibilizado. Ele continha milhões de imagens marcadas em milhares de classes de objetos e fornece uma base para CNNs e modelos de deep learning usados atualmente. Em 2012, uma equipe da University of Toronto inscreveu uma CNN em um concurso de reconhecimento de imagens. O modelo, chamado AlexNet, reduziu significativamente a taxa de erro no reconhecimento de imagens. Após esse avanço, as taxas de erro caíram para apenas alguns por cento.5
Acesse vídeos, artigos, workshops e muito mais.
Há muita pesquisa sendo feita no campo da Computer Vision, mas não para por aí. Aplicações do mundo real demonstram a importância da Computer Vision para empreendimentos nos negócios, entretenimento, transporte, saúde e vida cotidiana. Um dos principais fatores para o crescimento dessas aplicações é a enxurrada de informações visuais que fluem de smartphones, sistemas de segurança, câmeras de trânsito e outros dispositivos com instrumentação visual. Esses dados poderiam desempenhar um papel importante nas operações de todos os setores, mas hoje não são utilizados. As informações criam um ambiente de teste para treinar aplicações de Computer Vision e uma plataforma de lançamento para que eles se tornem parte de uma série de atividades humanas:
Muitas organizações não têm recursos para financiar laboratórios de Computer Vision e criar modelos de deep learning e redes neurais. Elas também podem não ter o poder de computação necessário para processar grandes conjuntos de dados visuais. Empresas como a IBM estão ajudando ao oferecer serviços de desenvolvimento de software de Computer Vision. Esses serviços oferecem modelos de aprendizagem criados previamente disponíveis na nuvem e também facilitam a demanda por recursos de computação. Os usuários se conectam aos serviços por meio de uma interface de programação de aplicativos (API) e os usam para desenvolver aplicações de Computer Vision.
A IBM também introduziu uma plataforma de Computer Vision que lida com preocupações de recursos de desenvolvimento e computação. O IBM Maximo Visual Inspection inclui ferramentas que permitem que especialistas no assunto rotulem, treinem e implementem modelos de visão de deep learning, sem conhecimento especializado em programação ou deep learning. Os modelos de visão podem ser implementados em data centers locais, na nuvem e em dispositivos de edge.
Embora esteja ficando mais fácil obter recursos para desenvolver aplicações de Computer Vision, uma pergunta importante a ser respondida desde o início é: o que exatamente essas aplicações farão? Compreender e definir tarefas específicas de Computer Vision pode concentrar e validar projetos e aplicações e facilitar o início.
Aqui estão alguns exemplos de tarefas de Computer Vision estabelecidas:
Coloque o poder da Computer Vision nas mãos de suas equipes de qualidade e inspeção. O IBM Maximo Visual Inspection torna a Computer Vision com deep learning mais acessível aos usuários corporativos, com ferramentas de inspeção visual que capacitam.
A IBM Research é um dos maiores laboratórios de pesquisa corporativa do mundo. Saiba mais sobre as pesquisas que estão sendo feitas em diversos setores.
Saiba mais sobre a evolução da inspeção visual e como a inteligência artificial está melhorando a segurança e a qualidade.
Saiba mais sobre como começar a usar o Visual Recognition e o IBM Maximo Visual Inspection. Explore recursos e cursos para desenvolvedores.
Leia como a Sund & Baelt usou a tecnologia de Computer Vision para simplificar as inspeções e melhorar a produtividade.
Saiba como a tecnologia de Computer Vision pode melhorar as inspeções de qualidade na fabricação.
1. https://www.forbes.com/sites/bernardmarr/2019/04/08/7-amazing-examples-of-computer-and-machine-vision-in-practice/#3dbb3f751018 (link externo a ibm.com)
2. https://hackernoon.com/a-brief-history-of-computer-vision-and-convolutional-neural-networks-8fe8aacc79f3 (link externo a ibm.com)
3. Optical character recognition, Wikipedia (link externo a ibm.com)
4. Intelligent character recognition, Wikipedia (link externo a ibm.com)
5. A Brief History of Computer Vision (and Convolutional Neural Networks), Rostyslav Demush, Hacker Noon, 27 de fevereiro de 2019 (link externo a outside ibm.com)
6. 7 Amazing Examples of Computer And Machine Vision In Practice, Bernard Marr, Forbes, 8 de abril de 2019 (link externo a ibm.com)
7. The 5 Computer Vision Techniques That Will Change How You See The World, James Le, Heartbeat, 12 de abril de 2018 (link externo a ibm.com)