A detecção de objetos é uma técnica que utiliza redes neurais para localizar e classificar objetos em imagens. Essa tarefa de visão computacional tem uma ampla gama de aplicações, desde imagens médicas até carros autônomos.
A detecção de objetos é uma tarefa da visão computacional que visa localizar objetos em imagens digitais. Dessa forma, é uma instância de inteligência artificial que consiste em treinar computadores para ver como os humanos, especificamente no reconhecimento e na classificação de objetos de acordo com categorias semânticas.1 A localização de objetos é uma técnica para determinar a localização de objetos específicos em uma imagem, demarcando o objeto por meio de uma caixa delimitadora. A classificação de objetos é outra técnica que determina a categoria um objeto detectado. A tarefa de detecção de objetos combina subtarefas de localização e classificação de objetos para estimar simultaneamente a localização e o tipo de instâncias de objetos em uma ou mais imagens.2
A detecção de objetos se sobrepõe a outras técnicas de visão computacional, mas os desenvolvedores a tratam como um esforço discreto.
A classificação de imagens (ou reconhecimento de imagens) tem como objetivo classificar imagens de acordo com categorias definidas. Um exemplo rudimentar disso são os testes de imagem CAPTCHA, nos quais um grupo de imagens pode ser organizado como imagens com e sem sinais "pare". A classificação de imagens atribui uma etiqueta a toda uma imagem.
Já a detecção de objetos delineia objetos individuais em uma imagem de acordo com categorias especificadas. Enquanto a classificação de imagens divide as imagens entre as que têm sinais de pare e as que não têm, a detecção de objetos localiza e categoriza todos os sinais de trânsito em uma imagem, bem como outros objetos, como automóveis e pessoas.
Segmentação de imagens (ou segmentação semântica) é semelhante à detecção de objetos, mas mais precisa. Assim como a detecção de objetos, a segmentação delineia objetos em uma imagem de acordo com categorias semânticas. Mas em vez de marcar objetos usando caixas, a segmentação demarca os objetos no nível do pixel.
Entender as máquinas internas da detecção de objetos exige uma base em visão computacional e processamento de imagens digitais de forma mais ampla. Esta seção apresenta uma visão geral.
Na visão computacional, as imagens são expressas como funções contínuas em um plano de coordenadas 2D representado como f(x,y). Quando digitalizadas, as imagens passam por dois processos primários chamados de amostragem e quantização, que, juntos, convertem a função de imagem contínua em uma estrutura de grade discreta de elementos de pixels. Então o computador pode segmentar uma imagem em regiões discretas de acordo com a semelhança visual e a proximidade dos pixels.3
Rotulando imagens com uma interface de anotação, os usuários definem um objeto específico como uma região de funcionalidades específicas no nível de pixel (como área, valor de cinza e assim por diante). Ao receber uma imagem de entrada, o modelo de detecção de objetos reconhece regiões com funcionalidades semelhantes àquelas definidas no conjunto de dados de treinamento como o mesmo objeto. Dessa forma a detecção de objetos é uma forma de reconhecimento de padrões. Os modelos de detecção de objetos não reconhecem objetos em si, mas sim agregados de propriedades como tamanho, forma, cor e assim por diante, e classificam regiões de acordo com padrões visuais inferidos de dados de treinamento anotados manualmente.4
Um modelo de detecção de objetos para um carro autônomo, por exemplo, não reconhece pedestres, mas um conjunto de funcionalidades que formam o padrão geral que caracteriza os objetos pedestres (conforme definido nos dados de treinamento).
Embora famílias de modelos diferentes utilizem arquiteturas diferentes, os modelos de deep learning para detecção de objetos seguem uma estrutura geral. Eles consistem em uma espinha dorsal, pescoço e cabeça.
A espinha dorsal extrai funcionalidades de uma imagem de entrada. Frequentemente, a espinha dorsal é derivada de parte de um modelo de classificação treinado previamente. A extração de funcionalidades produz uma miríade de mapas de funcionalidades de diversas resoluções que a espinha dorsal passa para o pescoço. Essa última parte da estrutura concatena os mapas de funcionalidades de cada imagem. Então a arquitetura passa os mapas de funcionalidades em camadas para a cabeça, que prevê caixas delimitadoras e pontuações de classificação para cada conjunto de funcionalidades.
Detectores de dois estágios separam a localização e a classificação de objetos na cabeça, enquanto detectores de estágio único combinam essas tarefas. Os primeiros geralmente retornam maior precisão de localização, enquanto os segundos apresentam desempenho mais rápido.5
Intersecção sobre união (IoU) é uma métrica de avaliação comum utilizada em modelos de detecção de objetos. Uma caixa delimitadora é a produção do quadrado demarcando um objeto detectado conforme previsto pelo modelo. A IoU calcula a proporção da área de interseção de duas caixas delimitadoras (ou seja, a área das seções sobrepostas das caixas) sobre sua área de união (ou seja, a área total de ambas as caixas combinadas):6
Podemos visualizar essa equação como:
Os modelos utilizam a IoU para medir a precisão da previsão ao calcular a IoU entre uma caixa prevista e uma caixa de verdade terrestre. As arquiteturas de modelo também utilizam a IoU para gerar previsões finais de caixas delimitadoras. Como normalmente os modelos geram inicialmente várias centenas de previsões de caixas delimitadoras para um único objeto detectado, os modelos utilizam a IoU para ponderar e consolidar previsões de caixas delimitadoras em uma única caixa por objeto detectado.
Outras métricas podem ser utilizadas para diferentes avaliações de modelos de detecção de objetos. A intersecção generalizada sobre união (GIoU) é uma versão modificada da IoU que leva em conta melhorias na localização de objetos para os quais a IoU básica ainda pode retornar um valor nulo.7 A pesquisa de detecção de objetos também emprega métricas comuns de recuperação informativa, como precisão média e recall.
Há várias abordagens de aprendizado de máquina para tarefas de detecção de objetos. São exemplos a estrutura Viola-Jones8 e o histograma de gradientes orientados.9 A pesquisa e o desenvolvimento recentes de detecção de objetos, no entanto, concentraram-se amplamente em redes neurais convolucionais (CNNs). Dessa forma, esta página concentra-se em dois tipos de CNNs mais discutidos na pesquisa de detecção de objetos. Observe que esses modelos são testados e comparados utilizando-se conjuntos de dados de referência, como o conjunto de dados Microsoft COCO ou ImageNet.
A R-CNN (rede neural convolucional) é um detector de dois estágios que utiliza um método chamado propostas de região para gerar duas mil previsões de região por imagem. Em seguida, a R-CNN distorce as regiões extraídas para um tamanho uniforme e executa essas regiões por meio de redes separadas para extração e classificação de recursos. Cada região é classificada de acordo com a confiança de sua classificação. Em seguida, o R-CNN rejeita as regiões que têm uma certa sobreposição de IoU com uma região selecionada com pontuação mais alta. As regiões restantes não sobrepostas e classificadas com a pontuação mais alta são a produção do modelo10 Como esperado, essa arquitetura é cara e lenta em termos de computação. O Fast R-CNN e o Faster R-CNN são modificações posteriores que reduzem o tamanho da arquitetura do R-CNN e assim diminuem o tempo de processamento e também aumentam a precisão11
YOLO (You Only Look Once) é uma família de arquiteturas de detecção de estágio único baseada em Darknet, uma estrutura de código aberto CNN. Desenvolvida pela primeira vez em 2016, a arquitetura YOLO prioriza a velocidade. De fato, a velocidade da YOLO a torna preferível para a detecção de objetos em tempo real e lhe rendeu o descritor comum de detector de objetos de última geração. A YOLO difere da R-CNN em vários aspectos. Enquanto a R-CNN passa regiões de imagens extraídas por várias redes que extraem recursos e classificam imagens em separado, a YOLO condensa essas ações em uma única rede. Em segundo lugar, em comparação com as cerca de duas mil propostas de regiões da R-CNN, a YOLO faz menos de cem previsões de caixas delimitadoras por imagem. Além de ser mais rápida do que a R-CNN, a YOLO também produz menos falsos positivos em segundo plano, embora tenha um erro de localização mais alto12 A YOLO passou por muitas atualizações desde sua criação, geralmente com foco na velocidade e na precisão13
Embora originalmente desenvolvidos para detecção de objetos, versões posteriores do R-CNN e do YOLO também podem treinar modelos de classificação e segmentação. Especificamente, o Mask R-CNN combina detecção e segmentação de objetos, enquanto o YOLOv5 pode treinar modelos separados de classificação, detecção e segmentação.
Obviamente há muitas outras arquiteturas de modelo além de R-CNN e YOLO. SSD e Retinanet são dois modelos adicionais que utilizam uma arquitetura simplificada semelhante à YOLO.14 DETR é outra arquitetura desenvolvida pelo Facebook (agora Meta) que combina CNN com um modelo de transformador e mostra desempenho comparável ao R-CNN mais rápido.15
Em muitos casos de uso a detecção de objetos não é um fim em si mesmo, mas um estágio em uma tarefa maior de visão computacional.
Carros autônomos adotam amplamente a detecção de objetos para reconhecer objetos como carros e pedestres. Um exemplo disso é o Autopilot AI da Tesla. Devido à sua maior velocidade, arquiteturas simples como o YOLO e o SimpleNet são obviamente mais ideais para a condução autônoma.16
A detecção de objetos pode auxiliar nas tarefas de inspeção visual. Por exemplo, uma parte substancial das pesquisas de detecção de objetos investiga métricas e modelos para identificar indicadores fisiológicos de doenças em imagens médicas, como raios-X e exames de ressonância magnética. Nessa área, muitas pesquisas se concentraram na melhoria dos desequilíbrios do conjunto de dados, dada a escassez dessas imagens médicas da doença.17
A vigilância por vídeo pode empregar detecção de objetos em tempo real para rastrear objetos associados a crimes, como armas ou facas, em imagens de câmeras de segurança. Ao detectar esses objetos, os sistemas de segurança podem prever e evitar crimes. Pesquisadores desenvolveram algoritmos de detecção de armas tanto com o R-CNN quanto o YOLO.18
Conjuntos de dados desequilibrados são um problema que afeta as tarefas de detecção de objetos, pois amostras negativas (ou sejam, imagens sem o objeto de interesse) superam em grande número as amostras positivas em muitos conjuntos de dados específicos de domínio. Isso é especialmente problemático em imagens médicas, onde é difícil obter amostras positivas de doenças. Pesquisas recentes utilizam aumento de dados para expandir e diversificar conjuntos de dados limitados, melhorando o desempenho dos modelos.19
Os desenvolvimentos anteriores na detecção de objetos concentravam-se principalmente nas imagens 2D. Mais recentemente, os pesquisadores recorreram a aplicativos de detecção de objetos para imagens e vídeos 3D. O desfoque de movimento e a mudança do foco da câmera causam problemas na identificação de objetos nos quadros de vídeo. Os pesquisadores exploraram uma variedade de métodos e arquiteturas para ajudar a acompanhar objetos nos quadros, apesar dessas condições, como a arquitetura de rede neural recorrente de memória de longo e curto prazos (LSTM)20 e os modelos baseados em transformadores. 21 Os transformadores foram utilizados para acelerar modelos de detecção de objetos para tarefas de detecção em tempo real. Técnicas de processamento paralelo são mais uma área notável de estudo nesse esforço.22
Entrevistamos duas mil organizações a respeito de suas iniciativas de IA para descobrir o que está funcionando, o que não está e como se preparar.
O IBM Granite é nossa família de modelos de IA abertos, de alto desempenho e confiáveis, personalizados para a empresa e otimizados para escalar suas aplicações de IA. Explore as opções de linguagens, código, séries temporais e proteções.
Acesse nosso catálogo completo com mais de 100 cursos online comprando uma assinatura individual ou multiusuário hoje mesmo, para você expandir suas habilidades em uma variedade de nossos produtos por um preço único com desconto.
Liderada pelos principais líderes da IBM, o currículo dessa experiência foi desenvolvido para ajudar líderes empresariais a terem o conhecimento necessário para priorizar os investimentos em IA que podem estimular o crescimento.
Saiba o que é latência de rede, por que é importante e como afeta o desempenho. Explore as causas e conheça soluções para medir e reduzir a latência para ter conexões mais rápidas e eficientes.
Explore como a realidade aumentada (RA) e a realidade virtual (RV) podem elevar a produtividade e a flexibilidade da sua organização. Acesse nossos insights mais recentes sobre como utilizar a tecnologia XR para transformar seu espaço de trabalho e aumentar a eficiência.
Saiba como o edge computing transforma as operações com maior velocidade, melhor segurança e escalabilidade incomparáveis. Tudo pronto para utilizar todo o potencial da edge? Comece agora.
Saiba como o fatiamento da rede 5G revoluciona as operações de telecomunicações possibilitando a conectividade personalizada, de alta velocidade e confiável para setores como saúde, fabricação e cidades inteligentes.
1 Bogusław Cyganek, Object Detection and Recognition in Digital Images: Theory and Practice, Wiley, 2013.
2 Kemal Oksuz, Baris Can Cam, Sinan Kalkan, and Emre Akbas, "Imbalance Problems in Object Detection: A Review," IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 43, No. 10, 2021, pp. 3388-3415, https://ieeexplore.ieee.org/document/9042296.
3 Archangelo Disante and Cosimo Disante, Handbook of Image Processing and Computer Vision, Vol. 1, Springer, 2020. Milan Sonka, Vaclav Hlavac, and Roger Boyle, Image Processing, Analysis, and Machine Vision, 4th edition, Cengage, 2015.
4 Archangelo Disante and Cosimo Disante, Handbook of Image Processing and Computer Vision, Vol. 3, Springer, 2020. Milan Sonka, Vaclav Hlavac, and Roger Boyle, Image Processing, Analysis, and Machine Vision, 4th edition, Cengage, 2015.
5 Benjamin Planche and Eliot Andres, Hands-On Computer Vision with TensorFlow 2, Packt Publishing, 2019. Van Vung Pham and Tommy Dang, Hands-On Computer Vision with Detectron2, Packt Publishing, 2023. Licheng Jiao, Fan Zhang, Fang Liu, Shuyuan Yang, Lingling Li, Zhixi Feng, Rong Qu, "A survey of deep learning-based object detection," IEEE Access, Vol. 7, 2019, pp. 128837-128868, https://ieeexplore.ieee.org/document/8825470. Richard Szeliski, Computer Vision: Algorithms and Applications, 2nd edition, Springer, 2021.
6 Richard Szeliski, Computer Vision: Algorithms and Applications, 2nd edition, Springer, 2021.
7 Hamid Rezatofighi, Nathan Tsoi, JunYoung Gwak, Amir Sadeghian, Ian Reid, and Silvio Savarese, "Generalized intersection over union: A metric and a loss for bounding box regression," Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019,pp. 658-666, accessible here.
8 P. Viola and M. Jones, "Rapid object detection using a boosted cascade of simple features," Proceedings of the 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), 2001, https://ieeexplore.ieee.org/document/990517.
9 N. Dalal and B. Triggs, "Histograms of oriented gradients for human detection," Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), 2005, pp. 886-893, https://ieeexplore.ieee.org/document/1467360 .
10 Ross Girshick, Jeff Donahue, Trevor Darrell, and Jitendra Malik, "Rich feature hierarchies for accurate object detection and semantic segmentation," Proceedings of the 2014 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), 2014, https://arxiv.org/abs/1311.2524 .
11 Ross Girschick, "Fast R-CNN," Proceedings of the 2015 IEEE International Conference on Computer Vision (ICCV), 2015, pp. 1440-1448, https://arxiv.org/abs/1504.08083 . Shaoqing Ren, Kaiming He, Ross Girshick, Jian Sun, "Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks," Advances in Neural Information Processing Systems (NIPS 2015), Vol. 28, https://proceedings.neurips.cc/paper_files/paper/2015/hash/14bfa6bb14875e45bba028a21ed38046-Abstract.html .
12 Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi, "You Only Look Once: Unified, Real-Time Object Detection," 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, pp. 779-788, https://arxiv.org/abs/1506.02640.
13 Joseph Redmon and Ali Farhadi, "YOLOv3: An Incremental Improvement," 2018, https://arxiv.org/abs/1804.02767 . Alexey Bochkovskiy, Chien-Yao Wang, and Hong-Yuan Mark Liao, "YOLOv4: Optimal Speed and Accuracy of Object Detection," European Conference on Computer Vision, 2020, https://arxiv.org/abs/2004.10934 . Xin Huang, Xinxin Wang, Wenyu Lv, Xiaying Bai, Xiang Long, Kaipeng Deng, Qingqing Dang, Shumin Han, Qiwen Liu, Xiaoguang Hu, Dianhai Yu, Yanjun Ma, and Osamu Yoshie, "PP-YOLOv2: A Practical Object Detector," 2021, https://arxiv.org/abs/2104.10419 . Chien-Yao Wang, Alexey Bochkovskiy, and Hong-Yuan Mark Liao, "YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors," 2022, https://arxiv.org/abs/2207.02696.
14 Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, and Alexander C. Berg, "SSD: Single Shot MultiBox Detector," Proceedings of the European Conference of Computer Vision (ECCV), 2016, pp. 21-37, https://arxiv.org/abs/1512.02325. Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, and Piotr Dollár, "Focal Loss for Dense Object Detection," IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 42, No. 2, 2020, pp. 318-327,https://arxiv.org/abs/1708.02002.
15 Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko, "End-to-End Object Detection with Transformers," Proceedings of the European Conference of Computer Vision (ECCV), 2020, https://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123460205.pdf .
16 Abhishek Balasubramaniam and Sudeep Pasricha, "Object Detection in Autonomous Vehicles: Status and Open Challenges," 2022, https://arxiv.org/abs/2201.07706. Gene Lewis, "Object Detection for Autonomous Vehicles," 2016, https://web.stanford.edu/class/cs231a/prev_projects_2016/object-detection-autonomous.pdf.
17 Trong-Hieu Nguyen-Mau, Tuan-Luc Huynh, Thanh-Danh Le, Hai-Dang Nguyen, and Minh-Triet Tran, "Advanced Augmentation and Ensemble Approaches for Classifying Long-Tailed Multi-Label Chest X-Rays," Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV) Workshops, 2023, pp. 2729-2738, https://openaccess.thecvf.com/content/ICCV2023W/CVAMD/html/Nguyen-Mau_Advanced_Augmentation_and_Ensemble_Approaches_for_Classifying_Long-Tailed_Multi-Label_Chest_ICCVW_2023_paper.html. Changhyun Kim, Giyeol Kim, Sooyoung Yang, Hyunsu Kim, Sangyool Lee, and Hansu Cho, "Chest X-Ray Feature Pyramid Sum Model with Diseased Area Data Augmentation Method," Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV) Workshops, 2023, pp. 2757-2766, https://openaccess.thecvf.com/content/ICCV2023W/CVAMD/html/Kim_Chest_X-Ray_Feature_Pyramid_Sum_Model_with_Diseased_Area_Data_ICCVW_2023_paper.html.
18 Palash Yuvraj Ingle and Young-Gab Kim, "Real-Time Abnormal Object Detection for Video Surveillance in Smart Cities," Sensors, Vol. 22, No. 10, 2022, https://www.mdpi.com/1424-8220/22/10/3862.
19 Manisha Saini and Seba Susan, "Tackling class imbalance in computer vision: a contemporary review," Artificial Intelligence Review, Vol. 56, 2023, pp. 1279–1335, https://link.springer.com/article/10.1007/s10462-023-10557-6.
20 Kai Kang, Hongsheng Li, Tong Xiao, Wanli Ouyang, Junjie Yan, Xihui Liu, and Xiaogang Wang, "Object Detection in Videos With Tubelet Proposal Networks," Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, pp. 727-735, https://openaccess.thecvf.com/content_cvpr_2017/html/Kang_Object_Detection_in_CVPR_2017_paper.html
21 Sipeng Zheng, Shizhe Chen, and Qin Jin, "VRDFormer: End-to-End Video Visual Relation Detection With Transformers," Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2022, pp. 18836-18846, https://openaccess.thecvf.com/content/CVPR2022/html/Zheng_VRDFormer_End-to-End_Video_Visual_Relation_Detection_With_Transformers_CVPR_2022_paper.html.
22 Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko, "End-to-End Object Detection with Transformers," Proceedings of the European Conference on Computer Vision (ECCV), 2020, pp. 213-229, https://link.springer.com/chapter/10.1007/978-3-030-58452-8_13, Mekhriddin Rakhimov, Jamshid Elov , Utkir Khamdamov , Shavkatjon Aminov, and Shakhzod Javliev, "Parallel Implementation of Real-Time Object Detection using OpenMP," International Conference on Information Science and Communications Technologies (ICISCT), 2021, https://ieeexplore.ieee.org/document/9670146. Yoon-Ki Kim and Yongsung Kim, "DiPLIP: Distributed Parallel Processing Platform for Stream Image Processing Based on Deep Learning Model Inference," Electronics, Vol. 9, No. 10, 2020, https://www.mdpi.com/2079-9292/9/10/1664.
IBM web domains
ibm.com, ibm.org, ibm-zcouncil.com, insights-on-business.com, jazz.net, mobilebusinessinsights.com, promontory.com, proveit.com, ptech.org, s81c.com, securityintelligence.com, skillsbuild.org, softlayer.com, storagecommunity.org, think-exchange.com, thoughtsoncloud.com, alphaevents.webcasts.com, ibm-cloud.github.io, ibmbigdatahub.com, bluemix.net, mybluemix.net, ibm.net, ibmcloud.com, galasa.dev, blueworkslive.com, swiss-quantum.ch, blueworkslive.com, cloudant.com, ibm.ie, ibm.fr, ibm.com.br, ibm.co, ibm.ca, community.watsonanalytics.com, datapower.com, skills.yourlearning.ibm.com, bluewolf.com, carbondesignsystem.com, openliberty.io