컴퓨터 비전이란 무엇인가요?

작성자

Rina Diane Caballar

Staff Writer

IBM Think

Cole Stryker

Staff Editor, AI Models

IBM Think

컴퓨터 비전이란 무엇인가요?

컴퓨팅 비전은 기계에 이미지 및 동영상과 같은 시각적 입력을 처리, 분석, 해석할 수 있는 능력을 부여하는 인공 지능(AI) 하위 분야로, 머신 러닝을 사용하여 컴퓨터 및 기타 시스템이 시각적 데이터에서 의미 있는 정보를 도출할 수 있도록 합니다.

컴퓨팅 비전은 인식, 재구성, 재조직이라는 세 가지 광범위한 프로세스가 함께 작동하고 서로에게 정보를 제공하는 상호 작용으로 묘사할 수 있습니다. 이미지 인식은 디지털 이미지나 동영상에서 동작, 사물, 사람, 장소, 글씨 등을 식별하는 기술입니다. 재구성은 해당 개체의 3차원 특성을 도출하는 반면, 재조직은 엔티티 간의 관계를 추론합니다.1

전문가가 전하는 최신 AI 트렌드

가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.

감사합니다! 구독이 완료되었습니다.

구독은 영어로 제공됩니다. 모든 뉴스레터에는 구독 취소 링크가 있습니다. 여기에서 구독을 관리하거나 취소할 수 있습니다. 자세한 정보는 IBM 개인정보 보호정책을 참조하세요.

컴퓨팅 비전이 작동하는 방식

폐렴 진단의 방사선 영상은 컴퓨팅 비전의 일반적인 사용 사례입니다. 방사선 전문의는 흉부 X선을 신중하게 해석해야 하며, 이는 폐렴 증상의 미묘함과 다른 폐 질환과의 유사성으로 인해 오류가 발생하기 쉽고 시간이 많이 소요될 수 있는 과정입니다.2 컴퓨팅 비전 시스템이 도움이 될 수 있습니다.

컴퓨팅 비전 작업을 위한 여러 유형의 모델과 접근 방식이 있지만 다음 가상 예는 일반적인 워크플로를 보여줍니다.

  1. 데이터 수집
  2. 전처리
  3. 모델 선택
  4. 모델 학습

데이터 수집

첫 번째 단계는 필요한 시각적 데이터를 수집하는 것입니다. 병원에서는 엄청난 양의 흉부 엑스레이 사진을 생성하고, 이를 사용하여 컴퓨팅 비전 알고리즘을 훈련합니다. 목표는 알고리즘이 X선 이미지가 폐렴을 묘사하는지 여부를 분류하는 것이기 때문에 병원은 흉부 X선 스캔 데이터 세트 를 컴파일하고 각 스캔에 정상 또는 폐렴을 나타내는 것으로 올바르게 레이블을 지정 하거나 주석을 달아야 합니다.

다른 사용 사례의 경우 이미지 및 동영상은 카메라 및 센서와 같은 소스에서 가져올 수 있습니다. COCO, ImageNet, Open Images와 같은 데이터 세트는 주석이 달린 이미지의 대규모 컬렉션을 제공합니다.

전처리

AI 모델의 품질은 학습에 사용된 데이터의 품질에 따라 결정되므로, 컴퓨팅 비전에서는 고품질 데이터가 매우 중요합니다. 전처리는 데이터 정리 및 밝기나 대비를 조정하여 이미지를 선명하게 하고 크기 조정 및 다듬기와 같은 개선 사항을 통해 데이터 품질을 향상시키는 데 도움이 될 수 있습니다.

또한 데이터 세트는 컴퓨팅 비전 알고리즘이 정확한 결과를 생성할 수 있을 만큼 충분히 크고 다양해야 합니다. 합성 데이터 생성데이터 증강은 데이터 세트의 크기와 다양성을 확장하는 데 도움이 될 수 있습니다. 예를 들어, 병원은 흉부 엑스레이 이미지를 왼쪽이나 오른쪽으로 회전하거나 이미지를 거꾸로 뒤집어 데이터를 보강하는 등의 기하학적 변환을 사용할 수 있습니다.

모델 선택

효율성과 성능을 최적화하려면 올바른 머신 러닝 모델을 선택하는 것이 중요합니다. 컨볼루션 신경망(CNN)은 이미지 처리 작업의 주요 딥 러닝 모델로 계속 사용되고 있으며, 순환 신경망(RNN)은 비디오 프레임과 같은 순차적 데이터 처리에 특히 적합합니다.

그러나 AI의 발전으로 트랜스포머 모델로의 전환이 가속화되고 있습니다. 예를 들어, 비전 트랜스포머(ViT)는 트랜스포머 기반 언어 모델의 요소를 컴퓨팅 비전에 적용합니다. ViT는 이미지를 패치로 처리하고, 언어 변환기의 토큰과 유사하게 시퀀스로 처리합니다. 그런 다음 비전 트랜스포머는 이러한 패치에서 셀프 어텐션 메커니즘을 구현하여 입력 이미지의 트랜스포머 기반 표현을 생성합니다. ViT는 컴퓨팅 비전 작업에서 CNN의 성능과 동일하거나 더 나은 성능을 보이는 경우가 많습니다.3

모델 학습

모델이 선택되면 모델 훈련이 이어집니다. 훈련 단계에는 컴퓨팅 비전 작업과 관련된 훈련 데이터에서 모델을 실행하고, 실측 데이터와 비교하여 성능을 측정하고, 시간이 지남에 따라 성능을 개선하기 위해 매개변수를 최적화하는 작업이 포함됩니다.

CNN은 컨볼루션 계층, 풀링 계층 및 완전 연결 계층 등 세 가지 유형의 계층으로 구성됩니다. 컨볼루션 계층은 특징 추출이 일어나는 곳입니다. 특징 추출에는 원시 이미지 데이터에서 색상, 가장자리, 모양, 질감과 같은 주요 시각적 속성을 판단하고 캡처하는 작업이 수반됩니다. 폐렴이 있는 X선 영상의 경우 추출해야 할 특징으로는 비대칭적인 폐 윤곽, 염증이나 체액의 존재를 나타내는 밝은 영역(어둡고 공기가 채워진 영역과 반대), 흐리거나 불투명한 폐 영역, 거칠거나 고르지 않은 질감 등이 있습니다.4 특징 추출을 통해 알고리즘은 시각적 데이터에서 중요한 관계와 패턴을 구별할 수 있습니다.

X선 이미지는 픽셀 값의 행렬로 취급됩니다. 필터 또는 커널로 알려진 또 다른 가중치 행렬(주어진 입력 기능이 모델의 아웃풋에 미치는 영향을 제어하는 매개변수)은 입력 픽셀 값 사이에 내적이 계산되어 X선 이미지의 영역에 적용됩니다. 필터는 이미지를 가로질러 이동, 즉 '컨볼루션'하여 특징을 추출하며, 이 전체 프로세스를 컨볼루션이라고 합니다. 일련의 점곱의 최종 아웃풋을 활성화 맵 또는 기능 맵이라고 합니다. 각 필터는 가장자리, 모양 또는 질감과 같은 특정 패턴에 반응하도록 조정되어 CNN이 여러 시각적 특징을 동시에 학습할 수 있습니다.

 기능 맵은 풀링 레이어에 공급되어 맵의 크기를 더욱 줄이고 크기를 압축합니다. 또 다른 필터는 전체 입력을 스윕하여 기능 맵의 셀 그룹 내에서 최대값 또는 평균값을 가져옵니다. 이렇게 하면 가장 필수적인 특징이 유지되므로 모델이 이에 주의를 집중할 수 있습니다.

 이미지를 가로질러 이동하여 특징을 추출하고, 차원을 줄이고, 분류를 생성하는 작업을 정방향 통과라고 합니다. 이 정방향 통과 후 모델은 손실 함수를 적용하여 오류 또는 예측된 분류와 실제 분류 간의 차이를 계산합니다.

손실 함수를 최소화하기 위해 역전파(Backpropagation)를 사용합니다. 역전파는 각 가중치에 대한 손실 함수의 기울기를 계산하기 위한 역방향 패스입니다. 그런 다음 경사 하강법을 구현하여 모델 가중치를 업데이트하고 모델을 최적화합니다.

마지막으로 완전 연결 계층은 이전 계층과 다양한 필터를 통해 추출된 특징을 기반으로 분류 작업을 수행합니다. 그런 다음 CNN은 각 클래스(이 경우 정상인지, 폐렴인지)에 대한 확률인 아웃풋을 생성합니다. 흉부 X선 이미지 분류 작업의 경우 이 아웃풋은 정상 스캔을 나타내거나, 가능성이 미리 결정된 임계값을 초과하는 경우 폐렴 양성 스캔을 나타냅니다.

Mixture of Experts | 12월 12일, 에피소드 85

AI 디코딩: 주간 뉴스 요약

세계적인 수준의 엔지니어, 연구원, 제품 리더 등으로 구성된 패널과 함께 불필요한 AI 잡음을 차단하고 실질적인 AI 최신 소식과 인사이트를 확인해 보세요.

컴퓨팅 비전 작업

컴퓨팅 비전 알고리즘은 다음과 같은 광범위한 작업에 대해 학습시킬 수 있습니다.

  • 이미지 인식
  • 이미지 분류
  • 객체 감지
  • 이미지 분할
  • 객체 추적
  • 장면 이해
  • 얼굴 인식
  • 자세 추정
  • 광학 문자 인식
  • 이미지 생성
  • 비전 검사(Visual Inspection)

이미지 인식

이미지 인식은 가장 넓은 형태의 컴퓨팅 비전입니다. 이는 디지털 이미지에서 사람, 장소, 사물, 기타 물체를 식별하는 것을 포함하며 이미지 분류, 객체 감지 및 이미지 분할과 같은 작업의 기반이 됩니다.

이미지 분류

이미지 분류는 이미지를 미리 정의된 그룹 또는 클래스로 분류하는 핵심 컴퓨팅 비전 작업입니다. 이미지 또는 이미지 내의 객체에 가장 적합한 레이블을 예측합니다. 앞서 설명한 흉부 X선을 이용한 폐렴 진단 시나리오는 이미지 분류의 한 예입니다.

객체 감지

객체 감지는 디지털 이미지에서 객체가 있는 위치를 정확히 찾아내는 것을 목표로 합니다. 객체 위치 파악과 이미지 분류라는 두 가지 학습 기법을 결합합니다.

객체 위치 파악은 이미지에서 특정 객체 주위에 경계 상자를 그려서 객체의 위치를 식별합니다. 그런 다음 이미지 분류를 통해 객체가 속한 범주를 구분합니다. 예를 들어, 도로 교통 영상에서 컴퓨팅 비전 앱은 객체 감지 기능을 사용하여 차량을 분류할 뿐만 아니라 도로에서 차량의 위치도 파악할 수 있습니다.

교통에 사용되는 객체 감지 소프트웨어

객체 감지를 위한 일반적인 CNN 아키텍처로는 R-CNN(지역 기반 컨볼루션 신경망)과 YOLO(한 번만 보기)가 있습니다. R-CNN은 먼저 객체가 포함된 영역을 결정한 다음 분류 및 보다 정확한 위치 파악을 위해 별도의 네트워크를 통해 해당 영역을 실행하는 2단계 감지를 구현합니다. 한편, YOLO는 단일 네트워크 패스에서 위치 파악과 분류를 혼합하여 단일 단계 탐지를 수행하므로 실시간 객체 감지에 충분히 신속합니다.

동영상의 객체 감지는 일반적으로 트랜스포머 기반 모델과 RNN, 특히 장단기 메모리 아키텍처를 적용합니다.

이미지 분할

이미지 분할은 보다 정확한 픽셀 수준의 객체 감지 버전입니다. 디지털 이미지를 이미지 세그먼트라고 하는 개별 픽셀 그룹으로 분할한 다음 클래스 또는 인스턴스에 따라 픽셀에 레이블을 지정합니다.

객체 감지는 이미지 내의 여러 요소를 분류하고 각 요소의 폭과 높이를 대략적으로 추정할 수 있지만, 이미지 분할은 정확한 경계나 모양을 식별합니다. 따라서 이미지 분할은 겹치는 경계 상자가 있는 밀집된 객체를 묘사하는 데 유용합니다.

이미지 분할은 세 가지 작업 유형으로 더 세분화될 수 있습니다.

  • 시맨틱 분할은 가장 간단한 유형으로, 각 픽셀에 시맨틱 클래스(주어진 픽셀이 속할 수 있는 구체적인 카테고리)를 할당합니다.
  • 인스턴스 분할은 이미지에서 각 개별 객체 인스턴스의 정확한 경계를 예측합니다.
  • 판옵틱 분할은 모든 픽셀의 시맨틱 분류를 결정하고 이미지의 각 객체 인스턴스를 구별하여 시맨틱 분할과 인스턴스 분할을 결합합니다.

예를 들어, 도시 거리의 이미지에서 시맨틱 분할은 연이어 주차된 자동차들을 하나의 긴 자동차 세그먼트로 취급하는 반면, 인스턴스 분할은 각 자동차의 모양을 분리하고 파악할 수 있습니다.

소스 이미지를 시맨틱 분할, 인스턴스 분할, 파놉틱 분할을 통해 비교하는 그래픽.

객체 추적

객체 추적은 일련의 비디오 또는 이미지 프레임에서 움직이는 객체를 따라가며 추적합니다. 각 프레임에서 객체를 정확히 찾아내고 구별하며 순회 중에 객체의 연속성을 유지합니다.

장면 이해

장면 이해는 객체 인식에서 한 단계 나아가 더 높은 수준의 시각적 정보를 캡처합니다. 딥 러닝 모델은 이미지에서 객체를 식별하면 동작, 이벤트 및 상호 작용과 같은 객체 간의 연결을 예측합니다.

그래프 신경망(GNN)은 이미지 내 객체 간의 공간적 관계를 표현하는 데 사용할 수 있습니다. 교통 영상을 예로 들면, 컴퓨팅 비전 시스템은 택시가 자동차 앞에서 움직이고 있거나, 자동차가 택시 왼쪽에 주차되어 있거나, 자동차가 우회전하고 있다고 추론할 수 있습니다.

비전 언어 모델(VLM)도 장면 이해에 도움이 될 수 있습니다. 대규모 언어 모델(LLM)과 비전 트랜스포머를 결합하면 이미지 내의 객체를 인식 및 분류하고 다른 시각적 요소에 대한 객체의 위치와 같은 맥락적 설명을 제공할 수 있습니다.

얼굴 인식

얼굴 인식은 얼굴 특징에 이미지 인식을 적용합니다. 얼굴의 기하학적 구조를 포착하고 눈 사이의 거리, 이마에서 턱까지의 거리, 코의 윤곽 및 입술 모양과 같은 주요 패턴을 찾아냅니다.

얼굴 인식은 실시간으로 또는 사진이나 동영상에서 개인을 식별할 수 있습니다. 인기 있는 예는 얼굴 인식을 통해 스마트폰의 잠금을 해제하는 생체 인증입니다.

 

생체 인식 얼굴 인증

자세 추정

자세 추정은 다양한 신체 부위의 공간적 위치를 측정하여 제스처를 인식하고 신체 움직임을 추적합니다. 예를 들어, 자세 추정은 가상 현실 게임 플레이 중에 게이머의 팔과 손의 방향을 표시하는 데 도움이 될 수 있습니다. 좀 더 현실적인 예로는 NASA의 컴퓨팅 비전 소프트웨어로, 국제 우주 정거장에 있는 로봇 팔 조작자에게 표적을 정확하게 잡을 수 있도록 실시간 자세 추정을 제공합니다.5

광학 문자 인식

텍스트 인식이라고도 하는 광학 문자 인식(OCR)은 이미지, 스캔한 문서 및 기타 소스에서 텍스트를 추출하여 기계가 읽을 수 있는 형식으로 변환합니다. 따라서 필기 텍스트 및 종이 기록의 디지털화를 자동화하는 데 도움이 됩니다.

OCR 워크플로는 다음 단계를 따릅니다.

  1. 이미지 획득은 이미지 또는 디지털 문서를 흑백 버전으로 변환하며, 밝은 영역은 배경으로 표시하고 어두운 영역은 문자로 표시하여 인식할 수 있도록 합니다.
  2. 전처리는 불필요한 픽셀을 제거하고 스캔 중에 이미지가 잘못 정렬되는 것을 보정하기 위한 기울기 보정이 포함될 수 있습니다.
  3. 텍스트 인식은 한 번에 한 문자씩 알파벳 문자, 숫자 또는 기호를 찾습니다. 그런 다음 패턴 인식을 통해 문자를 식별하고 문자의 글꼴, 배율, 모양을 템플릿과 매칭합니다.

CNN 및 트랜스포머 기반 모델은 곡선, 선 교차점, 루프, 문자의 각진 선 수 등의 특징을 추출하므로 보다 지능적인 문자 인식이 가능합니다. 이러한 알고리즘은 지능형 단어 인식 기능도 갖추고 있어, 문자 대신 단어를 구분하여 더 빠르게 처리할 수 있습니다.

이미지 생성

이미지 생성은 생성형 AI 모델을 사용하여 이미지를 생성합니다. 이미지 생성에 사용되는 일반적인 생성 모델은 다음과 같습니다.

  • 확산 모델은 무작위 노이즈로 점진적으로 확산되고 인식할 수 없을 정도로 뒤섞인 학습 데이터에서 샘플의 노이즈를 제거하거나 재구성하는 방법을 익혀 새로운 이미지를 생성하도록 학습됩니다.
  • 생성적 적대 네트워크(GAN)는 두 개의 신경망으로 구성됩니다. 하나는 이미지를 생성하는 생성기이고 다른 하나는 인공 데이터와 실제 이미지를 구별하는 판별자입니다. 두 신경망 모두 반복적으로 훈련되며, 판별기의 피드백은 판별자가 더 이상 인공 데이터와 실제 이미지를 구별할 수 없을 때까지 생성기의 아웃풋을 개선합니다.
  • 변이형 오토인코더(VAE)는 학습된 이미지의 변이를 생성하는 딥 러닝 모델입니다. 인코더는 입력 이미지를 저차원 공간으로 압축하여 이미지에 포함된 의미 있는 정보를 캡처합니다. 그런 다음 디코더는 이 압축된 것에서 새 이미지를 재구성합니다.

VLM은 텍스트 설명이 주어지면 이미지를 생성할 수도 있습니다.

비전 검사

비전 검사는 결함 식별을 자동화합니다. 컴퓨팅 비전 시스템은 객체 감지를 통해 이미지나 비디오를 검사하여 결함과 손상을 찾아냅니다. 또한 이미지 분할을 구현하여 결함을 보다 정확하게 찾을 수 있습니다.

컴퓨팅 비전 기반 비전 검사기는 교량의 접근하기 어려운 영역에서 부식을 찾아내거나 조립된 전자 제품에서 결함이 있는 커넥터를 찾는 등의 작업을 수행하여, 기업이 일관성과 정확성을 높여 더 빠르고 안전한 검사를 수행하는 데 도움이 될 수 있습니다.

컴퓨팅 비전 애플리케이션

컴퓨팅 비전은 성숙한 AI 분야로서, 많은 발전을 거쳐 광범위한 사용 사례로 이어지고 있습니다. 다음은 컴퓨팅 비전의 몇 가지 실제 애플리케이션 사례입니다.

농업

카메라, 드론, 위성은 작물과 농장 지역의 고해상도 이미지를 캡처합니다. 그런 다음 컴퓨팅 비전 기술이 이러한 이미지를 분석하여 식물 상황을 평가하고 해충과 잡초를 정확히 찾아내여 제초제를 정밀하게 표적화하여 살포할 수 있도록 지원합니다.

자율주행 차량

자동차 산업에서 자율 주행 자동차는 카메라, 라이다, 레이더, 센서를 혼합하여 환경의 3D 모델을 구성합니다. 그런 다음 안전한 탐색을 위해 객체 감지, 이미지 분할, 장면 이해를 적용하여 보행자나 기타 차량과 같은 장애물을 피하고 차선, 신호등, 교통 표지판과 같은 도로 특징을 정확하게 감지합니다.

의료

의료 영상은 컴퓨팅 비전의 핵심 응용 분야입니다. 예를 들어, 객체 감지는 이미지 분석을 자동화하여 X선, CT, MRI 및 초음파 스캔에서 잠재적인 질병 마커를 찾고 식별할 수 있습니다. 또한 인스턴스 분할은 장기, 조직 및 종양의 특정 경계를 묘사하여 정확한 진단을 지원함으로써, 의사가 치료 및 환자 케어에 대해 결정할 때 더 나은 정보를 제공할 수 있습니다.

제조

컴퓨팅 비전 시스템은 재고 관리, 품목 스캔을 통한 재고 수준 파악에 도움이 됩니다. 또한 실시간으로 결함을 인식하여 품질 관리를 강화할 수도 있습니다. 이러한 시스템은 제품 이미지를 분석하고 사람이 육안을 사용하여 검사하는 것과 비교하여 결함이나 불일치를 빠르고 정확하게 표시할 수 있습니다.

소매 및 전자상거래

예를 들어, Amazon의 Just Walk Out 기술은 소규모 소매 및 식품 서비스 매장에서 컴퓨팅 비전을 사용하여 고객 선택을 추적하고 결제 경험을 자동화합니다. 고객은 결제 카운터에 줄을 설 필요 없이, 물건을 들고 바로 나갈 수 있습니다.6

또한 온라인 매장은 증강 현실과 얼굴 인식 및 포즈 추정 기능을 결합한 가상 체험을 통해 고객이 구매하기 전에 옷, 안경 또는 메이크업이 어떻게 보일지 시각화적으로 확인할 수 있도록 합니다.

로봇 공학

로봇은 자율 주행 자동차와 마찬가지로, 카메라, 라이더, 센서를 사용하여 주변 환경을 매핑합니다. 그런 다음 컴퓨팅 비전 알고리즘을 적용하여 복잡한 수술을 하는 외과의를 지원하고, 창고를 탐색하여 상품을 운송하고, 잘 익은 농산물만 고르고, 조립 라인에 물건을 넣는 등의 작업을 완료합니다.

우주 탐사

객체 감지는 우주선이 착륙할 때 위치를 파악하고 위험을 피하는 데 도움이 될 수 있으며, 탐사선은 지형 탐색하는 데 객체 감지 기능을 구현할 수 있습니다.7 소행성, 유성, 우주 쓰레기를 분류하는 데 이미지 분류를 사용할 수 있으며, 객체 추적은 이러한 천체의 궤적을 모니터링합니다.

컴퓨팅 비전 도구

컴퓨팅 비전 앱을 구축하기 위한 많은 도구가 존재하여 개발 프로세스를 간소화하는 데 도움이 됩니다. 몇 가지 인기 있는 도구는 다음과 같습니다.

  • Keras
  • OpenCV
  • Scikit-image
  • TensorFlow
  • Torchvision

Keras

Keras는 PyTorch, TensorFlow와 같은 다른 AI 프레임워크 위에서 실행할 수 있는 딥 러닝 애플리케이션 프로그래밍 인터페이스(API)입니다. 이미지 및 비디오 분류, 이미지 분할, 객체 감지 및 OCR을 포함한 다양한 컴퓨팅 비전 작업에 대한 수십 개의 튜토리얼과 예제를 제공합니다.

OpenCV

OpenCV는 가장 널리 사용되는 컴퓨팅 비전 라이브러리 중 하나입니다. 이 오픈 소스 라이브러리에는 2,500개 이상의 컴퓨팅 비전 알고리즘이 있으며 이미지 처리, 객체 감지, 비디오 분석 등을 위한 모듈이 포함되어 있습니다. C++로 작성되었지만 Java 및 Python과 같은 프로그래밍 언어용 래퍼도 있습니다.

Scikit-image

Scikit-image는 Python의 이미지 처리를 위한 오픈 소스 알고리즘 모음입니다. 전처리, 기능 추출, 객체 감지, 이미지 분할 등의 작업을 지원합니다. 단순하기 때문에 초보자도 쉽게 사용할 수 있습니다.

TensorFlow

TensorFlow는 Google의 오픈 소스 머신 러닝 플랫폼입니다. TensorFlow는 보다 범용적인 딥 러닝 애플리케이션에 서비스를 제공하지만, 컴퓨팅 비전 전용 데이터 세트, 전처리 도구, 이미지 및 동영상 분류, 이미지 분할 및 객체 감지 기능도 제공합니다.

Torchvision

torchvision 라이브러리는 PyTorch 에코시스템의 일부를 형성합니다. 여기에는 일반적인 이미지 변환, 데이터 세트 및 기타 유틸리티 기능이 포함됩니다. 이 패키지는 또한 이미지 및 비디오 분류, 객체 감지, 의미 및 인스턴스 분할을 위한 모델을 제공합니다.

컴퓨팅 비전의 간략한 역사

컴퓨팅 비전은 AI의 초창기 분야 중 하나입니다. 수십 년 동안 컴퓨터 과학 연구자들은 기계가 시각적 데이터를 이해할 수 있는 방법을 개발해 왔습니다.

1950년대부터 1960년대까지 신경 생리학자들이 고양이에게 다양한 이미지를 보여주며 신경 활동을 기록하면서 실험이 시작되었습니다. 신경 생리학자들은 동물들이 선에 먼저 반응한다는 것을 발견했고, 이미지 처리는 직선과 같은 단순한 모양에서 시작된다는 결론을 내렸습니다.8

거의 동시에 최초의 컴퓨터 이미지 스캐닝 기술이 개발되어 컴퓨터에 이미지를 디지털화하고 획득할 수 있는 기능을 갖추게 되었습니다.9 또 다른 이정표는 컴퓨터가 2차원 이미지를 3차원 형태로 변환하는 능력을 개발했을 때 달성되었습니다.10

1982년, 신경 과학자 데이비드 마(David Marr)는 시각이 계층적으로 작동한다는 것을 확증하고 기계가, 모서리, 곡선, 가장자리 및 이와 유사한 기본 모양을 감지할 수 있는 알고리즘을 도입했습니다.11 같은 10년 동안 컴퓨터 과학자 후쿠시마 쿠니히코(Kunihiko Fukushima)는 패턴을 인식할 수 있는 세포 네트워크를 개발하고 이를 '네오코그니트론(neocognitron)'이라고 명명했습니다. 이 네트워크에는 신경망에 컨볼루션 계층이 있습니다.12

2000년까지 연구의 초점은 이미지 분류와 객체 인식에 맞춰졌습니다.13 2009년에는 컴퓨팅 비전 알고리즘 학습을 위한 수백만 개의 레이블이 지정된 이미지가 포함된 ImageNet 데이터 세트가 도입되었습니다.14 2012년에는 토론토 대학교의 한 팀이 ImageNet 데이터 세트를 기반으로 학습된 AlexNet CNN을 개발하여 이미지 인식 오류율을 크게 줄여 오늘날의 컴퓨팅 비전 모델의 기반을 마련했습니다.15

관련 솔루션
IBM Maximo Visual Inspection

비전 검사 자동화를 위해 노코드 컴퓨팅 비전을 활용하세요.

Maximo 비전 검사 살펴보기
인공 지능(AI) 컨설팅 및 서비스

IBM Consulting AI 서비스는 기업이 AI 활용 방식을 재구상하여 혁신을 달성하도록 지원합니다.

인공 지능 서비스 살펴보기
인공 지능 솔루션

업계 최고의 AI 전문성과 솔루션 포트폴리오를 보유한 IBM과 함께 AI를 비즈니스에 활용하세요.

AI 솔루션 살펴보기
다음 단계 안내

IBM Maximo Visual Inspection은 품질 관리 및 검사 팀에게 컴퓨팅 비전 AI 기능의 강력한 성능을 제공합니다. 노코드 컴퓨팅 비전 기술을 활용하여 시각적 검사 자동화의 힘을 발휘해 보세요.

Maximo 비전 검사 살펴보기 제품 둘러보기
각주

1. The three R’s of computer vision: Recognition, reconstruction and reorganization, Pattern Recognition Letters, 2016년 2월 8일
2. Efficient pneumonia detection using Vision Transformers on chest X-rays, Scientific Reports, 2024년 1월 30일
3. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale, arXiv, 2021년 6월 3일
4. NGBoost Classifier Using Deep Features for Pneumonia Chest X-Ray Classification, Applied Sciences, 2025년 9월 8일
5. Computer Vision Lends Precision to Robotic Grappling, NASA Technology Transfer Program, 2025년 9월 11일 액세스
6. Amazon Just Walk Out, AWS, 2025년 9월 11일 액세스
7. The Computer Vision Laboratory, NASA JPL Robotics, 2025년 9월 11일 액세스
8. From Cats to the Cortex: Unravelling the Hierarchical Processing System of Vision and Brain Plasticity, Cureus, 2024년 9월 2일
9. Your Engineering Heritage: Scanners and Computer Image Processing, IEEE-USA InSight, 2016년 2월 8일
10. A Simple World: The Blocks World, Foundations of Computer Vision, 2024년
11. Marr’s Computational Theory of Vision, Foundations of Computer Vision, 2024년
12. Neocognitron: A Self-organizing Neural Network Model for a Mechanism of Pattern Recognition Unaffected by Shift in Position, Biological Cybernetics, 1980년
13. Computer Vision, Foundations of Computer Vision, 2024년
14. ImageNet: A large-scale hierarchical image database, IEEE Conference on Computer Vision and Pattern Recognition, 2009년
15. CHM Releases AlexNet Source Code, Computer History Museum, 2025년 3월 20일