이미지 분류란 무엇인가요?

이미지 분류란 무엇인가요?

이미지 분류는 이미지를 카테고리화하거나 미리 정의된 카테고리로 분류하는 프로세스입니다. 모델은 머신 러닝 중에 이미지를 인식하고 분류하는 방법을 학습합니다.

인간은 어려서부터 이미지를 분류합니다. 교사가 유치원생들에게 식물과 동물 사진을 무더기로 나눠 분류하도록 요청하면 아이들은 각 카테고리에 대해 학습한 특성을 사용하여 과제를 완료합니다. 이러한 각 카테고리에는 식물과 동물을 구별하는 서로 다른 특징이 있습니다. 성인은 두 범주를 구분하는 고유한 특징에 대해 배운 것을 기억하지 못할 수도 있습니다. 분류 방법의 상당 부분이 자연스럽게 발생하기 때문입니다.

인공 지능(AI) 모델을 동일한 작업을 수행하도록 가르치는 것은 훨씬 더 어려울 수 있습니다. 여기서 가장 큰 차이점은 AI 모델은 '보는' 법을 가르쳐야 하지만 인간은 이러한 능력을 가지고 태어난다는 것입니다. 따라서 인간은 처음부터 신발과 생명체를 구별할 수 있습니다. 규칙 기반 이미지 분류는 레이블 또는 주석에 따라 이러한 구분을 만듭니다. 통계적 이미지 분류는 이미지에 포함된 패턴을 인식하도록 모델을 학습시켜 분류 작업을 수행하므로 수동 라벨링 작업을 대부분 제거할 수 있습니다.

컴퓨터 비전이란 무엇인가요?

컴퓨팅 비전은 이미지 분류가 속하는 보다 일반적인 AI 분야를 말합니다. 머신 러닝과 종종 신경망을 사용하여 컴퓨터가 이미지와 동영상과 같은 시각적 데이터를 해석할 수 있도록 합니다. 컴퓨팅 비전에 대한 일부 실험은 1950년대부터 시작되었을 수 있지만, 대부분의 전문가들은 이 기술이 상업적으로 사용되기 시작한 것은 1970년 이후라는 데 동의합니다.

컴퓨팅 비전은 컴퓨터가 보는 것에서 유용한 데이터를 추출할 수 있게 해줍니다. 또한 이 프로세스를 통해 시각적 데이터에서 문제나 이상 징후를 감지할 때 권장 사항을 제시하거나 조치를 취하여 대응할 수도 있습니다. 또한 컴퓨팅 비전 내에는 이미지 인식 분야가 존재합니다. 이 광범위한 용어는 컴퓨터가 이미지를 해석하는 능력을 설명하는 데 사용됩니다. 요약하자면, 컴퓨팅 비전은 더 넓은 범주이며 이미지 인식, 더 구체적으로 이미지 분류 작업이 그 안에 포함됩니다.

전문가가 전하는 최신 AI 트렌드

가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.

감사합니다! 구독이 완료되었습니다.

구독은 영어로 제공됩니다. 모든 뉴스레터에는 구독 취소 링크가 있습니다. 여기에서 구독을 관리하거나 취소할 수 있습니다. 자세한 정보는 IBM 개인정보 보호정책을 참조하세요.

이미지 분류 유형

규칙 기반 이미지 분류

이 방법은 특정 분류 작업 또는 목표에 맞게 엄격하게 개발된 이미지 수집 및 라벨링 프로세스에 의존합니다. 이 프로세스는 전문가가시각적 정보를 가장 많이 제공하는 이미지의 주요 특징을 선택하여 수작업으로 완료합니다. 규칙 기반 이미지 분류는 전문 지식으로 구성된 이러한 규칙을 적용하여 유사한 픽셀 클러스터를 클래스로 그룹화합니다. 또한 복잡한 머신 러닝 모델에 의존하지 않고도 해석 가능하고 사용자 지정 가능한 분류가 가능합니다.

정리해야 할 사진 상자가 있다고 상상해 보세요. 이 컬렉션에는 호수, 개, 자동차 사진이 포함되어 있습니다. 이 방법을 사용하면 사용할 수 있는 첨단 도구가 없기 때문에 목록을 만들어야 합니다. 

목록은 다음과 유사할 수 있습니다.

  • '자동차'의 경우 타이어, 도어, 사이드 미러를 찾으세요.

  • '개'의 경우, 늘어진 귀, 흔들리는 꼬리, 긴 코를 확인합니다.

  • '호수'의 경우 물과 해안선이 많은 사진을 찾습니다.

이 예제는 규칙 기반 분류가 사람이 만든 사전 설정된 규칙과 도구에 의존한다는 것을 보여줍니다. 이 방법은 컴퓨터가 새로운 규칙을 스스로 '학습'하는 것과 대조됩니다. 이러한 형태의 이미지 분류에는 템플릿 일치 및 임계값과 같은 기술이 포함될 수 있습니다.

템플릿 일치는 템플릿 이미지를 더 큰 입력 이미지 위로 슬라이드하고 각 위치에서 유사성 지표를 계산하여 템플릿 이미지와 일치하는 영역을 찾는 작업입니다.

임계값은 설정된 컷오프 값을 기반으로 픽셀 값을 바이너리로 변환하여 이미지를 분할합니다. 이 방법은 강도에 따라 배경과 특징을 구분합니다.

이러한 기술은 규칙 기반 강화 학습과 결합되어, 강력하고 해석 가능한 이미지 분류 시스템에 기여합니다. 규칙 기반 분류는 k-최근접 이웃 또는 랜덤 포레스트 알고리즘을 구현하여 완료할 수 있습니다.

Mixture of Experts | 12월 12일, 에피소드 85

AI 디코딩: 주간 뉴스 요약

세계적인 수준의 엔지니어, 연구원, 제품 리더 등으로 구성된 패널과 함께 불필요한 AI 잡음을 차단하고 실질적인 AI 최신 소식과 인사이트를 확인해 보세요.

통계적 이미지 분류 

이 분류 방법은 규칙 기반 이미지 분류 방법보다 조금 더 복잡합니다. 통계적 이미지 분류는 이미지의 패턴을 자동으로 학습하고 인식하도록 설계되었습니다. 이 방법은 이미지를 효율적으로 분류할 수 있도록, 레이블이 지정된 대규모 데이터 세트와 강력한 아키텍처, 일반적으로 컨볼루션 신경망(CNN)에 크게 의존합니다. CNN은 세 가지 계층 유형을 사용하며, 각 계층 유형은 이미지의 일부를 식별하기 위해 점점 더 복잡해집니다. 데이터가 다양한 CNN 계층을 통해 이동함에 따라 이미지를 분류할 수 있을 때까지 더 많은 수의 구성 요소를 인식하게 됩니다.

얼룩말 이미지를 처리하는 컨볼루션 신경망(CNN)을 보여주는 상세 다이어그램.
컨볼루션 신경망(CNN) 다이어그램

분포 기반 방법

기존의 분포 기반 기법은 이미지 데이터의 통계적 속성에 대한 명확한 가정에 의존합니다. 최대가능도 추정(MLE) 및 베이지안 분류기와 같은 방법은 픽셀 강도 또는 특징의 확률 분포를 분석하여 클래스를 할당합니다. 이미지 분류에서 MLE는 이미지의 각 픽셀을 통계 모델이 수집된 데이터를 가장 잘 설명하는 클래스에 할당합니다. 베이지안 분류는 베이즈의 정리를 사용하여 사전 지식과 수집된 데이터를 기반으로 이미지가 특정 클래스에 속할 확률을 계산합니다. 이 정리를 통해 조건부 확률을 '반전'할 수 있습니다. 클래스의 사전 확률과 관측된 특징의 가능성을 결합하여 특정 이미지 세그먼트에 대해 가장 가능성이 높은 클래스를 예측합니다. 이러한 알고리즘은 각 클래스의 통계적 모델링이 필요하며 이러한 모델을 기반으로 특정 픽셀 또는 세그먼트가 각 클래스에 속할 가능성을 추정하여 분류를 수행합니다.

조건부 확률 공식
조건부 확률 공식

최대가능도 추정(MLE)은 관찰된 데이터의 가능성을 가장 높이는 값을 찾아 모델의 매개변수를 추정하는 데 사용되는 통계적 방법입니다. 이미지 분류에서 MLE는 각 픽셀 또는 세그먼트를 통계 모델이 관찰된 데이터를 생성할 가능성을 최대화하는 클래스에 할당합니다.

배포 없는 방법

컨볼루션 신경망(CNN)은 명확하게 명시된 통계 규칙에 의존하지 않고 데이터에서 직접 특징을 학습하는 보다 현대적이고 분포가 없는 접근 방식을 나타내는 신경망입니다. CNN은 가장 단순한 것부터 가장 복잡한 것까지 이미지 특징을 점진적으로 감지하는 여러 계층으로 구성됩니다. 컨볼루션 및 풀링과 같은 작업을 사용합니다. 컨볼루션은 이 경우 입력 데이터와 이미지에서 특징을 추출하기 위해 CNN이 사용하는 수학적 연산입니다. 이 작업은 입력을 가로질러 이동하는 필터 또는 커널을 사용합니다. 풀링도 전체 입력에 필터를 적용하지만 컨볼루션과 달리 이 필터에는 가중치 매개변수가 없습니다. CNN을 훈련하려면 대규모 데이터 세트와 계산 리소스가 필요하지만 원시 이미지 데이터에서 계층적 특징을 자동으로 추출하는 기능으로 인해 정확도가 크게 향상되는 경우가 많습니다.

세 개의 섹션으로 나누어진 삼각형 그래픽으로, 각 섹션에는 스타일리시한 자전거 아이콘이 있습니다. 피라미드는 다양한 톤의 파란색으로 음영 처리되어 그라데이션 효과를 연출합니다. 이 디자인은 눈에 띄는 텍스트나 숫자 값 없이 단순성과 기하학적 모양을 강조합니다.
계층 구조 다이어그램
숫자 그리드에 적용된 행렬 필터링을 시각적으로 표현한 것입니다. 입력 이미지에는 숫자가 있는 3x3 그리드가 표시되고 필터와 아웃풋 배열은 변환 프로세스를 보여줍니다.
컨볼루션 신경망(CNN) 배열 다이어그램

통계적 이미지 분류 작동 방식

데이터 수집 및 전처리: 각 그룹에 대해 다양하고 많은 수의 이미지를 수집하는 것이 첫 번째 단계입니다. 데이터에 레이블을 지정한 다음 정규화해야 합니다. 정규화 및 기타 데이터 증강 기술에는 이미지 크기를 고정 크기로 조정하고 픽셀 값을 정규화화하는 등의 기술이 포함됩니다.

모델 선택: 워크플로의 다음 단계는 모델 선택입니다. 선택한 아키텍처는 CNN일 가능성이 높습니다. 앞서 논의한 것처럼 CNN은 데이터가 계층을 통해 이동함에 따라 더 복잡한 특징을 감지하기 시작합니다.

모델 훈련 및 검증: 선택 후 라벨이 지정된 이미지는 훈련 데이터 세트, 검증 데이터 세트, 테스트 데이터 세트로 나뉩니다. 네트워크는 이러한 집합을 사용하여 가중치를 최적화하고 반복적으로 조정하여 예측된 레이블과 실제 레이블 간의 오류를 최소화합니다. 과적합 방지는 검증 데이터의 도움을 받으며 이 훈련 프로세스는 결과가 미리 결정된 표준을 충족할 때까지 계속될 수 있습니다.

이 단계에서는 ImageNet과 같이 사람이 주석을 단 데이터 세트를 적용할 수 있습니다. ImageNet은 1,400만 개 이상의 이미지로 구성된 방대한 컬렉션입니다. 이 이미지는 모두 컴퓨터가 사진 속 물체를 인식하도록 학습시키기 위해 구성되고 레이블이 지정되어 있습니다. 데이터베이스의 각 이미지에는 'synsets'라는 특정 카테고리가 태그되어 있습니다. 이러한 구문 집합에는 'dog', 'car' 또는 'apple'과 같은 항목이 포함되며 WordNet이라는 프레임워크를 사용합니다.

특징 추출: 이 단계에서 딥 러닝 모델은 규칙 기반 이미지 분류와 달리, 추출된 원시 이미지 데이터에서 자체 특징을 학습합니다. 이 접근 방식을 사용하면 네트워크에서 그룹 또는 클래스를 구분하기 위한 내부 묘사를 설정할 수 있습니다.

평가 및 배포: 다음으로, 테스트 데이터에 대해 모델을 평가하고 필요한 경우 미세 조정합니다. 그런 다음 예상 지표가 충족되는 경우 실제 환경에서 새 이미지에 대한 예측을 수행할 수 있도록 모델을 배포합니다.

이미지 분류 모델 및 알고리즘

이미지 분류를 위해 다양한 모델과 알고리즘이 개발되었습니다. 그 범위는 K-최근접 이웃(KNN), 랜덤 포레스트, 지원 벡터 머신(SVM)과 같은 접근 방식부터 AlexNet, GoogLeNet, ResNet과 같은 아키텍처에 이르기까지 다양합니다. 각 방법은 정확성, 확장성 및 복잡성 측면에서 서로 다른 강점을 제공합니다. 이러한 옵션을 통해 사용자는 보다 간단한 분류기나, 이미지에서 심층적인 계층적 특징을 학습할 수 있는 매우 정교한 콘볼루션 신경망(CNN) 중에서 선택할 수 있습니다. 이러한 알고리즘과 모델에 대해 더 자세히 살펴보겠습니다.

  • K-최근접 이웃(KNN): 이 알고리즘은 이미지 분류 작업에 널리 사용되는 지도 학습 분류기입니다. 유클리드 거리를 사용하여 각 데이터 세트의 다른 모든 기존 데이터 포인트와 새 데이터 포인트의 유사성을 측정하는 방식으로 작동합니다. 이미지 분류에서 각 이미지는 먼저 특징 벡터로 표현됩니다. 기능 벡터에는 원시 픽셀 값, 색상 히스토그램 또는 이미지의 중요한 시각적 특성을 캡처하는 숫자 설명자가 포함될 수 있습니다. 이미지는 라벨이 지정된 훈련 세트에서 가장 유사한 이미지 'k'개와 비교하고 그 이웃 이미지 중 가장 일반적인 라벨을 할당하는 방식으로 분류됩니다. 그런 다음 이전에 언급한 유클리드 거리를 사용하여 유사성을 측정합니다.

  • 랜덤 포레스트: 유연성과 사용 편의성으로 잘 알려진 지도 이미지 분류기입니다. 이 분류 알고리즘은 여러 개의 의사결정트리로 구성됩니다. 이러한 의사결정트리의 각 아웃풋을 평균화한 다음 결합하여 최종 아웃풋을 제공합니다. 랜덤 포레스트는 여러 의사결정트리의 앙상블을 구축하여 이미지를 분류하며, 각 의사결정트리는 서로 다른 무작위 샘플 이미지와 데이터의 특징 하위 집합으로 학습됩니다. 새 이미지의 경우 각 트리는 클래스 레이블을 예측하고 모든 트리 중에서 가장 많은 표를 얻은 클래스가 해당 이미지의 최종 분류가 됩니다.

  • 지원 벡터 머신(SVM): 분류 문제에서 일반적으로 사용되는 이 머신러닝 알고리즘은 반대 클래스의 가장 가까운 데이터 포인트 사이의 마진을 최대화하는 이상적인 경계를 식별하는 방식으로 작동합니다.

  • AlexNet: 이 모델은 딥 러닝 CNN 세계의 선구자로, 단순하면서도 심층적인 디자인으로 인해 인기를 얻었습니다. 이 모델은 시그모이드 대신 ReLU를 활성화 함수로 사용합니다.

  • GoogLeNet/Inception: Google에서 만든 이 모델은 인셉션 모듈을 사용합니다. 각 인셉션 모듈에는 서로 다른 필터 크기를 가진 4개의 경로가 포함되어 있으며, GoogLeNet에는 4개의 인셉션 모듈이 서로 병렬로 실행됩니다. 그런 다음 각 인셉션 모듈의 결과를 결합하여 단일 아웃풋을 만듭니다. 연구자들은 Inception과 같은 사전 훈련된 모델을 미세 조정하면 더 정확한 결과를 얻을 수 있다는 것을 발견했습니다.

  • ResNet: 이 모델은 잔여 연결, 즉 바로 가기를 도입하여 데이터가 다른 경로를 선택하고 네트워크의 일부 계층을 건너뛸 수 있도록 합니다. ResNet을 사용하면 최대 152개 계층의 네트워크에서 성공적인 모델 성능을 발휘하며 더욱 심층적인 네트워크를 학습할 수 있습니다.

  • TensorFlow 사용자 지정 모델: 또 다른 옵션은 TensorFlow와 Keras를 사용하여 처음부터 모델을 만드는 것입니다. 이 접근 방식에는 Conv2D, MaxPooling2D 및 Dense와 같은 계층을 구축하는 작업이 포함됩니다. 또한 레이블이 지정된 예제를 학습한 후 이미지를 분류할 수 있는 딥 러닝 파이프라인을 구성하기 위한 활성화 함수 구축을 완료합니다.
기존 ML 및 딥 러닝 ML
기존 ML 및 딥 러닝 ML

이미지 분류 사용 사례

자동차 산업: 차량에서 이미지 분류와 객체 감지 모두 점점 더 보편화되고 있습니다. 객체 감지는 운전자에게 주변 환경에 대한 실시간 정보를 제공하는 데 사용됩니다. 이 기능은 익숙하지 않은 지역이나 교통량이 많은 지역에서 유용할 수 있습니다. 효과적인 객체 감지는 해당 CNN의 이미지 분류 효과에 크게 좌우됩니다.

식물 질병의 잎 이미지 분류: 연구진은 건강한 잎에서 13가지 식물 질병을 감지할 수 있는 모델을 개발했습니다. 또한 이 모델은 나뭇잎을 주변 환경과 구별할 수 있습니다. 이러한 모델은 예를 들어 너도밤나무잎마름병(BLD)과 같은 질병에 감염된 환경인지 여부를 판단하는 데 가장 중요한 역할을 할 수 있습니다.

헬스케어 및 의료 영상: CNN을 사용한 딥 러닝 이미지 분류는 폐렴에 감염된 폐의 X선 이미지를 제공할 수 있습니다. 의사와 의료진은 비용 효율적인 방식으로 폐렴 사례를 보다 빠르고 정확하게 파악할 수 있습니다.

결론

이미지 분류는 컴퓨팅 비전의 핵심 구성 요소입니다. 이를 통해 기계도 인간처럼 시각적 세계를 이해할 수 있습니다. 수동 특징 선택에 의존하는 규칙 기반 이미지 분류 방법부터 미묘한 패턴을 높은 정확도로 인식할 수 있는 CNN을 사용한 고급 통계적 이미지 분류까지, 이 분야는 계속해서 빠르게 발전하고 있습니다. 그 영향은 이미 의료, 자동차 및 환경 산업 전반에 걸쳐 나타나고 있습니다. 이 도구는 사용자에게 더 빠른 의사 결정 능력을 제공하여 전반적으로 안전성을 높일 수 있습니다. 이미지 분류 모델이 더욱 정교해짐에 따라 기존 애플리케이션을 향상시킬 뿐만 아니라 완전히 새로운 가능성의 문을 열 것입니다.

관련 솔루션
IBM Maximo Visual Inspection

비전 검사 자동화를 위해 노코드 컴퓨팅 비전을 활용하세요.

Maximo 비전 검사 살펴보기
인공 지능(AI) 컨설팅 및 서비스

IBM Consulting AI 서비스는 기업이 AI 활용 방식을 재구상하여 혁신을 달성하도록 지원합니다.

인공 지능 서비스 살펴보기
인공 지능 솔루션

업계 최고의 AI 전문성과 솔루션 포트폴리오를 보유한 IBM과 함께 AI를 비즈니스에 활용하세요.

AI 솔루션 살펴보기
다음 단계 안내

IBM Maximo Visual Inspection은 품질 관리 및 검사 팀에게 컴퓨팅 비전 AI 기능의 강력한 성능을 제공합니다. 노코드 컴퓨팅 비전 기술을 활용하여 시각적 검사 자동화의 힘을 발휘해 보세요.

Maximo 비전 검사 살펴보기 제품 둘러보기