특징 선택이란 무엇인가요?

작성자

Staff writer

Staff Editor, AI Models

IBM Think

특징 선택이란 무엇인가요?

특징 선택은 머신 러닝(ML) 모델을 구축하고 훈련할 때 사용할 데이터 세트의 가장 관련성 높은 특징을 선택하는 과정입니다. 특징 공간을 선택한 하위 집합으로 줄임으로써 특징 선택은 AI 모델 성능을 향상시키면서 계산 요구 사항을 낮춥니다.

"특징"은 데이터 포인트의 개별적인 측정 가능한 속성 또는 특성을 의미합니다. 즉, 관찰되고 있는 현상을 설명하는 데 도움이 되는 데이터의 특정 속성입니다. 예를 들어, 주택에 대한 데이터 세트는 "침실 수"와 "건축 연도"와 같은 특징을 가질 수 있습니다.

특징 선택은 특징 엔지니어링 과정의 일부로, 데이터 과학자들이 데이터를 준비하고 머신 러닝 알고리즘에 사용할 특징 집합을 큐레이션합니다. 특징 선택은 모델에 사용할 특징을 선택하는 특징 엔지니어링의 부분입니다.

전문가가 전하는 최신 AI 트렌드

가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.

특징 선택의 이점

특징 선택 과정은 데이터 세트에서 가장 중요하고 영향력 있으며 중복되지 않는 특징을 식별하여 모델을 간소화합니다. 특징의 수를 줄이면 모델 효율성이 향상되고 성능이 개선됩니다.

특징 선택의 이점은 다음과 같습니다.

모델 성능 향상: 관련 없는 특징은 모델 성능을 약화시킵니다. 반대로, 모델에 적합한 특징 집합을 선택하면 더 정확하고 정밀하며 더 나은 기억 기능을 제공합니다. 데이터 특징은 모델이 훈련 중에 가중치를 구성하는 방식에 영향을 미치며, 이는 성능에 영향을 줍니다. 이는 훈련 전에 이루어지는 하이퍼파라미터 튜닝과는 다릅니다.

과적합 감소: 과적합은 모델이 훈련 데이터를 넘어 일반화할 수 없을 때 발생합니다. 중복된 특징을 제거하면 과적합이 감소하고 모델이 새로운 데이터에 대해 더 잘 일반화할 수 있게 됩니다.

짧은 훈련 시간: 더 작은 특징 집합에 집중함으로써 알고리즘은 훈련에 걸리는 시간이 줄어듭니다. 모델 생성자는 더 작은 특징 집합을 선택하여 모델을 더 빠르게 테스트, 검증 및 배포할 수 있습니다.

낮은 컴퓨팅 비용: 최고의 특징으로 구성된 더 작은 데이터 세트는 저장 공간을 덜 차지하는 간단한 예측 모델을 만듭니다. 이러한 모델은 더 복잡한 모델들에 비해 계산 요구 사항이 낮습니다.

더 높은 해석 가능성: 설명 가능한 AI는 사람이 이해할 수 있는 모델을 만드는 데 집중합니다. 모델이 복잡해질수록 결과를 해석하는 것이 점점 더 어려워집니다. 더 간단한 모델은 모니터링하고 설명하기가 더 쉽습니다.

더 원활한 구현: 더 간단하고 작은 모델은 데이터 시각화와 같은 AI 애플리케이션을 구축할 때 개발자들이 다루기 더 용이합니다.

차원 축소: 입력 변수가 많아질수록 데이터 포인트는 모델 공간 내에서 더 멀어집니다. 고차원 데이터는 빈 공간이 더 많아져, 머신 러닝 알고리즘이 패턴을 식별하고 좋은 예측을 하기 더 어렵습니다.

더 많은 데이터를 수집하는 것은 차원의 저주를 완화할 수 있지만, 가장 중요한 특징을 선택하는 것이 더 실현 가능하고 비용 효율적입니다.

Mixture of Experts | 12월 12일, 에피소드 85

AI 디코딩: 주간 뉴스 요약

세계적인 수준의 엔지니어, 연구원, 제품 리더 등으로 구성된 패널과 함께 불필요한 AI 잡음을 차단하고 실질적인 AI 최신 소식과 인사이트를 확인해 보세요.

Mixture of Experts의 모든 에피소드 보기

특징이란 무엇인가요?

특징은 데이터 세트의 항목들에 대한 정의 가능한 속성입니다. 특징은 값이 데이터 포인트마다 달라질 수 있기 때문에 변수로도 알려져 있으며, 데이터 포인트를 특성화하기 때문에 속성이라고도 불립니다. 다양한 특징은 데이터 포인트를 여러 가지 방식으로 특성화합니다.

특징은 독립 변수일 수도 있고, 독립 변수에서 값을 파생하는 종속 변수일 수도 있으며, 여러 다른 특징에서 조합된 속성일 수도 있습니다.

특징 선택의 목표는 모델이 종속 변수를 예측하는 데 사용할 수 있는 가장 중요한 입력 변수를 식별하는 것입니다. 타깃 변수는 모델이 예측하는 역할을 맡은 종속 변수입니다.

예를 들어, 직원 데이터베이스에서 입력 특징에는 나이, 위치, 급여, 직책, 성과 지표, 근무 기간 등이 포함될 수 있습니다. 고용주는 이러한 변수를 사용하여 직원이 더 좋은 제안을 받기 위해 떠날 가능성을 나타내는 목표 결합 속성을 생성할 수 있습니다. 그런 다음, 고용주는 이러한 직원들이 계속 근무하도록 유도하는 방법을 결정할 수 있습니다.

특징은 일반적으로 수치형 변수와 범주형 변수로 넓게 구분할 수 있습니다.

수치 변수는 길이, 크기, 나이, 지속 시간 등과 같이 측정 가능한 변수입니다.

범주형 변수는 이름, 직책, 위치 등과 같이 숫자가 아닌 모든 것을 포함합니다.

특징 선택이 이루어지기 전에, 특징 추출 과정이 원시 데이터를 머신 러닝 모델이 사용할 수 있는 수치형 특징으로 변환합니다. 특징 추출은 데이터를 단순화하고 이를 처리하는 데 필요한 계산 요구 사항을 줄입니다.

지도 특징 선택 방법

지도 학습 특징 선택은 목표 변수를 사용하여 가장 중요한 특징을 결정합니다. 데이터 특징이 이미 식별되어 있기 때문에, 주요 작업은 어떤 입력 변수가 목표 변수에 가장 직접적인 영향을 미치는지 파악하는 것입니다. 상관 관계는 가장 중요한 특징을 평가할 때 주요 기준입니다.

지도 학습 특징 선택 방법에는 다음이 포함됩니다.

필터 방법

래퍼 방법

내장 방법

두 가지 이상의 지도 학습 특징 선택 방법을 결합한 하이브리드 방법도 가능합니다.

필터 방법

필터 방법은 데이터 자체와 관련된 특징 선택 기법으로, 모델 성능 최적화와는 직접적으로 관계가 없습니다. 입력 변수는 타깃 변수와 독립적으로 평가되어 가장 높은 상관 관계를 가진 변수를 결정합니다. 하나씩 특징을 테스트하는 방법은 단변량 특징 선택 방법으로 알려져 있습니다.

종종 데이터 전처리 도구로 사용되는 필터 방법은 빠르고 효율적인 특징 선택 알고리즘으로, 중복성을 줄이고 데이터 세트에서 관련 없는 특징을 제거하는 데 뛰어납니다. 다양한 통계 테스트를 사용하여 각 입력 변수를 상관 관계에 대해 점수화합니다. 그러나 다른 방법들이 모델 성능 예측에 더 우수할 수 있습니다.

인기 있는 머신러닝 라이브러리인 Scikit-Learn(Sklearn)에서 제공되는 일반적인 필터 방법은 다음과 같습니다.

정보 이득: 특징의 존재 여부가 타깃 변수를 결정하는 데 얼마나 중요한지, 즉 엔트로피 감소 정도를 통해 측정합니다.

상호 정보: 하나의 변수를 통해 다른 변수에 대해 얻은 정보를 측정하여 변수들 간의 의존성을 평가합니다.

카이제곱 검정: 두 범주형 변수 간의 관계를 관찰된 값과 예상된 값을 비교하여 평가합니다.

피셔의 점수: 도함수를 사용하여 데이터 분류를 위한 각 기능의 상대적 중요도를 계산합니다. 점수가 높을수록 영향력이 크다는 것을 나타냅니다.

피어슨 상관 계수: 두 연속형 변수 간의 관계를 -1에서 1 사이의 점수로 정량화합니다.

분산 임계값: 최소 분산 기준에 못 미치는 모든 특징을 제거합니다. 분산이 큰 특징은 더 유용한 정보를 포함할 가능성이 높기 때문입니다. 관련 방법으로는 평균 절대 편차(MAD)가 있습니다.

결측값 비율: 데이터 세트에서 특정 특징이 누락되었거나 null 값을 가진 인스턴스의 비율을 계산합니다. 너무 많은 인스턴스에서 특징이 누락된 경우, 해당 특징은 유용할 가능성이 낮습니다.

분산 비율: 특징의 분산을 평균 값으로 나눈 비율입니다. 분산이 클수록 더 많은 정보를 나타냅니다.

ANOVA(분산 분석): 다양한 특징 값이 타깃 변수의 값에 영향을 미치는지를 판단합니다.

래퍼 방법

래퍼 방법은 다양한 특성 하위 집합으로 머신 러닝 알고리즘을 훈련시키며, 각 반복에서 특성을 추가하거나 제거하고 결과를 테스트합니다. 모든 래퍼 방법의 목표는 최적의 모델 성능을 이끄는 특성 집합을 찾는 것입니다.

모든 가능한 특성 조합을 테스트하는 래퍼 방법은 탐욕 알고리즘으로 알려져 있습니다. 이 방법은 전체 최적의 특성 집합을 찾기 위한 검색이 계산 집약적이고 시간이 많이 걸리므로, 특성 공간이 작은 데이터 세트에 가장 적합합니다.

데이터 과학자는 모델 성능이 감소하거나 목표 특성 수가 설정되었을 때 알고리즘을 중지하도록 설정할 수 있습니다.

래퍼 방법에는 다음이 포함됩니다.

순방향 선택: 빈 특징 집합에서 시작하여 새로운 특징을 점진적으로 추가하면서 최적의 집합을 찾습니다. 특정 반복 이후 알고리즘의 성능이 향상되지 않을 때 모델 선택이 이루어집니다.

역방향 선택: 모든 원래 특징으로 모델을 훈련한 후, 가장 중요도가 낮은 특징을 반복적으로 제거합니다.

완전 탐색 특징 선택: 지정된 성능 메트릭을 최적화하여 전체 조합 중 가장 우수한 특징을 찾기 위해 모든 가능한 특징 조합을 테스트합니다. 완전 탐색 특징 선택을 사용하는 로지스틱 회귀 모델은 가능한 모든 수의 특징 조합을 테스트합니다.

재귀적 특징 제거(RFE): 초기 특징 공간에서 시작하여 각 반복 후 특징의 상대적 중요도에 따라 특징을 제거하거나 추가하는 일종의 역방향 선택 방법입니다.

교차 검증을 활용한 재귀적 특징 제거: 재귀적 특징 제거의 변형으로, 보지 못한 데이터에 대해 모델을 테스트하는 교차 검증을 사용하여 최고의 성능을 보이는 특징 집합을 선택합니다. 교차 검증은 대규모 언어 모델(LLM) 평가 기법 중 하나입니다.

내장 방법

내장 방법은 특징 선택을 모델 훈련 과정에 통합하거나 삽입합니다. 모델이 훈련을 진행하면서 다양한 메커니즘을 활용해 성능이 낮은 특징을 감지하고, 이후 반복에서 해당 특징들을 제거합니다.

많은 내장 방법은 정규화를 중심으로 진행되며, 이는 미리 설정된 계수 임계값을 기준으로 특징에 패널티를 부여합니다. 모델은 더 높은 정확도를 희생하여 더 큰 정밀도를 얻습니다. 그 결과 모델은 훈련 중에는 약간 성능이 떨어지지만, 과적합을 줄여서 더 일반화 가능한 성능을 보입니다.

내장 방법은 다음과 같습니다.

LASSO 회귀 (L1 회귀): 높은 값의 상관 계수에 대해 손실 함수에 패널티를 추가하여 이를 0에 가깝게 이동시킵니다. 계수가 0이 된 특징은 제거됩니다. 패널티가 클수록 더 많은 특징이 특징 공간에서 제거됩니다. 효과적인 LASSO 사용은 불필요한 특징을 충분히 제거하면서 중요한 특징은 모두 유지하는 균형을 맞추는 데 있습니다.

랜덤 포레스트 중요도: 수백 개의 Decision Trees를 구축하며, 각 트리는 무작위로 선택된 데이터 포인트와 특징 집합을 사용합니다. 각 트리는 데이터 포인트를 얼마나 잘 구분하는지에 따라 평가됩니다. 결과가 좋을수록 해당 트리에서 사용된 특징의 중요도가 높다고 간주됩니다. 분류기는 지니 불순도(Gini impurity)나 정보 이득을 통해 그룹의 "불순도"를 측정하고, 회귀 모델은 분산을 사용합니다.

그래디언트 부스팅: 예측기를 순차적으로 앙상블에 추가하며, 각 반복마다 이전 예측기의 오류를 수정합니다. 이를 통해 최적의 결과로 가장 직접적으로 연결되는 특징을 식별할 수 있습니다.

비지도 특징 선택 방법

비지도 학습에서는 모델이 데이터의 특징, 패턴 및 관계를 스스로 찾아냅니다. 알려진 타깃 변수에 맞춰 입력 변수를 조정하는 것은 불가능합니다. 비지도 특징 선택 방법은 다른 기법을 사용하여 특징 공간을 단순화하고 효율화합니다.

비지도 학습 특성 선택 방법 중 하나는 주성분 분석 (PCA)입니다. PCA는 상관 관계가 있을 수 있는 변수를 더 작은 변수 집합으로 변환하여 대규모 데이터 세트의 차원을 축소합니다. 이 주성분들은 원본 데이터 세트에 포함된 대부분의 정보를 유지합니다. PCA는 차원의 저주를 해결하고 과적합을 줄이는 데 도움을 줍니다.

기타 방법으로는 다변량 데이터를 통계적으로 독립적인 개별 성분으로 분리하는 독립 성분 분석(ICA)과 오토인코더가 있습니다.

트랜스포머 아키텍처와 함께 널리 사용되는 오토인코더는 데이터를 압축한 후 다시 재구성하는 방법을 배우는 신경망의 일종입니다. 이 과정에서 오토인코더는 잠재 변수를 발견하는데, 이는 직접적으로 관찰할 수는 없지만 데이터 분포에 강하게 영향을 미치는 변수들입니다.

특징 선택 방법 선택

사용되는 특징 선택 방법은 입력 변수와 출력 변수의 특성에 따라 달라집니다. 이는 또한 머신 러닝 문제의 성격을 결정짓는데, 문제의 성격이 분류 문제인지 회귀 문제인지를 형성합니다.

수치 입력, 수치 출력: 입력과 출력이 모두 수치형일 경우, 이는 회귀 예측 문제를 나타냅니다. 선형 모델은 연속적인 수치 예측을 위해 출력되며, 출력되는 타깃 변수는 가능한 값 범위 내의 숫자입니다. 이러한 경우 피어슨 상관 계수와 같은 상관 계수 방법이 이상적인 특징 선택 방법입니다.

수치 입력, 범주형 출력: 로지스틱 회귀 모델은 입력을 이산적인 범주형 출력으로 분류합니다. 이 분류 문제에서는 범주형 타깃 변수를 지원하는 상관 기반 특징 선택 방법을 사용할 수 있습니다. 여기에는 선형 회귀 모델을 위한 ANOVA와 비선형 작업을 위한 켄달 순위 상관 계수가 포함됩니다.

범주형 입력, 수치 출력: 드문 유형의 문제이지만, 범주형 변수를 지원하는 상관 기반 방법을 통해 해결할 수 있습니다.

범주형 입력, 범주형 출력: 입력과 타깃 변수가 모두 범주형인 분류 문제는 카이제곱 검정이나 정보 이득 기법을 활용할 수 있습니다.

고려해야 할 다른 요소로는 데이터 세트와 특징 공간의 크기, 특징의 복잡성 및 모델 유형이 있습니다. 필터 방법은 많은 양의 관련 없는 특징을 빠르게 제거할 수 있지만, 복잡한 특징 상호 작용에서는 어려움을 겪습니다. 이러한 경우에는 래퍼 방법과 내장 방법이 더 적합할 수 있습니다.