코사인 유사성이란 무엇인가요?

작성자

Tom Krantz

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

코사인 유사성이란 무엇인가요?

코사인 유사성은 길이나 크기가 아닌 두 데이터 포인트가 가리키는 방향을 기반으로 두 데이터 포인트의 유사성을 결정하는 널리 사용되는 유사성 지표입니다. 이는 기존의 거리 기반 지표가 어려울 수 있는 고차원 공간에서 특히 효과적입니다.

코사인 유사성을 계산하려면 내적 공간에서 두 개의 0이 아닌 벡터 사이의 각도(세타)의 코사인을 측정해야 합니다. 이 측정은 코사인 유사성 점수를 생성합니다. 코사인 유사성 값의 범위는 -1에서 1까지입니다.

코사인 유사성 점수가 1이면 벡터가 정확히 동일한 방향을 가리키고 있음을 나타냅니다.
코사인 유사성 점수가 0이면 벡터가 직교적이며, 이는 방향 유사성이 없음을 의미합니다.
코사인 유사성 점수가 -1이면 벡터가 정확히 반대 방향을 가리킨다는 것을 나타냅니다.

화살표를 비교하는 것과 같다고 생각하면 됩니다. 같은 방향을 가리키고 있다면 매우 유사하다는 것입니다. 직각인 화살표는 서로 관련이 없으며, 반대 방향을 가리키는 화살표는 서로 다른 화살표입니다.

이러한 각도 접근 방식은 많은 머신 러닝(ML), 자연어 처리(NLP) 및 인공 지능(AI) 시스템의 기초입니다. 이러한 기술은 데이터의 벡터 기반 표현에 의존하며, 이는 데이터를 숫자 형태로 변환하여 그 의미와 다른 데이터와의 유사성을 포착한다는 것을 의미합니다.

예를 들어 챗봇은 단어 임베딩 기술을 사용하여 텍스트를 벡터 형식으로 변환하고, 딥 러닝 모델을 사용하여 의도를 이해하고 유사성 검색 알고리즘을 사용하여 데이터베이스에서 가장 관련성이 높은 응답을 검색할 수 있습니다. 코사인 유사성은 이러한 각 단계를 가능하게 합니다.

업계 뉴스레터

전문가의 인사이트를 바탕으로 한 최신 기술 뉴스

Think 뉴스레터를 통해 AI, 자동화, 데이터 등 가장 중요하고 흥미로운 업계 동향에 대한 최신 소식을 받아보세요. IBM 개인정보 보호정책을 참조하세요.

코사인 유사성이 중요한 이유는 무엇인가요?

문장의 다음 단어를 예측하든, 근처의 식사할 장소를 제안하든, 디지털 라이프를 형성하는 많은 시스템은 유사성 측정에 의존합니다. 추천 엔진 및 대규모 언어 모델(LLM)과 같은 기술은 코사인 유사성을 사용하여 어떤 콘텐츠가 가장 관련성이 높고 어떤 응답이 가장 "의미가 있는지"를 식별합니다.

이러한 의사 결정은 고차원 또는 희소 데이터 세트의 데이터 요소 간의 관계를 분석하여 이루어집니다. 고전적인 텍스트 분석에서는 문서를 종종 숫자 표현으로 변환하는데, 이는 Bag of words(BoW)의 고급 형태인 tf-idf(단어 빈도-역문서 빈도)와 같은 기법을 사용합니다. BoW는 문서에 용어가 얼마나 자주 나타나는지 점수를 매기는 반면, tf-idf는 더 큰 데이터 세트에서 단어가 얼마나 흔하거나 드문지에 따라 해당 점수를 조정합니다.

고급 시스템은 신경망을 사용하여 다양한 유형의 데이터를 숫자 배열로 표현하는 데이터 포인트의 숫자 표현인 벡터 임베딩을 생성합니다. 예를 들어, "의사"와 "간호사"와 같은 단어는 벡터 공간에서 서로 가까이 나타날 수 있으며, 이는 모델이 이들을 연관된 것으로 간주한다는 것을 의미합니다. 이러한 임베딩은 대규모 비교를 더 빠르고 효율적으로 수행하기 위해 주성분 분석(PCA)과 같은 추가 단계를 거치는 경우가 많습니다.

두 접근 방식 모두에서 코사인 유사성은 결과 벡터들이 얼마나 밀접하게 정렬되어 있는지를 측정함으로써, 시스템이 복잡한 데이터 세트 전반에서 패턴과 관계를 식별하는 데 도움을 줍니다. NLP, AI 및 데이터 과학에서 코사인 유사성은 다음과 같은 측면에서 중심적인 역할을 합니다.

AI 디코딩: 주간 뉴스 요약

세계적인 수준의 엔지니어, 연구원, 제품 리더 등으로 구성된 패널과 함께 불필요한 AI 잡음을 차단하고 실질적인 AI 최신 소식과 인사이트를 확인해 보세요.

최신 팟캐스트 에피소드 시청하기

코사인 유사성은 어떻게 작동하나요?

핵심적으로 코사인 유사성은 두 벡터 사이의 각도의 코사인을 계산하여 두 벡터가 얼마나 정렬되어 있는지 측정합니다.

문서를 비교하는 것과 같은 실제 응용 사례에서는 데이터가 다차원 공간의 벡터로 표현됩니다. 각 차원은 특정 단어, 속성 또는 작업을 나타낼 수 있으며 해당 차원의 값은 해당 항목이 얼마나 눈에 띄거나 중요한지를 반영합니다.

코사인 유사성을 계산하려면 다음을 수행하세요.

내적 찾기: 각 벡터의 해당 값을 곱하고 그 결과를 더합니다. 이는 벡터가 방향적으로 얼마나 정렬되어 있는지를 보여줍니다.
크기 계산: 각 벡터의 크기(또는 길이)는 각 성분의 제곱을 더한 후, 그 합의 제곱근을 사용하여 계산합니다.
코사인 유사성 계산: 코사인 유사성은 벡터의 내적(1단계)을 벡터 크기의 곱(2단계)으로 나누어 계산합니다. 결과는 -1과 1 사이의 코사인 유사성 점수입니다.

공식은 다음과 같이 나타낼 수 있습니다.

코사인 유사성 = (A · B) / (||A|| × ||B||)

설명:

A · B는 벡터 A와 B의 내적입니다.
||A||는 벡터 A의 크기(길이)입니다.
||B||는 벡터 B의 크기입니다.

결과 점수는 -1에서 1 사이입니다.

좀 더 설명하자면, "king"과 "queen"이라는 두 단어를 떠올려 보세요.

둘 다 비슷한 맥락에서 사용됩니다. LLM에서 처리될 때, 각 단어는 수백만 개의 문장에서의 사용을 기반으로 의미를 포착하는 벡터 임베딩으로 변환됩니다. "king"과 "queen"은 "royal", "throne", "monarch"와 같은 단어 주변에 자주 등장하기 때문에, 두 단어의 임베딩은 거의 같은 방향을 가리킵니다.

이제 세 번째 단어 "apple"을 생각해 보겠습니다. "apple"은 일부 같은 문서에도 나타날 수 있지만, 주로 "fruit", "orchard", "crisp"와 같은 단어와 더 많이 연관됩니다. 이 벡터는 거의 반대 방향을 가리켜 코사인 유사성이 낮아집니다. 그래프에 표시하면 "king"과 "queen"의 화살표는 거의 나란히 이동하는 반면, "apple"의 화살표는 뚜렷한 각도로 벗어나게 됩니다.

성능을 최적화하고 관련 항목을 더 빠르게 검색하기 위해, 많은 조직은 이러한 임베딩을 벡터 데이터베이스에 저장합니다. 이는 고차원 벡터를 인덱싱해 검색을 개선하고 가장 유사한 결과를 반환하도록 설계된 툴입니다.

코사인 유사성 및 기타 유사성 메트릭 비교

코사인 유사성은 더 넓은 유사성 측정 지표 에코시스템 중 하나일 뿐입니다. 각 지표는 서로 다른 방식으로 유사성을 평가하도록 설계되었으며, 다차원 공간에서 특정 유형의 데이터에 더 적합합니다. 예를 들면 다음과 같습니다.

유클리드 거리

이 지표는 벡터 공간에서 두 점 사이의 직선 거리를 계산합니다. 이는 직관적이며 데이터 분석에서 자주 사용되며, 특히 수치 데이터나 물리적 특성을 비교할 때 활용됩니다. 그러나 벡터가 거리에 따라 수렴하는 경향이 있는 고차원 공간에서는 클러스터 또는 정보 검색과 같은 작업에 대한 유클리드 거리의 신뢰성이 떨어집니다.

자카드 유사성

자카드 유사성은 두 데이터 세트의 교집합 크기를 합집합 크기로 나누어 겹침 정도를 측정합니다. 이는 태그, 클릭, 제품 조회와 같은 범주형 또는 이진 데이터가 포함된 데이터 세트에 흔히 적용되며, 추천 시스템에서 특히 유용합니다. 자카드는 존재 여부에만 집중하며, 빈도나 크기는 고려하지 않습니다.

내적

벡터 A와 B의 내적은 두 벡터가 얼마나 같은 방향을 가리키는지를 반영하지만, 크기를 정규화하지는 않습니다. 이 요소로 인해 확장에 민감합니다. 큰 값을 가진 벡터는 방향이 다르더라도 더 유사하게 나타날 수 있습니다.

코사인 유사성은 벡터의 내적을 벡터 크기의 곱으로 나누어(코사인 유사성 공식) 이 지표를 개선합니다. 따라서 코사인 유사성은 길이가 다른 0이 아닌 벡터를 비교할 때, 특히 고차원 데이터 세트에서 더 안정적입니다.

실제로 조직은 데이터 세트의 구조와 피하고자 하는 비유사성의 유형에 따라 코사인 유사성 측정과 다른 지표를 함께 사용하는 경우가 많습니다.

예를 들어, NLP나 LLM 애플리케이션의 유사성 검색은 종종 딥 러닝 알고리즘으로 학습된 임베딩 모델과 코사인 거리를 결합합니다. 코사인 유사성 계산은 오픈 소스 툴인 Scikit-learn, TensorFlow, PyTorch 등에 통합되어 있어, 데이터 과학자가 대규모 데이터 세트에서 코사인 유사성을 더 쉽게 계산할 수 있습니다.

코사인 유사성의 이점

다양한 시스템에서의 역할을 고려할 때, 코사인 유사성은 기존 유사성 지표에 비해 여러 장점을 제공합니다.

고차원 공간에서의 안정성: 코사인 유사성은 다른 거리 기반 지표가 성능이 저하되는 고차원 환경에서도 안정적으로 작동합니다.

크기에 둔감함: 코사인 유사성은 벡터의 크기를 무시하기 때문에 문서나 데이터 포인트의 크기나 길이가 다른 경우에 특히 유용합니다.

효율적인 구현: 코사인 유사성은 계산 비용이 낮으며 NumPy, SciPy와 같은 널리 사용되는 프로그래밍 언어 라이브러리를 통해 구현할 수 있습니다.

다양한 도메인에 적용 가능: 코사인 유사성은 텍스트 마이닝, 정보 검색, 유사성 검색, 실시간 추천 등 폭넓은 사용 사례를 지원할 만큼 유연합니다.

코사인 유사성 사용의 과제

장점에도 불구하고 코사인 유사성에는 다음과 같은 한계가 있습니다.

영벡터 제한: 하나 또는 두 벡터의 크기가 0일 경우 코사인 유사성은 정의되지 않으므로 영벡터를 제거하는 전처리가 필수입니다.

잘못된 유사성 위험: 코사인 유사성은 방향은 같지만 의미적으로는 관련 없는 벡터에 대해 높은 점수를 낼 수 있으며, 특히 학습이 부실한 임베딩 모델에서 그러합니다. 학습 데이터에 다양성이나 문맥적 뉘앙스가 부족하면 편향된 결과나 잘못된 결과를 초래할 수 있습니다.

정규화 의존성: 모든 입력 벡터가 정규화되어야 하며, 잘못 스케일링된 데이터는 결과를 왜곡할 수 있습니다.

직교성의 모호성: 유사성 점수 0이 현실 세계의 맥락에서 항상 완전한 비유사성을 의미하지는 않습니다. 이는 언어와 같이 미묘한 영역에서 특히 그렇습니다.

코사인 유사성 사용을 위한 실용적인 팁

코사인 유사성에서 최대한의 가치를 얻기 위해 조직은 다음을 고려할 수 있습니다.

데이터 전처리

조직은 계산 전에 벡터를 정규화하여 스케일 일관성과 유효한 결과를 보장할 수 있으며, 특히 고차원 입력을 사용할 때 유용합니다.

0 벡터 제거

기업은 데이터 세트를 정리하여 0 벡터를 제거하거나 표시해야 하며, 그렇지 않으면 코사인 유사성 계산 중 “0으로 나누기” 오류가 발생합니다.

다른 지표와 결합

여러 차원의 유사성이 필요한 경우, 조직은 코사인 유사성을 자카드 유사성, 유클리드 거리와 같은 추가 지표와 결합할 수 있습니다.

실제 환경과 유사한 환경에서 테스트

배포 전에 기업은 코사인 유사성이 실제 조건을 반영한 환경에서 잘 작동하는지 평가해야 하며, 특히 애플리케이션 프로그래밍 인터페이스(API)와 같은 실시간 시스템에서 그렇습니다.

조직은 성숙한 오픈 소스 라이브러리를 활용해 대규모 코사인 유사성 계산을 효율적으로 수행할 수 있습니다. 예를 들어 Scikit-learn은 Python 모듈 경로 sklearn.metrics.pairwise를 통해 바로 사용할 수 있는 코사인 유사성 함수를 제공합니다.

또는 NumPy를 사용해 공식을 Python 코드로 직접 구현할 수도 있습니다.

“cosine_similarity = np.dot(v1, v2) / (np.linalg.norm(v1) * np.linalg.norm(v2))”

화살표와 마찬가지로 코사인 유사성은 조직이 방향을 맞추는 데 도움을 줍니다. 검색 결과를 매칭하거나 데이터 기반 의사 결정을 지원하는 경우 등에서, 코사인 유사성은 강력한 인사이트를 제공하고 다양한 사용 사례에서 경험을 개인화하는 데 도움을 줍니다.

분석을 통해 비즈니스 예측을 개선하기 위한 4단계

강력한 분석 기능과 비즈니스 인텔리전스를 활용하여 회사와 고객에게 가장 큰 이익이 되는 미래 성과를 계획, 예측 및 구체화하세요.

코사인 유사성이란 무엇인가요?

작성자

코사인 유사성이란 무엇인가요?

전문가의 인사이트를 바탕으로 한 최신 기술 뉴스

감사합니다! 구독이 완료되었습니다.

코사인 유사성이 중요한 이유는 무엇인가요?

AI 디코딩: 주간 뉴스 요약

코사인 유사성은 어떻게 작동하나요?

코사인 유사성 및 기타 유사성 메트릭 비교

유클리드 거리

자카드 유사성

내적

코사인 유사성의 이점

코사인 유사성 사용의 과제

코사인 유사성 사용을 위한 실용적인 팁

리소스