콘텐츠 기반 필터링이란 무엇인가요?

작성자

Jacob Murel Ph.D.

Senior Technical Content Creator

Business Development + Partnerships

IBM Research

콘텐츠 기반 필터링이란 무엇인가요?

콘텐츠 기반 필터링은 추천 시스템의 두 가지 주요 유형 중 하나입니다. 개별 항목의 특징에 따라 사용자에게 항목을 추천합니다.

콘텐츠 기반 필터링은 항목 기능을 사용하여 사용자의 쿼리와 관련된 항목을 선택하여 반환하는 정보 검색 방법입니다. 이 방법은 사용자가 관심을 표현하는 다른 항목의 기능을 고려하는 경우가 많습니다.¹그러나 내용 기반은 약간 잘못된 이름입니다. 일부 콘텐츠 기반 추천 알고리즘은 항목의 실제 콘텐츠가 아닌 항목에 첨부된 설명 기능(예: 메타데이터)에 따라 항목을 일치시킵니다.² 그럼에도 불구하고 콘텐츠 기반 이미지 검색이나 자연어 처리 애플리케이션과 같은 여러 콘텐츠 기반 방법은 내재적인 항목 속성에 따라 항목을 일치시킵니다.

콘텐츠 기반 필터링 대 협업 필터링

콘텐츠 기반 필터링은 추천 시스템의 두 가지 주요 유형 중 하나입니다. 다른 하나는 협업 필터링 방법입니다. 이 후자의 접근 방식은 사용자를 행동에 따라 고유한 그룹으로 그룹화합니다. 일반적인 그룹 특성을 사용하여 유사한 사용자(행동 측면에서)가 유사한 항목에 관심이 있다는 원칙에 따라 특정 항목을 전체 그룹에 반환합니다.³

두 가지 방법 모두 최근 몇 년 동안 아마존과 같은 전자상거래부터 소셜 미디어, 스트리밍 서비스에 이르기까지 많은 실제 적용 사례를 목격했습니다. 협업 시스템과 콘텐츠 기반 시스템이 함께 하이브리드 추천 시스템을 구성합니다. 실제로 2009년 Netflix는 Netflix 상금 대회를 통해 하이브리드 추천 시스템을 도입했습니다.

전문가가 전하는 최신 AI 트렌드

가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.

콘텐츠 기반 필터링의 작동 방식

콘텐츠 기반 추천 시스템(CBRS)은 기계 학습 알고리즘과 데이터 과학 기술을 통합하여 새 항목을 추천하고 쿼리에 답변합니다.

콘텐츠 기반 필터링의 구성 요소

CBRS에서 추천 엔진은 기본적으로 사용자 프로필과 항목 프로필을 비교하여 사용자-항목 상호 작용을 예측하고 그에 따라 항목을 추천합니다.

항목 프로필은 시스템에서 항목을 표현하는 방식입니다. 이는 항목의 기능 집합으로 구성되는데, 이는 내부적으로 구조화된 특성이나 설명적 메타데이터일 수 있습니다. 예를 들어, 스트리밍 서비스는 영화를 장르, 개봉일, 감독 등에 따라 저장할 수 있습니다.
사용자 프로필은 사용자 기본 설정 및 동작을 나타냅니다. 사용자가 이전에 관심을 보인 항목의 표현으로 구성될 수 있습니다. 또한 시스템과의 과거 상호 작용에 대한 사용자 데이터(예: 사용자 좋아요, 싫어요, 평점, 쿼리 등)로 구성됩니다.⁴

항목 표현

CBRS는 종종 항목과 사용자를 벡터 공간의 임베딩으로 나타냅니다. 항목은 메타데이터 설명 또는 내부 특성을 특성으로 사용하여 벡터로 변환됩니다. 예를 들어 온라인 서점의 일환으로 사용자에게 새 소설을 추천하기 위해 항목 프로필을 구축한다고 가정해 보겠습니다. 그런 다음 작가, 장르 등과 같은 대표적인 메타데이터를 사용하여 각 소설에 대한 프로필을 만듭니다. 주어진 범주에 대한 소설의 값은 부울 값으로 나타낼 수 있으며, 여기서 1은 해당 Categories에 소설이 있음을 나타내고 0은 소설이 없음을 나타냅니다. 이 시스템을 사용하면 장르에 따라 소수의 소설을 표현할 수 있습니다.

여기서 각 장르는 벡터 공간의 다른 차원이며, 주어진 소설의 값은 해당 벡터 공간에서의 위치를 나타냅니다. 예를 들어 '작은 아씨들'은 (1,0,1), '노생거 수도원'은 (0,0,1) 등이다. 이 샘플 벡터 공간을 다음과 같이 시각화할 수 있습니다.

두 개의 새로운 벡터가 벡터 공간에서 더 가까울수록, 시스템은 제공된 특징에 따라 두 벡터를 더 유사한 것으로 간주합니다.⁵ '피터팬'과 '보물섬'은 정확히 동일한 특징을 공유하며 동일한 벡터 포인트 (1,1,0)에 나타납니다. 따라서 시스템에 따르면 둘은 동일합니다. 실제로, 두 영화는 많은 플롯 장치(예: 고립된 섬과 해적)와 주제(예: 성장 또는 그에 대한 저항)를 공유합니다. 반면, '작은 아씨들' 역시 아동 소설이지만, 모험이 아닌 빌둥스로망(성장 소설)입니다. '작은 아씨들'은 '피터팬'이나 '보물섬'과 같은 아동 소설이지만, 모험이라는 특징값이 부족하고, 후자의 두 작품에는 없는 빌둥스로망의 특징값 1을 가지고 있습니다. 따라서 '작은 아씨들'은 모험 및 빌둥스로만이라는 특징의 동일한 특징값을 공유하므로 벡터 공간에서 '노생거 사원'에 더 가깝게 배치됩니다.

이 공간에서의 유사성으로 인해 사용자가 이전에 Peter Pan을 구매한 적이 있는 경우 시스템은 Treasure Island와 같이 Peter Pan과 가장 가까운 소설을 잠재적인 향후 구매로 해당 사용자에게 추천합니다. 더 많은 소설과 장르 기반 기능(예: 판타지, 고딕 등)을 추가하면 벡터 공간의 소설 위치가 이동합니다. 예를 들어, 판타지 장르 차원을 추가하는 경우 Peter Pan과 Treasure Island는 전자는 종종 판타지로 간주되는 반면 후자는 그렇지 않다는 점을 감안할 때 다른 장르에서 약간 이동할 수 있습니다.

항목 벡터는 항목의 내부 특성을 기능으로 사용하여 만들 수도 있습니다. 예를 들어, 원시 텍스트 항목(예: 뉴스 기사)을 구조화된 형식으로 변환하고 이를 "Bag of words 모델"과 같은 벡터 공간에 매핑할 수 있습니다. 이 접근 방식에서는 말뭉치 전체에서 사용되는 각 단어가 벡터 공간의 다른 차원이 되고 유사한 키워드를 사용하는 아티클은 벡터 공간에서 서로 더 가깝게 표시됩니다.

유사도 지표

콘텐츠 기반 필터링 시스템은 여러 항목 간의 유사성을 어떻게 결정할까요? 앞서 언급했듯이 벡터 공간에서의 근접성이 주요 방법입니다. 그러나 근접성을 결정하는 데 사용되는 구체적인 메트릭은 다를 수 있습니다. 일반적인 메트릭은 다음과 같습니다.

코사인 유사도는 두 벡터 사이의 각도를 측정하는 것을 의미합니다. -1과 1 사이의 모든 값일 수 있습니다. 코사인 점수가 높을수록 두 항목이 더 유사한 것으로 간주됩니다. 일부 출처에서는 고차원 특징 공간에 이 지표를 권장합니다. 코사인 유사성은 다음 공식으로 표시되며, 여기서 x 와 y는 벡터 공간에서 두 개의 항목 벡터를 나타냅니다.⁷

유클리드 거리(Euclidean distance)는 두 벡터 포인트를 연결하는 가상의 선분의 길이를 측정합니다. 유클리드 거리 점수는 0까지 낮을 수 없으며 상한선이 없습니다. 두 항목-벡터의 유클리드 거리가 작을수록 더 유사한 것으로 간주됩니다. 유클리드 거리는 다음 공식으로 계산되며, 여기서 x와 y는 두 개의 항목-벡터를 나타냅니다.⁸

도트 곱은 정의된 원점에서 두 벡터와 각 벡터 사이의 각도의 코사인과 각 벡터의 유클리드 크기를 곱한 값입니다. 즉, 두 벡터의 코사인에 각 벡터의 투영된 길이를 곱한 값으로, (0,0)과 같이 정의된 원점으로부터 벡터의 변위입니다. 도트 제품은 책이나 영화의 인기도와 같이 크기가 현저하게 다른 항목을 비교하는 데 가장 적합합니다. 이 공식으로 표시되며, 여기서 d와 q는 다시 두 개의 항목 벡터를 나타냅니다.⁹

이러한 메트릭은 서로 다른 가중치가 이러한 점수 매기기 함수에 큰 영향을 미칠 수 있으므로 비교된 벡터에 가중치가 부여되는 방식에 민감합니다.¹⁰ 벡터 유사성을 결정하기 위한 다른 가능한 메트릭으로는 Pearson 상관 계수(또는 Pearson의 상관 관계)와 Jaccard 유사성 및 주사위 지수가 있습니다.¹¹

사용자-항목 상호 작용 예측

CBRS는 사용자 기반 분류기 또는 회귀 모델을 생성하여 특정 사용자에게 항목을 추천합니다. 알고리즘은 먼저 특정 사용자가 이전에 관심을 보인 항목의 설명과 특징, 즉 사용자 프로필을 가져옵니다. 이러한 항목은 해당 사용자와 관련된 분류 또는 회귀 모델을 만드는 데 사용되는 학습 데이터 세트를 구성합니다. 이 모델에서 항목 속성은 독립 변수이며, 종속 변수는 사용자 행동(예: 사용자 평점, 좋아요, 구매 등)입니다. 이러한 과거 행동에 대해 학습된 모델은 가능한 항목에 대해 사용자의 미래 행동을 예측하고, 예측에 따라 항목을 추천하는 것을 목표로 합니다.¹²

콘텐츠 기반 필터링의 장단점

장점

콜드 스타트 문제는 기본적으로 시스템이 새 사용자 또는 새 항목을 처리하는 방법으로 구성됩니다. 둘 다 협업 필터링에서 문제를 일으키는데, 이는 추론된 동작 및 선호도의 유사성에 따라 사용자를 그룹화하여 항목을 추천하기 때문입니다. 그러나 새 사용자는 다른 사용자와 유사성이 입증되지 않았으며 새 항목에는 추천을 위한 충분한 사용자 상호 작용(예: 등급)이 없습니다. 콘텐츠 기반 필터링은 새로운 사용자에게 어려움을 겪지만 그럼에도 불구하고 새 항목 통합을 능숙하게 처리합니다. 이는 과거 사용자 상호 작용이 아닌 내부 또는 메타데이터 특성을 기반으로 항목을 추천하기 때문입니다.¹³

콘텐츠 기반 필터링은 권장 사항을 설명하는 해석 가능한 기능을 제공하여 투명성을 높일 수 있습니다. 예를 들어, 영화 추천 시스템은 장르 또는 배우가 이전에 본 영화와 겹치는 것과 같이 특정 영화가 추천되는 이유를 설명할 수 있습니다. 따라서 사용자는 추천 영화를 시청할지 여부에 대해 보다 정보에 입각한 결정을 내릴 수 있습니다.¹⁴

단점

콘텐츠 기반 필터링의 가장 큰 단점 중 하나는 기능 제한입니다. 콘텐츠 기반 추천은 항목을 설명하는 데 사용된 기능에서만 파생됩니다. 하지만 시스템의 항목 기능은 사용자가 좋아하는 것을 포착하지 못할 수도 있습니다. 예를 들어, 영화 추천 시스템의 예로 돌아가서 사용자가 1944년 개봉한 영화 Gaslight을 보고 '좋아요'를 누른다고 가정해 보겠습니다. CBRS는 조지 쿠코르가 감독하거나 잉그리드 버그만이 주연한 다른 영화를 추천할 수 있지만, 이러한 영화는 Gaslight와 유사하지 않을 수 있습니다. 사용자가 항목 프로필에 표시되지 않은 특정 플롯 장치(예: 기만적인 남편) 또는 제작 요소(예: 촬영 감독)를 선호하는 경우 시스템은 적절한 추천을 제시하지 않습니다. 사용자가 잠재적으로 좋아하는 것과 싫어하는 것을 정확하게 구별하는 것은 불충분한 데이터로는 달성할 수 없습니다.¹⁵

콘텐츠 기반 필터링은 사용자의 이전에 입증된 관심사만을 기반으로 항목을 추천하기 때문에 추천 항목은 사용자가 과거에 좋아했던 항목과 유사한 경우가 많습니다. 다시 말해, CBRS에는 새롭고 예측 불가능한 것을 탐색할 수 있는 방법론이 부족합니다. 이는 과도한 전문화입니다. 반면, 협업 기반 방법은 특정 사용자와 비슷한 좋아요를 가진 사용자 풀에서 추천을 가져오기 때문에 사용자가 고려하지 않았을 수 있는 항목을 추천하거나, 사용자가 이전에 좋아요를 누른 항목과 다른 기능을 가지고 표시되지만 사용자 유형에 어필할 수 있는 일부 대표되지 않은 요소를 유지할 수 있습니다.¹⁶

Mixture of Experts | 12월 12일, 에피소드 85

AI 디코딩: 주간 뉴스 요약

세계적인 수준의 엔지니어, 연구원, 제품 리더 등으로 구성된 패널과 함께 불필요한 AI 잡음을 차단하고 실질적인 AI 최신 소식과 인사이트를 확인해 보세요.

Mixture of Experts의 모든 에피소드 보기

최근 연구

과거의 연구에서는 추천을 예측 또는 분류 문제로 접근했지만, 최근의 실질적인 연구들은 추천을 순차적인 의사 결정 문제로 이해해야 한다고 주장합니다. 이 패러다임에서는 강화 학습이 추천을 처리하는 데 더 적합할 수 있습니다. 이 접근 방식은 권장 사항이 사용자-항목 상호 작용에 따라 실시간으로 업데이트되어야 한다고 주장합니다. 사용자가 제안된 항목을 건너뛰고, 클릭하고, 평가하고, 구매하면 모델은 새 항목을 추천하기 위해 이 피드백에서 최적의 정책을 개발합니다.¹⁷ 최근 연구에서는 콘텐츠 기반 필터링과 협업 필터링 모두에 문제를 제기하는 변경 가능하고 장기적인 사용자 관심사를 해결하기 위해 다양한 강화 학습 애플리케이션을 제안합니다.¹⁸

과장된 기대를 넘어 — AI 어시스턴트가 실제 비즈니스 가치를 창출하는 방법

AI 어시스턴트의 주요 활용 사례를 살펴보고, 생성형 AI와 자동화 기술이 비즈니스에 미칠 수 있는 잠재적 영향을 이해하며, 이를 시작하는 방법을 알아보세요.

과대 광고 그 이상 - AI 어시스턴트가 실제 비즈니스 가치를 창출하는 방법

보고서를 읽고 AI 어시스턴트를 활용하는 주요 사용 사례를 살펴보고, 생성형 AI 및 자동화 기술이 비즈니스에 미치는 잠재적 영향을 이해하고, 시작하는 방법을 알아보세요.

리소스

IBM Granite 살펴보기

IBM® Granite는 비즈니스에 맞게 맞춤화되고 AI 애플리케이션 확장에 최적화되었으며 개방적이고 성능이 뛰어나며 신뢰할 수 있는 AI 모델 제품군입니다. 언어, 코드, 시계열 및 가드레일 옵션을 살펴보세요.

NLP 초보자 가이드

자연어 처리(NLP)를 통해 컴퓨터와 보다 자연스럽게 대화하는 방법을 알아보세요.

IBM, 데이터 과학 및 머신 러닝 부문 리더로 선정

IBM이 2025년 Gartner Magic Quadrant 데이터 과학 및 머신 러닝 플랫폼 부문에서 리더로 선정된 이유를 알아보세요.

생성형 AI 실습

실습, 강좌, 가이드 프로젝트, 평가판 등을 통해 기본 개념을 배우고 기술을 쌓으세요.

각주

¹ Prem Melville 및 Vikas Sindhwani, "Recommender Systems," Encyclopedia of Machine learning and Data Mining, Springer, 2017년.

² Aggarwal, C. "Recommender Systems: The Textbook", Springer, 2016년.

³ Sarwat, M. 및 Mokbel, M. "Collaborative Filtering", Encyclopedia of Database Systems, Springer, 2018년.
Sarwat, M. 및 Mokbel, M. "Collaborative Filtering", Encyclopedia of Machine Learning and Data Mining, Springer, 2017년.

^4, 6 Pazzani, M.J. 및 Billsus, D. "Content-Based Recommendation Systems", The Adaptive Web: Methods and Strategies of Web Personalization, Springer, 2007년.

⁵ Negre, E. "Information and Recommender Systems", Vol. 4, Wiley-ISTE, 2015년.

^7, 11 Negre, E. "Information and Recommender Systems", Vol. 4, Wiley-ISTE, 2015년.
Mohanty, S. N. 외. "Recommender System with Machine Learning and Artificial Intelligence", Wiley-Scrivener, 2020년.

⁸ Banik, R. "Hands-On Recommendation Systems with Python", Packt Publishing, 2018년.
Negre, E. "Information and Recommender Systems", Vol. 4, Wiley-ISTE, 2015년.

⁹ Kuhn, M. 및 Johnson, K. "Applied Predictive Modeling", Springer, 2016년.

¹⁰ Mei, Q. 및 Radev, D. "Information Retrieval", Oxford Handbook of Computational Linguistics, 2판, Oxford University Press, 2016년.

¹² Aggarwal, C. "Recommender Systems: The Textbook", Springer, 2016년.
Ricci, F., Rokach, L. 및 Shapira, B. "Recommender Systems Handbook", 3판, Springer 2022년.

¹³ Aggarwal, C. "Recommender Systems: The Textbook", Springer, 2016년.
Goodfellow, I., Bengio, Y. 및 Courville, A. "Deep Learning", MIT Press, 2016년.

^{14, 16} Mohanty, SN 외. "Recommender System with Machine Learning and Artificial Intelligence", Wiley-Scrivener, 2020년.
Aggarwal, C. "Recommender Systems: The Textbook", Springer, 2016년.

¹⁵ Han, J. Kamber, M. 및 Pei, J. "Data Mining: Concepts and Techniques", 3판, Elsevier, 2012년.
Mohanty, S. N. 외. "Recommender System with Machine Learning and Artificial Intelligence", Wiley-Scrivener, 2020년.

¹⁷ Shani, G., Heckerman, D. 및 Brafman, R. I. "An MDP-Based Recommender System", 2005년.
Lin, Y. 외. "A Survey on Reinforcement Learning for Recommender Systems", 2023년.
M.M. Afsar 외. "Reinforcement learning based recommender systems: A survey", ACM Computing Surveys, 2023년.

¹⁸ Chen, X. 외. "Generative Adversarial User Model for Reinforcement Learning Based Recommendation System", 2019년.
Huang, L. 외. "A deep reinforcement learning based long-term recommender system", 2021년

콘텐츠 기반 필터링이란 무엇인가요?

콘텐츠 기반 필터링이란 무엇인가요?

콘텐츠 기반 필터링 대 협업 필터링

전문가가 전하는 최신 AI 트렌드

감사합니다! 구독이 완료되었습니다.

콘텐츠 기반 필터링의 작동 방식

콘텐츠 기반 필터링의 구성 요소

항목 표현

유사도 지표

사용자-항목 상호 작용 예측

콘텐츠 기반 필터링의 장단점

장점

단점

AI 디코딩: 주간 뉴스 요약

최근 연구

리소스

각주