AI 지원 데이터란 무엇인가요?

By Alexandra Jonker

AI 지원 데이터 정의

AI 지원 데이터는 조직이 인공 지능(AI) 학습 및 이니셔티브에 자신 있게 사용할 수 있는 고품질의 액세스 가능하고 신뢰할 수 있는 정보입니다.

'쓰레기를 넣으면 쓰레기가 나온다'라는 격언처럼, 잘 준비되고 관리된 데이터는 AI 성공의 기본입니다. 정확하고 완전하며 일관된 데이터는 엔터프라이즈 AI의 성능을 높이고 생산성 향상을 이끕니다. 한편, 잘 관리되고 보호된 데이터를 위한 데이터 전략은 규제 준수를 보장하고 사용자의 프라이버시를 지키는 데 도움이 됩니다.

AI를 기반으로 한 의사 결정이 기업의 경쟁 우위로 자리 잡으면서, 많은 조직이 기존의 전통적인 데이터 관리 관행만으로는 AI 지원 데이터를 확보하기 어렵다는 점을 깨닫고 있습니다. IBM 기업가치연구소(IBV)의 2024년 설문조사에 따르면, 기술 리더 중 29%만이 자사의 기업 데이터가 생성형 AI(gen AI)를 효율적으로 확장하는 데 필요한 품질, 접근성, 보안 표준을 충분히 충족하고 있다는 데 매우 동의했습니다.¹

조직은 AI 도입을 위한 데이터 준비 상태를 달성하고 유지하기 위해, 통합 액세스, 거버넌스, 보안 및 지원과 같은 몇 가지 필수 데이터 관행에 집중할 수 있습니다. 조직은 이러한 기본 요소를 마련함으로써 데이터를 진정한 AI 지원 상태로 만들 수 있으며, 이를 통해 AI를 값비싼 실험에서 기업 가치를 창출하는 강력한 엔진으로 전환할 수 있습니다.

전문가의 인사이트를 바탕으로 한 최신 기술 뉴스

Think 뉴스레터를 통해 AI, 자동화, 데이터 등 가장 중요하고 흥미로운 업계 동향에 대한 최신 소식을 받아보세요. IBM 개인정보 보호정책을 참조하세요.

AI 지원 데이터가 중요한 이유는 무엇일까요?

신뢰할 수 있고 품질이 우수하며 잘 관리된 데이터가 없다면, AI 도구의 결과는 잘해봐야 실망스러운 수준에 그칠 것이며, 최악의 경우에는 부정확하고 편향되거나 개인정보 침해 위험을 초래할 수 있습니다.

AI 지원 데이터는 다음을 통해 AI 기술이 실제 비즈니스 가치와 실행 가능한 인사이트를 제공할 수 있도록 지원합니다.

더 강력한 거버넌스

AI 지원 데이터 세트는 데이터 프라이버시 정책과 데이터 품질 제어 기능을 갖추고 있습니다. 덕분에 거버넌스가 초기 단계부터 모든 프로세스와 데이터 파이프라인에 내재화될 수 있습니다.

모델 성능 향상

깨끗하고 일관되며 라벨이 잘 지정된 데이터는 모델이 오류와 편향을 피할 수 있도록 도와, 전반적인 정확도와 성능을 향상합니다.

더 빠른 AI 개발

확립된 AI 지원 데이터 프로세스는 AI 데이터에 접근하고, 이를 이해하고 준비하는 데 드는 시간을 줄여줌으로써 AI 솔루션 개발 과정을 간소화합니다.

향후 프로젝트를 위한 확장성

올바르게 준비되고 관리된 AI 지원 데이터는 상호 운용이 가능하고 재사용 가능한 자산으로, 팀이 새로운 병렬 AI 프로젝트에 여러 번 활용할 수 있습니다.

AI 아카데미

데이터 관리가 생성형 AI 구현의 비결일까요?

생성형 AI를 성공적으로 사용하기 위해 고품질 데이터가 필수적인 이유를 알아보세요.

에피소드로 이동

AI 준비를 가로막는 일반적인 데이터 장벽

AI 이니셔티브를 통해 ROI를 실현하는 데 어려움을 겪고 있는 조직은 대개 진정한 AI 준비성을 확보하는 과정에서 데이터와 관련된 심각한 장벽에 직면하곤 합니다. 이러한 장벽은 다음과 같습니다.

데이터의 무분별한 확산 및 파편화
열악한 데이터 품질
운영상의 병목 현상 및 기술 격차
보안 및 거버넌스 위험

데이터의 무분별한 확산 및 파편화

데이터 사일로는 현대 데이터 에코시스템의 고질적인 병폐입니다 사일로의 확산은 조직의 구조와 문화부터 IT 시스템의 복잡성, 규제 제약에 이르기까지 여러 요인 때문에 발생합니다. 이러한 데이터 파편화는 일상적인 업무 운영은 물론, AI와 같은 전략적 이니셔티브를 가로막는 장벽을 형성합니다.

연결되지 않은 데이터는 본질적으로 비효율적이며 구조화되지 않은 경우가 많으므로, 효과적인 데이터 준비 및 사용을 위해 추가적인 단계가 필요합니다. 조직 전체에 일관성이 없으며 규제 요건 및 개인정보 보호정책에 따라 관리하기가 더 어렵습니다. 이러한 문제로 인해 AI 지원 데이터의 액세스 및 준비 속도가 크게 느려져 AI 프로그램의 비용과 복잡성이 증가할 가능성이 있습니다.

낮은 데이터 품질

데이터 품질 저하의 원인은 다양합니다. 데이터 사일로와 파편화는 한 가지 예일 뿐이며, 그 외 일반적인 원인으로는 일관성 없는 데이터 품질 관리 관행, 노후화된 시스템 및 아키텍처, 통합 문제 등이 있습니다. 이러한 여러 요인이 복합적으로 작용하는 경우가 많습니다.

가장 발전된 AI 모델도 데이터 품질 저하의 영향을 받아 신뢰할 수 없고 부정확하며 편향 가능성이 있는 아웃풋이 발생할 수 있습니다. 이로 인해 AI 프로젝트 실패로 인한 재정적 손실, 편향된 결정으로 인한 평판 손상, AI의 전반적인 가치에 대한 신뢰 감소 등 심각한 결과가 발생할 수 있습니다.

운영상의 병목 현상 및 기술 격차

AI를 구현하는 데 있어 인간의 전문성은 여전히 매우 중요합니다. 하지만 AI와 신기술이 급격히 발전하면서 직무 역할이 바뀌고 있으며, AI 기술 격차는 더욱 벌어지고 있습니다. 많은 조직이 직원 교육과 역량 강화에 뒤처지고 있는데, 이는 대개 비효율적인 교육 방식, 예산 한계, 또는 적절한 도구와 데이터에 대한 접근성 부족 때문입니다.

적절한 기술 인재가 없으면 기존 데이터 팀은 어려움을 겪을 수 있습니다. 이들은 복잡하고 사일로화된 데이터 환경을 관리하는 동시에 중요한 프로젝트에 AI 지원 데이터를 신속하게 제공해야 한다는 압박을 받고 있습니다.

IBM SkillsBuild와 함께 핵심 데이터 역량을 키워 보세요. 지금 무료로 학습을 시작하실 수 있습니다.

보안 및 거버넌스 위험

데이터 파편화와 복잡성으로 인해, 보호되는 민감한 데이터가 사업부, 데이터 플랫폼, 저장소에 분산되어 있는 경우가 많다는 현실이 나타납니다. 이러한 데이터 스프롤로 인해 규정 준수, 액세스 제어, 신뢰에 대한 우려가 제기됩니다.

적절한 보안 및 거버넌스 없이 엔터프라이즈 AI를 확장하면 위험과 규제 복잡성에 노출될 가능성이 높아집니다. 이러한 장벽을 인지하고 있지만, 해결책을 찾지 못해 고군분투하는 조직은 AI 프로젝트가 교착 상태에 빠지는 상황을 겪을 수 있습니다. 이를 인지하지 못하는 조직의 경우, AI를 발전시키고 확장할수록 위험은 더욱 커집니다.

비정형 데이터 및 AI 준비

최신 AI(특히 생성형 AI)는 실제 가치를 제공하기 위해 대량의 데이터에 의존합니다. 다행히 데이터 생성은 대기업에만 국한되지 않습니다. 모든 규모의 조직이 웹사이트, 소셜 미디어, 내부 시스템, 고객 상호 작용을 통해 매년 상당한 양의 데이터를 생성합니다.

그러나 대부분의 조직은 데이터를 제대로 활용하지 못하고 있습니다. 추정치에 따르면 전통적인 대규모 언어 모델(LLM)에 활용되는 기업 데이터는 고작 1% 안팎에 불과한 것으로 나타났습니다.²

이렇게 가치 있는 AI 연료를 내버려두는 이유는 무엇일까요? 대부분의 엔터프라이즈 데이터는 구조화되지 않았기 때문입니다. 사전 정의된 형식이 없으며 PDF, 소셜 미디어 게시물, 이미지, 인스턴트 메시지, 이메일과 같은 다양한 데이터 소스에서 가져옵니다. 이러한 비정형 데이터 중 AI가 직접 사용할 수 있는 형식으로 되어 있는 데이터는 1% 미만입니다.³ 다시 말해, 기업 데이터의 대다수는 AI 지원 상태가 아닙니다.

정형 데이터의 가치도 여전히 매우 크지만, 다양하고 유연하며 풍부한 인사이트를 담고 있는 비정형 데이터의 잠재력을 활용하지 못하는 것은 전략적 실책이자 엔터프라이즈 AI를 확장하는 데 큰 장벽이 됩니다.

이러한 어려움은 암울한 AI 성과로 고스란히 나타나고 있습니다. IBM 기업가치연구소(IBV)의 2025년 CEO 연구에 따르면, 엔터프라이즈 규모에 도달한 AI 이니셔티브는 16%에 불과합니다.

지금은 기업에게 매우 중요한 순간입니다. AI 이니셔티브의 성패는 정형 데이터와 비정형 데이터 모두를 포함해, 조직이 고품질의 데이터를 AI에 맞게 얼마나 효과적으로 관리하고 준비하느냐에 달려 있습니다.

무엇이 데이터를 AI 지원 상태로 만들까요?

다음과 같은 특성을 구현하는 데이터는 신뢰할 수 있고 안정적이며 가치 있는 AI 사용 사례를 지원할 수 있습니다.

통합 및 접근성
거버넌스
보안
지원

통합 및 접근성

AI는 접근할 수 없는 데이터에 기반해 동작할 수 없습니다. AI 준비를 위한 첫 번째 필수 단계는 기업 데이터에 대한 통합 액세스를 구축하는 것입니다. 즉, 사일로를 허물고 데이터베이스, 데이터 레이크, 애플리케이션, 문서 저장소에 분산된 정보에 대해 관리가 가능한 단일 보기를 만들어야 합니다.

접근이 확대될수록 AI가 제공할 수 있는 데이터 기반 인사이트와 가치가 커집니다. 이를 통해 AI는 단순한 내부 답변을 제공하는 수준을 넘어, 고객 경험을 개선하거나 운영 효율성을 높이는 단계로 나아갈 수 있습니다.

또한 통합 데이터 접근 방식은 고립된 데이터를 재사용할 수 있는 자산으로 변환하여 작업하기 쉽고 비용 효율적입니다. 또한 다양한 워크로드를 지원하고 규모의 경제를 실현함으로써 데이터를 기업의 전략적 리소스로 전환합니다.

데이터 통합과 데이터 패브릭 아키텍처 같은 기술이 이러한 통합 접근을 가능하게 만듭니다.

데이터 통합은 하이브리드 및 멀티클라우드 환경의 데이터를 AI 사용 사례에 맞춰 일관된 통합 형식으로 변환하고 조율합니다. 실시간 데이터 통합은 특히 AI 및 자동화 사용 사례를 지원합니다.

데이터 패브릭은 모든 엔터프라이즈 데이터를 물리적으로 이동시키지 않고도 가상의 통합된 형태로 볼 수 있도록 합니다. 데이터 카탈로그, 연합 메타데이터, 데이터 통합, 가상화, 머신 러닝과 같은 기능을 결합하여, 사용자가 AI 지원 데이터를 빠르게 찾아내고 접근하며 활용할 수 있도록 지원합니다.

관리

효과적인 데이터 거버넌스는 명확한 정책과 프로세스, 표준을 통해 데이터 무결성, 보안, 품질, 접근성을 확보하는 데 기여합니다. 강력한 거버넌스 기반은 엔터프라이즈 데이터를 신뢰할 수 있는 고품질의 AI 지원 자산으로 변환하며, 이는 책임감 있는 AI 개발에 필수입니다.

데이터 개인정보 보호법 및 AI 관련 규정은 빠르게 진화하고 있으며, 상세한 모델 문서화가 필요한 경우가 많습니다. 여기에는 데이터 프로버넌스, 계보, 목적 적합성에 대한 정보가 포함되며,규정 미준수 시 엄중한 처벌을 받게 됩니다. 예를 들어, EU AI 법에 따르면 위반 사항에 따라 최대 3,500만 유로 또는 기업의 전 세계 연간 매출액의 7%에 달하는 벌금이 부과될 수 있습니다.

편향성과 정확도 문제에 대한 우려 역시 갈수록 커지고 있으며, 설문조사에 참여한 CEO 중 절반 가까이가 이러한 위험을 우려하고 있습니다. 의료나 금융처럼 AI가 중대한 결정에 영향을 미칠 수 있는 고위험 분야에서는, 공정성과 신뢰를 지키기 위해 강력한 데이터 거버넌스가 무엇보다 중요합니다.

강력한 거버넌스 프레임워크는 다음과 같은 조치를 통해 이러한 위험을 완화하고 고품질의 데이터를 확보할 수 있도록 지원합니다.

데이터 프라이버시 및 규제 준수를 뒷받침하는 접근 권한 제어, 문서 리니지 및 사용 가이드라인
AI 라이프사이클 전반에 걸쳐 명확하고 시행 가능한 표준과 공정하고 정확한 데이터 관행을 위한 자동화된 편향성 탐지 도구
데이터의 정확성, 정결성, 적시성을 보장하는데이터 정제, 데이터 유효성 검사, 데이터 관측성 솔루션
설명적, 구조적, 관리적 메타데이터로 데이터 세트를 분류하여, AI 모델이 정확하고 관련성 높은 정보로 학습되도록 하는메타데이터 관리 툴

보안

데이터 보안은 광범위한 거버넌스의 일부로 간주되는 경우가 많지만, AI 지원 데이터에 대해서는 데이터 보안에 특별히 집중할 필요가 있습니다. 생성형 AI는 데이터 유출 및 프롬프트 인젝션 공격과 같은 새로운 데이터 보안 문제를 야기하므로 사전 예방이 필요합니다.

단 한 번의 보안 침해로 조직의 수익이 크게 악화될 수 있습니다. IBM의 2025년 데이터 유출 비용(CODB) 보고서에 따르면 전 세계 평균 데이터 유출 비용은 440만 달러에 달했습니다.

수집 및 준비부터 학습 및 폐기에 이르기까지, AI의 라이프사이클 전반에 걸쳐 조직이 데이터를 안전하게 유지하려면 데이터 보안의 세 가지 핵심 원칙인 검색, 보호, 모니터링을 고려해야 합니다.

감지

무엇인지 알지 못하는 것을 보호할 수는 없습니다. 탐색 및 분류 프로세스는 조직이 민감한 데이터를 식별하고, 유형과 민감도, 위험 수준에 따라 적절한 태그를 지정할 수 있도록 지원합니다. 이러한 가시성은 책임감 있는 데이터 사용과 데이터 프라이버시 규정 준수를 지원합니다.

보호

강력한 보호 조치는 데이터를 안전하게 지키고 데이터의 가용성을 확보하는 데 기여합니다. 이러한 관행에는 방화벽, 암호화, 엔드포인트 보안, 데이터 백업, 비즈니스 연속성 및 재해 복구(BCDR) 계획, 서비스형 재해 복구(DRaaS)와 같은 서비스가 포함됩니다.

모니터링

지속적인 AI 기반 모니터링은 엔터프라이즈 데이터 활동에 대한 종합적인 보기를 제공합니다. 모니터링 플랫폼은 이러한 데이터 활동을 분석함으로써 비정상적인 행동이나 패턴을 조기에 감지하고 플래그를 지정하여 데이터 오용을 방지하도록 지원합니다.

지원

AI 지원 데이터는 그 자체로는 가치가 없습니다. 적절한 인적 역량과 데이터 인프라가 뒷받침될 때만 실질적인 성과로 이어질 수 있습니다.

AI 시스템을 성공적으로 도입하고 확장하려면, 각 부서의 팀에 다양한 수준의 교육과 역량 재교육이 필요합니다. 직원은 AI의 개념과 워크플로, 의사 결정 방식, 책임감 있는 사용법에 대한 기초적인 이해를 키워야 합니다.

모두가 데이터 과학자가 될 필요는 없지만, 데이터 리터러시와 데이터 민주화 문화는 사람들이 자신 있게 AI 애플리케이션을 사용하고 데이터에 기반한 의사 결정을 내릴 수 있도록 지원합니다. 또한, AI 윤리 및 편향 식별 교육을 통해 신뢰할 수 있는 AI의 거버넌스를 강화할 수 있습니다.

조직은 데이터 스토리지 인프라가 AI 워크로드의 성능 및 용량 요구 사항을 충족할 준비가 되어 있는지 여부도 고려해야 합니다. 특히 LLM에는 여러 환경에 걸쳐 상당한 큰 스토리지 리소스가 필요합니다. 오늘날 많은 조직에서 이러한 요구를 충족하기 위해, 클라우드 오브젝트 스토리지, 플래시 스토리지 및 데이터 레이크, 웨어하우스, 레이크하우스와 같은 스토리지 솔루션을 채택하고 있습니다.

작성자

Alexandra Jonker

Staff Editor

IBM Think