데이터 공유란 무엇인가요?

작고 다채로운 개인 사무실

작성자

Tim Mucci

IBM Writer

Gather

데이터 공유란 무엇인가요?

데이터 공유는 조직의 데이터 리소스를 여러 애플리케이션, 사용자 및 다른 조직에서 사용할 수 있도록 하는 프로세스입니다. 효과적인 데이터 공유에는 데이터 무결성을 손상시키지 않으면서 여러 엔티티가 안전하게 액세스할 수 있도록 하는 기술, 관행, 법적 프레임워크, 조직적 노력이 필요합니다.

빅데이터 분석을 도입한 조직은 데이터를 포트폴리오의 귀중한 전략적 자산으로 인식합니다. 이 데이터는 소프트웨어 애플리케이션에서 파생된 메트릭, 고객 행동 데이터, 가전제품 및 센서의 사물인터넷(IoT) 신호 등 다양한 소스에서 제공됩니다.

데이터를 도서관에 있는 책이라고 생각하세요. 데이터 공유는 조직의 모든 사람이 필요할 때 책을 읽고 빌릴 수 있는 도서관 카드를 가지고 있는 것과 비슷합니다. 데이터를 공유하지 않으면 각 부서가 자체 라이브러리를 만들고 유지해야 하기 때문에 정보가 중복되고, 오래되고, 리소스가 좁아질 수 있습니다.

데이터를 공유하는 조직은 파트너와 더 효과적으로 협업하고, 새로운 비즈니스 기회를 구축하고, 새로운 파트너십을 형성하고, 데이터 제품 및 기타 수익 창출을 통해 수익원을 창출할 수 있습니다. 그러나 데이터 공유를 위해서는 라이프사이클 전반에 걸쳐 공유 데이터의 무결성과 신뢰성을 유지하기 위한 노력이 필요하며, 이를 통해 데이터가 신뢰할 수 있고 일관성 있으며 정확한 분석에 유용하게 유지되도록 해야 합니다. 성공적인 데이터 공유를 통해 이해관계자는 조직 안팎에서 방대한 양의 데이터를 분석하여 가치 있는 관점을 얻고, 새로운 서비스와 기술을 개발하고, 향후 트렌드에 대비할 수 있습니다.

트랙에서 굴러가는 공의 3D 디자인

최신 AI 뉴스+인사이트


주간 Think 뉴스레터에서 전문가들이 선별한 AI, 클라우드 등에 관한 인사이트와 소식을 살펴보세요. 

조직을 위한 데이터 공유의 가치

조직은 인터넷이 발명되기 훨씬 전부터 데이터를 공유해 왔지만, 디지털 리터러시, 기술 및 클라우드 채택의 발전으로 인해 전 세계적으로 실시간 데이터 공유가 가능해졌습니다. 데이터 스토리지 및 전송 기술은 그 어느 때보다 가용성이 높고 저렴합니다. 그 결과, 데이터 공유와 관련된 위험을 줄이기 위해 정책 및 규정이 발전했습니다. 데이터 공유는 단순히 분석 및 수익 창출을 위한 액세스를 허용하는 것을 넘어 사업부와 외부 파트너 간의 장벽을 허무는 역할을 합니다. 서로 다른 팀이 독립적으로 또는 서로 협력하여 작업할 수 있으며, 각 팀은 동일한 최신 데이터 소스를 사용해 작업할 수 있습니다. 사용 가능한 데이터의 양과 다양성이 증가함에 따라 조직 내 다양한 팀이 더 광범위한 조직 목표에 기여할 수 있습니다.

연구 데이터, 운영 데이터, 고객 피드백 등 다양한 출처의 정보를 결합하면 서비스 성능을 개선하고 해당 서비스의 가치를 높일 수 있습니다. 예를 들어, 데이터에 액세스할 수 있는 사업부는 데이터 분석을 통해 시장 동향과 고객 선호도를 기반으로 의사 결정을 내리고 성공적인 마케팅 전략을 개발할 수 있습니다.

또한 데이터 공유를 통해 공공 기관과 조직은 안전하고 합법적이며 관리되는 방식으로 데이터를 공유할 수 있습니다. 데이터 공유 위생의 필수적인 부분에는 데이터 생산자가 재현성을 지원하기 위해 정확한 메타데이터로 데이터 세트를 신중하게 문서화하고 라벨을 지정하는 것이 포함됩니다. 명확한 정의가 포함된 상세한 설명을 통해 다른 사람들이 공유 데이터를 쉽게 찾고 발견하고 이해할 수 있습니다.

개인정보 보호의 미래 포럼1(FPF)은 기업과 학계 연구자 간의 데이터 공유 파트너십을 분석한 결과, 이러한 파트너십이 사회적으로 유익한 연구를 가속화하고 가치 있는 데이터 세트에 대한 접근성을 확대하며 연구 결과의 재현성을 향상시킬 수 있다고 판단했습니다. 데이터 공유가 더욱 널리 확산됨에 따라 이해관계자들은 데이터 공유 계약(DSA)과 개인정보 보호 강화 기술(PET)을 사용하여 위험과 데이터 유출에 대처하기 위한 사전 조치를 취하고 있습니다.

IBM은 데이터를 대학, 비영리 단체 및 연구소와 공유하기 전에 데이터를 익명화하기 위해 PET를 사용하는 등 데이터 공유 관행에 엄격한 개인정보 보호 및 보안 프로토콜을 적용하는 좋은 예를 보여줍니다. IBM의 접근 방식은 민감한 데이터를 보호하고 보다 안전하고 효과적인 파트너십을 조성하는 동시에 과학적 발견을 지원합니다. 예를 들어, IBM은 호주의 Melbourne Water와 협력하여 에너지 배출 감소를 목표로 데이터를 분석했습니다. 코로나19 팬데믹 기간 동안 IBM은 SARS-CoV-2 게놈 염기서열을 처리하여 300만 개 이상의 염기서열을 연구 저장소에 제공했습니다.

데이터 공유의 가치를 보여주는 또 다른 강력한 사용 사례는 미국 비영리 단체인 Benefits Data Trust에서 찾아볼 수 있습니다.2 Benefits Data Trust(BDT)는 미국 의료 및 교육과 관련된 주와 조직 간의 데이터 공유를 촉진합니다. BDT는 데이터 공유 계약을 통해 보충 영양 지원 프로그램(SNAP) 및 메디케이드와 같은 중요한 공공 프로그램의 등록을 촉진합니다.

사우스캐롤라이나주 사회복지부는 BDT와 함께 매월 메디케이드와 SNAP 목록을 비교하여 프로그램에 등록되지 않은 적격자를 파악했습니다. 이 이니셔티브를 통해 2015년 이후 SNAP 가입자가 20,000명 이상 증가하여 취약 계층의 영양 지원에 대한 접근성이 개선되었습니다. 펜실베이니아주에서도 비슷한 노력이 성공을 거두었으며, 2005년 이후 약 240,000명이 데이터 공유를 통해 다양한 공공 지원 프로그램에 등록할 수 있었습니다.

Mixture of Experts | 12월 12일, 에피소드 85

AI 디코딩: 주간 뉴스 요약

세계적인 수준의 엔지니어, 연구원, 제품 리더 등으로 구성된 패널과 함께 불필요한 AI 잡음을 차단하고 실질적인 AI 최신 소식과 인사이트를 확인해 보세요.

데이터 공유에 내재된 위험

데이터 공유는 기업에 많은 이점을 제공하지만 위험도 따릅니다. 민감한 정보가 부적절하게 배포되면 조직은 규제, 경쟁, 재무 및 보안 위험에 노출될 수 있습니다. 데이터 소비자는 데이터의 품질과 가용성에 대한 통제력이 제한적입니다. 품질이 낮은 데이터에는 성별, 인종, 종교 또는 민족에 대한 편견이 숨어 있을 수도 있습니다.

데이터 거버넌스 프로세스는 조직 전체에서 데이터를 안전하고 정확하며 일관되게 관리하기 위한 정책, 표준 및 모범 사례를 수립합니다. 효과적인 거버넌스를 통해 권한이 있는 사용자에게만 데이터 사용 권한이 부여되도록 액세스를 제한합니다. 또한 거버넌스는 데이터를 보호하고 분류하며 법률 및 규제 기관을 준수하여 데이터를 사용할 수 있도록 지원합니다.

모든 조직은 관리하는 고객 데이터의 개인정보를 보호해야 할 법적, 윤리적 의무가 있습니다. 암호화 및 데이터 편집과 같은 기술을 통해 개인 정보를 보호하면서 데이터를 안전하게 공유할 수 있습니다. 그러나 데이터 생산자와 소비자 간의 소통이 부족하면 보고서를 개발하거나 데이터 기반 의사 결정 이니셔티브에 참여할 때 잘못된 가정을 하게 되어 오해가 발생할 수 있습니다.

예를 들어, 2012년 Knight Capital Group은3 팀 간의 소통 및 조정 부족으로 거래 장애가 발생하여 단 45분 만에 4억 4,000만 달러의 손실을 입었습니다. 소프트웨어 업데이트로 인해 테스트되지 않고 문서화되지 않은 휴면 상태의 임베디드 소프트웨어가 실수로 활성화되었습니다. 개발자들이 거래자 시스템에 대한 변경의 잠재적 영향을 효과적으로 전달하지 않았기 때문에 잘못된 거래가 빠른 속도로 실행되어 상당한 금전적 손실이 발생했습니다.

특히 리소스를 많이 소모하는 ETL(추출, 변환, 로드) 프로세스를 통한 비용이 많이 드는 데이터 이동은 전통적으로 광범위한 데이터 공유를 방해해 왔습니다. 데이터 품질과 거버넌스 모범 사례를 유지하는 것은 특히 방대한 양의 데이터를 처리할 때 어려울 수 있습니다. 네트워크를 통해 대용량 데이터 세트를 안전하게 공유하려면 시간이 많이 걸리고 고도의 기술이 필요하며 스토리지와 인프라에 대한 광범위한 투자가 필요합니다.

데이터 보안에는 민감한 데이터를 보호하기 위한 엄격한 보호 조치와 교육이 필요합니다. 데이터 공유 프로세스 중에 네트워크와 플랫폼을 통해 이동하는 정보는 무단 액세스, 데이터 침해 및 사이버 공격과 같은 위협에 취약합니다. 또한 조직은 외부 파트너, 이해관계자 또는 타사 공급업체와 데이터를 공유할 때 복잡한 데이터 개인정보 보호법 및 규정을 준수해야 합니다.

데이터 공유 모범 사례

데이터 공유의 모범 사례를 구현하면 조직이 위험을 최소화하면서 이점을 극대화하는 데 도움이 됩니다.

  • 정기적인 평가는 데이터의 효율성, 데이터 전송 프로세스, 데이터 공유와 관련된 조직 문화를 평가하고 우려 사항을 해결하는 데 도움이 될 수 있습니다.
  • 오픈 소스 데이터 공유 솔루션은 조직이 벤더 종속을 피하고 인기 있는 오픈 소스 데이터 처리 프레임워크 및 비즈니스 인텔리전스 툴을 사용하여 커뮤니티에서 개발한 다양한 통합 기능을 개방하여 기술 및 인프라 비용을 절감할 수 있도록 지원합니다.
  • 명확한 거버넌스 정책과 명확하게 정의된 데이터 공유 프로토콜을 통해 책임감 있는 데이터 관리가 가능합니다. 이러한 정책과 포로토콜이 없으면 팀이 잘못된 데이터를 기반으로 구축하고, 경영진이 잘못된 데이터를 기반으로 의사 결정을 내려 조직을 위험에 빠뜨릴 수 있습니다.

데이터 마켓플레이스를 통해 조직은 데이터와 데이터 제품을 안전하게 공유하고 수익을 창출할 수 있습니다. 데이터 마켓플레이스에는 다음과 같은 몇 가지 유형이 있습니다.

  • 내부 데이터 마켓플레이스는 회사 내에서 데이터를 공유하기 위한 공간입니다.
  • 비공개 데이터 마켓플레이스는 신뢰할 수 있는 파트너와 데이터를 공유하기 위한 공간입니다.
  • 공개 데이터 마켓플레이스는 데이터 공급자와 수요자를 연결하기 위한 곳입니다.

공개 데이터 마켓플레이스는 참가자가 데이터 및 관련 서비스를 사고 팔 수 있는 안전한 환경을 제공하며, 이를 통해 데이터 공급자의 높은 품질과 일관성을 인증합니다. 기업은 데이터 마켓플레이스를 통해 타사 데이터를 확보하여 기존 데이터 세트를 보강하거나 새로운 데이터 제품 및 서비스를 제공하고 수익을 창출할 수 있습니다.

데이터 공유 유형 및 기술

각 데이터 공유 유형은 안전한 정보 교환을 촉진하는 특정 역할을 수행합니다.

  • 내부 데이터 공유는 조직 내의 데이터 사일로를 허물어 모든 당사자가 안전한 환경에서 필요한 데이터에 액세스할 수 있도록 보장하는 데 중점을 둡니다.
  • 외부 데이터 공유에는 파트너, 고객, 공급업체 및 규제 기관과의 공유가 포함됩니다. 외부 데이터이기 때문에 민감한 정보를 보호하기 위해 더 엄격한 보안 조치가 적용됩니다.
  • 내부 및 외부 데이터 유형에는 공개 및 비공개 데이터도 있습니다. 공개 데이터는 누구나 액세스할 수 있는 반면, 비공개 데이터는 특정 개인 또는 그룹으로 제한됩니다.

엔터프라이즈 조직에서 가장 널리 사용되는 데이터 공유 기술 유형은 데이터 웨어하우스와 데이터 레이크하우스입니다. 이러한 최신 데이터 아키텍처 시스템은 여러 사업부에서 빅 데이터를 수집, 저장 및 공유하기 위한 중앙 리포지토리를 제공합니다. 이러한 아키텍처에는 일반적으로 프런트 엔드 클라이언트, Analytics Engine 및 데이터베이스 서버에 대한 계층이 포함됩니다.

애플리케이션 프로그래밍 인터페이스(API)를 사용하면 소프트웨어 구성 요소가 공유 정의 및 프로토콜을 전달할 수 있습니다. 데이터 공유 API는 세분화된 액세스 제어 및 권한을 지원하여 데이터 소비자가 요청할 수 있는 것과 요청할 수 없는 것을 지정합니다.

연합 학습, 블록체인 기술 및 데이터 교환 플랫폼은 데이터 공유를 지원하는 다른 기술입니다. 연합 학습을 통해 AI 시스템은 데이터를 이동하지 않고도 다양한 소스의 분산된 데이터 세트를 사용하여 학습할 수 있습니다. 블록체인은 공개 데이터 교환을 포함한 거래를 추적하기 위한 투명하고 변경 불가능한 원장을 제공하여 데이터 공유 프로세스에 무결성과 보안 계층을 제공합니다.

SFTP(Secure File Transfer Protocol) 및 이메일과 같은 레거시 기술을 통해 공급업체에 구애받지 않고 자체 개발한 솔루션을 사용할 수 있지만 보안 및 관리가 점점 더 어려워지고 있습니다. 이러한 솔루션에는 최신 솔루션에서 일반적으로 사용되는 미사용 데이터 암호화, 세분화된 데이터 접근 제어, 자동화된 감사 등의 고급 보안 기능이 부족합니다.

최신 데이터 솔루션은 안전한 데이터 공유에 중점을 두고 있으며, 클라우드 데이터 스토리지는 접근성과 보안에 대한 제한이 있지만 확장성과 안정성을 제공합니다. 공급업체별 데이터 공유 솔루션은 기본적으로 보안과 확장성을 제공하지만, 공급업체에 종속되어 유연성이 제한되고 장기 비용이 증가하는 경우가 많습니다.

데이터 공유의 미래 트렌드

개인정보 보호 강화 기술, 데이터 클린룸 및 기타 기술은 자동화를 통해 데이터 운영을 개선하고 있습니다. 이러한 트렌드는 데이터 처리 및 분석에서 개인정보 보호, 탈중앙화 및 AI 기반 접근 방식으로의 전환을 보여줍니다.

PET

데이터 공유의 미래 트렌드는 개인정보 보호의 중요성이 점점 더 커지고 있음을 강조합니다. 안전한 다자간 연산 및 데이터 마스킹과 같은 개인정보 보호 강화 기술은 원활한 데이터 공유와 안전한 데이터 보호의 균형을 맞추는 데 매우 중요해지고 있습니다. PET를 도입하면 이러한 툴이 운영의 필수 요소로 자리 잡으면서 기업은 경쟁력을 확보할 수 있습니다.

클린룸

데이터 클린룸은 여러 당사자가 원시 데이터를 공유하지 않고도 데이터에 대해 협업할 수 있는 안전하고 개인정보 보호에 중점을 둔 환경입니다. 이를 통해 기업은 민감한 데이터를 보호하면서 분석을 수행하고 인사이트를 얻을 수 있으므로 개인정보 보호 규정을 준수할 수 있습니다. 클린룸은 개인정보의 노출을 방지하고 집계된 익명화된 데이터를 공유할 수 있도록 하여 파트너 간의 신뢰를 유지하는 데 도움이 됩니다.

데이터 메시

데이터 메시를 사용하면 조직은 데이터를 하나의 제품으로 취급하여 셀프 서비스 형식으로 데이터를 검색하고 사용할 수 있습니다. 이 접근 방식을 사용하면 비즈니스 부서에서 독립적으로 데이터 제품을 만들고 관리할 수 있습니다. 또한 다양한 플랫폼과 기술 전반에서 데이터를 중앙 집중식으로 볼 수 있어 별도의 데이터 플랫폼 없이도 연결성과 인사이트를 개선할 수 있습니다.

LLM

대규모 언어 모델(LLM)은 데이터 프로파일링, 모델링 및 통합과 같은 작업을 자동화하여 데이터 엔지니어링 및 운영을 간소화함으로써 데이터 품질을 개선할 수 있습니다. 기존 데이터 인프라에 생성형 AI를 배포하면 조직은 일상적인 작업을 보다 효율적으로 처리하여 더 복잡한 분석과 의사 결정을 위한 리소스를 확보할 수 있습니다.

관련 솔루션
IBM Data Product Hub

라이프사이클 전반에 걸쳐 데이터를 제품처럼 관리하세요. 버전 관리, 유지 관리, 업데이트를 위한 강력한 시스템을 기반으로 데이터 제품의 온보딩부터 폐기까지 전체 라이프사이클을 체계적으로 운영할 수 있습니다.

데이터 제품 허브 살펴보기
IBM Data Intelligence 솔루션

원시 데이터를 실행 가능한 인사이트로 신속하게 변환하고 데이터 거버넌스, 품질, 리니지 및 공유를 통합하며, 안정적이고 컨텍스트화된 데이터로 데이터 소비자를 지원할 수 있습니다.

데이터 인텔리전스 솔루션 살펴보기
데이터 및 분석 컨설팅 서비스

IBM Consulting을 통해 기업 데이터의 가치를 극대화해 비즈니스에 이득이 되는 인사이트 중심의 조직을 구축하세요.

분석 서비스 살펴보기
다음 단계 안내

기업이 성공하려면 데이터를 활용하여 고객 충성도를 높이고 비즈니스 프로세스를 자동화하며 AI 기반 솔루션으로 혁신을 이루어야 합니다.

분석 솔루션 살펴보기 데이터 제품 허브 알아보기
각주

Data sharing for research, The Future of Privacy Forum, 2022년 8월

Knight Capital Group stock trading disruption, Wikipedia, 2012년 8월