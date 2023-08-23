최근 인공 지능 기반 대규모 언어 모델의 성공으로, 시장에서는 AI가 어떻게 많은 기업 프로세스를 혁신할 수 있을지에 대해 더욱 야심차게 생각하게 되었습니다. 그러나 소비자와 규제 기관 역시 자신의 데이터와 AI 모델 자체의 안전성에 대해 점점 더 우려하고 있습니다. 안전하고 광범위한 AI 도입을 위해서는 소비자, 기업, 규제 기관에 신뢰를 제공하기 위해 데이터 라이프사이클 전반에 걸쳐 AI 거버넌스를 수용해야 합니다. 그렇다면 구체적으로 이것은 어떤 모습일까요?
대부분의 경우, 인공 지능 모델은 매우 간단합니다. 데이터를 수집한 후 이 데이터에서 패턴을 학습하여 아웃풋을 생성합니다. ChatGPT와 Google Bard와 같은 복잡한 대규모 언어 모델(LLM)도 다르지 않습니다. 이러한 이유로 AI 모델의 배포를 관리하고 통제할 때, 먼저 AI 모델이 훈련되는 데 사용되는 데이터를 통제하는 데 중점을 두어야 합니다. 이러한 데이터 거버넌스를 위해서는 우리가 사용하는 모든 데이터의 출처, 민감도, 라이프사이클을 이해해야 합니다. 이는 모든 AI 거버넌스 관행의 기반이며 다양한 기업 위험을 완화하는 데 매우 중요합니다.
업계 뉴스레터
Think 뉴스레터를 통해 AI, 자동화, 데이터 등 가장 중요하고 흥미로운 업계 동향에 대한 최신 소식을 받아보세요. IBM 개인정보 보호정책을 참조하세요.
구독한 뉴스레터는 영어로 제공됩니다. 모든 뉴스레터에는 구독 취소 링크가 있습니다. 여기에서 구독을 관리하거나 취소할 수 있습니다. 자세한 정보는 IBM 개인정보 보호정책을 참조하세요.
대규모 언어 모델은 독점적인 데이터를 기반으로 훈련되어 특정 기업 사용 사례를 충족할 수 있습니다. 예를 들어, 회사는 ChatGPT를 사용하여 회사의 CRM 판매 데이터를 기반으로 학습된 비공개 모델을 만들 수 있습니다. 이 모델을 Slack 챗봇으로 배포하여 영업팀이 '제품 X가 지난 1년 동안 얼마나 많은 기회를 획득했어?'와 같은 질문에 대한 답을 찾도록 지원할 수 있습니다. 또는 'Y사와의 제품 Z의 기회에 대해 알려줘'라고 질문할 수도 있습니다.
이러한 LLM이 다양한 고객 서비스, HR 또는 마케팅 사용 사례에 맞게 조정되는 것을 쉽게 상상해 볼 수 있습니다. 법률 및 의료 자문을 강화하여 LLM을 의료 서비스 제공자가 사용하는 일차 진단 도구로 전환할 수도 있습니다. 문제는 이러한 사용 사례에서는 LLM에 민감한 독점 데이터 교육이 필요하다는 것입니다. 이는 본질적으로 위험합니다. 관련 위험은 다음과 같습니다.
AI 모델은 훈련 데이터로부터 학습하지만, 해당 데이터가 개인정보이거나 민감한 정보라면 어떻게 해야 할까요? 상당한 양의 데이터가 직접 또는 간접적으로 특정 개인을 식별하는 데 사용될 수 있습니다. 따라서 기업 고객에 대한 독점 데이터를 사용하여 LLM을 훈련하는 경우 해당 모델을 사용하는 과정에서 민감한 정보가 유출될 수 있는 상황이 발생할 수 있습니다.
많은 간단한 AI 모델에는 먼저 학습 단계가 있고, 그 다음에 학습이 일시 중지되는 배포 단계가 있습니다. 하지만 LLM은 조금 다릅니다. LLM은 대화 맥락을 파악하고 이를 통해 학습한 다음 그에 따라 응답합니다.
이로 인해 모델 인풋 데이터를 관리하는 작업이 훨씬 더 복잡해졌습니다. 초기 학습 데이터만 신경 쓰면 되는 것이 아니게 되었습니다. 또한 모델을 쿼리할 때마다 걱정이 됩니다. 대화 중에 모델에게 민감한 정보를 제공하면 어떻게 될까요? 민감도를 파악하고 모델이 다른 상황에서 이를 사용하지 못하도록 할 수 있을까요?
학습 데이터의 민감도에 따라 모델의 민감도가 어느 정도 결정됩니다. 데이터 접근을 제어하고 누가 어떤 데이터에 접근하는지 모니터링하며 상황에 따라 데이터를 동적으로 마스킹하는 메커니즘은 잘 확립되어 있지만, AI 배포 보안은 아직 개발 중입니다. 이 분야에서 솔루션이 등장하고 있지만, 여전히 모델을 사용하는 사람의 역할에 따라 모델 아웃풋의 민감도를 완전히 제어할 수는 없습니다(예: 모델이 특정 아웃풋이 민감할 수 있음을 식별한 다음 LLM을 쿼리하는 사람에 따라 아웃풋을 안정적으로 변경하는 방식). 이로 인해 이러한 모델은 모델 학습과 관련된 모든 유형의 민감한 정보를 쉽게 유출할 수 있습니다.
드레이크의 모든 노래로 모델을 학습시킨 다음, 모델이 드레이크의 노래 스타일을 흉내내기 시작하면 어떤 일이 일어날까요? 모델이 드레이크의 저작권을 침해하는 것일까요? 모델이 작업을 어떻게든 모방하고 있다는 것을 증명할 수 있나요?
이 문제는 규제 당국이 여전히 파악 중이지만, 예술적 지적 재산으로부터 학습하는 모든 형태의 생성형 AI에서 주요 문제가 될 수 있습니다. 이는 향후 대규모 소송으로 이어질 것으로 예상되며, 학습에 사용되는 모든 데이터의 IP를 충분히 모니터링하여 이러한 문제를 완화해야 할 것입니다.
최신 데이터 개인정보 보호 규정의 핵심 개념 중 하나는 동의입니다. 고객은 자신의 데이터 사용에 동의해야 하며, 자신의 데이터 삭제를 요청할 수 있어야 합니다. 이는 AI 사용에 있어 독특한 문제를 야기합니다.
AI 모델이 민감한 고객 데이터를 학습하면 해당 모델은 해당 민감한 데이터에 대한 노출 소스가 될 수 있습니다. 고객이 회사의 데이터 사용을 취소(GDPR 요구 사항)했는데 해당 회사가 이미 모델에게 해당 데이터를 학습시킨 경우, 해당 모델은 기본적으로 사용을 중단하고 취소된 데이터에 대한 접근 권한을 허용하지 않고 다시 학습시켜야 합니다.
LLM을 기업 소프트웨어로서 유용하게 만들려면, 기업이 데이터의 안전성을 신뢰하고 LLM이 데이터를 사용하는 과정에 대한 감사 추적을 확보할 수 있도록 학습 데이터를 관리해야 합니다
LLM 아키텍처에 대한 가장 좋은 분석은 a16z의 이 글에서 찾을 수 있습니다. 정말 잘 만들어졌지만, 데이터 거버넌스와 개인정보 보호에 모든 시간을 할애하는 사람으로서 보면, '컨텍스트 데이터 → 데이터 파이프라인'의 왼쪽 상단 섹션에 데이터 거버넌스가 빠져 있습니다.
IBM 데이터 거버넌스 솔루션을 추가하면 왼쪽 상단은 다음과 같은 모양이 됩니다.
IBM® Knowledge Catalog 기반의 데이터 거버넌스 솔루션은 고급 데이터 디스커버리, 자동화된 데이터 품질 및 데이터 보호를 촉진하는 데 도움이 되는 여러 기능을 제공합니다. 이를 통해 다음을 수행할 수 있습니다.
위의 마지막 단계는 종종 간과되는 단계입니다. 바로 개인정보 보호 강화 기술의 구현입니다. 민감한 내용을 AI에 제공하기 전에 어떻게 제거할 수 있나요? 세 단계로 나누어 이를 진행할 수 있습니다.
IBM은 IBM® watsonx를 통해 ‘AI 빌더’에게 생성형 AI의 힘을 제공하고자 빠르게 발전하고 있습니다. IBM® watsonx.ai는 엔터프라이즈용 스튜디오로, 기존 머신 러닝(ML)과 파운데이션 모델 기반의 새로운 생성형 AI 기능을 결합합니다. Watsonx에는 개방형 레이크하우스 아키텍처를 기반으로 구축된 맞춤형 데이터 저장소인 watsonx.data도 포함되어 있습니다. 하이브리드 클라우드 전반에서 데이터에 접근하고 공유하기 위한 쿼리, 거버넌스 및 오픈 데이터 형식이 지원됩니다.
강력한 데이터 기반은 AI의 성공적인 구현에 매우 중요합니다. IBM 데이터 패브릭을 사용하면, 고객은 데이터 통합 및 데이터 거버넌스 기능을 활용해 AI에 맞는 올바른 데이터 인프라를 구축할 수 있습니다. 이를 통해 데이터를 획득하고 준비 및 조직하여 watsonx.ai와 watsonx.data를 사용하는 AI 빌더가 쉽게 접근할 수 있도록 합니다.
IBM은 타사 클라우드에 배포할 수 있는 개방적이고 확장 가능한 AI 제품 포트폴리오의 일부로 구성 가능한 데이터 패브릭 솔루션을 제공합니다. 이 솔루션에는 데이터 거버넌스, 데이터 통합, 데이터 관측성, 데이터 리니지, 데이터 품질, 엔터티 확인 및 데이터 개인정보 보호 관리 기능이 포함되어 있습니다.
AI 모델, 특히 LLM은 향후 10년 동안 가장 혁신적인 기술 중 하나가 될 것입니다. 새로운 AI 규제가 AI 사용에 관한 지침을 도입함에 따라, AI 모델을 관리하고 통제하는 것뿐만 아니라 AI에 투입되는 데이터를 통제하는 것 역시 매우 중요합니다.
오픈 데이터 레이크하우스 접근 방식을 통해 신뢰할 수 있는 데이터를 제공하고 분석 및 AI 프로젝트를 더 빠르게 실행하는 방법을 알아보세요.
IBM, 2024년 Gartner Magic Quadrant™ 데이터 통합 툴 부문에서 19년 연속 리더 기업으로 선정
데이터 접근을 간소화하고 데이터 거버넌스를 자동화하세요. 어디서나 모든 데이터를 사용하여 워크로드 비용 최적화, AI 및 분석 확장을 포함하여 데이터 레이크하우스 전략을 데이터 아키텍처에 통합하는 방법을 알아보세요.
직관적인 그래픽 인터페이스를 통해 스트리밍 데이터 파이프라인을 생성하여 하이브리드 및 멀티클라우드 환경 전반에서 완벽한 데이터 통합을 촉진합니다.
watsonx.data를 사용하면 오픈, 하이브리드 및 관리형 데이터 저장소를 통해 데이터의 위치와 관계없이 모든 데이터로 분석과 AI를 확장할 수 있습니다.
IBM Consulting을 통해 엔터프라이즈 데이터의 가치를 실현하여 비즈니스 이점을 제공하는 인사이트 중심의 조직을 구축하세요.
탁월한 고객 및 직원 경험을 제공하기 위해 데이터 사일로를 제거하고, 복잡성을 줄이며, 데이터 품질을 개선하는 데이터 전략을 구축하세요.