생성형 AI 애플리케이션을 지원하는 데이터 전략을 구축하는 방법

어두운 방의 거대한 곡선형 스크린 벽

생성형 AI(gen AI라고도 함), 는 사용자 요청에 따라 텍스트, 이미지, 동영상, 오디오, 심지어 소프트웨어 코드까지 생성할 수 있는 인공지능(AI)입니다. 요즘 조직들은 새로운 생성형 AI 앱을 구축하기 위해 나서고 있지만, 이를 뒷받침하는 효과적인 데이터 전략을 수립하는 데 필요한 단계는 종종 간과합니다.

생성형 AI 모델(인간의 뇌와 유사하게 결정을 내리도록 학습된 컴퓨터 프로그램)을 학습하려면 엄청난 양의 데이터가 필요합니다. 그리고 조직은 애플리케이션에 대한 훌륭한 아이디어를 가지고 있어도 기본 데이터가 제대로 처리되지 않으면 애플리케이션이 실패합니다.

데이터 수집 및 처리 비용부터 데이터를 안전하게 저장하는 데 필요한 기본 인프라, 진화하는 데이터 거버넌스 요구 사항에 이르기까지, 조직은 애플리케이션의 성공을 위해 전략적 접근 방식을 취하는 것이 중요합니다.

전문가가 전하는 최신 AI 트렌드

가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.

감사합니다! 구독이 완료되었습니다.

구독은 영어로 제공됩니다. 모든 뉴스레터에는 구독 취소 링크가 있습니다. 여기에서 구독을 관리하거나 취소할 수 있습니다. 자세한 정보는 IBM 개인정보 보호정책을 참조하세요.

ChatGPT와 새로운 생성형 AI 비즈니스 애플리케이션 추진

2022년 ChatGPT의 출시는 생성형 AI 혁신의 새로운 시대를 열었고, 조직들이 비즈니스 활용 방안을 모색하도록 만들었습니다. ChatGPT는 대규모 언어 모델(LLM)로 학습된 AI 챗봇으로, 사용자와 대화형으로 상호작용했습니다. 출시 이후 조직들은 자동화, 생산성 향상, 고객 인사이트 확보 등 다양한 비즈니스 문제에 그 기반 기술을 적용해 왔습니다.

다양한 위험과 과제 또한 분명해졌습니다. 예를 들어 의료 분야에서는 일부 진단의 자동화를 도왔지만, 동시에 개인정보 보호와 보안에 대한 우려도 제기되었습니다.1또한 AI 할루시네이션으로 알려진 현상이 지속되어, 질문에 대한 답을 찾지 못할 때 일부 생성형 AI 모델이 사실을 지어내는 문제가 발생합니다.

그러나 이러한 문제들이 지속되는 가운데서도, 다양한 산업과 모든 규모의 조직은 그 잠재력을 활용할 새로운 방법을 모색하며 이 분야에 지속적으로 대규모 투자를 이어가고 있습니다. Menlo Ventures에 따르면, 2022년부터 2023년까지 기업의 생성형 AI 투자는 23억 달러에서 138억 달러로 6배 증가했습니다.

Mixture of Experts | 12월 12일, 에피소드 85

AI 디코딩: 주간 뉴스 요약

세계적인 수준의 엔지니어, 연구원, 제품 리더 등으로 구성된 패널과 함께 불필요한 AI 잡음을 차단하고 실질적인 AI 최신 소식과 인사이트를 확인해 보세요.

생성형 AI 애플리케이션은 AI 인프라에 새로운 과제를 안겨줍니다

AI 인프라는 AI 애플리케이션을 구축하는 데 필요한 하드웨어 및 소프트웨어 솔루션을 설명하는 용어입니다. 생성형 AI 시대에는 컴퓨팅 리소스, 데이터 스토리지 용량, 대역폭 등 기술과 관련된 더 높은 수요를 충족하기 위해 AI 인프라가 진화해야 합니다. 그러나 조직은 새로운 생성형 AI 애플리케이션을 배포하는 데 급급한 나머지 AI 및 데이터 인프라 요구 사항을 간과하는 경우가 있습니다.

생성형 AI와 그 모든 잠재력을 비즈니스 목적에 활용하려는 조직은 데이터 인프라 및 전략에 대한 접근 방식의 주요 측면을 재고해야 합니다.

비정형 데이터를 정형 데이터로 변환

성공적인 생성형 AI 비즈니스 애플리케이션을 구축하기 위해 조직은 일반적으로 비정형 데이터와 정형 데이터의 조합이 필요합니다. 정량적 데이터라고도 하는 정형 데이터는 생성형 AI 애플리케이션을 구동하는 머신 러닝(ML) 알고리즘으로 쉽게 처리할 수 있도록 이전에 형식이 지정된 데이터입니다.

알고리즘은 고급 ML 모델을 사용하여 사람이 대량의 데이터(데이터 세트)로부터 학습하는 방식을 시뮬레이션하여, 사람이 데이터에 대한 질문을 이해하고 새로운 콘텐츠를 생성하여 응답할 수 있을 때까지 진행합니다.

기업에서 수집하는 일부 데이터(예: 이름, 날짜, 거래 금액과 같은 고객 및 재무 정보)는 이미 정형화되어 있지만 많은 양의 데이터가 비정형 데이터입니다. 정성적 데이터라고도 하는 비정형 데이터는 미리 정의된 형식이 없는 데이터입니다. 비정형 데이터는 광범위하며 이메일, 웹 페이지, 소셜 미디어 계정 및 사물인터넷(IoT) 센서의 비디오, 오디오 및 텍스트 파일을 포함할 수 있습니다.

디지털 경제가 확장됨에 따라 기업에서 수집하는 비정형 데이터의 양이 기하급수적으로 증가하고 있습니다. Forbes에 따르면 기업이 수집하는 데이터의 80~90%가 비정형 데이터입니다. 비정형 데이터는 ML 목적에 적합하지 않으며 AI 모델을 학습하는 데 사용하려면 먼저 변환해야 합니다.

비정형 데이터를 컴퓨터에서 처리하여 비즈니스 목적으로 사용할 수 있는 데이터로 변환하려면 관련 정보를 추출하고 사전 정의된 형식으로 구성해야 합니다. 데이터의 양과 복잡성은 문제를 야기하며, 까다로운 데이터 관리 환경과 데이터 거버넌스 법률을 준수하는 데는 많은 비용이 소요될 수 있습니다.

데이터 거버넌스 복잡한 세계 탐색하기

데이터 거버넌스는 일련의 정책과 절차를 통해 조직에 속한 데이터의 품질, 보안 및 가용성을 보장하는 데 도움이 되는 관행입니다. 생성형 AI와 빅 데이터의 등장으로 데이터 거버넌스와 모든 요구 사항이 현대 기업의 최우선 과제로 떠올랐습니다.

생성형 AI는 학습한 데이터를 기반으로 새로운 콘텐츠를 만들 수 있는 능력으로 데이터의 안전하고 합법적인 수집, 스토리지 및 처리에 대한 새로운 수요를 창출합니다.

품질

생성형 AI 모델은 대규모 데이터 세트로 학습되기 때문에 이러한 데이터 세트 내의 데이터는 최고 품질이어야 하고 무결성이 의심의 여지가 없어야 합니다. 데이터 거버넌스는 생성형 AI 모델이 학습하는 데이터 세트가 정확하고 완전하도록 보장하는 데 중요한 역할을 하며, 이는 신뢰할 수 있는 답변을 생성하는 핵심 구성 요소입니다.

규정 준수

산업 및 위치에 따라 생성형 AI 비즈니스 애플리케이션은 데이터 사용 방식에 있어 엄격한 규정 준수 환경에 직면하게 됩니다. 예를 들어 GDPR(일반 데이터 보호 규정) 규칙은 조직이 EU 거주자의 데이터 사용 방법을 규정합니다. 위반 시 고객 정보가 어떤 방식으로든 유출될 경우 무거운 벌금과 처벌을 받게 됩니다.

2021년, Google과 다른 기업들은 GDPR에 명시된 데이터 보호 규칙을 위반하여 10억 달러 이상의 벌금을 부과받았습니다 .

투명성

생성형 AI 애플리케이션이 효과적이려면 데이터의 출처와 데이터가 비즈니스 용도로 어떻게 변환되었는지 명확하게 파악하고 가시화해야 합니다. 데이터 거버넌스는 수집, 저장, 처리 및 아웃풋에 이르기까지 데이터 라이프사이클의 모든 단계에서 문서가 존재하고 사용자에게 투명하도록 하여 사용자가 답변이 어떻게 생성되었는지 이해할 수 있도록 도와줍니다.

생성형 AI 애플리케이션을 지원하는 데이터 전략을 구축하기 위한 모범 사례

생성형 AI 애플리케이션의 성공은 이를 지원하는 올바른 데이터 전략과 인프라를 갖추는 데 달려 있습니다. 다음은 성공을 보장하는 데 도움이 되는 모범 사례입니다.

먼저 조직에서 답변해야 하는 구체적인 비즈니스 질문부터 시작하세요

비정형 데이터의 특성, 즉 출처, 수집 및 저장 방법 때문에 조직에서는 많은 양의 데이터를 수집하는 경향이 있습니다.

하지만 그 모든 투자가 생성형 AI 애플리케이션에 유용한 것은 아닙니다. IBM Center for the Business of Government의 시니어 펠로우인 Margaret Graves는 “질문에서 시작하세요”라고 조언합니다. “하나의 질문일 필요는 없고 몇 개여도 괜찮지만, 구축하려는 애플리케이션이 어떻게 미션을 진전시키고 지원할지에 대한 구체적인 방식에 집중해 보세요.”

2022년 ChatGPT가 출시된 이후, 기업들은 생산성 향상, 인사이트 파악, 디지털 혁신 가속화 등 다양한 비즈니스 문제에 생성형 AI를 빠르게 적용하고 있습니다. 이러한 영역은 확실히 기술이 해결할 수 있는 영역이지만, 또한 광범위하기 때문에 조직이 특수성이 부족한 앱을 구축할 수 있습니다.

비즈니스 문제가 구체적일수록 생성형 AI 모델을 학습시키는 데 필요한 관련 데이터 세트와 프로세스를 지원하는 데 필요한 AI 인프라의 종류를 더 쉽게 식별할 수 있습니다.

애플리케이션에 필요한 데이터를 확보하는 데 도움이 되는 전략 수립

조직은 생성형 AI 애플리케이션에 중점을 두고자 하는 비즈니스 질문을 결정한 후에는 AI 모델 학습과 관련된 데이터 세트를 살펴볼 수 있습니다. Graves는 이 부분을 스펙트럼을 보는 것에 비유합니다. "한쪽 끝에는 모델을 학습시키는 데 필요한 고도의 기밀 독점 내부 데이터가 있습니다."라고 그녀는 말합니다. 반면에 독점적이지는 않지만 애플리케이션 성능을 향상시키는 데 도움이 되는 보다 일반적인 데이터가 있습니다.”

RFP(제안 요청서)의 세계는 지난 몇 년 동안 등장한 생성형 AI의 가장 매력적인 비즈니스 사용 사례 중 하나이기 때문에 좋은 예입니다. RFP 프로세스의 여러 측면을 자동화하는 데 도움이 되는 생성형 AI 애플리케이션을 구축하려는 B2B 기업은 내부 데이터에 대한 교육을 받아야 하며, 그렇지 않으면 비즈니스의 고유한 기능을 제시할 수 없습니다. 그러나 동일한 생성형 AI 모델은 문장을 작성하고 문법적으로 답변을 구조화하는 방법과 같은 보다 일반적인 데이터에 대해서도 학습해야 하며, 그렇지 않으면 그 응답은 의미가 없습니다.

"광범위한 일반 데이터 세트와 독점적인 내부 데이터 세트 등 데이터 전략에 이 두 가지 측면을 모두 고려해야 합니다."라고 Graves는 말합니다. "그렇지 않으면 툴을 만들어서 많은 데이터를 던져놓고 무슨 일이 일어나는지 지켜보는 것인데, 이는 돈과 시간을 낭비하는 일입니다."

해당하는 경우 도메인별 데이터 활용

특정 산업 또는 분야와 관련된 도메인별 데이터를 사용하면 기업이 특정 비즈니스 요구 사항에 더 초점을 맞춘 AI 모델을 만드는 데 도움이 될 수 있습니다. IBM Consulting의 수석 파트너인 Jason Prow는 "예를 들어 재무 또는 HR 분야에서 AI 모델을 훈련할 때 현재 도메인별 데이터에 중점을 두고 있습니다."라고 말합니다. "수많은 데이터가 쏟아져 나오면서 특정 도메인을 중심으로 모델을 구성하는 것이 중요해지고 있습니다."

AI 모델 생성에 도메인 데이터를 활용하면 특정 비즈니스 요구에 더 잘 적용할 수 있는 방식으로 모델을 조정할 수 있습니다. 도메인별 모델은 더 정확하고 사용자 요구 사항과 관련이 있으며 관련 생성형 AI 애플리케이션의 전반적인 성능을 향상시킬 수 있습니다.

도메인별 데이터는 기술적이고 복잡할 수 있으므로 이를 활용하려는 조직은 나중에 이를 번역하는 데 도움이 되도록 AI 모델에 추상화 계층인 '의미론'을 추가하는 것을 고려해야 합니다. IBM Consulting의 어소시에이트 파트너인 Anthony Vachino는 "특히 제약 산업은 의미론적 설명을 많이 합니다."라고 말합니다. "회사마다 다른 실험을 하는데, 시맨틱 계층은 다른 회사에서 연구를 복제할 필요가 없도록 다른 회사에도 적용할 수 있는 방식으로 설명합니다.

전략적으로 데이터 인프라 찾기

공급망을 방해할 수 있는 지정학적 변화에 대비하든, 중요 인프라를 위협하는 자연 재해에 대비하든, 현대의 데이터 리더들은 데이터를 저장하고 액세스하는 위치를 선택할 때 인재와 비용 이상의 것을 고려하기 시작했습니다. IBM 기업가치연구소에 따르면, 정부 지도자의 60%는 앞으로 공급망과 인프라 충격의 빈도가 증가할 것이라고 믿는 반면, 70%는 충격의 강도가 증가할 것이라고 믿습니다.

지역마다 장점이 다르므로 인재, 데이터 에코시스템 및 인프라, 거버넌스, 지정학적 요인 등을 모두 고려해야 합니다. 경영진의 의견: 작년에 동일한 IBV 보고서에 따르면 설문조사에 참여한 경영진의 약 70%가 AI가 주요 리소스의 위치를 바꿀 것으로 예상한다고 답한 반면, 올해는 그 비율이 96%로 급증했습니다.

IBM 정부 비즈니스 센터의 전무 이사인 Dan Chenok은 생성형 AI 모델 학습에 분산 데이터를 사용하는 가능성에 관심을 갖고 있습니다. 분산 데이터를 사용하면 둘 이상의 위치에 데이터를 저장하고 액세스할 수 있기 때문입니다. “분산 데이터를 사용하면 액세스 제어를 통해 보안과 규정을 유지하면서 여러 위치에 있는 데이터를 기반으로 모델을 학습시킬 수 있습니다.” 라고 그는 말합니다.

생성형 AI 애플리케이션을 지원하려면 개방형 하이브리드 접근 방식이 필요합니다

최신 하이브리드 솔루션은 조직이 특정 비즈니스 문제를 해결하고 비용, 시간 및 기타 중요 리소스를 절약하는 데 더 적합한 AI 모델을 구축하는 데 도움이 됩니다. "여러 플랫폼에 걸쳐 통합하면 특히 여러 위치에서 작업하는 기업의 경우 더 나은 서비스를 제공할 수 있습니다."라고 Chenok은 덧붙입니다. “최상의 솔루션을 사용하면 애플리케이션이 제대로 작동하도록 모든 것을 조정할 수 있습니다.” 

개방형 하이브리드 데이터 레이크하우스는 사용자에게 클라우드와 온프레미스 인프라 모두에서 데이터를 공유할 수 있는 기능을 제공합니다. 데이터가 어디에 있든 상관없이 생성형 AI 애플리케이션이 해당 데이터에 액세스할 수 있습니다. 데이터 레이크하우스는 데이터 웨어하우스데이터 레이크의 여러 측면을 하나의 데이터 관리 솔루션으로 통합하는 플랫폼입니다.

데이터 레이크는 방대한 양의 정형 및 비정형 데이터를 처리하기 위해 구축된 저비용 데이터 스토리지 솔루션이며, 데이터 웨어하우스는 여러 소스의 데이터를 단일 위치로 수집하여 분석할 수 있는 시스템입니다. 데이터 레이크하우스는 레이크나 웨어하우스만큼 확장 가능한 것은 아니지만 더 간소화하고 성능이 뛰어나며 광범위한 워크로드를 지원할 수 있는 경향이 있습니다.

보다 포괄적인 솔루션을 찾고 있는 기업의 경우, 생성형 AI를 위한 데이터를 준비하고 애플리케이션을 개발 및 배포하는 복잡성으로 인해 Databricks, Snowflake, Amazon RedShift와 같은 플랫폼이 점점 더 대중화되고 있습니다. 데이터 관리, 모델 학습 및 솔루션 배포를 지원하는 포괄적인 솔루션을 통해 조직은 다양한 사용 사례에 맞는 확장성과 거버넌스가 내장된 생성형 AI 애플리케이션을 출시할 수 있습니다.

IBM watsonx.data는 데이터 저장소로, 데이터 레이크하우스를 기반으로 구축되어 생성형 AI 워크로드의 확장성을 높여줍니다. 목적에 맞게 구축된 개방형 하이브리드 접근 방식은 다양한 종류의 데이터베이스와의 통합을 개선하여 기업이 단일 지역이나 규칙에 얽매이지 않고 다양한 에코시스템과 환경에 분산된 데이터를 활용할 수 있도록 지원합니다.

 

관련 솔루션
IBM watsonx.ai

AI 빌더를 위한 차세대 엔터프라이즈 스튜디오인 IBM watsonx.ai로 생성형 AI, 파운데이션 모델 및 머신 러닝 기능을 학습, 검증, 조정 및 배포하세요. 적은 데이터로 짧은 시간 내에 AI 애플리케이션을 구축하세요.

watsonx.ai에 대해 알아보기
인공 지능 솔루션

업계 최고의 AI 전문성과 솔루션 포트폴리오를 보유한 IBM과 함께 AI를 비즈니스에 활용하세요.

AI 솔루션 살펴보기
AI 서비스

AI 추가를 통해 중요한 워크플로와 운영을 혁신함으로써 경험, 실시간 의사 결정 및 비즈니스 가치를 극대화합니다.

AI 서비스 살펴보기
다음 단계 안내

AI 개발 라이프사이클 전반에 걸친 기능에 원스톱으로 액세스하세요. 사용자 친화적인 인터페이스, 워크플로, 업계 표준 API 및 SDK에 대한 액세스를 통해 강력한 AI 솔루션을 제작할 수 있습니다.

watsonx.ai 살펴보기 라이브 데모 예약하기