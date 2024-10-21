IBM 기업가치연구소(IBV)에 따르면 최고 성과를 내는 CEO 중 72%가 가장 진보된 생성형 AI 툴을 보유하면 조직이 경쟁 우위를 확보할 수 있다는 데 동의했습니다. 그러나 이러한 생성형 AI 툴이 기업의 고유한 상황에 기반하지 않는다면 조직은 이러한 툴을 최대한 활용하지 못할 수 있습니다.
ChatGPT 및 Google Gemini와 같은 대규모 범용 생성형 AI 모델은 강력하지만 조직별 데이터 세트에 대해 학습되지 않습니다. 조직의 프로세스에 연결하면 중요한 정보가 누락되어 혼란스러워지고 최적이 아닌 결과를 얻을 수 있습니다.
“모든 회사에는 고유한 언어가 있습니다.”라고 IBM Consulting의 AI 및 분석 담당 수석 매니징 컨설턴트인 Michael Choie는 설명합니다. “’드레싱’이라는 단어를 생각해 보세요. 식료품 체인점이라면 ‘샐러드 드레싱’을 뜻할 겁니다. 병원에서는 ‘상처 드레싱’을 의미합니다.”
IBM은 The Harris Poll과 협력하여 전 세계 2,000개 조직을 대상으로 한 설문조사 AI 사용 사례 2024를 발표했습니다. 조사에 따르면 이러한 조직 중 15%(AI 리더라고 함)가 AI를 통해 정량화 가능한 결과를 달성하고 있는 것으로 나타났습니다.
AI 리더를 차별화하는 한 가지는 최적의 가치를 위해 AI 노력을 맞춤화할 수 있는 능력에 대한 자신감입니다. 그렇다고 해서 조직이 군중 속에서 돋보이기 위해 처음부터 자체 모델을 구축해야 한다는 의미는 아닙니다. 대신 다른 누구도 가지고 있지 않은 독점적인 기업 데이터를 활용하여 기존 AI 모델을 조정할 수 있습니다.
"X나 Google과 같은 모든 AI 공급업체는 공개 정보에 액세스할 수 있습니다. 또한 자체 플랫폼의 데이터에도 액세스할 수 있습니다."라고 IBM Consulting의 미주 AI 리더 부사장 겸 수석 파트너인 Shobhit Varshney는 설명합니다. "그들이 액세스할 수 없는 것은 기업 데이터입니다. 퍼즐의 한 조각이 빠져 있습니다."
Varshney가 AI 사용 사례 2024에서 자세히 설명했듯이, “다음 단계는 AI가 틈을 넘어 기업 내부로 들어가 이를 흡수하고 학습하여 경쟁 우위가 될 수 있도록 하는 것입니다.”
AI 모델에 독점 데이터를 공급하는 방법에는 프롬프트 엔지니어링, 검색 증강 생성(RAG) 및 미세 조정의 세 가지가 있습니다.
이러한 맥락에서 프롬프트 엔지니어링은 AI에 전달되는 프롬프트에 독점 데이터를 포함하는 것을 의미합니다.
사용자가 콜 센터 대화를 요약하는 AI 모델을 원한다고 가정해 보겠습니다. 사용자는 '이 대화를 요약하세요'라는 프롬프트를 작성하고 통화 기록을 프롬프트의 일부로 첨부할 수 있습니다.
프롬프트 엔지니어링에서는 모델 자체를 변경할 필요가 없습니다. 모든 프롬프트에 필요한 컨텍스트를 포함시키는 것이 합리적인 소규모 일반 작업에 가장 적합합니다.
검색 증강 생성(RAG)는 AI 모델을 독점 데이터베이스에 연결하는 것을 의미합니다. 모델은 프롬프트에 응답할 때 이 데이터베이스에서 관련 정보를 가져올 수 있습니다.
예를 들어, 조직은 고객 서비스 챗봇에게 회사 제품 데이터베이스에 대한 접근 권한을 부여할 수 있습니다. 사용자가 이러한 제품에 대해 질문하면 챗봇은 해당 문서를 보고 정답을 검색할 수 있습니다.
RAG는 모델을 영구적으로 변경할 필요가 없습니다. 정확도를 높이고 할루시네이션을 줄일 수 있지만 응답 시간을 늘릴 수도 있습니다.
미세 조정이란 AI 모델에 일부 파라미터를 변경할 수 있는 충분한 추가 데이터를 제공하는 것을 의미합니다. 미세 조정은 모델의 동작을 영구적으로 변경하여 특정 사용 사례나 컨텍스트에 맞게 조정합니다. 또한 새로운 모델을 학습시키는 것보다 빠르고 저렴합니다.
"100개의 서로 다른 계층이 있는 신경망이 있는 경우, 이를 학습시킨다는 것은 100개의 계층을 모두 수정한다는 것을 의미합니다."라고 Choie는 설명합니다. "미세 조정은 마지막 몇 개의 레이어를 실제로 변경하는 것을 의미합니다. 여전히 모델을 수정하고 있지만 이미 잘 작동하고 있기 때문에 모델을 완전히 변경할 필요는 없습니다."
미세 조정에는 프롬프트 엔지니어링 및 RAG보다 약간 더 많은 초기 투자가 필요합니다. 이는 소규모 모델을 전문 영역의 전문가로 만드는 데 유용합니다. 예를 들어, 보험 회사는 모델을 미세 조정하여 새로운 청구 처리의 기술을 마스터할 수 있습니다.
Varshney는 미세 조정된 모델을 학교를 막 졸업하고 집중적으로 훈련받은 신입 직원에 비유합니다. 이들은 천재적인 박식가나 대규모 범용 AI 모델만큼 폭넓은 지식을 갖추지는 못했지만, 특정 청구를 처리하는 데 있어서는 훨씬 더 뛰어납니다.
Varshney는 “세금 신고를 하거나 법적 계약서를 작성할 수는 없지만, 청구 처리를 요청하면 즉시 어떻게 해야 하는지 알고 있습니다.”라고 말합니다.
이러한 방식으로 독점 데이터를 사용하면 AI 모델이 기업의 고유한 프로세스, 제품, 고객 및 기타 뉘앙스에 익숙해져 상당한 경쟁 우위를 확보할 수 있습니다.
"특정 기업의 주요 사용자가 AI인 경우, AI가 동일한 기업의 데이터를 사용하는 것이 중요합니다."라고 Choie는 말합니다.
AI 모델이 독점 데이터에 액세스할 수 있는 경우 특정 비즈니스 컨텍스트에 기반을 두며, 이는 해당 모델의 아웃풋도 해당 컨텍스트에 기반을 두고 있음을 의미합니다.
"개방형 AI 모델을 미세 조정할 수 있으며, 그 사본은 고유한 것이 됩니다."라고 Varshney는 말합니다. "그 뒤에 있는 IP는 제가 소유하고 있습니다. 저는 제 인프라에서 이를 실행합니다."
결과적으로 이러한 모델은 일반적인 공공 데이터에서 가져오는 증강되지 않은 기성 모델보다 더 정확하고 효과적인 아웃풋을 생성할 수 있습니다.
조직은 다양한 유형의 AI 모델을 사용하여 결과를 달성할 수 있습니다. 그러나 Apache 2.0 라이선스에 따라 광범위하고 방해받지 않는 상업적 용도로 사용할 수 있는 IBM® Granite 모델과 같은 오픈 소스 모델은 특정 이점을 제공합니다.
"AI 모델을 훈련할 때 모델이 효과적이고 효율적으로 학습할 수 있도록 조정해야 하는 다양한 매개변수와 기술이 있습니다. Choie는 "이를 설정하려면 전문 데이터 과학자와 머신 러닝 전문가가 필요합니다."라고 설명했습니다. "개방형 모델을 미세 조정함으로써 얻을 수 있는 이점은 뛰어난 사람들이 이미 사용하고 있는 모델을 보유하고 있다는 것입니다. 모델에 추가 작업별 데이터를 공급하고 몇 개의 레이어를 조정하기만 하면 되는데, 이는 모델을 구축하는 것보다 훨씬 간단한 작업입니다."
오픈 소스 모델을 사용하면 조직이 대중의 지혜를 활용할 수 있을 뿐만 아니라 실험을 실패로 인한 비용 부담 없이 할 수 있습니다. 이 실험은 조직이 도메인별 작업에 대해 다양하고 다르게 조정된 모델을 사용하여 다중 모델 전략을 추구하는 데 도움이 됩니다.
이 다중 모델 전략은 모범 사례로 간주됩니다. AI 사용 사례 2024에 따르면 AI 학습자의 32%에 비해 AI 리더의 62%가 여러 모델을 사용하는 것으로 나타났습니다.
"오픈 소스 모델을 사용하는 것은 당연한 일입니다."라고 Choie는 말합니다. "비용 효율적이고, 업계 최고의 전문가들이 일하고 있으며, 업데이트나 문제가 발생할 때마다 커뮤니티가 함께 해결합니다."
AI 사용 사례 2024에 따르면 효과적인 데이터 관리는 AI 리더가 다른 조직과 차별화되는 핵심 특징 중 하나입니다. AI 리더의 61%는 AI 이니셔티브를 지원하기 위해 조직 데이터에 액세스하고 효과적으로 관리할 수 있다고 믿는 반면, 그렇게 믿는 AI 학습자는 11% 입니다.
하지만 AI 모델에 독점 데이터를 제공하는 것은 말처럼 간단하지 않습니다. 데이터 사일로, 품질 관리 및 기타 문제가 모두 걸림돌이 될 수 있습니다.
광범위한 관점에서 보면, 이 솔루션은 사일로를 허물고, 상호 운용성을 보장하며, 플랫폼 간에 유연한 데이터 이동을 조율하는 통합 데이터 패브릭을 구현하는 것입니다.
하지만 실제로는 어떤 모습일까요? 다음은 몇 가지 주요 고려 사항입니다.
많은 AI 노력의 첫 번째 장애물은 데이터를 수집하고 저장하는 것인데, 이 프로세스는 생각보다 간단하지 않습니다.
기존 데이터베이스에서 데이터를 캡처하면 데이터 사일로가 발생하는 경우가 많아 조직이 효과적인 RAG 데이터베이스를 구축하거나 모델을 미세 조정하는 데 필요한 모든 데이터를 집계하지 못할 수 있습니다. IBM® Data Differentiator에 따르면 기업의 82%가 주요 워크플로를 방해하는 데이터 사일로를 경험하고 있습니다.
조직은 서로 다른 소스에서 데이터를 검색하고, 사용할 준비를 하고, 액세스 가능한 중앙 집중식 저장소에 저장하기 위한 파이프라인을 구현해야 합니다.
데이터를 검색하고 준비하려면 Apache Kafka와 같은 스트림 처리 툴이나 IBM® DataStage와 같은 ETL 및 ELT 지원 데이터 통합 툴을 사용해야 할 수 있습니다. 조직은 또한 데이터에 적합한 저장소를 선택해야 합니다. 여기에는 다음이 포함될 수 있습니다.
데이터 레이크는 대량의 정형 및 비정형 데이터를 처리하도록 설계된 저비용 스토리지 환경을 제공합니다.
데이터 웨어하우스는 데이터 분석, 비즈니스 인텔리전스 및 데이터 과학 활동을 지원하도록 구축되었습니다.
데이터 레이크하우스(예: watsonx.data)는 데이터 웨어하우스와 데이터 레이크의 기능을 하나의 데이터 관리 솔루션으로 통합합니다.
하이브리드 클라우드 인프라는 데이터 통합 노력의 중요한 구성 요소이기도 합니다. 오늘날 많은 기업이 온프레미스 데이터 저장소와 여러 클라우드 서비스 간에 데이터를 분산하고 있습니다.
“어디에 있든 이 모든 정보를 집계하여 AI 모델에 제공할 수 있어야 합니다.”라고 Choie는 말합니다. "하이브리드를 사용하지 않는다면 무언가를 놓치고 있는 것입니다."
잘못된 입력은 잘못된 아웃풋으로 이어집니다. 조직은 AI 모델에 제공하는 독점 데이터가 신뢰할 수 있고 정확한지 확인해야 합니다.
"데이터의 금, 즉 차별화 요소를 파악하여 이를 증폭해야 합니다."라고 Varshney는 말합니다. "데이터에서 노이즈를 줄이고 미세 조정할 수 있는 고품질 데이터를 제공해야 합니다."
데이터는 AI에 전달되기 전에 정리해야 합니다. 그렇지 않으면 모델의 성능이 저하될 수 있습니다.
Varshney는 해결 방법이 쉽게 드러나지 않는 콜센터 티켓의 예를 듭니다. “사람들은 작동하는 방법을 찾기 전까지 다섯 가지 다른 방법을 시도할 수도 있습니다. 그 티켓을 그대로 모델에 전달해서는 안 됩니다. 그 안에는 잡음이 매우 많을 것입니다. 사람들이 시도했던 모든 방법이 포함되어 있을 것입니다. 모델은 어떤 결과가 올바른 결과인지 혼란스러워할 수 있습니다. 모델이 실제 해결책만 볼 수 있도록 잡음을 정리해야 합니다.”
데이터 세트를 정리, 준비 및 큐레이션하려면 내부 또는 외부 파트너의 데이터 과학자 및 분석가가 일부 수동 작업을 수행해야 합니다. 여기에는 다음과 같은 툴도 포함됩니다.
AI 기반 데이터 관리 툴은 자동으로 데이터를 검증하고, 오류를 플래그하고, 데이터를 적절한 형식으로 변환할 수 있습니다.
합성 데이터 생성기는 결측 값을 채우고 더 큰 규모의 코퍼스로 인간이 준비한 자산을 보강하는 데 도움이 될 수 있습니다.
Apache Spark 및 pandas Python 라이브러리와 같은 데이터 전처리 및 엔지니어링 툴.
독점 데이터가 생성형 AI에 가져올 수 있는 경쟁 우위가 무엇이든, 지속적인 전략적 우위는 기술과 비즈니스 프로세스의 올바른 조합을 배포함으로써 얻을 수 있습니다.
Varshney는 "워크플로 자체가 돈이 되는 곳입니다."라고 설명합니다. "이 모델은 상품이며, 우리는 계속해서 더 나은 모델을 만들 것입니다. 우리가 정말로 알아내야 할 것은 기존 AI, 자동화 및 생성형 AI를 하나의 워크플로에 결합하는 적절한 조합입니다.”
다시 말해, 조직은 생성형 AI(심지어 사양에 맞게 미세 조정된 모델일지라도)를 프로세스에 적용하고 결과를 기대할 수 없습니다. 오히려 모델을 워크플로에 맞추는 만큼 프로세스를 평가하고 워크플로를 모델에 맞춰 조정해야 합니다.
소박한 식기세척기를 생각해 보세요.
"식기세척기를 개발했을 때 우리는 식기세척기가 우리와 같은 방식으로 서서 설거지를 할 것이라고 기대하지 않았습니다."라고 Varshney는 말합니다. "우리는 식기 세척기가 정말 뛰어난 세척 성능을 발휘할 수 있도록 공정을 바꾸었습니다. 우리는 문제를 올바른 형식으로 설정했습니다. 여기에서도 동일한 작업을 수행해야 합니다. 프로세스를 재설계하고 기존 AI와 생성형 AI를 적절히 조합해야 합니다. 그러면 가치를 실현하기 시작할 수 있습니다."
