에이전틱 AI 데이터 엔지니어링이란 무엇인가요?

에이전틱 AI 데이터 엔지니어링의 정의

에이전틱 AI 데이터 엔지니어링은 데이터를 집계하고 분석하는 시스템의 구축 및 유지 관리를 개선하고 가속화하기 위해 인공지능(AI) 에이전트를 배포하는 것입니다.

 

이름에서 알 수 있듯이 에이전틱 AI 데이터 엔지니어링은 데이터 엔지니어링에이전틱 AI를 결합한 개념입니다. 데이터 엔지니어링은 데이터 관리에 필수적인 데이터 인프라와 데이터 파이프라인을 개발하고 유지 관리하는 활동을 의미합니다.

후자는 제한된 인간 감독만으로 특정 목표를 수행할 수 있는 인공지능 시스템을 의미합니다. 멀티에이전트 시스템 프레임워크에서는 인간의 의사결정을 모방하는 머신 러닝 모델인 여러 AI 에이전트가 수행하는 하위 작업이 AI 오케스트레이션을 통해 조정됩니다.

데이터 엔지니어링에서 AI 에이전트는 기업 사용 사례에 필요한 고품질 데이터를 확보하는 데 중요한 다단계 문제 해결 프로세스를 수행할 수 있습니다. 이러한 프로세스에는 데이터 파이프라인 설계와 함께 데이터 처리 작업 수행이 포함되며, 여기에는 데이터 변환 수행 및 데이터 문제 탐지가 포함됩니다.

에이전틱 데이터 엔지니어링이라고도 하는 에이전틱 AI 데이터 엔지니어링은 데이터 엔지니어링 팀의 업무 부담을 크게 줄이는 동시에 데이터 파이프라인 성능도 최적화할 수 있습니다. 또한 에이전틱 AI 데이터 엔지니어링은 기술 역량이 부족한 비즈니스 사용자도 기업 데이터에 액세스하고 분석 정보를 도출할 수 있도록 지원할 수 있습니다.

에이전틱 AI가 데이터 엔지니어링에서 중요한 이유는 무엇인가요?

에이전틱 AI 시스템이 데이터 엔지니어링에 도입되고 있는 이유를 이해하려면 최신 데이터 엔지니어링의 특성을 자세히 살펴볼 필요가 있습니다.

데이터 엔지니어링은 점점 더 방대하고 복잡해지는 데이터 에코시스템에서 가치를 창출하려는 기업에 매우 중요합니다. 데이터 엔지니어는 원시 데이터를 실제 비즈니스 가치를 제공하는 결과물로 변환하는 워크플로를 구조화하고 정상적으로 작동하도록 지원합니다. 데이터 엔지니어링이 성공적으로 수행되면 실행 가능한 분석 정보를 도출하거나 AI 이니셔티브를 지원하는 데 활용할 수 있는 정제되고 정확하며 시의적절한 데이터 세트가 제공됩니다.

조직이 데이터 기반 의사결정에 대한 의존도를 높이면서, 특히 실시간 데이터를 기반으로 한 시간 민감형 의사결정이 증가함에 따라 신뢰할 수 있는 데이터 파이프라인의 필요성도 그 어느 때보다 커지고 있습니다. 그러나 이러한 파이프라인을 유지 관리하는 과제 역시 그 어느 때보다 커졌으며, 데이터 엔지니어는 점점 더 복잡해지는 데이터 스택과 오케스트레이션 프로세스를 관리해야 하는 상황에 놓여 있습니다.

결국 데이터 팀은 많은 시간을 “긴급 문제 대응”에 사용하게 됩니다. 즉, 데이터 파이프라인 문제와 더 심각한 경우에는 데이터 파이프라인 장애를 해결하기 위해 유지 관리와 문제 해결에 집중하게 됩니다.

“데이터 엔지니어링 팀이 파이프라인을 구축할 때 엔지니어는 종종 예약 작업, 저장 프로시저, 복잡한 스크립트 및 변환 로직을 조합해 사용합니다. 그리고 이 모든 요소는 단지 데이터 흐름을 유지하기 위해 함께 작동합니다. IBM Data & AI의 시니어 제품 관리자 Justin Yan은 IBM Technology 동영상에서 “소스 시스템에서 단 하나의 스키마 변경이나 컬럼 이름 변경만 발생해도 몇 시간에 걸친 디버깅과 재테스트가 필요할 수 있습니다.”라고 설명했습니다.

다행히 이제 AI 에이전트를 배포해 이러한 작업의 상당 부분을 처리하고, 애초에 문제가 발생하지 않도록 예방할 수 있습니다. Yan은 “지능형 에이전트는 데이터 통합 과정에서 발생하는 문제를 해결하고, 데이터 과제를 계획, 모니터링 및 조정할 수 있도록 지원함으로써 데이터가 워크로드에 필요한 품질과 적시성을 갖춘 상태로 필요한 위치에 도달하도록 할 수 있습니다.”라고 말했습니다.

에이전틱 AI 데이터 엔지니어링에 사용되는 핵심 기술

여러 기술의 조합은 데이터 엔지니어링을 위한 에이전틱 AI 배포를 지원합니다.

AI 에이전트

AI 에이전트는 데이터 워크플로를 포함한 사용 가능한 툴을 활용해 워크플로를 설계하고 자율적으로 작업을 수행하는 시스템입니다. 에이전트는 대규모 언어 모델의 자연어 처리 기술을 사용해 사용자 입력을 단계별로 이해하고 응답하며, 외부 툴을 호출해야 하는 시점을 판단합니다.

자연어 처리

자연어 처리(NLP)는 컴퓨터가 인간 언어를 이해하고 소통할 수 있도록 머신 러닝을 활용하는 컴퓨터 과학 및 AI의 하위 분야입니다. NLP는 비즈니스 운영을 간소화하고 자동화하는 기업 솔루션에서 점점 더 중요한 역할을 하고 있습니다.

머신 러닝

머신 러닝은 학습 데이터의 패턴을 “학습”할 수 있는 알고리즘에 초점을 맞춘 AI의 하위 분야입니다. 이러한 알고리즘은 이후 해당 패턴 인식을 활용해 새로운 데이터에 대해 정확한 추론을 수행합니다. 머신 러닝은 대규모 언어 모델과 기타 생성형 AI 툴을 포함한 대부분의 최신 AI 시스템의 핵심 기반을 제공합니다.

대규모 언어 모델

대규모 언어 모델(LLM)은 자연어와 기타 유형의 콘텐츠를 이해하고 생성해 다양한 작업을 수행할 수 있는 딥 러닝 모델의 한 유형입니다.이러한 기능은 자연어 처리 기술과 대규모 데이터 학습을 기반으로 하며, 이를 통해 비정형 인간 언어를 대규모로 처리할 수 있습니다.

에이전틱 AI 데이터 엔지니어링은 어떻게 작동하나요?

데이터 엔지니어링에서 자율 에이전트의 활용 방식은 데이터 시스템과 엔지니어링 팀에 따라 달라질 수 있지만, 여기에서는 AI 기반 시스템이 데이터 수명 주기 전반에서 다양한 데이터 엔지니어링 프로세스와 작업을 어떻게 처리할 수 있는지 개괄적으로 살펴봅니다.

데이터 파이프라인 생성

에이전틱 AI 데이터 엔지니어링은 조직이 데이터 파이프라인 생성을 자동화할 수 있도록 지원합니다. 사용자는 원하는 결과를 얻기 위해 필요한 단계를 직접 정의하지 않고도 자연어를 사용해 파이프라인이 무엇을 제공해야 하는지에 대한 의도를 설명할 수 있으며, 파이프라인이 어떻게 작동할지는 AI 에이전트가 결정합니다. 이를 선언형 파이프라인 작성이라고 하며, 각 파이프라인 단계를 직접 코딩하는 보다 수작업 중심의 접근 방식에 대한 대안입니다.

사용자가 자연어 요청을 제출하면 LLM은 해당 요청을 분석하고 사용자의 의도를 이해합니다. 그런 다음 AI 에이전트는 다음이 포함된 엔드투엔드 프로세스를 설계하고, 많은 경우 직접 구현합니다.

  • 데이터 소스 연결 및 수집
  • 데이터 변환 적용
  • 새로운 데이터를 대상 시스템으로 전송

더 많은 기술 지식을 가진 사용자는 요청하는 데이터 파이프라인의 구조를 직접 지정할 수 있습니다. 이들은 데이터 소스 선택이나 데이터 정리와 같은 다양한 데이터 관련 작업에 대한 사용자 요청을 기반으로 LLM이 Python 스크립트를 작성하고 실행할 수 있도록 지원하는 Python 소프트웨어 개발 키트(SDK)를 사용할 수 있습니다.

작업 실행

파이프라인이 설계되면 에이전틱 AI 시스템은 워크로드를 실행할 수 있습니다. AI 에이전트는 툴 호출을 통해 데이터 소스 연결, 메타데이터 이해 및 변환 수행에 필요한 외부 툴, 애플리케이션 프로그래밍 인터페이스(API) 또는 시스템과 상호작용합니다.

에이전트는 하이브리드 환경 전반에서 데이터 워크플로에 가장 적합한 실행 경로도 선택합니다. 여기에는 작업의 각 단계에 대해 최적의 통합 방식(실시간 스트리밍, 배치 ETL/ELT 또는 복제)과 실행 환경(온프레미스, 클라우드 환경 또는 푸시다운 및 원격 엔진 활용)을 동적으로 선택하는 작업이 포함됩니다.

강화 학습은 올바르게 구성되고 완료된 파이프라인 실행에 보상을 제공함으로써 에이전트가 시간이 지남에 따라 파이프라인 계획을 개선할 수 있도록 지원합니다.

지속적인 모니터링

에이전틱 시스템은 파이프라인을 지속적으로 모니터링함으로써 관측 가능성을 구현할 수 있습니다. 에이전트는 스키마 드리프트, 데이터 이상 및 데이터 품질 문제를 감지할 수 있습니다. 또한 파이프라인 문제에 대한 근본 원인 분석을 지원하고, 해결 단계를 제안하며, 해당 단계를 직접 실행할 수도 있습니다.

파이프라인 수정 작업의 자율 실행은 특히 대응이 어려운 시간대에 매우 유용할 수 있습니다. “야간 작업이 실패하면 어떻게 될까요? IBM 제품 관리자 John Wen은 IBM Technology 동영상에서 “누군가를 호출하는 대신 에이전트가 실행을 다시 시도하고, 엔진 규모를 확장하며, 흐름 로직을 자동으로 조정할 수 있습니다.”라고 설명했습니다.

AI 아카데미

데이터 관리가 생성형 AI 구현의 비결일까요?

생성형 AI를 성공적으로 사용하기 위해 고품질 데이터가 필수적인 이유를 알아보세요.

에이전틱 AI 데이터 엔지니어링의 이점은 무엇인가요?

에이전틱 AI 데이터 엔지니어링은 조직, 데이터 팀 및 비즈니스 사용자에게 다양한 이점을 제공합니다. 여기에는 다음이 포함됩니다.

데이터 환경의 복잡성 관리

오늘날 데이터 엔지니어가 직면한 근본적인 과제 중 하나는 서로 다른 클라우드, 데이터 웨어하우스, 데이터 레이크, 온프레미스 서버 등 복잡하고 사일로화된 환경 전반에서 데이터를 통합하고 관리하는 것입니다. 일부 데이터는 스프레드시트와 SQL 데이터베이스에 구조화되어 있지만, 많은 데이터는 문서, 이메일, 기록 파일 및 이미지 형태의 비정형 데이터로 존재합니다. 기업 시스템에서 AI 에이전트는 다양한 데이터 소스에 연결하고 여러 데이터 형식을 통합해 더욱 풍부한 분석과 정확한 예측을 가능하게 하는 통합 데이터 플랫폼을 구축할 수 있습니다.

데이터 품질 개선

AI 에이전트는 데이터 프로파일링, 데이터 검증, 규칙 생성, 모니터링 및 문제 해결을 자동화할 수 있습니다. “에이전트는 컬럼 변경이나 유형 불일치를 조기에 감지하고 작업이 실패하기 전에 수정 방안을 제안할 수 있습니다. 이상 탐지에 대한 지속적인 검사, 자동 백필 및 실패한 데이터 소스를 우회하는 재라우팅은 AI 시스템의 다운스트림 활용을 위해 데이터를 신뢰할 수 있는 상태로 유지하는 데 도움이 됩니다.”라고 Yan은 설명했습니다.

효율성 향상

AI 에이전트는 다양한 실행 전략을 평가하고 서로 다른 애플리케이션 스택에 존재하는 숨겨진 종속성과 같은 잠재적 병목 현상 및 복잡성을 식별할 수 있습니다. 이러한 정보를 파이프라인 설계에 반영함으로써 에이전트는 데이터 목표를 달성하면서도 리소스 소비와 운영 시간을 최소화하는 계획을 수립할 수 있습니다.

또한 인프라 또는 스키마가 변경되더라도 에이전틱 시스템은 기존 파이프라인을 조정하고 재사용할 수 있어 기업이 오래된 파이프라인과 기술 부채를 계속 누적하는 상황을 방지하는 데 도움이 됩니다.

규정 준수 지원

AI 에이전트에 의한 파이프라인 설계 및 지속적인 모니터링은 민감한 데이터가 건강 보험 양도 및 책임에 관한 법률(HIPAA)유럽연합 일반 데이터 보호 규정(GDPR)과 같은 데이터 개인정보 보호 법규를 준수하도록 보장할 수 있습니다. 또한 AI 에이전트의 계보 추적은 투명성과 감사 가능성을 지원할 수 있습니다.

비즈니스 사용자를 위한 셀프서비스 제공

기술 전문 지식이 거의 없거나 전혀 없는 비즈니스 사용자도 더 이상 데이터 요구 사항을 해결하기 위해 데이터 전문가에게만 의존할 필요가 없습니다. 이들은 데이터 담당자의 지원을 기다리는 대신 AI 에이전트에 데이터 세트 생성 또는 제공을 요청할 수 있으며, 이를 통해 핵심 분석 정보를 더욱 빠르게 확보할 수 있습니다.

확장 가능한 성장 지원

AI 에이전트는 데이터 팀이 해당 파이프라인을 수동으로 코딩하는 데 걸리는 시간의 일부만으로 완전하게 작동하는 데이터 파이프라인을 설계, 구축 및 실행할 수 있습니다. AI 에이전트는 또한 이러한 파이프라인을 적응 가능하고 “자가 복구” 가능한 형태로 만들 수 있으며, 즉 다운스트림 프로세스에 영향을 주기 전에 문제를 모니터링하고 해결할 수 있습니다. 결국 이는 기업이 데이터 자산과 데이터 요구 사항이 성장하고 변화하더라도 안심하고 계속해서 파이프라인을 추가할 수 있음을 의미합니다.

데이터 엔지니어의 업무 여유 확대

파이프라인 설계, 유지 관리 및 문제 해결 작업을 에이전틱 AI 시스템에 맡김으로써 데이터 엔지니어는 생산성을 높이고 새로운 기능 구축 및 시범 운영과 같은 더 높은 가치의 업무와 의미 있는 작업에 더 많은 시간을 활용할 수 있습니다.

에이전틱 AI 데이터 엔지니어링 도입 시 고려 사항

다른 AI 사용 사례와 마찬가지로 기업은 데이터 엔지니어링에 에이전틱 AI를 배포할 때 몇 가지 잠재적인 과제를 고려해야 합니다.

  • AI 기술과 본질적으로 호환되지 않는 기존 레거시 시스템에 AI 에이전트를 통합하는 어려움.

  • 업무 시간 중 대규모 데이터 볼륨을 재처리하는 작업과 같이 워크플로를 방해할 수 있는 예상치 못한 작업을 에이전트가 자율적으로 실행할 위험.

  • 사이버 공격으로 인해 에이전트가 손상되었거나 단순히 신뢰할 수 없는 AI 결과물 때문이든, 에이전트가 데이터 유출에 기여할 위험.

소프트웨어 솔루션과 플랫폼은 기업이 데이터 엔지니어링용 AI 기반 시스템을 포함한 에이전틱 AI를 일상적인 워크플로에 통합할 때 발생하는 과제를 해결하는 데 도움이 될 수 있습니다.

강력한 AI 거버넌스 툴은 의도하지 않은 에이전트 동작을 제한하기 위한 가드레일을 내장하고, 에이전트 성능 평가를 위한 특화된 지표를 배포할 수 있도록 지원합니다. AI 오케스트레이션 솔루션은 장기간의 재설계 없이도 최신 AI 기술과 기존 기업 시스템 간의 격차를 해소하는 데 도움이 될 수 있습니다.

작성자

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

카메라, 볼륨 노브, 클립보드 등의 여러 아이콘이 나열된 나선형 구조의 3D 렌더링
관련 솔루션
IBM StreamSets

직관적인 그래픽 인터페이스를 통해 스트리밍 데이터 파이프라인을 생성하여 하이브리드 및 멀티클라우드 환경 전반에서 완벽한 데이터 통합을 촉진합니다.

StreamSets 살펴보기
IBM watsonx.data™

watsonx.data를 사용하면 오픈, 하이브리드 및 관리형 데이터 저장소를 통해 데이터의 위치와 관계없이 모든 데이터로 분석과 AI를 확장할 수 있습니다.

watsonx.data 알아보기
데이터 및 분석 컨설팅 서비스

IBM Consulting을 통해 엔터프라이즈 데이터의 가치를 실현하여 비즈니스 이점을 제공하는 인사이트 중심의 조직을 구축하세요.

분석 서비스 알아보기
다음 단계 안내

탁월한 고객 및 직원 경험을 제공하기 위해 데이터 사일로를 제거하고, 복잡성을 줄이며, 데이터 품질을 개선하는 데이터 전략을 구축하세요.

  1. 데이터 관리 솔루션 살펴보기
  2. watsonx.data 알아보기