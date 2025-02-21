성공적인 생성형 AI 비즈니스 애플리케이션을 구축하기 위해 조직은 일반적으로 비정형 데이터와 정형 데이터의 조합이 필요합니다. 정량적 데이터라고도 하는 정형 데이터는 생성형 AI 애플리케이션을 구동하는 머신 러닝(ML) 알고리즘으로 쉽게 처리할 수 있도록 이전에 형식이 지정된 데이터입니다.

알고리즘은 고급 ML 모델을 사용하여 사람이 대량의 데이터(데이터 세트)로부터 학습하는 방식을 시뮬레이션하여, 사람이 데이터에 대한 질문을 이해하고 새로운 콘텐츠를 생성하여 응답할 수 있을 때까지 진행합니다.

기업에서 수집하는 일부 데이터(예: 이름, 날짜, 거래 금액과 같은 고객 및 재무 정보)는 이미 정형화되어 있지만 많은 양의 데이터가 비정형 데이터입니다. 정성적 데이터라고도 하는 비정형 데이터는 미리 정의된 형식이 없는 데이터입니다. 비정형 데이터는 광범위하며 이메일, 웹 페이지, 소셜 미디어 계정 및 사물인터넷(IoT) 센서의 비디오, 오디오 및 텍스트 파일을 포함할 수 있습니다.

디지털 경제가 확장됨에 따라 기업에서 수집하는 비정형 데이터의 양이 기하급수적으로 증가하고 있습니다. Forbes에 따르면 기업이 수집하는 데이터의 80~90%가 비정형 데이터입니다. 비정형 데이터는 ML 목적에 적합하지 않으며 AI 모델을 학습하는 데 사용하려면 먼저 변환해야 합니다.

비정형 데이터를 컴퓨터에서 처리하여 비즈니스 목적으로 사용할 수 있는 데이터로 변환하려면 관련 정보를 추출하고 사전 정의된 형식으로 구성해야 합니다. 데이터의 양과 복잡성은 문제를 야기하며, 까다로운 데이터 관리 환경과 데이터 거버넌스 법률을 준수하는 데는 많은 비용이 소요될 수 있습니다.