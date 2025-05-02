모든 머신러닝은 데이터 세트, 즉 데이터 모음에서 시작됩니다. 데이터 세트는 스프레드시트, 비디오 영상, 웹 페이지, PDF 또는 기타 유형의 데이터로 구성될 수 있습니다. 일반적으로 모델에 입력되는 학습 데이터가 많을수록 모델의 성능이 더 좋습니다. 그러나 데이터의 양뿐만 아니라 데이터의 품질도 매우 중요합니다.

AI 학습 데이터는 데이터를 설명하는 '특성(Feature)' 또는 '속성(Attribute)'들로 구성됩니다. 예를 들어, 공장 장비에 대한 데이터 세트에는 온도, 진동 속도 및 마지막 수리 시간이 포함될 수 있습니다. 이 데이터는 입력 데이터를 처리하여 아웃풋을 만들어내기 위해 작성된 일련의 명령어(코드)로 표현된 머신러닝 알고리즘에 '공급'됩니다. 알고리즘에 데이터를 공급한다는 것은 알고리즘에 입력 데이터를 제공하고, 이를 처리 및 분석하여 아웃풋을 산출하는 과정을 의미합니다. 학습된 수학적 모델은 이 프로세스의 결과입니다. 이러한 모델은 최근 인공지능 혁신의 거의 모든 기반이 됩니다.

일부 모델은 기계가 인간의 언어를 읽고 말하도록 학습시키는 데 활용되는 자연어 처리(NLP)에 사용됩니다. 컴퓨터 비전을 통해 다른 모델이 시각적 정보를 해석할 수 있습니다. 그러나 모든 것은 훈련 데이터에서 시작됩니다.