업계 뉴스레터
Think 뉴스레터를 통해 AI, 자동화, 데이터 등 가장 중요하고 흥미로운 업계 동향에 대한 최신 소식을 받아보세요. IBM 개인정보 보호정책을 참조하세요.
구독한 뉴스레터는 영어로 제공됩니다. 모든 뉴스레터에는 구독 취소 링크가 있습니다. 여기에서 구독을 관리하거나 취소할 수 있습니다. 자세한 정보는 IBM 개인정보 보호정책을 참조하세요.
데이터 과학은 오늘날의 방대한 데이터 세트에서 가치를 추출하는 광범위한 다학제적 분야입니다. 고급 도구를 사용하여 원시 데이터를 보고, 데이터 세트를 수집하고, 처리하고, 통찰력을 개발하여 의미를 창출합니다. 데이터 과학 분야를 구성하는 영역에는 마이닝, 통계, 데이터 분석, 데이터 모델링, 머신 러닝 모델링 및 프로그래밍이 포함됩니다.
궁극적으로 데이터 과학은 머신 러닝 기술과 통계 분석이 해결하는 데 도움이 될 수 있는 새로운 비즈니스 문제를 정의하는 데 사용됩니다. 데이터 과학은 문제를 이해하고, 필요한 데이터를 파악하고, 데이터를 분석하여 실제 문제를 해결하는 방식으로 비즈니스 문제를 해결합니다.
머신 러닝(ML)은 데이터 과학에서 나온 것을 학습하는 데 중점을 둔 인공 지능(AI)의 하위 집합입니다. 먼저 비정형 빅 데이터를 정리, 준비 및 분석하기 위한 데이터 과학 도구가 필요합니다. 그런 다음 머신 러닝은 데이터에서 '학습'하여 성능을 개선하거나 예측을 알리는 통찰력을 생성할 수 있습니다.
인간이 단순히 지시를 따르는 것이 아니라 경험을 통해 학습할 수 있는 것처럼, 기계도 데이터 분석에 도구를 적용하여 학습할 수 있습니다. 머신 러닝은 도구와 기술을 사용하여 알려진 문제를 해결하여 기계가 경험을 통해 데이터를 학습하고 사람의 개입을 최소화할 수 있는 알고리즘을 만듭니다. 인간이 일생 동안 처리할 수 없는 엄청난 양의 데이터를 처리하고 더 많은 데이터가 처리됨에 따라 진화합니다.
대부분의 기업에서 분석을 위한 적절한 데이터를 찾고, 정리하고, 준비하는 데는 데이터 과학자의 하루 중 최대 80%가 소요될 수 있습니다. 지루할 수 있지만 올바르게 수행하는 것이 중요합니다.
다양한 형태로 수집된 다양한 소스의 데이터에는 데이터 입력 및 컴파일이 필요합니다. 오늘날 다양한 소스의 데이터를 저장할 수 있는 중앙 집중식 플랫폼이 있는 가상 데이터 웨어하우스를 사용하면 더 쉽게 만들 수 있습니다.
데이터 과학을 적용할 때 한 가지 과제는 관련 비즈니스 문제를 식별하는 것입니다. 예를 들어, 문제가 수익 감소 또는 생산 병목 현상과 관련이 있나요? 의심되지만 감지하기 어려운 패턴을 찾고 계신가요? 다른 과제로는 비기술 이해관계자에게 결과 전달, 데이터 보안 보장, 데이터 과학자와 데이터 엔지니어 간의 효율적인 협업 지원, 적절한 핵심 성과 지표(KPI) 지표 결정 등이 있습니다.
소셜 미디어, 전자 상거래 사이트, 인터넷 검색, 고객 설문조사 등의 데이터가 증가함에 따라 빅 데이터를 기반으로 한 새로운 연구 분야가 등장했습니다. 계속 증가하고 있는 이러한 방대한 데이터 세트를 통해 조직은 구매 패턴과 행동을 모니터링하고 예측할 수 있습니다.
그러나 데이터 세트는 구조화되어 있지 않기 때문에 의사 결정을 위해 데이터를 해석하는 것은 복잡하고 시간이 많이 소요될 수 있습니다. 바로 여기에서 데이터 과학이 필요합니다.
데이터 과학이라는 용어는 1960년대에 "컴퓨터 과학"이라는 문구와 상호 교환할 수 있을 때 처음 사용되었습니다. "데이터 과학"은 2001년에 처음으로 독립적인 학문으로 사용되었습니다. 데이터 과학과 머신 러닝은 모두 데이터 엔지니어와 거의 모든 산업에서 사용됩니다.
데이터를 보고, 관리하고, 액세스하는 데이터 분석가로 일하려면 수학, 통계, 데이터 시각화(이해관계자에게 결과를 제시하기 위한), 데이터 마이닝뿐만 아니라 구조적 쿼리 언어(SQL)도 알아야 할 정도로 분야가 발전했습니다. 또한 데이터 정리 및 처리 기술을 이해해야 합니다. 데이터 분석가는 종종 머신 러닝 모델을 구축하기 때문에 프로그래밍 및 AI 지식도 중요합니다. 수학, 통계, 데이터 시각화(이해관계자에게 결과 제시) 및 데이터 마이닝도 가능합니다. 또한 데이터 정리 및 처리 기술을 이해해야 합니다. 데이터 분석가는 종종 머신 러닝 모델을 구축하기 때문에 프로그래밍 및 AI 지식도 중요합니다.
데이터 과학은 산업 및 정부에서 널리 사용되며 수익 창출, 제품 및 서비스 혁신, 인프라 및 공공 시스템 개선 등에 도움이 됩니다.
데이터 과학 사용 사례의 몇 가지 예는 다음과 같습니다.
머신 러닝의 시작과 그 이름 자체는 1950년대에 이루어졌습니다. 1950년, 데이터 과학자 앨런 튜링은 오늘날 우리가 튜링 테스트라고 부르는 것을 제안했는데, 이 테스트는 "기계가 생각할 수 있는가?"라는 질문을 던졌습니다. 테스트는 기계가 인간이 기계라는 사실을 깨닫지 못한 채 대화에 참여할 수 있는지 여부입니다. 더 넓은 차원에서 기계가 인간의 지능을 보여줄 수 있는지 묻습니다. 이는 AI의 이론과 개발로 이어졌습니다.
IBM 컴퓨터 과학자 Arthur Samuel은 1952년에 "머신 러닝"이라는 문구를 만들어냈습니다. 같은 해에 그는 체커 게임 프로그램을 만들었습니다. 1962년, 체커 마스터가 IBM 7094 컴퓨터의 머신 러닝 프로그램과 대결하여 컴퓨터가 이겼습니다.
오늘날 머신 러닝은 엔지니어가 응용 수학, 컴퓨터 프로그래밍, 통계적 방법, 확률 개념, 데이터 구조 및 기타 컴퓨터 과학 기초, Hadoop 및 Hive와 같은 빅 데이터 도구를 알아야 할 정도로 발전했습니다. 프로그램은 R, Java, SAS 및 기타 프로그래밍 언어로 작성되므로 SQL을 알 필요가 없습니다. Python은 머신 러닝에 사용되는 가장 일반적인 프로그래밍 언어입니다.
머신 러닝과 딥 러닝은 모두 AI의 하위 집합입니다. 딥 러닝은 컴퓨터가 인간의 두뇌와 같은 방식으로 데이터를 처리하도록 가르칩니다. 텍스트, 이미지, 사운드 및 기타 데이터의 복잡한 패턴을 인식하고 정확한 통찰력과 예측을 생성할 수 있습니다. 딥 러닝 알고리즘은 인간의 두뇌를 모델로 한 신경망입니다.
가장 일반적으로 사용되는 머신 러닝 알고리즘에는 선형 회귀, 로지스틱 회귀, 의사결정트리, SVM(Support Vector Machine) 알고리즘, 나이브 베이즈 알고리즘 및 KNN 알고리즘이 있습니다. 이는 지도 학습, 비지도 학습 또는 강화/강화 학습일 수 있습니다.
머신 러닝 엔지니어는 자연어 처리 및 컴퓨팅 비전을 전문으로 하고 머신 러닝 등에 중점을 둔 소프트웨어 엔지니어가 될 수 있습니다.
개인 정보 보호 및 데이터 사용 방식과 같은 머신 러닝과 관련하여 몇 가지 윤리적 문제가 있습니다. 비정형 데이터는 사용자의 지식이나 동의 없이 소셜 미디어 사이트에서 수집되었습니다. 라이선스 계약에 해당 데이터를 사용할 수 있는 방법이 명시되어 있을 수 있지만 많은 소셜 미디어 사용자는 그 작은 글씨를 읽지 않습니다.
또 다른 문제는 우리가 머신 러닝 알고리즘이 어떻게 작동하고 "결정을 내리는지"를 항상 알지 못한다는 것입니다. 이에 대한 한 가지 해결책은 사람들이 소스 코드를 확인할 수 있도록 머신 러닝 프로그램을 오픈 소스로 출시하는 것입니다.
일부 머신 러닝 모델은 편향된 데이터가 포함된 데이터 세트를 사용했으며, 이는 머신 러닝 결과에 영향을 미칩니다. 머신 러닝의 책임은 개인이 알고리즘을 얼마나 보고 수정할 수 있는지, 결과에 문제가 있는 경우 누가 책임을 져야 하는지를 의미합니다.
어떤 사람들은 AI와 머신 러닝이 일자리를 없앨 것이라고 걱정합니다. 사용 가능한 직업 유형이 바뀔 수 있지만 머신 러닝은 새롭고 다양한 직책을 창출할 것으로 예상됩니다. 많은 경우 일상적이고 반복적인 작업을 처리하여 인간이 더 많은 창의성을 필요로 하고 더 큰 영향력을 발휘하는 작업으로 이동할 수 있도록 합니다.
머신 러닝을 사용하는 잘 알려진 기업으로는 대량의 데이터를 수집한 다음 개인의 이전 행동을 사용하여 관심사와 욕구를 예측하고 예측하는 소셜 미디어 플랫폼이 있습니다. 그런 다음 플랫폼은 해당 정보와 예측 모델링을 사용하여 관련 제품, 서비스 또는 기사를 추천합니다.
주문형 비디오 구독 회사와 추천 엔진은 자율 주행 자동차의 급속한 발전과 마찬가지로 머신 러닝 사용의 또 다른 예입니다. 머신 러닝을 사용하는 다른 회사로는 기술 회사, 클라우드 컴퓨팅 플랫폼, 운동복 및 장비 회사, 전기 자동차 제조업체, 우주 항공 회사 등이 있습니다.
데이터 과학을 실천하는 데는 어려움이 따릅니다. 단편화된 데이터, 데이터 과학 기술 부족, 교육 및 배포에 대한 엄격한 IT 표준이 있는 도구, 사례 및 프레임워크 중에서 선택할 수 있습니다. 또한 정확도가 불분명하고 감사하기 어려운 예측이 있는 ML 모델을 운영하는 것도 어려울 수 있습니다.
IBM의 데이터 과학 및 AI 수명 주기 제품 포트폴리오는 오픈 소스 기술에 대한 IBM의 오랜 노력을 바탕으로 구축되었습니다. 여기에는 기업이 새로운 방식으로 데이터의 가치를 실현할 수 있도록 하는 다양한 능력이 포함되어 있습니다.
Watsonx는 핵심 워크플로에서 생성형 AI의 영향을 가속화하여 생산성을 높이는 AI 제품 포트폴리오를 제공합니다. 포트폴리오는 watsonx.ai를 포함한 세 가지 강력한 구성 요소로 구성됩니다. 새로운 파운데이션 모델, 생성형 AI 및 머신 러닝을 위한 watsonx.ai 스튜디오, 데이터 레이크의 유연성과 데이터 웨어하우스의 성능을 위한 watsonx.data 합목적성 저장소, 그리고 책임감, 투명성 및 설명 가능성을 갖춘 AI 워크플로를 구축할 수 있는 watsonx.governance 툴킷입니다.
이와 함께 watsonx는 조직에 다음과 같은 기능을 제공합니다.
데이터 과학 도구와 솔루션을 활용하여 패턴을 파악하고 데이터, 알고리즘, 머신 러닝, AI 기술을 활용하여 예측을 구축합니다.
더 나은 의사 결정을 위한 AI 기반 인사이트인 Cognos Analytics 12.0을 소개합니다.
IBM Consulting을 통해 엔터프라이즈 데이터의 가치를 실현하여 비즈니스 이점을 제공하는 인사이트 중심의 조직을 구축하세요.