IBM Analytics Engine이란 무엇인가요?

IBM Analytics Engine은 Hadoop 및 Spark 기반의 분석 애플리케이션 개발과 배치를 위한 유연한 프레임워크를 제공합니다. 이 서비스를 사용하면 Hadoop 및 Spark 클러스터를 구동하고 해당 라이프사이클 동안 관리할 수 있습니다.

일반 Hadoop 클러스터와 다른 점은 무엇인가요?

IBM Analytics Engine은 컴퓨팅과 스토리지를 분리하는 아키텍처를 기반으로 합니다. 기존 Hadoop 아키텍처에서는 애플리케이션 실행뿐만 아니라 데이터 저장에도 클러스터를 사용했습니다. IAE에서는 두 가지로 기능을 분배했습니다. 애플리케이션 실행에만 클러스터를 사용하고 데이터 유지에는 IBM Cloud Object Storage를 사용합니다. 이러한 아키텍처를 사용하면 유연성이 향상되고, 운영이 간편해지며, 신뢰성과 비용효율성이 높아지는 효과를 얻을 수 있습니다. 자세한 내용은 이 백서를 참조하세요.

IBM Analytics Engine을 시작하려면 어떻게 해야 하나요?

IAE는 IBM Cloud에서 사용할 수 있습니다. 이 링크로 이동하여 서비스에 대해 자세히 알아보고 서비스 사용을 시작해 보세요. 빠른 시작을 위한 튜토리얼과 코드 샘플도 있습니다.

IBM Analytics Engine(IAE)에는 어떤 배포가 사용되나요?

IBM Analytics Engine은 오픈 소스 HDP(Hortonworks Data Platform)를 기반으로 합니다. 현재 지원되는 버전을 찾으려면 이 페이지를 참조하세요.

IAE에서 지원되는 HDP 컴포넌트는 무엇인가요?

지원되는 컴포넌트 및 버전의 전체 목록을 보려면 이 페이지를 참조하세요.

IBM Analytics Engine에서 사용할 수 있는 노드의 크기는 어떻게 되나요?

현재 지원되는 노드의 크기를 보려면 이 페이지를 참조하세요.

클러스터에 HDFS 공간이 아주 작은 이유는 무엇인가요? 한 번에 많은 데이터를 처리해야 하는 클러스터를 실행하려면 어떻게 해야 하나요?

IAE의 클러스터는 컴퓨팅 클러스터로 사용하기 위한 것이며 지속적인 데이터 스토리지에 사용하기 위한 것이 아닙니다. 데이터는 IBM Cloud Object Storage에 유지됩니다. 이렇게 하면 보다 유연하고 신뢰할 수 있으며 비용 효율적인 방식으로 분석 애플리케이션을 구축할 수 있습니다. 이 주제에 대해 자세히 알아보려면 이 백서를 참조하세요. HDFS는 처리 중에 필요한 중간 스토리지에 사용됩니다. 모든 최종 데이터(또는 중간 데이터)는 클러스터를 삭제하기 전에 Object Storage에 기록되어야 합니다. 중간 스토리지 요구사항이 노드 내에서 사용할 수 있는 HDFS를 초과하는 경우 클러스터에 노드를 더 추가할 수 있습니다.

구동할 수 있는 IAE 클러스터는 몇 개인가요?

구동할 수 있는 클러스터 수에는 제한이 없습니다.

IBM Analytics Engine을 사용해 볼 수 있는 무료 사용 계층이 있나요?

예, IBM은 무료로 사용할 수 있는 Lite 플랜을 제공하고 있습니다. 이 외에도 신규 IBM Cloud 사용자는 IAE 또는 다른 IBM Cloud 서비스를 사용할 수 있는 200달러 상당의 크레딧을 받습니다.

Lite 플랜은 어떻게 운용되나요?

Lite 플랜에 가입하면 50노드 시간 동안 무료로 IAE를 사용할 수 있습니다. 30일마다 하나의 클러스터를 프로비저닝할 수 있습니다. 50노드 시간이 소진되는 경우 24시간 이내에 유료 플랜으로 업그레이드하면 동일한 클러스터를 계속 사용할 수 있습니다. 24시간 이내에 업그레이드하지 않으면 해당 클러스터가 삭제되고 30일 제한이 경과한 후 새 클러스터를 프로비저닝할 수 있습니다. 클러스터의 크기에 따라 실제 사용 시간이 달라질 수 있습니다. 예를 들어 1개의 마스터와 3개의 데이터 노드 즉, 총 4개의 노드가 있는 경우에는 12.5시간 동안 실행됩니다(50시간/4개 노드). 하지만 1개의 마스터와 1개의 데이터 노드 즉, 총 2개의 노드가 있는 경우에는 25시간 동안 실행됩니다(50시간/2개 노드). 특정 인스턴스 내에서 노드 시간을 일시정지할 수 없습니다. 즉, 10노드 시간을 사용한 후 일시정지했다가 다시 나머지 40노드 시간을 사용할 수는 없습니다.

IBM Cloud Object Storage가 IBM Analytics Engine에 포함되어 있나요?

아니오, IBM Cloud Object Storage는 포함되어 있지 않습니다. 별도의 오퍼링입니다. IBM Cloud 카탈로그 또는 여기에서 자세히 알아볼 수 있습니다.

Object Storage는 IAE Hadoop 환경에서 어떻게 작동하나요? HDFS와 완전히 동일하지만 URL만 다른 제품을 사용하는 것인가요?

IBM Cloud Object Storage는 대부분 Hadoop FileSystem 인터페이스를 구현합니다. 단순한 읽기 및 쓰기 조작의 경우 Cloud Object Storage가 HDFS를 대체해도 Hadoop FileSystem API를 사용하는 애플리케이션이 계속 작동합니다. 둘 다 Hadoop에서 완전하게 지원되는 고성능 스토리지 옵션입니다.

IBM Analytics Engine을 사용하는 솔루션을 설계할 때 고려해야 할, Object Storage 같은 다른 컴포넌트로는 무엇이 있나요?

Object Storage 외에, IBM Cloud에서 제공하는 Compose MySQL을 사용하여 Hive 메타데이터를 유지하는 것을 고려해보세요. 클러스터를 삭제하면 모든 데이터와 메타데이터가 손실됩니다. Hive 메타데이터를 Compose와 같은 외부 관계형 저장소에 유지하면 클러스터가 삭제된 후에도 이 메타데이터를 재사용하거나 여러 클러스터에서 이 메타데이터에 액세스할 수 있습니다. IAE는 클러스터를 시작할 때 사용자 정의 스크립트를 통해 메타데이터 위치를 전달하도록 지원합니다. 따라서 클러스터를 구동하는 즉시 클러스터가 올바른 메타데이터 위치를 가리키도록 할 수 있습니다.

내 클러스터의 크기는 어떻게 결정하나요?

클러스터의 크기는 주로 워크로드와 연계하여 결정됩니다. 몇 가지 일반적인 지침은 다음과 같습니다. 오브젝트 저장소의 데이터를 읽는 Spark 워크로드의 경우 클러스터의 RAM은 해당 작업에서 분석할 데이터 크기의 50% 이상이어야 합니다. 오브젝트 저장소의 데이터를 읽는 Spark 워크로드에서 최상의 결과를 얻으려면 해당 작업에서 분석할 데이터 크기의 2배에 달하는 RAM을 사용해보세요. 중간 데이터가 많을 것으로 예상되는 경우 클러스터에서 적절한 양의 HDFS 공간을 제공하도록 노드 수를 지정해야 합니다.

프로덕션(HA 사용), 재해 복구, 스테이징(HA 사용), 개발이라는 4개 부분으로 이루어진 환경의 크기를 결정하려고 합니다. IAE에서 이러한 환경을 설계하려면 어떻게 하나요?

환경의 각 부분이 별도의 클러스터가 됩니다. 팀에 여러 명의 개발자가 있으며 개발자들이 동일한 클러스터 자격 증명을 공유할 수 없는 경우 개발자마다 별도의 클러스터를 사용하는 것을 고려해보세요. 개발 환경의 경우 일반적으로 1개의 마스터와 2개의 컴퓨팅 노드 클러스터를 사용하면 충분합니다. 스테이징 환경에서는 기능 테스트를 위해 3개의 컴퓨팅 노드를 사용하는 것이 좋습니다. 이렇게 하면 프로덕션에 배치하기 전에 약간 더 큰 규모로 추가 리소스를 테스트할 수 있습니다. 재해 복구 환경의 재해 복구 클러스터는 일반적으로 활성-활성 또는 활성-대기 모델로 구현됩니다. IAE에서 항상 클러스터를 실행할 필요는 없습니다. 프로덕션 클러스터가 중단되는 경우 DevOps 툴 체인을 사용하여 새 클러스터를 구동하고 프로덕션 클러스터로 지정할 수 있습니다. 사용자 정의 스크립트를 사용하여 이전 클러스터와 똑같이 구성해야 합니다.

IAE에서는 사용자를 어떻게 관리하나요? 내 클러스터에 사용자를 더 추가하는 방법은 무엇인가요?

IAE의 모든 클러스터는 단일 사용자 방식으로 되어 있습니다. 즉, 클러스터마다 Hadoop 사용자 ID가 하나만 있으며 이 사용자 ID로 모든 작업이 실행됩니다. 사용자 인증과 액세스 제어는 IBM Cloud의 IAM(Identity and Access Management) 서비스를 통해 수행됩니다. 사용자가 IBM Cloud에 로그인하면 관리자가 설정한 IAM 권한에 따라 IAE에 대한 사용자 액세스가 허용되거나 차단됩니다. 다른 사용자가 클러스터에 액세스할 수 있도록 하려면 해당 클러스터의 사용자 ID와 비밀번호를 공유할 수 있습니다. 이렇게 하면 다른 사용자에게 해당 클러스터에 대한 전체 액세스 권한이 부여됩니다.

Watson Studio 프로젝트를 통해 클러스터를 공유하는 방법을 사용하는 것이 좋습니다. 이러한 시나리오에서는 관리자가 IBM Cloud 포털을 통해 클러스터를 설정하고 Watson Studio의 프로젝트와 ‘연결’합니다. 이렇게 하면 해당 프로젝트에 대한 액세스 권한이 부여된 모든 사용자가 노트북이나 기타 툴을 통해 Spark 또는 Hadoop 런타임이 필요한 작업을 제출할 수 있습니다. 이 방법을 사용하면 IAE 클러스터 또는 분석할 데이터에 대한 액세스를 Watson Studio 또는 Watson Knowledge Catalog에서도 제어할 수 있다는 장점이 있습니다.

IAE에서는 어떻게 데이터 액세스를 제어하나요?

데이터 액세스 제어는 IBM Cloud Object Storage 액세스 제어 목록(ACL)을 통해 관리할 수 있습니다. IBM Cloud Object Storage의 ACL은 IBM Cloud의 Identity and Access Management 서비스와 연결되어 있습니다. 관리자는 오브젝트 스토리지 버킷 또는 파일에 대한 권한을 설정할 수 있습니다. 이러한 권한이 설정되면 IAE를 통해 데이터에 액세스할 때 오브젝트 스토리지 자격 증명을 사용하여 해당 사용자에게 특정 데이터 오브젝트에 대한 액세스 권한이 있는지를 판별합니다.

또한, 오브젝트 스토리지의 모든 데이터는 Watson Knowledge Catalog를 사용하여 카탈로그화할 수 있습니다. 데이터가 데이터 카탈로그에 있으면 Watson Knowledge Catalog를 사용하여 관리 정책을 정의하고 적용할 수 있습니다. Watson Studio 프로젝트를 사용하면 더욱 효율적으로 액세스 제어를 관리할 수 있습니다.

오래 실행되는 클러스터나 작업을 실행할 수 있나요?

예, 필요한 기간만큼 클러스터를 실행할 수 있습니다. 이러한 시나리오에서는 데이터가 주기적으로 IBM Cloud Object Storage에 기록되는지 확인해야 하며 지속적 저장소로 HDFS를 사용하지 않아야 합니다. 이렇게 해야 실수로 클러스터 장애가 발생해도 데이터가 손실되지 않도록 보호할 수 있습니다.

클러스터를 시작하는 데 시간이 얼마나 걸리나요?

Spark 소프트웨어 팩을 사용하는 경우 클러스터를 시작하고 애플리케이션을 실행할 준비를 하는 데 약 7-9분이 걸립니다. Hadoop 및 Spark 소프트웨어 팩을 사용하는 경우 클러스터를 시작하고 애플리케이션을 실행할 준비를 하는 데 약 15-20분이 걸립니다.

내 클러스터에 액세스하거나 내 클러스터와 상호작용하는 방법은 무엇인가요?

클러스터에 액세스할 수 있는 인터페이스는 다음과 같습니다.

  • SSH
  • Ambari 콘솔
  • REST API
  • Cloud Foundry CLI

클러스터로 데이터를 가져오는 방법은 무엇인가요?

IBM Cloud Object Storage에서 처리할 클러스터로 데이터를 읽어오는 방법을 사용하는 것이 좋습니다. IBM COS로 데이터를 업로드하고 COS, Hadoop 또는 Spark API를 사용하여 데이터를 읽습니다. 클러스터에서 직접 데이터를 처리해야 하는 유스케이스에서는 SFTP, WebHDFS, Spark, Spark-streaming, Sqoop 중 한 가지 방법을 사용하여 데이터를 수집할 수 있습니다. 자세한 정보는 이 주제에 대한 문서를 참조하세요.

내 클러스터를 구성하는 방법은 무엇인가요?

클러스터는 사용자 정의 스크립트를 사용하거나 Ambari 콘솔에서 구성 매개변수를 직접 수정하여 구성할 수 있습니다. 사용자 정의 스크립트는 다양한 구성 세트를 정의할 수 있는 편리한 방법입니다. 스크립트를 통해 다양한 유형의 클러스터를 구동하거나 반복 작업에 동일한 구성을 반복적으로 사용할 수 있습니다. 사용자 정의에 대한 자세한 정보는 여기에서 알아볼 수 있습니다.

IAE에서 루트 액세스가 허용되나요?

아니요, 정의된 PaaS 환경이므로 사용자에게는 설치할 수 있는 sudo 또는 루트 권한이 없습니다.

자체 Hadoop 스택 컴포넌트를 설치하고 싶으면 어떻게 해야 하나요?

IAE는 정의된 PaaS 서비스이므로 IBM에서 지원하지 않는 컴포넌트를 추가할 수 없습니다. 사용자는 Ambari를 통해 또는 다른 어떤 방법으로도 새 Ambari Hadoop 스택 컴포넌트를 설치할 수 없습니다. 서버가 아닌 Hadoop 에코시스템 컴포넌트는 설치할 수 있습니다. 즉, 사용자 공간에서 설치하고 실행할 수 있는 컴포넌트는 허용됩니다.

허용되는 타사 패키지 유형으로는 무엇이 있나요?

CentOS 저장소에서 사용할 수 있는 패키지는 IAE에서 사용할 수 있는 packageadmin 툴을 사용하여 설치할 수 있습니다. 사용자 공간에서 설치하고 실행할 수 있는 라이브러리나 패키지(예: Python 또는 R용)도 허용됩니다. 사용자는 CentOS가 아닌 저장소 또는 rpm의 패키지를 설치하거나 실행할 수 있는 sudo 또는 루트 권한이 없습니다. 향후 클러스터를 반복적으로 일관성 있게 작성할 수 있도록 모든 사용자 정의는 클러스터 시작 시에 사용자 정의 스크립트를 사용하여 수행하는 것이 좋습니다.

클러스터를 모니터링하는 방법은 무엇인가요? 알람은 어떻게 구성할 수 있나요?

Ambari 컴포넌트는 'Hadoop 및 Spark' 팩에 있는 기본제공 Ambari Metrics 알람을 사용하여 모니터링할 수 있습니다. 바로 사용할 수 있는 Ambari Metrics에서 알람을 수신하도록 구성할 수 있습니다.

내 클러스터를 확장하는 방법은 무엇인가요?

클러스터는 노드를 추가하여 확장할 수 있습니다. 노드는 IBM Cloud UI 또는 CLI 툴을 통해 추가할 수 있습니다.

실행 중인 작업이 있을 때 내 클러스터를 확장할 수 있나요?

예, 작업을 실행하고 있을 때 클러스터에 노드를 추가하여 확장할 수 있습니다. 새 노드가 준비되면 해당 작업의 이후 단계를 실행하는 데 새로 준비된 노드를 사용합니다.

IBM Cloud 운영이 내 클러스터에서 모니터링하고 관리하는 활동은 무엇인가요?

IBM Cloud 운영팀은 사용자가 제공된 인터페이스를 통해 클러스터를 구동하고, 작업을 제출하고, 클러스터의 라이프사이클을 관리할 수 있게 서비스가 계속 유지되도록 합니다. 사용자는 Ambari 또는 IBM Cloud의 추가 서비스에서 제공하는 툴을 사용하여 사용자 클러스터를 모니터링하고 관리할 수 있습니다.

지원되는 암호화 유형은 무엇인가요?

클러스터에 대해 Hadoop의 투명한 데이터 암호화가 자동으로 지원됩니다. 클러스터에는 사전 정의된 HDFS 암호화 구역이 포함되어 있으며, 이러한 암호화 구역은 HDFS 경로 /securedir로 식별됩니다. 암호화 구역에 있는 파일은 자동으로 암호화됩니다. 이러한 파일은 HDFS 쉘 명령, WebHDFS API, Ambari 파일 브라우저 등 다양한 Hadoop 클라이언트 애플리케이션을 통해 파일에 액세스하는 경우 자동으로 복호화됩니다. 자세한 정보는 제품 문서에 제공되어 있습니다. Cloud Object Storage의 모든 데이터는 암호화된 상태로 저장되어 있습니다. Cloud Object Storage와 IAE 클러스터 사이의 데이터 전송은 Cloud Object Storage에서 제공하는 암호화된 프라이빗 엔드포인트를 통해 수행할 수 있습니다. 공용 연결 포트(8443, 22 및 9443)를 통해 이동하는 모든 데이터는 암호화되어 있습니다.

클러스터의 공용 인터페이스에는 어떤 포트가 열려 있나요?

클러스터의 공용 인터페이스에 열려 있는 포트는 8443 – Knox, 22 – SSH 및 9443 – Ambari입니다.

IBM Analytics Engine과 함께 사용할 수 있는 다른 IBM Cloud 서비스로는 어떤 것이 있나요?

IBM Cloud의 일부인 IBM Analytics Engine은 IBM Watson Studio와 같은 중요한 오퍼링을 통합하여 IBM Analytics Engine으로 작업을 푸시합니다. Spark를 사용하여 데이터를 처리한 후에는 Cloudant 또는 Db2 Warehouse on Cloud에 기록할 수 있습니다.

IAE와 Watson Studio를 통합하는 방법은 무엇인가요? 둘 다 기본 오브젝트 저장소에서 운영되나요, Watson Studio가 Analytics Engine에서 실행되나요?

IBM Analytics Engine은 최고 수준의 Watson Studio 컴포넌트입니다. 간단한 UI를 통해 Watson Studio의 프로젝트(또는 개별 노트북)를 IBM Analytics Engine과 연결할 수 있습니다. IBM Cloud에서 실행 중인 IAE 클러스터가 있는 경우 동일한 IBM Cloud ID를 사용하여 Watson Studio에 로그인한 후 프로젝트 설정 페이지로 이동하여 해당 IAE 인스턴스를 IAE의 프로젝트 또는 노트북과 ‘연결'합니다. 이 작업에 대한 자세한 정보와 튜토리얼은 여기에서 확인할 수 있습니다.

연결된 후에는 Watson Studio 프로젝트 또는 노트북이 해당 특정 IAE 인스턴스에서 워크로드를 실행합니다. 특정 오브젝트 저장소 인스턴스에만 실행되지 않습니다. 노트북 또는 애플리케이션에서 어떤 오브젝트 저장소 인스턴스를 참조하든 읽어와 IAE에서 애플리케이션을 실행합니다. 특정 오브젝트 저장소 인스턴스를 사용하는 손쉬운 방법의 하나는 Watson Studio 노트북에서 “코드에 삽입” 기능을 사용하는 것입니다.

고객이 수집을 위해 Kafka를 사용해야 합니다. 이 문제를 처리하는 방법은 무엇인가요?

MessageHub는 Apache Kafka를 기반으로 한 IBM Cloud 서비스입니다. Analytics Engine 클러스터로 데이터를 분석할 수 있도록 오브젝트 저장소에 데이터를 지정하는 데 이 서비스를 사용할 수 있습니다. MessageHub는 IAE 클러스터에서 Spark와 통합하여 클러스터로 직접 데이터를 가져올 수도 있습니다.

IAE에서 Hive에 대한 ACID 특성을 설정할 수 있나요?

Hive는 동시성을 지원하도록 구성되지 않습니다. 사용자는 IBM AE 클러스터에서 구성을 변경할 수 있는 권한이 있습니다. 하지만 구성을 변경한 후 클러스터가 제대로 작동하도록 할 책임도 사용자에게 있습니다.