¿Qué es IBM Analytics Engine?

IBM Analytics Engine proporciona una infraestructura flexible para desarrollar e implementar aplicaciones de analítica en Hadoop y Spark. Permite crear clústeres de Hadoop y Spark y gestionarlos a lo largo de su ciclo de vida.

¿Cuáles son sus diferencias con respecto a un clúster de Hadoop normal?

IBM Analytics Engine se basa en una arquitectura que separa la computación y el almacenamiento. En la arquitectura tradicional de Hadoop, se utilizaba un clúster para almacenar datos y para ejecutar las aplicaciones. En IAE, hemos dividido a los dos - los clústeres se utilizan únicamente para ejecutar las aplicaciones mientras que IBM Cloud Object Storage se utiliza para los datos persistentes. Los beneficios de tal arquitectura incluyen la flexibilidad, las operaciones simplificadas, la mejor confiabilidad y la rentabilidad.

¿Cómo comienzo a utilizar IBM Analytics Engine?

IAE está disponible en IBM Cloud. Siga este enlace para obtener más información acerca del servicio y de cómo comenzar a utilizarlo. También tenemos tutoriales y muestras de código para comenzar rápidamente.

¿Qué distribución se utiliza en IBM Analytics Engine (IAE)?

IBM Analytics Engine se basa en código abierto, Hortonworks Data Platform (HDP). Para encontrar la versión actualmente soportada, consulte esta página.

¿Qué componentes de HDP son compatibles con IAE?

Para ver la lista completa de componentes y versiones compatibles, consulte esta página.

¿Cuáles son los tamaños de los nodos disponibles en IBM Analytics Engine?

Para ver los tamaños de nodo soportados actualmente, consulte esta página.

¿Por qué hay tan poco espacio de HDFS en los clústeres? ¿Qué pasa si en algún momento queremos ejecutar un clúster que contenga muchos datos que se van a procesar al mismo tiempo?

En IAE, los clústeres están pensados para ser utilizados como clústeres de computación en lugar de almacenamiento persistente para los datos. Los datos deben persistir en IBM Cloud Object Storage. Esto proporciona una forma más flexible, confiable y rentable de desarrollar aplicaciones para la analítica. Durante el procesamiento, se debe utilizar HDFS para el almacenamiento intermedio. Los datos finales (o, incluso, los datos intermedios) se deben escribir en el almacenamiento de objetos antes de suprimir el clúster. Si los requisitos de almacenamiento intermedio exceden el HDFS disponible dentro de un nodo, se puede agregar más nodos al clúster.

¿Cuántos clústeres de IAE puedo crear?

No hay ningún límite para el número de clústeres que puede crear.

¿Existe un nivel de uso gratuito para probar IBM Analytics Engine?

Sí, proporcionamos el plan Lite que se puede utilizar de forma gratuita. Aparte de esto, el nuevo usuario de IBM Cloud también tiene derecho a US$ 200 en créditos que se pueden utilizar en IAE o en cualquier servicio de IBM Cloud.

¿Cómo funciona el plan Lite?

El plan Lite proporciona 50 horas gratuitas de nodo para utilizar IAE. Se puede suministrar un clúster cada 30 días. Una vez que agote las 50 horas de nodo, es posible actualizarse a un plan de pago en un plazo de 24 horas para continuar utilizando el mismo clúster. Si no se actualiza en el plazo de 24 horas, el clúster se suprimirá y se podrá suministrar uno nuevo después de que haya pasado el plazo límite de 30 días. Dependiendo del tamaño de su clúster, el número real de horas de utilización puede variar.  Por ejemplo, 1 nodo maestro y 3 nodos de datos, es decir, 4 nodos totales se ejecutarán durante 12,5 horas (50 horas/4 nodos). Sin embargo, 1 nodo maestro y 1 nodo de datos, es decir, 2 nodos totales se ejecutarán durante 25 horas (50 horas/2 nodos). Dentro de una instancia, las horas de nodo no se pueden poner en pausa, por ejemplo, no se puede utilizar durante 10 horas de nodo, pausar, así como volver y utilizar para las 40 horas de nodo restantes.

¿IBM Cloud Object Storage está incluido en IBM Analytics Engine?

No, IBM Cloud Object Storage no está incluido. Se trata de una oferta independiente. Conozca más en el Catálogo de IBM Cloud o aquí.

¿Cómo funciona Object Storage en el entorno IAE Hadoop? ¿Equivale exactamente a HDFS pero solo utilizamos un URL diferente?

IBM Cloud Object Storage implementa la mayor parte de la interfaz de Hadoop FileSystem. Para las operaciones simples de lectura y escritura, las aplicaciones que utilizan la API de Hadoop FileSystem seguirán funcionando cuando HDFS sea substituido por Cloud Object Storage. Ambas son opciones de almacenamiento de alto rendimiento que son totalmente compatibles con Hadoop.

¿Qué otros componentes, como Object Storage, deberíamos considerar al diseñar una solución con IBM Analytics Engine?

Además de Object Storage, utilice Componer MySQL, que está disponible en IBM Cloud, para persistir los metadatos de Hive. Cuando se suprime un clúster, todos los datos y metadatos se pierden. La persistencia de los metadatos de Hive en un almacén relacional externo, como Compose, permitirá reutilizarlos incluso después de que se haya suprimido el clúster o de que se haya accedido desde varios clústeres. IAE proporciona soporte para pasar la ubicación de los metadatos a través de los scripts de personalización mientras se inicia un clúster. Por lo tanto, puede hacer que el clúster apunte a la ubicación correcta de los metadatos tan pronto como se estén creando.

¿Qué tamaño debo dar a mi clúster?

El tamaño de un clúster depende en gran medida de las cargas de trabajo. A continuación, se muestran algunas directrices generales: Para cargas de trabajo de Spark que leen datos del almacén de objetos, la RAM del clúster debe ser como mínimo el 50% del tamaño de los datos que se van a analizar en cualquier trabajo determinado. Para obtener los mejores resultados, el dimensionamiento recomendado para las cargas de trabajo de Spark que leen datos del almacén de objetos es tener el doble de RAM que los datos que se van a analizar en cualquier trabajo determinado. Si espera tener un montón de datos intermedios, debe ajustar el número de nodos para proporcionar la cantidad correcta de espacio de HDFS en el clúster.

Estamos dimensionando para 4 entornos: Producción (con HA), Recuperación tras Desastres (DR), Preproducción (con HA) y Desarrollo. ¿Cómo diseñamos esto en IAE?

Cada uno de estos será un clúster independiente. Si hay varios desarrolladores en el equipo, considere un clúster independiente para cada uno de ellos caso no puedan compartir las mismas credenciales de clúster. Para Desarrollo, en general, 1 clúster de nodo maestro + 2 clústeres de computación deberían ser suficientes. En la Preproducción, para probar la funcionalidad, recomendamos 3 nodos de computación. Esto brinda una prueba de recursos adicionales a una escala ligeramente superior antes de implementar en producción. Los clústeres de DR-DR se implementan en general en un modelo activo-activo o en activo-en espera. En IAE, no es necesario que un clúster se esté ejecutando todo el tiempo. Si el clúster de producción se cae, se puede crear un nuevo clúster para que la cadena de herramientas de DevOps se designe como un clúster de producción. Debe utilizar los scripts de personalización para configurarlo exactamente igual que el clúster anterior.

¿Cómo se realiza la gestión de usuarios en IAE? ¿Cómo agregar más usuarios a mi clúster?

Todos los clústeres de IAE son de un solo usuario, es decir, cada clúster tiene solamente un ID de usuario de Hadoop con el que se ejecutarán todos los trabajos. La autenticación de los usuarios y el control de accesos se realiza mediante el servicio de Gestión de Identidades y Accesos (IAM) de IBM Cloud. Cuando el usuario haya iniciado la sesión en IBM Cloud, se le permitirá o bloqueará el acceso a IAE en función de los permisos IAM establecidos por el administrador. Un usuario puede compartir el ID de usuario y la contraseña de su clúster si desea que otros usuarios accedan a él; pero tenga en cuenta que en este caso el otro usuario tendrá acceso completo al clúster.

Compartir un clúster a través de un proyecto de Watson Studio es un enfoque recomendado. En este caso, un administrador configura el clúster a través del portal de IBM Cloud y "lo asocia" a un proyecto de Watson Studio. Una vez hecho esto, cualquier usuario a quien se haya otorgado acceso a ese proyecto puede enviar trabajos a través de notebooks o de otras herramientas que requieran un tiempo de ejecución de Spark o Hadoop. Una ventaja de este enfoque es que el control de acceso al clúster IAE, o a cualquier dato que se va a analizar, también se puede controlar dentro de Watson Studio o de Watson Knowledge Catalog.

¿Cómo se hace cumplir el control de acceso a datos en IAE?

El control de acceso a datos se puede gestionar a través de las ACL (listas de control de acceso) de IBM Cloud Object Storage. Las ACL de IBM Cloud Object Storage están vinculadas al servicio de Gestión de Identidades y Accesos de IBM Cloud. Un administrador puede establecer permisos sobre un depósito o archivos de almacenamiento de objetos. Una vez que estos permisos están establecidos, al acceder a los datos a través de IAE, se utilizarán las credenciales de almacenamiento de objetos para determinar si el usuario tiene acceso a un objeto de datos determinado, o no.

Además, todos los datos del almacenamiento de objetos se pueden catalogar utilizando Watson Knowledge Catalog. Las políticas de gobierno se pueden definir y hacer cumplir utilizando Watson Knowledge Catalog una vez que los datos estén en el catálogo de datos. Los proyectos de Watson Studio se pueden utilizar para gestionar mejor el control de accesos.

¿Puedo ejecutar un clúster o trabajo de larga duración?

Sí, puede ejecutar un clúster tanto tiempo como sea necesario. En este caso, se recomienda asegurarse de que los datos se vuelven a escribir periódicamente en IBM Cloud Object Storage y no se utilice HDFS como almacén persistente. Esto protegerá contra la pérdida de datos en caso de anomalías accidentales del clúster.

¿Cuánto tiempo se necesita para que se inicie el clúster?

Cuando se utiliza el paquete de software de Spark, un clúster tarda aproximadamente de 7 a 9 minutos para iniciarse y estar listo para ejecutar aplicaciones. Cuando se utiliza el paquete de software Hadoop y Spark, un clúster tarda aproximadamente de 15 a 20 minutos para iniciarse y estar listo para ejecutar aplicaciones.

¿Cómo puedo acceder a mi clúster o interactuar con el mismo?

Para acceder al clúster hay varias interfaces:

  • SSH
  • Consola de Ambari
  • API de REST
  • CLI de Cloud Foundry

¿Cómo obtengo los datos del clúster?

La forma recomendada para leer los datos de un clúster y procesarlos es desde IBM Cloud Object Storage. Suba sus datos a IBM COS y utilice las API COS, Hadoop o Spark para leer los datos fuera del mismo. Si su caso requiere que los datos se procesen directamente en el clúster, se puede utilizar una de las formas siguientes para el consumo de datos: SFTP, WebHDFS, Spark, transmisiones de Spark y Sqoop. Consulte la documentación sobre este tema para obtener más información.

¿Cómo configuro mi clúster?

Un clúster se puede configurar mediante scripts de personalización o modificando directamente los parámetros de configuración en la consola de Ambari. Los scripts de personalización son una forma conveniente de definir diferentes conjuntos de configuraciones, a través de un script, para crear diferentes tipos de clústeres o para utilizar la misma configuración repetidamente en los trabajos repetitivos. Puede encontrar más información sobre la personalización aquí.

¿El acceso raíz se permite en IAE?

No, el usuario no tiene acceso sudo o raíz para instalar los privilegios, ya que se trata de un entorno PaaS definido.

¿Y si quiero instalar mis propios componentes de la pila de Hadoop?

Dado que IAE es un servicio PaaS definido, no permitimos agregar componentes que no estén soportados. Los usuarios no tienen la posibilidad de instalar un nuevo componente de pila de Ambari Hadoop por medio de Ambari, o viceversa. Se pueden instalar componentes del ecosistema de Hadoop que no sean servidores, es decir, se permite utilizar cualquier cosa que se pueda instalar y ejecutar en el espacio de usuario.

¿Qué tipos de paquetes de terceros son permitidos?

Los paquetes que están disponibles en el repositorio de CentOS se pueden instalar con la herramienta packageadmin que está disponible en IAE. Se permite utilizar bibliotecas o paquetes (por ejemplo, para Python o R) que se puedan instalar y ejecutar dentro del espacio de usuario. El usuario no tiene privilegios de sudo o raíz para instalar ni ejecutar ningún paquete de los repositorios o rpms que no sean de CentOS. Se recomienda encarecidamente que se realicen todas las personalizaciones utilizando scripts de personalización en el arranque del clúster, para garantizar la repetibilidad y la coherencia de las futuras creaciones de clústeres.

¿Cómo se puede supervisar el clúster? ¿Cómo podemos configurar alertas?

Los componentes de Ambari se pueden supervisar utilizando las alertas de Métricas de Ambari (del paquete "Hadoop and Spark"). Las métricas ya preparadas de la caja de Ambari se pueden configurar para recibir alertas.

¿Cómo escalo mi clúster?

El clúster se puede escalar agregándole nodos. Los nodos se pueden agregar por medio de la interfaz de usuario de IBM Cloud o a través de la herramienta CLI.

¿Puedo escalar mi clúster mientras se están ejecutando trabajos en él?

Sí, los clústeres se pueden escalar agregando nodos mientras ejecutan trabajos. Cuando los nuevos nodos estén listos, se utilizarán para ejecutar pasos adicionales del trabajo.

¿Qué operaciones IBM Cloud supervisa y gestiona en mi clúster?

El equipo de operaciones de IBM Cloud garantiza que el servicio se mantenga activo para que los usuarios puedan crear clústeres, enviar trabajos y gestionar el ciclo de vida de los clústeres a través de las interfaces proporcionadas. Los usuarios pueden supervisar y gestionar sus clústeres con las herramientas que hay disponibles en Ambari o con los servicios adicionales de IBM Cloud.

¿Qué tipo de cifrado se soporta?

El cifrado de datos transparente de Hadoop se habilita automáticamente para el clúster. El clúster se proporciona con una zona de cifrado HDFS predefinida, que se identifica mediante la vía de acceso de HDFS /securedir. Los archivos que se colocan en la zona de cifrado se cifran automáticamente. Los archivos se descodifican automáticamente cuando se accede a ellos a través de varias aplicaciones de cliente de Hadoop, como los comandos de shell HDFS, las API de WebHDFS y el navegador de archivos Ambari. Hay más información disponible en la documentación. Todos los datos de Cloud Object Storage están cifrados en reposo. La transferencia de datos entre los clústeres de Cloud Object Storage y de IAE se puede realizar a través de un punto final privado y cifrado, que esté disponible desde Cloud Object Storage. Los datos que fluyen a través de los puertos orientados al público (8443, 22 y 9443) están cifrados.

¿Qué puertos están abiertos en la interfaz pública del clúster?

Los puertos abiertos en la interfaz pública en el clúster son: 8443 - Knox; 22 - SSH y 9443 - Ambari.

¿Qué otros servicios de IBM Cloud puedo utilizar con IBM Analytics Engine?

Como parte de IBM Cloud, IBM Analytics Engine se integra con ofertas importantes (por ejemplo, IBM Watson Studio)  para enviar trabajos a IBM Analytics Engine; los datos se pueden escribir en Cloudant o Db2 Warehouse on Cloud después de haber sido procesados con Spark.

¿Cómo se integra IAE con Watson Studio? ¿Operarían ambos en el almacén de objetos subyacentes o Watson Studio se ejecutaría en el Analytics Engine?

IBM Analytics Engine es un ciudadano de primera clase en Watson Studio. Los proyectos (o notebooks individuales) de Watson Studio pueden estar asociados con IBM Analytics Engine mediante una interfaz de usuario simple. Cuando tenga un clúster IAE ejecutándose en IBM Cloud, inicie la sesión en Watson Studio con el mismo ID de IBM Cloud, vaya a la página Ajustes del Proyecto y "asocie" esa instancia de IAE a un proyecto o notebook de IAE. Hay más detalles y un tutorial sobre este tema aquí.

Una vez asociado, el proyecto o el notebook de Watson Studio ejecutaría cualquier carga de trabajo en esta instancia de IAE en particular. No hay un acoplamiento estrecho con ninguna instancia del almacén de objetos. Cualquier instancia de almacén de objetos a la que se hace referencia desde un notebook o una aplicación se leerá mientras se ejecutan aplicaciones en IAE. Un método fácil de utilizar una instancia de un almacén de objetos en particular es utilizando la función "insertar en código" de los notebooks de Watson Studio.

El cliente tiene que utilizar Kafka para la consumición. ¿Me aconseja sobre cómo podemos manejar esto?

MessageHub, un servicio de IBM Cloud que se basa en Apache Kafka. Se puede utilizar para descargar los datos en el almacén de objetos, que se pueden analizar con los clústeres de Analytics Engine. MessageHub también se puede integrar con Spark en el clúster de IAE para traer los datos directamente al clúster.

¿Podemos establecer las propiedades de ACID para Hive en IAE?

Hive no está configurado para ser compatible con la simultaneidad. Los usuarios tienen autorización para cambiar la configuración en los clústeres de IBM AE. Sin embargo, después de realizar dichos cambios, el correcto funcionamiento del clúster es responsabilidad de los usuarios.