Seguridad y auditoría de Big data con IBM InfoSphere Guardium

Monitoree y audite el acceso para IBM InfoSphere BigInsights y Cloudera Hadoop

En este artículo, usted aprenderá cómo InfoSphere® Guardium® proporciona posibilidades de monitoreo de actividad de base de datos y auditoría que le permiten a usted integrar sin interrupciones la protección de datos Hadoop en su estrategia existente de seguridad de datos empresariales. Usted aprenderá cómo configurar el sistema y usar las políticas e informes de seguridad de InfoSphere Guardium hechos a la medida específicamente para entornos Hadoop. Usted también aprenderá acerca de un inicio rápido de implementación de monitoreo disponible solo con IBM InfoSphere BigInsights.

Sundari Voruganti, Data Warehouse Solutions for System z, IBM

Sundari Voruganti photoSundari Voruganti es miembro del equipo InfoSphere Guardium QA en el IBM Silicon Valley Lab. Sundari ha estado con IBM más de una década y tiene una diversa experiencia en ingeniería, así como los roles de facilitación del cliente. Como técnico apasionado, le encanta el reto de aprender y trabajar con las nuevas tecnologías, así como ayudar a los clientes a comprender y poner en práctica soluciones de mensajería instantánea. Sundari tiene una doble Maestría en Ciencias de la Computación de la Universidad de Bangalore y de la Universidad de Alberta.



Kathy Zeidenstein, IBM Content Discovery, IBM

Author Photo: Kathy ZeidensteinKathy Zeidenstein ha trabajado en IBM muchísimos años. Actualmente trabaja como promotora de tecnología para monitoreo activo de datos de InfoSphere Guardium, con base en Silicon Valley Lab. Previamente fue Gerente de Desarrollo de Información para las herramientas de ciclo de vida de InfoSphere Optim. Ella ha tenido papeles en habilitación técnica, gestión de producto y marketing de producto dentro de las organizaciones de Information Management y ECM en IBM.



27-05-2013

Visión General

Toda la publicidad de big data se ha enfocado en la infraestructura que da soporte a volumen extremo, velocidad y variedad, y las posibilidades analíticas en tiempo real habilitadas por esa infraestructura. Incluso si los entornos de big data como Hadoop son relativamente nuevos, el hecho importante es que los problemas de seguridad de datos en entornos de big data son críticos para resolver por adelantado. Donde hay datos, hay potencial por violaciones de privacidad, acceso no autorizado, o acceso no apropiado por usuarios privilegiados.

Los mandatos de conformidad deben ser hechos cumplir por igual a lo largo de entornos de big data como en arquitecturas de gestión de datos más tradicionales, y no hay excusas para debilitar la seguridad de datos solo debido a que la tecnologías es joven y está evolucionando. De hecho, conforme los entornos de big data consuman más datos, las organizaciones enfrentará riesgos y amenazas significantes para los repositorios en donde se mantienen los datos.

Si usted es responsable por la seguridad de datos en su organización, a usted se le puede solicitar responder a preguntas como:

  • ¿Quién está ejecutando las solicitudes específicas de big data? ¿Qué trabajos map-reduce están ejecutando? ¿Están intentando descargar todos los datos delicados, o esto es la consulta normal de marketing para obtener conocimiento de sus clientes?
  • ¿Hay un número excepcional de excepciones de permisos de archivo, quizás causado por un hacker que algorítmicamente intenta obtener acceso a datos delicados?
  • ¿Estos trabajos son parte de una lista autorizada de programas que accede a los datos? ¿O ha sido desarrollada una nueva aplicación que usted no sabía que existía?

Lo que necesita es ser capaz de integrar aplicaciones y análisis de big data en una infraestructura existente de seguridad de datos, en vez de confiar en scripts y monitores hechos en casa, que pueden llevar a mucho trabajo, son proclives a errores y están sujetos a un mal uso.

Este artículo echa un vistazo a cómo IBM InfoSphere Guardium V9, una solución completa de monitoreo de actividad de datos y conformidad, que puede ser ampliada para incluir monitoreo e informes de acceso para el ecosistema Hadoop.

Aunque este artículo cubre una visión general de alto nivel de InfoSphere Guardium, no describe cómo instalar y configurar InfoSphere Guardium Collector. Describirá cómo configurar InfoSphere Guardium para monitorear actividad con soporte de Hadoop y enviarla a InfoSphere Guardium Collector para los informes a cargo de los analistas de seguridad. Usted observará ejemplos de informes listos para usar incluidos para ayudarle a iniciar rápidamente.

InfoSphere Guardium en un compendio

La solución IBM InfoSphere Guardium monitoreo continuamente transacciones de base de datos a través de analizadores de software ligeros, como se muestra en la Figura 1.

Figura 1. Monitoreo de actividad de InfoSphere Guardium Data
Staps are shown on cluster nodes feeding to a collector.

Estos analizadores (llamados S-TAPs, por monitores de software) monitorean las transacciones de base de datos, incluyendo las de usuarios privilegiados, a nivel del sistema operativo sin depender de registros de auditoría de base de datos, asegurando la separación de deberes. S-TAPs tampoco requiere ningún cambio a la base de datos o sus aplicaciones.

Los analizadores envían transacciones hacia un Colector endurecido (un dispositivo) en la red, donde son comparadas a políticas previamente definidas para detectar violaciones. El sistema puede responder con una diversidad de acciones basadas en políticas, incluyendo la generación de una alerta.

InfoSphere Guardium da soporte a una gran variedad de implementaciones para dar soporte a infraestructuras, muy grandes y geográficamente distribuidas. Debido a que este artículo solo ha tocado la superficie de lo que puede hacer InfoSphere Guardium, usted puede revisar la sección de Recursos para obtener enlaces hacia más información relacionada a las posibilidades de InfoSphere Guardium. Observe que no todas las posibilidades están disponibles para todas las fuentes de datos.

Beneficios de usar InfoSphere Guardium para monitoreo Hadoop

El uso de InfoSphere Guardium puede simplificar dramáticamente su ruta hacia estar listo para auditorías al proporciona información dirigida y accionable. Usted puede imaginar que su plan de preparación para auditorías Hadoop actual se basa en comprimir datos de archivos y esperar que nunca los necesite, usted probablemente no será capaz de satisfacer muchos requerimientos de auditoría tan solo desde una perspectiva atemporal. El análisis forense sin duda alguna sería tardado y requeriría scripts hechos en casa que quitan recursos que usted podría gastar mejor en crear ventaja de negocios alrededor de Hadoop.

Con InfoSphere Guardium, mucho del trabajo pesado es hecho para usted. Usted define políticas de seguridad que especifican qué datos necesitan ser mantenidos y cómo reaccionar a violaciones de políticas. Los eventos de datos son escritos directamente hacia el colector InfoSphere Guardium, no dejando oportunidad para que los usuarios privilegiados accedan a los datos y escondan sus huellas. Los informes listos para usar ponen a funcionar para usted el monitoreo Hadoop rápidamente, y son fácilmente personalizables para alinearlos con sus requerimientos de auditoría.

InfoSphere Guardium S-TAP fue originalmente diseñado para un rendimiento con baja sobrecarga; después de todo, S-TAP también se usa para monitorear entornos de base de datos. Con Hadoop, muy probablemente usted no observará sobrecargas mayores al 3%, que para la mayoría de las cargas de trabajo de Hadoop pasaran imperceptibles.

Finalmente, InfoSphere Guardium proporciona posibilidades de monitoreo a través de la pila Hadoop, desde la interfaz de usuario hasta el almacenamiento, como se muestra en la Figura 2.

Figura 2. Importancia del monitoreo de la actividad de datos a través de la pila de Hadoop
Figure shows storage, app and user interface layers and how monitoring must be implemented in each layer to answer questions.

¿Por qué esto es importante? Aunque mucha de la actividad de Hadoop se reduce a MapReduce y HDFS, a ese nivel, usted puede no ser capaz de decir qué estaba realmente intentando hacer un usuario a ni nivel superior en la pila, o ni siquiera quién era ese usuario. Es similar a mostrar varias operaciones de segmento de disco de E/S en vez de un seguimiento de auditoría de una base de datos. así que al proporcionar monitoreo a diferentes niveles, es más probable que usted comprenda la actividad, así como también será capaz de auditar actividades que vienen directamente a través de puntos inferiores en la pila.

Monitoreo de actividad Hadoop

los eventos que pueden ser monitoreados incluyen los siguientes:

  • Información de sesión y usuario.
  • Operaciones HDFS – Comandos (cat, tail, chmod, chown, expunge, y así demás).
  • Trabajos MapReduce - Trabajo, operaciones, permisos.
  • Excepciones, como fallas de autorización.
  • Consultas Hive/HBase - Alter, count, create, drop, get, put, list, y demás.

Los ejemplos siguientes describen cómo los comandos sencillos Hadoop son mostrados en informes InfoSphere Guardium.

Terminología

Si usted es nuevo en InfoSphere Guardium, puede sorprenderle ver terminología de base de datos relacional usada ocasionalmente en los informes y reglas de políticas. Aunque SQL no se usa para datos de sistema de archivos, el uso de terminología común permite a Guardium proporcionar visualización de actividad de base de datos cruzada.

HBase: el siguiente es un create en HBase:

create ‘test_hbase’, ‘test_col’.

InfoSphere Guardium mostrará el comando real que siguió a HBase, como se muestra en la Figura 3.

Figura 3. Informe HBase
report highlights the command __HBASE createTable command and related parameters.

HDFS: el siguiente es un sencillo comando -ls en Hadoop:

hadoop fs –ls, como se muestra en la Figura 4.

Figura 4. Comando HDFS ls
report hosws HDFS getlisting and HDFS file info command.

Usted puede observar que veladamente, fue dividido en dos comandos diferentes para obtener el listado y la información del archivo asociado.

Por detrás de este aparente monitoreo de seguridad existe una infraestructura poderosa y flexible para configuración de políticas e informes. Por ejemplo, posteriormente en este artículo usted aprenderá cómo crear una política que registrará un evento para alertarlo siempre que un usuario desconocido acceda a datos delicados. Usted también puede crear un informe de auditoría que le ayude a detectar si las aplicaciones están accediendo a datos Hadoop.

Monitoreo de actividad de inicio rápido para IBM InfoSphere BigInsights

IBM InfoSphere BigInsights incluye una posibilidad integrada llamada Guardium Proxy para leer y enviar mensajes a InfoSphere Guardium para análisis e informes. Con el proxy, BigInsights envía mensajes desde registros Hadoop hacia el colector InfoSphere Guardium.

Las ventajas del proxy incluyen las siguientes:

  • Fácil de subir y ejecutar. No ha necesidad de instalar S-TAPs o puertos de configuración. Usted sencillamente habilita el proxy en NameNode, y usted estará listo.
  • Debido a que el proxy usa datos de registro de Apache como mensajes para enviar a InfoSphere Guardium, hay menos ruido de lo que se requiere para filtrar de esos mensajes, como información de estado y fuerza motora.
  • No hay retraso en el soporte de Guardium para nuevos releases de BigInsights para tomar ventaja de los cambios de protocolo de mensaje.

Limitaciones: Debido a que Hadoop no está registrando excepciones en sus registros, no hay manera de enviar excepciones a InfoSphere Guardium. Si usted requiere de informes de excepciones, usted necesitará implementar un S-TAP. Adicionalmente, no hay soporte para monitorear consultas HBase o Hive, aunque usted verá los mensajes subyacentes de MapReduce o HDFS desde Hive y HBase.

Si usted está interesado en iniciar usando Guardium Proxy en InfoSphere BigInsights, vea el Apéndice A, que tiene las instrucciones de configuración para habilitar el proxy para los servicios Hadoop.


Prerrequisitos

La siguiente sección describe los requerimientos para InfoSphere Guardium y para Cloudera Hadoop.

Solución de seguridad y conformidad InfoSphere Guardium

La solución IBM InfoSphere Guardium está disponible de la siguiente manera:

  • Oferta de Hardware – una solución de software completamente configurada entregada en dispositivos físicos proporcionados por IBM.
  • Oferta de Software – la solución entregada como imágenes de software que usted puede desplegar en su propio hardware ya sea directamente o como dispositivos virtuales.

Para monitorear entornos Hadoop, usted debe tener InfoSphere Guardium Appliance V9.0 nivel de parche 2 (hardware o software) configurado como un colector, e InfoSphere Guardium Standard Activity Monitor para derechos de software Hadoop. Antes de intentar monitorear Hadoop, por favor asegúrese de verificar el sitio de soporte de IBM para detectar si hay parches adicionales que puedan ser requeridos.

Conforme su sistema crece, usted también puede obtener dispositivos configurados como un Gestor Central y Agregador, que proporciona gestión central de múltiples conectores vía una única consola web, creando de manera efectiva un sistema federado para múltiples colectores. Usted puede usar eso para gestionar centralmente políticas de seguridad y configuraciones de dispositivos como planificadores de archivado, instaladores de parches, gestión de usuario, y demás. También agrega datos en crudo e informes de múltiples colectores para generar informes integrales de auditoría a nivel de empresa.

Este artículo no cubre la instalación y configuración del dispositivo IBM InfoSphere Guardium y asume que usted tiene la menos un dispositivo conectado al clúster Hadoop en la red.

Cloudera

InfoSphere Guardium da soporte al monitoreo de los siguientes niveles de Cloudera ejecutándose en Red Hat o SUSE Linux:

  • CDH3 - Actualizaciones 2, 3, y 4.
  • CDH4.
  • Para Hive, use MySQL como la base de datos Beeswax. InfoSphere Guardium depende de un formato particular de mensajes para informes Beeswax que está disponible solo desde MySQL.

Vea la información de requerimientos de sistema InfoSphere Guardium en ibm.com para obtener actualizaciones a los niveles de release con soporte de Cloudera, u otras distribuciones de Hadoop con soporte.

IBM InfoSphere BigInsights

IBM InfoSphere Big Insights 1.4 o posterior. Soporte de la instalación de preformato en Cloudera también tiene soporte de IBM InfoSphere Guardium.


Configurando el monitoreo de actividad de datos

Los pasos requeridos para instalar y configurar son los siguientes:

  1. Planee – asegúrese de tener una buena comprensión de la arquitectura de la red de su clúster Hadoop, incluyendo direcciones IP y los números de puerto relevantes.
  2. Instale S-TAP y configure los motores de inspección en los nodos apropiados de Hadoop.
  3. Valide que la actividad está siendo monitoreada, creando y revisando informes de actividad.
  4. Instale una política de seguridad.

Planee

El paso de planeación es crítico para obtener una integración exitosa de InfoSphere Guardium con Hadoop. L a siguiente sección proporciona una visión general de alto nivel de la arquitectura para proporcionarle la comprensión que usted necesita.

Recomendación: Para un desarrollo inicial, considere simplemente iniciar con la configuración más sencilla que da soporte a un requerimiento de negocios particular, y luego amplíe desde ahí. Por ejemplo, inicie con tan solo los requerimientos para monitorear HDFS y MapReduce, valide la configuración, y posteriormente amplíe para incluir Hive y HBase conforme se necesite.

La Figura 5 le muestra dónde son requeridos específicamente los S-TAPs específicos de OS a ser instalados en el clúster para obtener cobertura completa de monitoreo conforme proporciona InfoSphere Guardium.

Figura 5. STAPs requeridos para monitorear la pila Hadoop
STAPS needed on hive server, job tracker, name node for hdfs. and hbase master. region optional for hbase puts.

IBM InfoSphere Guardium proporciona una solución centralizada para instalar y actualizar múltiples S-TAPs usando Guardium Installation Manager para hacer que la gestión de S-TAP sea más sencilla y más automatizada.

Nota: Para los nodos esclavos, S-TAP solo se requiere para HBase Region Servers para monitorear inserciones (HBase Puts).

Después de que usted instale S-TAP específicos de OS en los nodos relevantes, usted puede configurar los puertos que S-TAP está monitoreando al definir qué es conocido como motores de inspección para S-TAP. Estos motores de inspección también tienen protocolos de monitoreo específicos asociados con ellos. S-TAP intercepta los paquetes de red, efectúa una copia, y realiza algunos análisis y envía la información hacia InfoSphere Guardium Collector donde es analizada más y almacenada en la base de daros local de InfoSphere Guardium Collector.

Antes de ir al siguiente paso, revise lo siguiente:

  • Asegúrese de que está ejecutando una versión con soporte de Cloudera o InfoSphere BigInsights.
  • Asegúrese de conocer las direcciones IP de el(los) Colector(es) de InfoSphere Guardium Collector(s) que recibirán el tráfico recolectado de su clúster Hadoop.
  • Asegúrese de conocer las direcciones IP de los servidores en los que se requieren S-TAPs.
  • Escriba los puertos a ser monitoreados y a qué hosts aplican, con base en la información mostrada en la Tabla 1 y Tabla 2. Este artículo basó sus configuraciones de puerto en los puertos predeterminados de Cloudera, que en general son los mismos que los de IBM BigInsights. Su configuración puede diferir.
Tabla 1. Puestos de servicio Hadoop a monitorear
ServicePort
HDFS Name Node 8020, 50470, and 50070
HDFS Thrift plugin for Hue (NameNode)10090
MapReduce Job Tracker8021, 9290, and 50030
HBase Master60000 and 60010
HBase Region60020
HBase Thrift plugin9090
Hive Server10000
Beedwax Server8002
Cloudera Manager Agent9001

Instalar S-TAP y configurar motores de inspección

Los S-TAPs son específicos de sistema operativo, así que usted necesitará instalar Red Hat o SUSE Linux S-TAP para cada uno de los nodos apropiados. Este proceso está bien documentado en el libro de ayuda InfoSphere Guardium S-TAP, y también puede ser realizado usando InfoSphere Guardium Installation Manager o usando un proceso de instalación no interactivo que le permite instalar en muchos nodos con el mismo comando.

Después, usted necesitará configurar motores de inspección apropiados para el nodo y los servicios siendo monitoreados. Los motores de inspección están donde usted indica qué protocolo utilizar para monitorear (Hadoop), y donde define qué puertos monitorear. La Tabla 1 mostró un fragmento de los puertos que usa Cloudera predeterminadamente y que InfoSphere Guardium puede monitorear. sus puertos pueden ser diferentes.

La Tabla 2 le muestra la información que fue usada para configurar el clúster Hadoop para este artículo, y se basa en puertos predeterminados Cloudera.

Tabla 2. Puertos de servicio Hadoop para monitorear y configurar el clúster Hadoop
Inspection engine for....ProtocolPort range.KTAP DB Real port
HDFS, Job Tracker, Beeswax serverHADOOP8000-8021 8021
MapReduce Master and Thrift plug-inHADOOP9000-9291 929l
Hive Server and HDFS Thrift Plug-in for HueHADOOP10000-10090 10090
HDFS Name NodesHADOOP50010-50470 50470l
HBase MasterHADOOP60000-60010 60010
HBase RegionHADOOP60020-60020 60020l

Recomendación: Usted puede especificar múltiples motores de inspección por servidor; usted debe hacer esto cuando el protocolo es el mismo, y usted desea evitar configurar un rango de puerto demasiado grande para cada motor de inspección. Una mejor práctica es no configurar muchos puertos que no necesita ya que coloca sobrecarga adicional en los componentes del colector InfoSphere Guardium, ya que necesitaría analizar tráfico que no es relevante. Sin embargo, para obtener simplicidad, usted puede desear incluir rangos de puerto en algunos de los motores de inspección donde tiene sentido.

Usted puede adicionar motores de inspección de la interfaz de usuario: Administration Console >Local Taps >S-TAP Control >Add Inspection Engine.

O usted puede usar una API, create_stap_inspection_engine. Vea el Apéndice B para comandos de ejemplo de API que usted puede usar para crear los motores de inspección usando puertos predeterminados.

La Figura 6 muestra unos cuantos ejemplos de algunos motores de inspección después de que fueron definidos.

Figura 6. Una muestra de algunos motores de inspección para Hadoop
shows inspection engines for port ranges 8000-8021 and 9000-9021 with hadoop protocol.

Usted puede leer más acerca de los campos de configuración de motores de inspección en el libro de ayuda de S-TAP, que puede encontrar online. Sin embargo, el siguiente es un resumen de algunos de los campos claves.

  • Protocol: El tipo de fuente de datos que se está monitoreando (Hadoop). Las opciones están disponibles como un menú desplegable.
  • Port Range: El rango de puertos monitoreados para este motor de inspección. Como se mencionó previamente, mantenga este rango tan limitado como sea posible. Para este artículo, los puertos aplicables fueron divididos en grupos muy correspondientes, como el rango 9000 o el rango 50000.
  • K-TAP real port: Este parámetro debe ser configurado como el último puerto en el rango para ese motor de inspección. Si solo se define un puerto, entonces configure el puerto real K-TAP para ser el mismo.
  • Client IP Addresses/Masks: Cada motor de inspección monitorea el tráfico entre una o más direcciones IP de cliente y servidor. Este campo actúa como un filtro para definir y restringir los clientes a ser monitoreados. Por ejemplo, usted puede tener algunos clientes confiables que no requieren de auditoría, y usted puede filtrar esos clientes por anticipado, lo que puede reducir la carga general en el colector. La dirección IP es una única ubicación y la mascara funciona como un comodín para permitirle definir un rango de direcciones IP. Una máscara 255.255.255.255 (que no tiene bits cero) identifica solo la dirección única especificada por la dirección IP. En el caso del artículo, está usando 0.0.0.0 tanto para cliente como para máscara de manera que todos los clientes serán monitoreados.
  • Connect to IP: La dirección IP para S-TAP para usar para conectar la fuente de datos monitoreada. Para Hadoop, puede usar el valor predeterminado, 127.0.0.1.
  • Process name: Para una configuración Hadoop usted no necesita esto.

Valide que la actividad está siendo monitoreada

Como un Administrador, navegue hacia la pestaña System View de la consola web InfoSphere Guardium y asegúrese de que los S-TAPs para su clúster Hadoop están activos y muestran verde, lo que indica que S-TAP está conectado al colector InfoSphere Guardium. La Figura 7 muestra cómo puede verse para un host.

Figura 7. Monitor de estado S-TAP
shows inspection engines for port ranges 8000-8021 and 9000-9021 with hadoop protocol.

Después de que usted valide que los S-TAPs están configurados correctamente en todos los nodos aplicables, usted ya debe estar capturando cualquier trabajo que esté ejecutándose en el sistema. Usted puede ejecutar un comando shell o el trabajo de muestra de conteo de palabras para validar que están observando los datos. En cualquier caso, usted necesitará usar los informes de detallado de InfoSphere Guardium (disponibles desde la pestaña View para usuarios), o crear sus propios informes para ver la actividad.

Se describe más detalles de los informes Hadoop en Informes Hadoop incluidos con InfoSphere Guardium . Para propósitos de validación, este artículo describirá cómo usar los informes de detallado que están disponibles para los administradores de seguridad a los que se les asignan papeles de usuario en el sistema.

Cuando usted inicia sesión como un usuario y hace clic en la pestaña View , usted observará una gráfica muy parecida a lo que se muestra en la Figura 8. Haga doble clic en la gráfica para obtener los detalles.

Figura 8. Obtenga los detalles
graph shows hadoop, mysql http and mssql..

Existen muchas rutas a través de los datos. La Figura 9 muestra un ejemplo de detallado.

Figura 9. Muestra de detallado
illdown from server type, server ip, client ip, and full sql by client ip.

Siempre que usted hace clic en una fila en el reporte, usted cuenta con un menú de opciones para escoger, en términos del próximo nivel de informes que desearía ver.


Informes Hadoop incluidos con InfoSphere Guardium

InfoSphere Guardium incluye varios informes listos para usar para Hadoop, incluyendo lo siguiente:

  • Actividad de MapReduce tanto para BigInsights como para Cloudera.
  • Trabajos de MapReduce no autorizados.
  • Actividad Hue/Beeswax.
  • Actividad HDFS, HBase, y Hive.
  • Informe de excepciones.

Si usted inició sesión como un usuario, usted puede encontrar los informes predefinidos al hacer clic en View . Desde el panel de navegación izquierdo, haga clic en Hadoop, y los informes son listados.

Si usted inició sesión como Administrador, usted necesitará añadir los informes a su consola. Los siguientes pasos asumen que usted tiene la pestaña My New Reports ya definida en su consola, y que usted inició sesión como un administrador.

  1. Navegue hacia Tools>Report Building>Report Builder.
  2. En la sección de título del informe, use el menú desplazable para ubicar uno de los informes, como el informe Hadoop - Hue/Beeswax , y posteriormente haga clic en Search.
  3. En la ventana de resultados de búsqueda del informe, haga clic en el botón Add to My New Reports , como se muestra en la Figura 10.
    Figura 10. Adicionar el informe a un panel llamado My New Reports
    Hue-Beeswax report in the search results. click on add to my new reports button to add it to a pane of that name ..
  4. Ahora usted puede ejecutar un comando en Beeswax usando Hue y ver el informe. Por ejemplo, en este artículo, el siguiente comando Hive fue alimentado, como se muestra en la Figura 11.
    Figura 11. Enviando una consulta en Beeswax
    shows the query above in the client
  5. Vaya al informe Hue/Beeswax , usted probablemente verá No data found. Esto es debido a que usted necesita especificar algunos parámetros de tiempo de ejecución para comunicar al sistema qué mostrar. Para hacer esto, haga clic en el ícono de lápiz para personalizar la consulta del informe como se muestra en la Figura 12.
    Figura 12. Enviando una consulta en Beeswax
    click on pencil icon in upper right to customize the query and specify search parameters. .
  6. Añada un período de tiempo para la consulta con fechas de desde y hasta (dependiendo de su carga de trabajo, usted puede desear escoger un valor menor, quizás horas o un día) y el símbolo de porcentaje u otro parámetro del tipo para el campo LIKE para SQL y los campos Table_Name, como se muestra en la Figura 13.
    Figura 13. Especifique los parámetros de tiempo de ejecución para el informe Hue/Beeswax
    added info for query to and from data as well as % for full SQL and talbe name LIKE parameters .
  7. Usted ahora debe ver algunos datos aparecer en el informe, como se muestra en la Figura 14.
    Figura 14. Informe Hue/Beeswax
    report shows a get_table under the cover for select * from sample07 and select * from wordcount. .
  8. Ahora realice los mismos pasos para el informe MapReduce (si usted es un administrador):
    1. Navegue hacia Tools>Report Building>Report Builder.
    2. Busque el informe MapReduce .
    3. Añada al panel de informe.
    4. Edite el informe para añadir parámetros de tiempo de ejecución.
  9. Ejecute un trabajo MapReduce. Este artículo usó el programa de conteo de palabras de muestra de Cloudera. La sintaxis para ejecutar el conteo de palabras es: bin/hadoop jar hadoop-*-examples.jar wordcount in-dir out-dir.
  10. Para este artículo, se ejecutó lo siguiente: hadoop jar hadoop-0.20.2-cdh3u4-examples.jar wordcount /user/svoruga /user/svoruga/wc100. Usted puede ver un reporte parecido a lo que se muestra en la Figura 15.
    Figura 15. Informe MapReduce
    mapreduce report with part of the reporthighlightedto show moredetail on the messages.

    (Vea una versión más grande de la Figura 15.)

    Como puede observar, para este artículo, los parámetros de consulta fueron personalizados para especificar que solo actividad en que svoruga y word%count aparecen en el mensaje (Full SQL) debe retornarse en el informe.

Solución de problemas

Los informes de InfoSphere Guardium Hue/Beeswax asumen el uso del formato de mensajes Thrift y la base de datos MySQL. Si usted está usando MySQL y su informe Hue/Beeswax todavía no muestra datos, usted puede necesitar configurar Beeswax para usar el puerto 8002 de la manera siguiente, que fue el puerto usado por Thrift para el ejemplo del sistema de este artículo.

  1. Navegue hacia el archivo Hue .ini:
    • Para CDH3: /etc/hue/hue-beeswax.ini.
    • Para CDH4 /etc/hue/hue/ini, donde -hadoop *examples.jar "*está en el directorio /user/lib/hadoop . Reemplace con el archivo jar correcto.
      in-dir es el directorio HDFS donde está el archivo de entrada.
      out-dir es el directorio HDFS donde será colocado en archivo de salida.
  2. Remueva el comentario de la siguiente línea:
    beeswax_server_port=8002
  3. Pare y reinicie usando los siguientes comandos:
    • /etc/init.d/hue stop
    • /etc/init.d/hue start

Instale una política de seguridad

En InfoSphere Guardium, una política de seguridad contiene un conjunto ordenado de reglas a ser aplicadas al tráfico observado entre clientes y servidores. Una o más reglas son combinadas para crear una política. Para la política de seguridad Hadoop en este artículo, fueron definidas reglas de acceso , que son reglas para ayudar a reducir la cantidad de tráfico a ser registrado en el colector de InfoSphere Guardium.

Recomendación: No modifique la política de muestra. En vez de eso, cree un clon y úselo como la base para su modificación.

Para acceder a la Política Hadoop y crear un clon, haga lo siguiente.

  1. Inicie sesión como administrador y navegue hacia Tools>Config & Control>Policy Builder.
  2. Desde Policy Finder, seleccione Hadoop Policy y luego haga clic en Clone .
  3. Alimente un nuevo nombre para la política y luego haga clic en Save.

Para instalar una política, haga lo siguiente.

  1. Inicie sesión como administrador y vaya hacia Administration Console > Configuration > Policy Installation.
  2. Seleccione el clon de política Hadoop que usted creó y escoja la acción de instalación apropiada. Vea la ayuda online para obtener más información acerca de instalaciones de políticas y las implicaciones de tener más de una política.

Las reglas para la Política de Hadoop se muestra en la Figura 16. Haga clic en plus para ver más detalles. Usted puede editar la regla al hacer clic en el ícono del lápiz.

Figura 16. Reglas en la muestra de política Hadoop
three access rules describedin the text below.

El siguiente es un resumen de las reglas en la política.

  • Regla de Acceso: Objetos de bajo interés: Permitir

    La Figura 17 muestra la definición de regla.

    Figura 17. Reglas de objetos de bajo interés para Hadoop
    policy shows a group called Hadoopskipobjects and indicates the group biulder idcon for that group. slao shows actions allow.

    Los siguientes son dos ítems principales de interés en esta política.

    • Una definición de un grupo de objetos, como preferencias de usuario, que es poco probable de ser de interés. Si usted hace clic en el ícono constructor, usted podrá observar los objetos que forman parte del grupo HadoopSkipObjects, como se muestra en la Figura 18.
      Figura 18. Reglas de objetos de interés bajo para Hadoop
      policy shows a group called Hadoopskipobjects and indicates the group biulder idcon for that group. slao shows actions allow.
      Usted puede modificar este grupo conforme lo necesite.
    • La acción Allow significa que una violación de política no será registrada para estos objetos, y no serán considerados para análisis posterior.
  • Regla de Acceso: Comandos de bajo interés: Permitir

    Similar a la regla de arriba, pero específicamente para comandos.

  • Regla de Acceso: Filtro basado en IP de Servidor: Detalles de Registro Completo

    Esta regla le permite filtrar actividad de cualquier servidor que no sea de Hadoop que esté usando este mismo Guardium Collector.

Importante: Usted debe modificar el grupo Not Hadoop Servers para incluir todos los IPs de cualquier servidor que desee filtrar. Si no existen dichos servidores, entonces alimente un IP ficticio, pero no 0.0.0.0. Si usted no tiene algo en ese grupo, entonces sus informes no funcionarán.


Cosas fantásticas que puede hacer usted

Las siguientes son algunas cosas claves que usted puede hacer con InfoSphere Guardium para que le ayude a cumplir con sus requerimientos de auditoría y conformidad para Hadoop. Esta sección describe maneras de responder a las preguntas que hemos formulado al principio del artículo.

Díganme cuándo un usuario no autorizado accede a datos delicados

Existen muchas reglas diferentes que usted puede usar para crear políticas que pueden ayudarle a hacer cumplir sus requerimientos de auditoría.

Consejo: Si usted añade cualquier regla a su clon de políticas Hadoop, asegúrese que la regla previa tenga seleccionado Continue to next rule . De otra manera, su nueva regla nunca podrá ser evaluada.

La Figura 19 muestra una regla en que dos grupos son definidos como sigue.

  • Usuarios Known Hadoop
  • Objetos/archivos de datos delicados conocidos
Figura 19. Regla de política de ejemplo para acceder a archivos delicados
rule includes negation of Hadoop Users .includes Sensitive Hadoop objects group.

La regla tiene una negación para los usuarios conocidos, lo que significa que si un usuario que no es parte de ese grupo conocido acceda a esos archivos delicados, esa información será registrada, y usted puede ver esas ocurrencias en un informe de incidentes para investigación posterior. Resulta que el acceso es legítimo, usted puede añadir ese usuario al grupo conocido.

Díganme cuándo un nuevo trabajo de MapReduce usa el sistema

Muchas empresas están preocupadas por dar seguimiento a nuevas aplicaciones que acceden a sus datos, y un informe automatizado puede ayudarle a hacer eso. InfoSphere Guardium proporciona un informe de trabajo no autorizado de MapReduce que usted puede personalizar para que le ayuda a identificar cuando nuevos trabajos de MapReduce entran al sistema.

Usted puede planificar este informe para que se ejecute periódicamente como parte de un proceso de auditoría que se ejecuta en segundo plano. Esto le permite a usted ser notificado cuando nuevos trabajos entren al sistema, para que puedan ser revisados adecuadamente y adicionados a la lista de trabajos autorizados conforme sea apropiado.

El establecimiento de este informe requiere de un algo de configuración. Usted necesita crear y personalizar un grupo llamado Hadoop Authorized Job List. Usted necesitará:

  1. Crear y poblar ese grupo con la lista de trabajos conocidos y aprobados en su sistema.
  2. Asignar papeles al grupo de manera que las personas apropiadas en su organización puedan ver y usar ese grupo en informes de construcción.
  3. Personalizar el informe Hadoop-Unauthorized MapReduce Jobs para incluir ese grupo como un parámetro de tiempo de ejecución.

Aquí hay pasos detallados de cómo configurar el grupo:

  1. De la consola de administración, vaya a Tools > Config and Control > Group Builder. O, si usted inició sesión como un usuario, vaya a Monitor/Audit > Build Reports> Group Builder, y luego haga clic en Next.
  2. En los campos Cree campos New Group , especifique Public como Application Type, y bríndele el nombre que desee (como Hadoop Authorized Job List) , y de la lista desplegable para Group Type Description, seleccione OBJECTS , tal como se muestra en Figura 20. Haga clic en Add .
    Figura 20. Nombrando el nuevo grupo
    fields describe din text
  3. En el panel Manage Members, alimente un nombre de trabajo MapReduce en el campo Create & add new members , y posteriormente haga clic en Add para añadir ese miembro al grupo. Continúe añadiendo miembros, como se muestra en Figura 21. Cuando termine de añadir nombres de trabajo MapReduce, haga clic en Back .
    Figura 21. Pueble el grupo con trabajos autorizados
    Image shows the populating process of adding sortlines and wordcount to the list.
  4. En Group Builder, encuentre su grupo en la lista Modify Existing Group y luego haga clic en el botón Roles como se muestra en Figura 22.
    Figura 22. Asocie papeles con el grupo
    shows Roles button selected
  5. Seleccione los papeles que desea poder usar en este grupo. Nosotros hemos sencillamente seleccionado All Roles, tal como se muestra en Figura 23. Haga clic en Apply .
    Figura 23. Indique qué papeles pueden usar este grupo
    Image All Roles selected. There are other checkboxes for specific roles.

Ahora usted ha terminado con la tarea de crear el grupo Hadoop Authorized Job List, ahora está listo para ir a la siguiente tarea, que consiste en asociarlo con el informe.

  1. Como se describe en la sección Informes Hadoop incluidos con InfoSphere Guardium , si usted inició sesión como un usuario, usted puede encontrar los informes predefinidos al hacer clic en View . Desde el panel de navegación izquierdo, haga clic en Hadoop, y los informes son listados aquí.
  2. Haga clic en Hadoop – Unauthorized MapReduce Jobs. Probablemente mostrará No data found. Haga clic en el ícono de lápiz para personalizar este informe, como se muestra en Figura 24.
    Figura 24. Personalizar el informe
    click pencil icon in upper right part of the report..
  3. Seleccione el nombre del grupo para la lista, como se muestra en Figura 25. Asegúrese de que los parámetros de fecha cubran un período de tiempo en el que usted sabe que observará al menos un pequeño conjunto de resultados para validar que el informe está funcionando. Posteriormente haga clic en Update .
    Figura 25. Añada el grupo a los parámetros de tiempo de ejecución de informa
    shows the authorized group list added to the report runtime parms.
  4. Desde la navegación izquierda, haga clic en el informe Hadoop – Unauthorized MapReduce Jobs de nuevo. Debe ser poblado con datos de cualquier informe que no esté en su grupo de trabajo autorizado. Un extracto del informe se muestra en Figura 26, donde usted puede observar que un trabajo llamado PiEstimator es mostrado debido a que no estaba en la lista de trabajos autorizados.
    Figura 26. El informe incluye actividad de trabajos que no están en el grupo autorizado
    activty from a job called PiEstator.

Dígame si hay un número excepcional de errores de permiso de archivo

InfoSphere Guardium incluye informes de excepción listos para usar para Hadoop. Por ejemplo, si usted inició sesión como un usuario, usted puede ir a View > Hadoop > Hadoop - Exception Report para ver el informe listo para usar, similar a lo que se muestra en Figura 27.

Figura 27. Informe de excepción de Sample Hadoop
Image shows two file permission exceptions with error 101

Usted también puede crear una alerta basada en la misma consulta que es usada para el informe. Con una alerta, usted puede hacer que se le envíe un email siempre que un umbral para una condición específica, como excepciones de permiso de archivos, cruce cierto límite.

Usted también puede optar por registrar la alerta como una violación de política, que colocará esta alerta en la pestaña de Incident Management de la consola web de InfoSphere Guardium.

Aquí está los pasos de alto nivel para crear la consulta de excepciones y habilitar una alerta.

  1. Navegar hacia el Alert Builder:
    • Para un administrador, ir a Tools> Config and Control> Alert Builder.
    • Para un usuario, ir a Protect> Correlation Alert> Alert Builder.
  2. Desde Alert Finder, vaya a New.
  3. en la sección Query Definition de la pantalla Add Alert, seleccione Hadoop – Exception Report del menú desplegable, como se muestra en Figura 28, y rellene el resto de los requerimientos de la alerta.
    Figura 28. Use la consulta de informe de excepción para construir su alerta
    pulldown called Hadoop -Exception report is highlighted

Figura 29 en este ejemplo de una alerta que fue creada para este artículo que especifica una excepción de 101 para excepciones de permiso de archivo.

Figura 29. Alert builder
builder has log policy violations checked, and teh query is hadoop exception report. with exceptionno string 101 selected.

Observe que las alertas son registradas como una violación de política de manera que cualquier alerta que sea desencadenada también aparece de Incident Management . También observe que en la parte inferior del ejemplo, el administrador llamado David Roz obtendrá al menos un email cuando la alerta sea desencadenada.


Conclusión

Esperamos que haya disfrutado este tour a través de InfoSphere Guardium para dar seguridad a entornos Cloudera Hadoop. Si usted está usando o evaluando Hadoop y está considerando una estrategia de seguridad alrededor de su implementación, pensamos que la información proporcionada en este artículo puede ayudarle a pensar acerca de lo que necesita y cómo puede ayudar InfoSphere Guardium. Los usuarios existentes de Existing Guardium pueden fácilmente ampliar sus procesos actuales de seguridad y auditoría para incluir Hadoop.

Reconocimientos

los autores desearían extender su gratitud a las siguientes personas, sin las cuales este artículo nunca habría visto la luz del día:

  • David Rozenblat, por sus muchas horas de ayuda para construir informes y políticas , y por su soporte gerencial.
  • Joe DiPietro, por brindarnos los problemas de negocios a resolver.
  • Ury Segal, por su dirección técnica.

Apéndice A: Configurando el proxy Guardium en IBM InfoSphere BigInsights

Este apéndice describe los pasos para habilitar a Guardium Proxy en IBM InfoSphere BigInsights p ara enviar copias de mensajes de registro relevantes a InfoSphere Guardium.

Figura 30 le muestra la arquitectura de la solución.

Figura 30. Los mensajes de registro son enviados al Guardium Proxy y luego remitidos al Guardium Collector
shows that messages from oozie, hdfs, mapreduce are sent via proxy to the collector. collector sends ping messages back..

Usted necesita habilitar Guardium Proxy y posteriormente configurar el adjuntador de registros de Guardium Proxy en los archivos de propiedades log4j a lo largo del clúster de manera que los eventos registrados serán enviados a Guardium Proxy en NameNode. Los eventos de registro son enviados a lo largo de una conexión de socket. el Puerto 16015 es usado para esta conexión de socket. El proxy posteriormente envía esos mensajes al colector InfoSphere Guardium (puerto predeterminado 16016) que analiza y almacena esos mensajes en las tablas internas de Guardium para informe, alertas, y demás.

Los siguientes pasos son usados para configurar la solución.

  1. Planee la integración.
  2. Habilite la integración.
  3. Configure los archivos log4j.properties, y sincronice las propiedades a lo largo del clúster..
  4. Inicie GuardiumProxy en NameNode y posteriormente reinicie Hadoop.
  5. Valide la configuración.

Planee la integración

Antes de ir al siguiente paso, revise la siguiente información.

  • Asegúrese de ejecutar el nivel apropiado de IBM BigInsights: IBM BigInsights 1.4 o releases posteriores (solo Enterprise Edition)
  • Asegúrese de conocer la dirección IP del colector de InfoSphere Guardium y el NameNode de su clúster Hadoop.
  • Asegúrese de tener la autoridad para modificar las propiedades de BigInsights y las configuraciones de archivo de registro; eso es, usted necesita autoridad biadmin.

Habilite la integración

antes de cambiar cualquier archivo de propiedades, usted debe parar todos los servicios BigInsights. Los scripts para hacerlo están en $BIGINSIGHTS_HOME/bin.

  • stop-all.sh parará todos los servicios Hadoop.
  • stop.sh hadoop oozie parará todos los servicios Hadoop y Oozie

Para habilitar y deshabilitar la integración entre IBM BigInsights y InfoSphere Guardium, use el archivo localizado aquí:
$BIGINSIGHTS_HOME/conf/guardiumproxy.properties

  • guardiumproxy.enable:Predeterminado es yes. Cambie a yes para habilitar la integración entre IBM BigInsights y InfoSphere Guardium.
  • guardiumproxy.host: El host que el proxy Guardium estará ejecutando. Este se da predeterminadamente al nombre del nodo cuando BigInsights fue instalado. No hay necesidad de cambiar esto a menos que desee ejecutarlo en un host diferente en su clúster.
  • guardiumproxy.port: El puerto que el proxy Guardium estará escuchando. Configure este valor en 16015. Este es el valor predeterminado.
  • guardium.server: La dirección IP del colector InfoSphere Guardium.
  • guardium.server.port:El puerto que el colector InfoSphere Guardium estará escuchando. Configure este valor en 16016. Este es el valor predeterminado.

El siguiente es un archivo proxy de ejemplo.

Listado 1. Archivo proxy de Guardium para IBM InfoSphere BigInsights
# Flag to enable or disable guardium proxy. Turn off this switch, user won't be 
# able to start guardium proxy. If turn it on, run start.sh guardiumproxy to start 
# proxy on Biginsights NameNode ( by default on hdfs, other FS uses jobtracker ), 
# it communicates the guardium server defined in guardium.server, 
# sends messages to the server. 
# After start guardium proxy, log4j.properties files in hadoop/oozie component must be 
# updated based on the template, then restart hadoop/oozie. 
guardiumproxy.enable=yes
                
# The hostname or ip address a guardium proxy instance will be running on, only one host
# can be specified for this property.
guardiumproxy.host=hadoop-bigi-node01.guard.nnn.nnnn.ibm.com
                
# The port guardium proxy will be listening on.
guardiumproxy.host.port=16015
                
# The maximum size in megabyte the message queue in guardiumproxy will approx. use, 
#   audit log events arriving at guardium proxy will be dropped if queue is full.
# Recommended default: 100 MB
guardiumproxy.queue.maxsize=100
                
# The timeout in seconds the guardium proxy will wait in case of a 
# refused or lost connection to the Guardium server.
# Recommended default: 60 seconds
guardiumproxy.reconnection_timeout=60
                
# The timeout in seconds until a background script restarts a guardium proxy
# (JVM) in case it terminated.
# Recommended default: 600 seconds
guardiumproxy.restart_timeout=600
                
# The log4j logging level on which the guardiumproxy will log about such 
# events like connection status and failures
#   set to DEBUG to retrieve information for each processed audit log, 
# but use INFO in productive mode
#   valid values are FATAL, ERROR, WARN, INFO, DEBUG
# Recommended default: INFO
#guardiumproxy.loglevel=DEBUG
guardiumproxy.loglevel=INFO
                
# The host name or ip address where a guardium server is running. 
# ake sure the guardiumproxy.host  can connect to the server host.
guardium.server=nnnn.guard.nnn.nnnn.ibm.com
                
# The port guardium server is listening on.
guardium.server.port=16016

Configure los archivos de propiedades log4j y sincronice

En este paso, usted modificará dos archivos de propiedades log4j en namenode para decirle a BigInsights qué mensajes de registros (el proxy Guardium) enviar a Guardium, y posteriormente usted sincronizará los cambios a lo largo del clúster. Los dos archivos a ser modificados son:

  • Para HDFS, MapReduce y Hadoop RPC, modifique: $BIGINSIGHTS_HOME/hdm/hadoop-conf-staging/log4j, tal como se muestra en Listado 2.
  • Para Oozie, modifique: $BIGINSINGHTS_HOME/hdm/components/oozie/conf/oozie-log4j.properties, tal como se muestra en Listado 3.

En ambos casos, usted necesita validar el número de puerto al que Guardium estará escuchando en (16015), y la dirección IP de NameNode (asumiendo que usted está usando la configuración predeterminada de tener al proxy Guardium ejecutándose en el NameNode). En ambos archivos, usted necesitará quitar los comentarios de varias líneas, que son claramente documentadas en eso.

Listado 2. BigInsights Log4j settings for HDFS, MapReduce, and Hadoop RPC
# GUARDIUM PROXY INTEGRATION - Setup for HDFS, MapReduce and Hadoop RPC
# Set up following lines
log4j.appender.GuardiumProxyAppender=org.apache.log4j.net.SocketAppender
# Set RemoteHost to cluster node (main node, the one from which you installed BI)
log4j.appender.GuardiumProxyAppender.RemoteHost=hadoop-bigi-node01.guard.swg.usma.ibm.com
# When changing the Port for cluster-intern communication with GuardiumProxy,
#   also change it in $BIGINSIGHTS_HOME/conf/guardiumproxy.properties (main node)
log4j.appender.GuardiumProxyAppender.Port=16015
log4j.appender.GuardiumProxyAppender.Threshold=INFO
# MapReduce audit log Guardium integration: Uncomment to enable
log4j.logger.org.apache.hadoop.mapred.AuditLogger=INFO, GuardiumProxyAppender
log4j.additivity.org.apache.hadoop.mapred.AuditLogger=false
# Hadoop RPC audit log Guardium integration: Uncomment to enable
log4j.logger.SecurityLogger=INFO, GuardiumProxyAppender
log4j.additivity.SecurityLogger=false
# GUARDIUM PROXY INTEGRATION - End of Setup
Listado 3. BigInsights Log4j settings for Oozie
# GUARDIUM PROXY INTEGRATION - Setup for HDFS, MapReduce and Hadoop RPC
# GUARDIUM PROXY INTEGRATION - Setup for Oozie
# Set up following lines
log4j.appender.GuardiumProxyAppender=org.apache.log4j.net.SocketAppender
# Set RemoteHost to cluster node (main node, the one from which you installed BI)
log4j.appender.GuardiumProxyAppender.RemoteHost=hadoop-bigi-node01.guard.swg.usma.ibm.com
# When changing the Port for cluster-intern communication with GuardiumProxy,
#   also change it in $BIGINSIGHTS_HOME/conf/guardiumproxy.properties (main node)
log4j.appender.GuardiumProxyAppender.Port=16015
log4j.appender.GuardiumProxyAppender.Threshold=INFO
# Oozie audit log Guardium integration: 
#    Switch (un)comment between lines to enable GuardiumProxyAppender for Oozie
#log4j.logger.oozieaudit=INFO, oozieaudit (make sure this line is COMMENTED OUT)
log4j.logger.oozieaudit=INFO, oozieaudit, GuardiumProxyAppender (UNCOMMENT this line)
# GUARDIUM PROXY INTEGRATION - End of Setup

Sincronice los archivos: Después de que usted haya actualizado los archivos de propiedades, vaya a $BIGINSIGHTS_HOME/bin y ejecute syncconf.sh.

Reinicie Hadoop

Usted necesita reiniciar Hadoop (y el proxy Guardium) para hacer que los cambios entre en vigor. El reinicio de los servicios Hadoop automáticamente iniciará el Guardium Proxy si usted lo habilitó adecuadamente en el archivo de propiedades de arriba. Los scripts de inicio están en $BIGINSIGHTS_HOME/bin.

  • start-all.sh iniciará todos los servicios Hadoop, incluyendo el proxy Guardium.
  • start.sh hadoop oozie guardiumproxy iniciará Hadoop, Oozie y el proxy Guardium.

Valide la configuración

Usted puede probar la configuración al enviar un trabajo, incluyendo una muestra del trabajo wordcount, y ver los resultados en los informes InfoSphere Guardium.

A través de su consola web BigInsights, envíe un trabajo de wordcount. Vea el centro de información BigInsights en la sección Recursos para obtener más información acerca de cómo hacer esto.

Inicie sesión en la consola InfoSphere Guardium con un usuario y seleccione uno de los informes Hadoop, como BigInsights - MapReduce. La Figura 26 le muestra un fragmento de un informe de MapReduce para BigInsights cuando se usa el proxy.

Figura 31. Informe parcial de MapReduce para BigInsights
Image shows the highlights full sqland the bi user name and bi jar name and bi job name.

(Vea una versión más grande de la Figura 26.)

Usted puede observar información acerca de permisos en la sección SQL Completo del informe. Usted también puede ver que el informe incluye información acerca del nombre del trabajo, el nombre del usuario que envió el trabajo, e incluso el nombre de archivo jar del trabajo. Esta información es analizada parar usted desde el mensaje completo, y debido a que aparece como un campo en el informe, usted puede hacer cosas como crear alertas en esos campos. Vea esta sección del artículo para obtener más detalles acerca de personalizar informes.


Apéndice B: Comando de muestra GuardAPI para configurar motores de inspección

GuardAPI proporciona acceso a la funcionalidad de InfoSphere Guardium desde la línea de comando para permitirle automatizar tareas repetitivas. Para ejecutar estos comandos usted debe iniciar sesión con una de las cuentas de CLI (interfaz de línea de comando) y que se le haya otorgado el papel de administrador o CLI. Para obtener más información acerca de la API, vea el libro de ayuda online InfoSphere Guardium Appendices.

El Listado 4 muestra los comandos que fueron usados para crear los motores de inspección vía la API en este artículo.

Listado 4. comandos de muestra grdapi para configurar motores de inspección en nuestro entorno de muestra
#hdfs job tracker, hdfs name node beeswax server 
grdapi create_stap_inspection_engine client=0.0.0.0/0.0.0.0 protocol=HADOOP 
ktapDbPort=8021 portMax=8021 portMin=8000 stapHost=<My Hadoop Node IP>
                
#Mapreduce job tracker, cloudera agent and thrift plugin
grdapi create_stap_inspection_engine client=0.0.0.0/0.0.0.0 protocol=HADOOP 
ktapDbPort=9291 portMax=9291 portMin=9000 stapHost= <My Hadoop Node IP>
                
#hive server, thrift plugin
grdapi create_stap_inspection_engine client=0.0.0.0/0.0.0.0 protocol=HADOOP 
ktapDbPort=10090 portMax=10090 portMin=10000 stapHost= <My Hadoop Node IP>
                
#HDFS name node ports
grdapi create_stap_inspection_engine client=0.0.0.0/0.0.0.0 protocol=HADOOP 
ktapDbPort=50470 portMax=50470 portMin=50010 stapHost= <My Hadoop Node IP>
                
#HBase region servers
grdapi create_stap_inspection_engine client=0.0.0.0/0.0.0.0 protocol=HADOOP 
KtapDbPort=60010 portMax=60010 portMin=60000 stapHost= <My Hadoop Node IP>

Usted necesitará asegurar que su motor de inspección de correlaciona adecuadamente al nodo Hadoop que tiene los servicios correspondientes instalados en ese nodo. En este caso, fue una sencilla configuración de un nodo, así que los motores de inspección fueron agrupados por número de puerto similar. Es muy probable que su configuración sea más compleja que esto.


Apéndice C. Usando la interfaz de línea de comando (CLI) Guardium para filtrar ruido Hadoop

InfoSphere Guardium tiene una interfaz de línea de comando abundante. Usted puede usar la CLI para configurar directamente el componente de analizador de Collector para filtrar ruido Hadoop en vez de usar la política de seguridad usando el comando store gdm_analyzer_rule new para especificar una aplicación específica de Hadoop y patrón a excluir. El ejemplo en el Listado 5 muestra el uso del comando para filtrar mensajes HBase getServerRegion.

Listado 5. Comando CLI para modificar el filtrado del colector
store gdm_analyzer_rule new
Please enter rule description (optional): HDP
Please enter rule type (required): 5
Please enter rule acdtion (optional. Default to 0):
Please enter active flag (optional. Default to 1):
Please enter DB protocol (required): 25
Please enter server IP (optional):
Please enter server IP mask (optional. Default to 255.255.255.255):
Please enter service name (optional):
Please enter pattern (optional): getServerRegion
Please enter format (optional): 1

Las opciones de interés incluyen las siguientes.

  • Rule type: Especifique 5 para la regla de exclusión Hadoop.
  • Rule action: Mantenga los valores predeterminados.
  • DB Protocol: Especifique '25 para Hadoop.
  • Pattern: Alimente el nombre exacto y caso del patrón de mensaje que usted desearía excluir.
  • Format: Alimente el código para el servicio Hadoop a excluir. Los valores son:
    0 - HDFS
    1 - HBase
    2 - Hadoop IPC
    3 - Job Tracker

Recursos

Aprender

Obtener los productos y tecnologías

  • Construya su próximo proyecto de desarrollo con software de prueba IBM, disponible para descarga directamente de developerWorks.
  • Evalúe los productos de IBM como mejor le parezca: descargue una prueba de producto, pruebe un producto online, use un producto en un entorno de nube o invierta unas cuantas horas en el Recinto de Seguridad de la SOA aprendiendo a implementar la Arquitectura Orientada a Servicios con eficiencia.

Comentar

Comentarios

developerWorks: Ingrese

Los campos obligatorios están marcados con un asterisco (*).


¿Necesita un IBM ID?
¿Olvidó su IBM ID?


¿Olvidó su Password?
Cambie su Password

Al hacer clic en Enviar, usted está de acuerdo con los términos y condiciones de developerWorks.

 


La primera vez que inicie sesión en developerWorks, se creará un perfil para usted. La información en su propio perfil (nombre, país/región y nombre de la empresa) se muestra al público y acompañará a cualquier contenido que publique, a menos que opte por la opción de ocultar el nombre de su empresa. Puede actualizar su cuenta de IBM en cualquier momento.

Toda la información enviada es segura.

Elija su nombre para mostrar



La primera vez que inicia sesión en developerWorks se crea un perfil para usted, teniendo que elegir un nombre para mostrar en el mismo. Este nombre acompañará el contenido que usted publique en developerWorks.

Por favor elija un nombre de 3 - 31 caracteres. Su nombre de usuario debe ser único en la comunidad developerWorks y debe ser distinto a su dirección de email por motivos de privacidad.

Los campos obligatorios están marcados con un asterisco (*).

(Por favor elija un nombre de 3 - 31 caracteres.)

Al hacer clic en Enviar, usted está de acuerdo con los términos y condiciones de developerWorks.

 


Toda la información enviada es segura.


static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=90
Zone=Information mgmt
ArticleID=931565
ArticleTitle=Seguridad y auditoría de Big data con IBM InfoSphere Guardium
publish-date=05272013