Diez consideraciones para una solución de big data basada en la nube

El inicio de un entorno de consumo de big data es más fácil en la nube

El autor destaca 10 factores que una compañía debe considerar cuando inicia un proyecto de big data, incluos uno que sea considerado un prueba. Una solución basada en la nube es enfatizada ya que resuelve muchos factores técnicos complicados en el inicio de una implementación de big data.

David Gillman, Director de servicios, Data Sooner

David GillmanDavid Gillman ha trabajado en áreas de inteligencia de negocio, búsqueda de minería de datos y análisis predictivo por 20 años. Cuenta con formación académica en matemática aplicada, optimización y análisis estadístico con particular énfasis en su aplicación a actividades comerciales. Cuenta con experiencia práctica en la mejora de las operaciones empresariales mediante análisis aplicado en industrias de distribución, manufactura y hospitalidad con organizaciones de varios tamaños. Es posible ponerse en contacto con David en gillman@datasooner.com.



06-05-2013

Big data como un concepto en TI ha venido rápido y fuerte. Como en muchas cosas en TI, la nueva tecnología se usa primero por las grandes empresas y posteriormente en la curva de adopción, los negocios pequeños y de tamaño medio comienzan a usarla. Big data parece estar siguiendo el mismo camino.

Conforme big data evoluciona en el mundo real, está siendo aplicado a elementos de datos que no son grandes. Los conjuntos de datos que son considerados pequeños por la mayoría de los estándares están siendo procesados por herramientas de big data en maneras que son específicas para la arquitectura de big data.

Aun así, el futuro generalmente en el que se concuerda es uno donde habrá más datos, no menos; más fuentes de datos estarán enviando datos hacia la empresa y la velocidad del flujo de datos solo se incrementará. Este es el campo futuro de big data. Una pregunta que surge acerca del campo es dónde existirá — en las instalaciones o en la nube — y en qué puntos usted debe considerar seleccionar servicios.

Definición de solución de big data basada en la nube

Como la mayoría de las cosas que lidian con la nube, el definir exactamente qué es la nube puede ser un poco engañoso. Existen muchos diferentes sabores en la nube en el espacio de big data y ninguna definición es universal (aunque algunos son mejores que otros).

Primero, iniciemos con un poco de juego de palabras. El estado de big data se alcanza cuando el volumen, variedad, y velocidad de datos entrantes son demasiados para las actuales bases de datos relacionales para manejar y usar en tiempo real. El despliegue de tecnologías en Big Data es el intento para manejar esa condición y proporcionar nuevas maneras de hacer uso productivo de los datos — y eso significa hardware y una nueva manera de organizar datos para un rápido almacenamiento y una rápida lectura. Esta es la escencia de big data.

También es el motivo para que Apache Hadoop, MapReduce, y proyectos y productos similares. El entorno de datos basado en la nube necesita ser capaz de referenciar datos externos como sistemas de panificación de recursos empresariales y otras bases de datos dentro de las instalaciones, actualizándolos periódicamente con datos frescos. (Externo aquí significa fuera del recinto de seguridad de big data).

Luego se ocupa de "almacenar" los datos. Posteriormente, usted necesita una manera de analizar y presentar ese análisis donde afectará los procesos de negocios.

Un servicio de big data necesita ser capaz de ver a una amplia variedad de fuentes de datos externas al centro de datos, ser capaz de incluir nuevos en el centro de datos, alojar nuevos elementos de los cuales todavía no se piensa, y proveer una metodología para analizar e informar todo eso. La necesidad por escalabilidad, flexibilidad y expandabilidad son totalmente compatibles con un entorno de big data desde un servicio de nube.


Lanzamiento hacia big data basado en la nube

Estas consideraciones cubren los criterios básicos de evaluación para lanzar hacia big data. Inicie, pruebe, y aprenda en el camino, pero mientras más defina por adelantado qué necesita de big data, su tiempo de prueba será más enfocado y será más rápida la revisión de su conjunto de habilidades.

1. Indexación universal en tiempo real de cualesquiera datos de máquina

Este es el núcleo de big data conforme la mayoría de las personas conciben; usualmente es igualado con el proyecto de código abierto Hadoop (ver Recursos). No confunda la indexización en Hadoop con un índice en la base de datos relacional: Un índice Hadoop es un índice de archivos. De esta manera, Hadoop puede ingerir muchos tipos diferentes de datos.

Las compañías ya pueden ser inundadas con alimentaciones de movimiento de ID de radio-frecuencia (RFID), clic en sitios web, y otros datos que pueden ser estructurados si el personal de TI gasta algún tiempo para convertirlos en datos estructurados y los coloca en una base de datos relacional. Eso puede valer la inversión si usted sabe cómo los datos serán usados y cómo serán consultados y accedidos en el futuro.

Sin que usted tenga que conocer el futuro potencial de los datos, Hadoop proporciona una salida. Al tomar los datos tal y como vienen, big data posterga la definición de datos, para cuando se realiza el análisis. Hadoop distribuye los datos a lo largo de muchos servidores y da seguimiento a las ubicaciones sin limitar el uso futuro.

El almacenamiento de los datos es solo parte de la manera de tener éxito. La información necesita ser relativamente fácil de recuperar. La manera más rápida de hacer eso es proporcionando una posibilidad de búsqueda que sea rápida (como en la implementación, no tiempo de respuesta). Busque un juego de herramientas que permite búsquedas de texto de datos no estructurados. Apache Lucene (Recursos) es una herramienta común que proporciona indexación de texto en un entorno de big data.

el tener una respuesta en el monitor brinda a las personas una sensación cálida y reconfortante de que todo está siendo almacenado de la manera correcta y puede ser accedido. El paso administrativo para esto es indexar el contenido de los datos almacenados en los nodos distribuidos. Las consul tas de búsqueda posteriormente acceden a los índices en los nodos distribuidos en paralelo para proporcionar una respuesta más rápida.

3. Descubrimiento de conocimiento automatizado de los datos

Este es uno de los motivos de negocios para trasladarse hacia big data. Así como puede ser ineficiente trasladar todos los datos semi-estructurados hacia una base de datos relacional, la realización de búsquedas manuales e informes manuales es ineficiente para análisis.

Las herramientas de minería de datos y análisis predictivos están rápidamente convirtiéndose para poder usarse en big data como una fuente de datos para análisis y para ser una base de datos para monitorear continuamente el cambio. Todas las herramientas de minería de datos siguen este proceso. alguien determina el propósito del análisis, observa los datos, y posteriormente desarrolla modelos estadísticos que proporcionan conocimiento o realizan predicciones. Esos modelos estadísticos posteriormente necesitan ser desplegados en el entorno de big data para realizar evaluaciones continuas. Esta porción debe ser automatizada.

4. Monitoree sus datos y proporcione alertas en tiempo real

Busque una herramienta para monitorear los datos en big data. Existen herramientas que crean consultas que son continuamente procesadas, buscando criterios a ser cumplidos.

No puedo iniciar a listar todos los usos posibles para el monitoreo en tiempo real de los datos que entran a Hadoop. Asumiendo que la mayoría de los datos entrantes son no estructurados y no están destinados a una base de datos relacional, el monitoreo en tiempo real es probablemente el área donde un elemento de datos es inspeccionado más estrechamente.

Por ejemplo, usted puede establecer una alerta para cuando el chip RFID en un artículo de comida congelada sea almacenado en un área no congelada. Esa alerta puede ir directamente a dispositivos móviles que son usados en el almacén, previniendo que la comida se arruine.

Los movimientos de los clientes en una tienda también pueden ser monitoreados y la publicidad puede ser dirigida hacia el cliente preciso que esté parado frente a un artículo específico en monitores posicionados estratégicamente. (Esto es futurista y un poco como "Big Brother", pero es posible).

5. Proporcione informes y análisis ad hoc poderosos

En relación al descubrimiento de conocimiento y minería de datos automatizada, los analistas necesitan acceso para recuperar y resumir la información en el entorno de nube de big data. La l ista de proveedores cuyas herramientas funcionan para reportar desde big data para crecer más cada día.

Algunas de las herramientas usan Apache Hive y Hive Query Language (HQL; ver Recursos). Las sentencias HQL son similares a las sentencias de Structured Query Language (SQL) y muchas de las herramientas que proporcionan estilos familiares de informes a partir de big data usan la interfaz HQL y Hive para ejecutar las consultas a través de MapReduce.

Apache Pig es otro proyecto de código abierto para informes y manipulación de big data. Su sintaxis es menos como SQL y más como lenguaje de scripting. También se ejecuta a través de procesamiento MapReduce para obtener procesamiento en paralelo fácil.

El proveedor de big data con base en la nube debe permitir que tanto las sentencias Pig como HQL provengan de solicitantes externos. De esa manera, el almacenamiento de big data puede ser consultado por personas que usan herramientas que ellos mismos escogen, incluso usando herramientas que todavía no han sido creadas.

6. Proporcione la capacidad de crear rápidamente paneles de instrumentos y visualizaciones personaliazadas

Como en la evolución de un proyecto de inteligencia de negocios tradicional, cuando las personas pueden consultar big data y producir informes, ellos desean automatizar esa función y crear un panel de instrumentos para visualizaciones repetitivas con fotografías bonitas.

A menos que las personas estén escribiendo sus propias sentencias Hive y estén usando solo la Hive shell, la mayoría de las herramientas tienen cierta habilidad para crear visualizaciones tipo dashboard desde sus sentencias de consulta. Es un poco temprano en la implementación de big data p ara citar muchos ejemplos de panel de instrumentos. Una predicción, con base en la historia de la inteligencia de negocios, es que los paneles de instrumentos se convertirán en un vehículo de entrega interno importante para big data resumidos. Y de acuerdo a la historia de la inteligencia de negocios, el contar con buenos paneles de instrumentos para big data será importante para obtener y mantener el soporte ejecutivo.

7. Escale eficientemente hacia cualquier volumen de datos usando hardware de producto

Cuando se usa un servicio de big data en la nube, es te es un punto filosófico más que práctico. Depende del proveedor de servicios adquirir, suministrar e implementar el hardware en donde residen los datos. La selección del hardware no debería importar.

Sin embargo, de gracias cuando llegue la cuenta de que big data se diseñó para usar hardware de producto. Existen determinados nodos en arquitectura donde un servidor de "alta calidad" tiene sentido. Sin embargo, la vasta mayoría de los nodos (aquellos que almacenan los datos) en una arquitectura de big data pueden estar en hardware de "menor calidad".

8. Proporcione seguridad granular basada en papeles y controles de acceso

Cuando los datos no estructurados están en un mundo de datos relacionales, la complejidad de acceso a los datos puede impedir que todos obtengan los datos. Las herramientas de informes comunes no funcionarán. El traslado hacia big data representa un paso activo hacia hacer que lo complejo sea accedido más fácilmente. Desafortunadamente, las mismas configuraciones de seguridad usualmente no se traducen de los sistemas relacionales existentes hacia los de big data.

El tener buena seguridad se volverá más importante mientras más big data sean usados. Inicialmente, la seguridad puede estar muy abierta debido a que nadie sabrá qué hacer con big data (estoy siendo sarcástico aquí). Conforme la compañía desarrolle más análisis usando los datos de big data, a los resultados se les deberá dar seguridad, particularmente a los informes y paneles de instrumentos, de manera similar como se brinda seguridad a los informes de los sistemas relacionales actuales.

Al iniciar con big data basados en la nube, esté consciente de la necesidad de aplicar seguridad en algún punto, particularmente al entorno de informes y de paneles de instrumentos. Sin embargo para el inicio, yo digo: "dejen que los analistas hagan lo que quieran". Esa es la mejor manera para desarrollar nuevo conocimiento.

9. De soporte a la implementación flexible y de multi-inqulinos

El uso de la nube hace surgir el concepto de multi-inquilinos — obviamente no es una consideración para un entorno de big data dentro de las instalaciones.

Muchas personas tienen recelo para colocar los datos críticos en un entorno de nube. El punto es que la nube proporciona el bajo costo y la rápida implementación que se necesitan para iniciar proyectos de Big Data. Precisamente debido a que el proveedor de nube colocará los datos en una arquitectura donde los recursos de hardware son compartidos, el costo es dramáticamente menor.

Si las cosas fueran iguales, sería bueno tener sus datos solo en sus servidores y que alguien más gestionara la totalidad de la configuración. Sin embargo, eso simplemente no es un modelo de negocios rentable cuando las necesidades de big data son intermitentes. El resultado es más gasto debido a que las compañías pagarían por mucho tiempo inactivo, especialmente durante los primeros proyectos, cuando los analistas están explorando, probando y aprendiendo big data.

10. Integre y sea extensible vía APIs documentadas

Muchos de los que lean este artículo pueden estar a un par de proyectos de big data para poder escribir sus propias interfaces de software para big data. Aunque eso es posible y se realiza todos los día, tengan cuidado.

Los big data se diseñaron para ser accedidos por aplicaciones de producto. Los métodos comunes de acceso usan interfaces de programación de aplicación (APIs) RESTful (Transferencia de Estado Representacional). Estas están disponibles para cada aplicación en el entorno de big data — para control administrativo, almacenamiento de datos, e informes de datos. Debido a que todos estos contenidos fundacionales de big data son de código abierto, estas APIs están bien documentadas y están abiertamente disponibles para su uso. Con suerte, el proveedor de big data basados en la nube permitirá el acceso a todas las APIs actuales y futuras bajo la seguridad apropiada.


Iniciando en big data basados en la nube

Con las 10 consideraciones claves en mente, seleccione a su proveedor de datos de big data. ¿Qué? ¿Necesita más información?

De manera realista, un proyecto de big data se inicia al hacer casi todo lo que he descrito en modo de lote, dejando los aspectos de tiempo real para después. Por lote, me refiero a que conforme se aprenden las herramientas y procesos, el entorno de big data no necesita ser ejecutado constantemente. Sugiero buscar un proveedor que permita iniciar y parar las instancias de servidor conforme se necesite para minimizar los costos.

La instalación de su propio entorno de big data en sus instalaciones requiere de tecnología y habilidades en Java™ y usualmente también habilidades en Linux® o UNIX® . Con esto en mente, pregunte al proveedor potencial de nube qué tanto trabajo administrativo necesita realizarse o qué tan pre-configurado es este servicio.

Un sitio para visitar y aprender cómo instalar, probar, y dar mantenimiento a un entorno de big data es BigDataUniversity.com (Recursos). Regístrese gratuitamente. Muchas horas de videos están organizadas por pistas y el sito incluso ofrece certificados de cumplimiento para muchas de las pistas. En lo que respecta a este trabajo, existe una descarga gratuita del e-book Hadoop for Dummies .

En paralelo con el entrenamiento, obtenga una instancia de entorno de big data con alguno de los proveedores de nube. Varias de las pistas de entrenamiento de BigDataUniversity.com cubren la instalación y el uso de big data en IBM SmartCloud y en Amazon Web Services. Estos servicios de nube (y otros) retiran mucha de la complejidad de instalar y desplegar su entorno. Use los videos de entrenamiento en BigDataUniversity.com y supere obstáculos que impiden que otros instalen y prueben big data para su uso por primera vez.

Afortunadamente, los servicios de nube retiran muchos de los problemas de mantenimiento en un entorno de big data de la lista de tareas. Ellos, obviamente, cuidan de las necesidades de hardware y sala de servidor. Usted tendrá que dar mantenimiento a los datos, añadiendo servidores y almacenamientos de datos alternativos cuando se necesite con el crecimiento.

Big data es una experiencia de aprendizaje y crecimiento para todos. Constantemente están apareciendo en el mercado herramientas nuevas y diferentes. Los proveedores existentes en el espacio de inteligencia de negocios están proporcionando los anzuelos para usar sus herramientas con back ends de big data.

El uso de un entorno de big data basado en la nube hace que el inicio sea mucho más fácil. Tome ventaja de la facilidad de inicio con el uso de un servicio de nube para entrar primero a un proyecto pequeño con big data. Experimente y aprenda. Demuestre el valor y trasládese con confianza hacia proyectos mayores en un futuro cercano.

Recursos

Aprender

Obtener los productos y tecnologías

  • Evalúe los productos de IBM de la forma que mejor se ajuste a usted: Descargue una prueba de producto, ensaye un producto en línea, use un producto en un entorno en la nube, o pase algunas horas en el Recinto de Seguridad de la SOA aprendiendo cómo implementar eficientemente la arquitectura orientada al servicio.

Comentar

  • Participe en la comunidad de developerWorks. Conéctese con otros usuarios developerWorks mientras explora los blogs, foros, grupos y wikis dirigidos a desarrolladores.

Comentarios

developerWorks: Ingrese

Los campos obligatorios están marcados con un asterisco (*).


¿Necesita un IBM ID?
¿Olvidó su IBM ID?


¿Olvidó su Password?
Cambie su Password

Al hacer clic en Enviar, usted está de acuerdo con los términos y condiciones de developerWorks.

 


La primera vez que inicie sesión en developerWorks, se creará un perfil para usted. La información en su propio perfil (nombre, país/región y nombre de la empresa) se muestra al público y acompañará a cualquier contenido que publique, a menos que opte por la opción de ocultar el nombre de su empresa. Puede actualizar su cuenta de IBM en cualquier momento.

Toda la información enviada es segura.

Elija su nombre para mostrar



La primera vez que inicia sesión en developerWorks se crea un perfil para usted, teniendo que elegir un nombre para mostrar en el mismo. Este nombre acompañará el contenido que usted publique en developerWorks.

Por favor elija un nombre de 3 - 31 caracteres. Su nombre de usuario debe ser único en la comunidad developerWorks y debe ser distinto a su dirección de email por motivos de privacidad.

Los campos obligatorios están marcados con un asterisco (*).

(Por favor elija un nombre de 3 - 31 caracteres.)

Al hacer clic en Enviar, usted está de acuerdo con los términos y condiciones de developerWorks.

 


Toda la información enviada es segura.


static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=90
Zone=Cloud computing
ArticleID=963079
ArticleTitle=Diez consideraciones para una solución de big data basada en la nube
publish-date=05062013