El mundo de los clientes y de las empresas está cambiando. Ya no se trata sólo de datos de ventas del cliente. La meta de una plataforma integrada de inteligencia de negocios y analítica de big data es profundizar en el por qué, el dónde, el qué y el cómo de un cliente, un producto y una compañía. Este artículo aborda la integración de la inteligencia de negocios y la analítica de big data.

Peter J. Jamack, Big Data Analytics Consultant, Peter J Jamack

Peter J. JamackPeter J. Jamack es un consultor de analítica de big data que tiene más de 13 años de experiencia en inteligencia de negocios, depósito de datos, analítica, big data y gestión de información. Ha integrado datos estructurados y no estructurados en soluciones innovadoras de analítica integradas, mediante el trabajo con diversas plataformas de datos granes y MPP para entregar plataformas de analítica integradas y a gran escala para clientes en industrias tales como seguros, gobierno, medios, finanzas, comercio minorista, redes sociales, marketing y software. Es posible contactar a Peter escribiendo a info@peterjamack.com.



04-02-2013

El mundo empresarial está cambiando. La dinámica del cliente está cambiando. Los clientes están cambiando. Y todos se encuentran en una carrera para descubrir el por qué en lugar de sólo el quién o el cómo. Ya no está bien simplemente entender cómo una compañía llegó del punto A al punto B. Las empresas están en una lucha competitiva en tiempo real por saber cuándo compran algo los clientes, dónde lo compran y qué están pensando antes de siquiera entrar a la tienda o visitar un sitio web. El poder de los big data, la analítica de big data y una plataforma integrada de inteligencia de negocios (BI) y analítica de big data puede ayudar.

La analítica de big data es joven, y una BI ágil es un concepto nuevo. ¿Cómo integra estos conceptos similares pero distintos? No se trata solo de datos o tecnología, sino de todo—redes sociales, comportamientos del cliente y segmentación de clientes, por nombrar algunos. No es posible conectar una aplicación de big data y esperar ver el futuro. La BI, la gestión de datos maestros (MDM), big data y la analítica deben integrarse en una plataforma y agruparse en una solución visualmente innovadora.

Similitudes y diferencias de la BI y la analítica de big data

La BI no es un concepto nuevo. Los depósitos de datos, la minería de datos y las tecnologías de base de datos han existido en diversas formas durante años. "Big data" como término puede ser algo nuevo, pero muchos profesionales de TI han trabajado con grandes cantidades de datos en diversas industrias durante años.

Sin embargo, ahora big data no se tratan solo de grandes cantidades de datos. La exploración y el análisis de datos semiestructurados y sin estructura es algo nuevo. Hace quince años, no analizábamos los mensajes de email, los archivos PDF o los videos. Internet era solo una moda; la informática distribuida no se creó ayer, pero la posibilidad de distribuir y escalar un sistema en solo un momento—y con presupuestos más pequeños—es nuevo. En forma similar, querer predecir el futuro no es un concepto nuevo, pero poder acceder a todos los datos creados y almacenarlos sí es algo nuevo.

Diversas fuentes aseguran que el 90 por ciento de los datos que existen hoy tienen solo dos años de antigüedad. Y esos datos están creciendo rápidamente. Si el 90 por ciento de todos los datos en el mundo fueron creados en los últimos dos años, ¿qué dice eso sobre los datos?

Muchas empresas tienen múltiples bases de datos y múltiples proveedores de bases de datos, con terabytes o incluso petabytes de datos. Algunos de estos sistemas acumularon datos durante 30 o 40 años. Muchas empresas desarrollaron plataformas enteras de depósitos de datos y analítica a partir de estos datos antiguos. Grandes corporaciones de comercio minorista, como Wal-Mart, se convirtieron en compañías de billones de dólares mucho antes de que existieran big data. Por lo tanto, no fueron los datos los que impulsaron su empresa.

Sin embargo, los datos como un servicio pueden impulsar a una empresa. Piense en Amazon. Era una compañía de productos de e-commerce online. Ahora, las personas ven a Amazon como una plataforma de servicios, como software de servicios, como big data de servicios y como una compañía de centro de datos de la nube. Amazon desarrolló un motor de recomendación increíble con el paso de los años a partir de diversas tecnologías de código abierto. Zynga, la compañía de videojuegos de Facebook, conocida por éxitos como Farmville, utilizó los servicios de nube de Amazon para escalar sus propias bases de datos y su analítica.

Para que los datos sean útiles para los usuarios, deben integrar a clientes con datos financieros y de ventas, con datos de productos, con datos de marketing, con redes sociales, con datos demográficos, con datos de la competencia, y más.


Desafíos en el desarrollo de un sistema de BI y de analítica de big data

Diseñar una plataforma integrada nunca es fácil. La extracción, la transferencia y la carga (ETL) siempre son la fase más larga en proyectos de depósito de datos. Existen diversas buenas prácticas de ETL, que algunas veces funcionan y otras no. Si la ETL no se realiza correctamente, de repente recibirá datos incorrectos y poco confiables. Los datos poco confiables se convierten en un sistema poco confiable y no utilizado. Nadie quiere eso.

Usted podría pensar que algo como una base de datos de productos es algo sencillo. Pero se convierte en un juego de versiones, errores, actualizaciones, distintos releases, distintos ciclos de release, distintas licencias y distintas licencias basadas en la ubicación. Y eso es en una compañía con solo algunos productos. Se vuelve más complicado para las compañías de comercio minorista que tienen miles de productos distintos.

Las plataformas integradas de BI y big data pueden tener datos no estructurados de mensajes de email. Pueden incluir datos semi-estructurados de registros. Los sistemas de email pueden estar distribuidos entre diversas bases de datos en múltiples datacenters en todo el mundo. Añada algunos firewalls, y de repente el traslado de datos de un lugar a otro se convierte en una pesadilla de logística, un proyecto en sí mismo. Los registros de sistema pueden carecer de formato, tener semi-formato o ser un desastre—otro proyecto en sí mismo.

Existe una razón por la que las tecnologías de big data como Apache Hadoop fomentan el traslado del sistema hacia donde están los datos en lugar de llevar los datos hacia el sistema. Se requiere tiempo para mover los datos a través de líneas de red, entre firewalls. Se pierden datos, paquetes, archivos. La confianza se convierte en un gran problema.

Un concepto central de noSQL y Hadoop es el traslado de la aplicación hacia los datos, pero esto no es tan sencillo. Si tiene 100 sistemas distintos, ¿añade 100 instancias de la misma aplicación a cada sistema? Aunque muchas personas pueden asumir que han dominado la MDM, ninguna lo ha hecho realmente. Cuando cuenta con una MDM de productos, una MDM de ventas y una MDM de clientes que no se integran ni unen fácilmente, añadir una aplicación a cada sistema no hace que ninguno de ellos se integre o se una repentinamente. Sigue siendo un sistema con muchos silos que nadie puede conectar.

Aun si una empresa instaló una aplicación de big data en una plataforma perfecta que integró y conectó todas las formas de datos distintas, habría problemas importantes. La verdad es que no puede ejecutar repentinamente algoritmos complicados en un sistema en vivo que los usuarios están utilizando. Podría fallar. Podría disminuir el rendimiento. Podría dañar los datos. Podría haber problemas de seguridad. La instalación de una aplicación que requiere una gran cantidad de espacio, memoria y velocidad podría hacer que un sistema viejo falle. Podría incluso no funcionar apropiadamente en estos sistemas viejos. Si lo hiciera, ¿tiene alguna diferencia respecto a sistemas existentes y no conectados de MDM o BI?

Una plataforma de BI y analítica de big data debe ser innovadora. Debe ser de última generación. Debe utilizar tecnologías en memoria o configurar un sistema para utilizar herramientas como Hadoop y Apache Cassandra como área de transferencia, recinto de seguridad, sistema de almacenamiento y ser un sistema nuevo y mejorado de ETL. Debe integrar datos estructurados, sin estructura y semiestructurados. Hay muchas piezas en el rompecabezas.


Soluciones

Una plataforma integrada de BI y analítica de big data es un sistema distinto. Tiene opciones de desarrollo y de compra entre las cuales puede elegir. Debe considerar los sistemas existentes, los casos de uso y los niveles de experiencia y competencia de su personal. Algunas compañías tal vez quieran desarrollar un sistema completo de código abierto utilizando solo vanilla Hadoop (el Sistema de Archivos Distribuidos de Hadoop [HDFS] y MapReduce), Zookeeper, Solr, Sqoop, Hive, HBase, Nagios y Cacti, por cuanto que alguien más tal vez esté buscando más soporte e intente desarrollar un sistema utilizando IBM® InfoSphere® BigInsights™ e IBM Netezza. Otras compañías tal vez quieran separar datos estructurados y sin estructura, y desarrollar una capa de interfaz gráfica de usuario (GUI) para usuarios, usuarios avanzados y aplicaciones.

Realmente depende de la compañía. Y no es simplemente un sistema de enchufe y listo. Ya sea que decida desarrollar o comprar, existen múltiples piezas en todos los niveles.

ETL

ETL, la ingestión de datos y todos los procesos que están involucrados son siempre una significativa primera etapa, segunda etapa, tercera etapa y más. No puede volcar una aplicación de big data en un sistema de transacciones y esperar que las cosas funcionen sin degradar ese sistema original, o esperar que se integre bien con cualquier cosa que no sea el sistema en uso. Por lo tanto, es necesario contar con alguna ingestión de datos en Hadoop o cualquier otro sistema de noSQL o depósito de datos de procesamiento paralelo masivo (MPP). Existen diversas herramientas y metodologías para seguir, y mucho de esto depende de los sistemas, los orígenes, los datos, el tamaño y el personal.

Tal vez quiera comenzar con algo como Sqoop. Es una gran herramienta para ingerir datos de sistemas de gestión de base de datos relacionales. Añadir otras herramientas de código abierto como Flume o Scribe puede ayudar con los registros. También hay herramientas de ETL como Talend o IBM InfoSphere DataStage®, ambas tienen ahora integradores de big data. Estas herramientas son más visuales y no requieren un doctorado en ciencias de la computación para desarrollar la infraestructura. Ambas herramientas proporcionan documentación técnica, actualizaciones y herramientas visuales de GUI; siempre están siendo mejoradas y son utilizadas en muchas industrias y empresas.

Algunas compañías prefieren únicamente el código abierto. Otras compañías pueden tener muchos sistemas desarrollados en diversos productos de IBM. Obviamente, integrar lo que ya está en uso con nuevas tecnologías es una consideración significativa.

Desarrollar su propio sistema de ETL requiere de mucho tiempo, y hacerlo puede ser un desconsuelo si el resultado no hace lo que usted necesita que haga. Hadoop tiene muchas piezas, y tal vez necesite más que Sqoop. Integrar y añadir múltiples piezas puede ser doloroso, especialmente si carece de la experiencia y el conocimiento o si desea desarrollar su propia herramienta de ETL. El proceso requiere de tiempo y paciencia. También puede encontrarse con interrupciones. Es posible usar una herramienta de código abierto que después la comunidad deseche. También puede configurar y desarrollar su propia herramienta de ETL con diversas aplicaciones internas y herramientas de código abierto. Luego, la comunidad del código abierto cambia algunas cosas o algunos de sus desarrolladores se van y de repente tiene un sistema que nadie sabe cómo mantener o arreglar.

Las empresas inteligentes se enfocan en su propio personal, en sus experiencias, en los presupuestos y en el potencial, y son realistas. Por ejemplo, si una empresa tiene un personal de TI relativamente pequeño, observar la forma en que Google o Facebook desarrollan sus sistemas no es una buena idea. No compare su pequeño taller de TI con compañías que tienen varios servidores y graduados en ciencias computacionales trabajando en esas infraestructuras y sistemas particulares. Algunas veces, utilizar servicios de nube o personal externo puede ser la única opción. Otras, las aplicaciones de big data como Netezza son la mejor opción.

Almacenamiento

El almacenamiento de datos es un factor enorme y puede requerir que use diversas tecnologías. En el sistema de Hadoop, se encuentra HBase. Pero algunas compañías utilizan Cassandra, Neo4j, Netezza, HDFS y otras tecnologías, dependiendo de lo que se necesite. HDFS es un sistema de almacenamiento de archivos. HBase es un almacén por columnas similar a Cassandra. Muchas compañías utilizan Cassandra para analíticas más cercanas al tiempo real. Pero HBase está mejorando.

Podría considerar a HBase o Cassandra cuando desee utilizar un sistema de gestión de base de datos de código abierto para analítica de big data. En lo que se refiere a plataformas de depósitos de datos, Netezza es una de las principales tecnologías en la industria de la analítica y la BI. La mejor opción para la integración de big data es utilizar una plataforma integrada que consista en Hadoop y Cassandra para datos sin estructura o semiestructurados y Netezza para datos estructurados.

IBM Netezza Customer Intelligence Appliance combina unas cuantas tecnologías distintas en una plataforma. En la capa superior, que es la capa del usuario, se apoya en el software de BI IBM Cognos® , un producto de inteligencia de negocios y presentación de informes. Cognos BI es un producto impresionante que muchas empresas utilizan para diversas necesidades de BI y depósito de datos. En la capa de almacenamiento de depósito de datos, Netezza es una gran opción para su sistema de base de datos de MPP. Este sistema está equipado para los datos estructurados, pero cuando usa Hadoop o Cassandra para datos sin estructura o semiestructurados es posible crear una plataforma integrada de BI y analítica de big data.

La GUI

En la capa de la GUI y de front-end de usuario, existen muchas otras piezas para el sistema. Los usuarios avanzados pueden utilizar herramientas como IBM SPSS® Statistics, o R, para minería de datos, modelado predictivo, aprendizaje de máquina y desarrollo de algoritmos y modelos complejos. Su personal habitual de ventas puede utilizar algo como Cognos para la presentación de informes de BI, informes de big data, paneles de instrumentos y cuadros de mando. Una herramienta como Cognos es genial para proporcionar a diversos tipos de usuarios la oportunidad de explorar los datos o ver informes simples.

Existen otras piezas de la capa de la GUI y front-end, como herramientas de aprendizaje de máquina (por ejemplo, Apache Mahout) o Apache Hive (para Lenguaje de Consulta Estructurado), pero esas herramientas también pueden ser parte de la infraestructura. El factor más importante es la integración de datos estructurados y datos sin estructura como parte de la BI y la infraestructura del depósito de datos y la analítica de big data. ¿Es esto un servicio? ¿Quiénes son los usuarios?

A los usuarios no les importa la infraestructura. No les importa si está integrada. Solo les importa si pueden obtener los datos correctos en el momento correcto.


Conclusión

La integración de la BI y la analítica de big data no es una tarea fácil. La meta para cualquier sistema de datos o analítico es hacer que los datos sean útiles y que estén disponibles para tantos usuarios como sea posible. Las aplicaciones de big data son una forma de lograrlo. Un sistema de Hadoop de código abierto es otra. Ambas requieren tiempo, paciencia e innovación.

Un sistema de código abierto es mucho más rápido y menos costoso de implementar, pero necesita personal con experiencia para ello. Si no tiene experiencia en el trabajo con big data, una aplicación de proveedor de big data puede ser la mejor opción, aunque esto es más costoso. Recuerde que no todos desean ser una compañía de software o hardware. Algunas veces, desarrollar una plataforma integrada de BI y big data requiere de un poco de desarrollo y compras para poder alcanzar sus objetivos.

Recursos

Aprender

Obtener los productos y tecnologías

  • Visite Hadoop.org para obtener toda la información relacionada con Hadoop.
  • Visite HBase.org para obtener más información sobre Apache HBase.
  • La página del proyecto Hive proporciona la información que es necesaria para iniciarse con Apache Hive.
  • Sqoop es otro proyecto de Apache que querrá conocer.
  • Aprenda más sobre Mahout.
  • Visite la página del proyecto Cassandra para obtener toda la información relacionada con Cassandra.
  • Aprenda más sobre IBM Netezza.
  • TDWI Big Data Analytics es la aplicación de técnicas de analítica avanzada de conjuntos de big data y diversos que frecuentemente incluyen tipos de datos variados y datos de modalidad continua.
  • Aprenda más sobre SPSS Statistics.
  • Aprenda más sobre InfoSphere BigInsights.
  • Evalúe los productos de IBM de la forma que mejor se ajuste a usted: Descargue una prueba de producto, ensaye un producto en línea, use un producto en un entorno en nube, o pase algunas horas en el Recinto de seguridad SOA aprendiendo cómo implementar eficientemente la arquitectura orientada al servicio.

Comentar

  • Participe en la Comunidad developerWorks. Conéctese con otros usuarios de developerWorks mientras explora los blogs conducidos por desarrolladores, foros, grupos y wikis.

Comentarios

developerWorks: Ingrese

Los campos obligatorios están marcados con un asterisco (*).


¿Necesita un IBM ID?
¿Olvidó su IBM ID?


¿Olvidó su Password?
Cambie su Password

Al hacer clic en Enviar, usted está de acuerdo con los términos y condiciones de developerWorks.

 


La primera vez que inicie sesión en developerWorks, se creará un perfil para usted. La información en su propio perfil (nombre, país/región y nombre de la empresa) se muestra al público y acompañará a cualquier contenido que publique, a menos que opte por la opción de ocultar el nombre de su empresa. Puede actualizar su cuenta de IBM en cualquier momento.

Toda la información enviada es segura.

Elija su nombre para mostrar



La primera vez que inicia sesión en developerWorks se crea un perfil para usted, teniendo que elegir un nombre para mostrar en el mismo. Este nombre acompañará el contenido que usted publique en developerWorks.

Por favor elija un nombre de 3 - 31 caracteres. Su nombre de usuario debe ser único en la comunidad developerWorks y debe ser distinto a su dirección de email por motivos de privacidad.

Los campos obligatorios están marcados con un asterisco (*).

(Por favor elija un nombre de 3 - 31 caracteres.)

Al hacer clic en Enviar, usted está de acuerdo con los términos y condiciones de developerWorks.

 


Toda la información enviada es segura.


static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=90
Zone=Big data y analytics, Information mgmt, Industries
ArticleID=857284
ArticleTitle=Analítica de inteligencia de negocios de big data
publish-date=02042013