Contenido


Arquitectura y Patrones de Big Data, Parte 1

Introducción a la clasificación y la arquitectura de big data

Cómo clasificar big data en categorías

Comments

Contenido de la serie:

Este contenido es la parte # de # de la serie: Arquitectura y Patrones de Big Data, Parte 1

Manténgase en contacto por contenidos adicionales de esta serie.

Este contenido es parte de la serie:Arquitectura y Patrones de Big Data, Parte 1

Manténgase en contacto por contenidos adicionales de esta serie.

Visión general

Es posible almacenar, adquirir, procesar y analizar big data de muchas formas. Cada origen de big data tiene distintas características, que incluyen la frecuencia, el volumen, la velocidad, el tipo y la veracidad de los datos. Cuando se procesan y almacenan big data, entran en juego dimensiones adicionales, como el gobierno, la seguridad y las políticas. Elegir una arquitectura y desarrollar una solución apropiada de big data es un reto, ya que se deben considera muchos factores.

Esta serie de artículos sobre "Arquitectura y Patrones de Big Data" presenta un enfoque estructurado y basado en patrones para simplificar la tarea de definir una arquitectura general de big data. Dado que es importante evaluar si un escenario empresarial constituye un problema de big data, incluimos indicios para determinar qué problemas empresariales son buenos candidatos para aplicar soluciones de big data.

De la clasificación de big data a la elección de una solución de big data

Si ha invertido tiempo en investigar soluciones de big data, sabe que no es una tarea simple. Esta serie presenta los pasos principales para encontrar la solución de big data que satisfaga sus necesidades.

Comenzamos por observar los tipos de datos descritos por el término "big data". Para simplificar la complejidad de los tipos de big data, clasificamos los datos de acuerdo con diversos parámetros y brindamos una arquitectura lógica para las capas y los componentes de alto nivel involucrados en cualquier solución de big data. A continuación, proponemos una estructura para clasificar problemas empresariales de big data definiendo patrones de clasificación atómicos y compuestos. Estos patrones ayudan a determinar el patrón de solución apropiado para aplicar. Incluimos ejemplos de problemas empresariales de diversas industrias. Por último, para cada componente y patrón, presentamos los productos que ofrecen la función relevante.

La Parte 1 explica la clasificación de big data. Los artículos adicionales de esta serie cubren los siguientes temas:

  • Definición de una arquitectura lógica de capas y componentes de una solución de big data
  • Comprensión de los patrones atómicos para soluciones de big data
  • Comprensión de los patrones compuestos (o mixtos) para utilizar en soluciones de big data
  • Elección de un patrón de solución para una solución de big data
  • Determinación de la viabilidad de un problema empresarial para aplicar una solución de big data
  • Selección de los productos correctos para implementar una solución de big data

Clasificación de los problemas empresariales según el tipo de big data

Los problemas empresariales se pueden clasificar en tipos de problemas de big data. De aquí en adelante, utilizaremos el tipo para determinar el patrón de clasificación apropiado (atómico o compuesto) y la solución de big data apropiada. Pero el primer paso es correlacionar el problema empresarial con el tipo de big data. La siguiente tabla enumera los problemas empresariales comunes y asigna un tipo de big data a cada uno.

Tabla 1. Problemas empresariales de big data por tipo
Problema empresarialTipo de big dataDescripción
Servicios públicos: predecir el consumo de energíaDatos generados por máquina

Las compañías de servicios públicos han desplegado medidores inteligentes para medir el consumo de agua, gas y electricidad en intervalos regulares de una hora o menos. Estos medidores inteligentes generan enormes volúmenes de datos de intervalos que necesitan ser analizados.

Los servicios públicos también ejecutan sistemas grandes, costosos y complejos para generar energía. Cada red incluye sensores sofisticados que monitorean el voltaje, la corriente, la frecuencia y otras características operativas importantes.

Para ganar eficiencia operativa, la compañía debe monitorear los datos entregados por el sensor. Una solución de big data puede analizar los datos de generación de energía (suministro) y de consumo de energía (demanda) utilizando medidores inteligentes.

Telecomunicaciones: analítica de deserción de clientesDatos web y sociales

Datos de transacciones

Los operadores de telecomunicaciones necesitan desarrollar modelos de evaluación de deserción de clientes detallados que incluyan datos de redes sociales y transacciones, tales como CDRs, para seguir el ritmo de la competencia.

El valor de los modelos de evaluación de deserción depende de la calidad de los atributos de los clientes (datos maestros del cliente tales como fecha de nacimiento, género, ubicación e ingresos) y el comportamiento social de los clientes.

Los proveedores de telecomunicaciones que implementan una estrategia de analítica predictiva pueden gestionar y predecir la deserción analizando los patrones de llamadas de los suscriptores.

Marketing: análisis de sentimientosDatos web y sociales

Los departamentos de marketing utilizan feeds de Twitter para analizar los sentimientos a fin de determinar lo que los usuarios están diciendo sobre la compañía y sus productos o servicios, especialmente después de que se lanza un nuevo producto o release.

Los sentimientos del cliente deben estar integrados con los datos de perfil del cliente para generar resultados significativos. La retroalimentación del cliente puede variar según los datos demográficos del cliente.

Servicio al cliente: supervisión de llamadasLos departamentos de TI generados por humanos

se están volcando hacia las soluciones de big data para analizar los registros de aplicación a fin de obtener conocimiento que pueda mejorar el rendimiento del sistema. Los archivos de registro de diversos proveedores de aplicaciones están en distintos formatos; deben ser estandarizados antes de que los departamentos de TI puedan utilizarlos.

Comercio: mensajería personalizada basada en el reconocimiento facial y las redes sociales Datos web y sociales

Biometría

Los comerciantes pueden utilizar tecnología de reconocimiento facial en combinación con una foto de las redes sociales para hacer ofertas personalizadas a clientes según su comportamiento de compra y su ubicación.

Esta capacidad puede tener un gran impacto en los programas de lealtad de los comercios, pero tiene graves implicancias de privacidad. Los comercios deberían realizar acuerdos de no divulgación de privacidad apropiados antes de implementar estas aplicaciones.

Comercio y marketing: datos móviles y focalización basada en la ubicaciónDatos generados por máquina

Datos de transacciones

Los comercios pueden dirigir promociones específicas y cupones a clientes según los datos de ubicación. Las soluciones son normalmente diseñadas para detectar la ubicación de un usuario después de que entra a una tienda o a través del GPS.

Los datos de ubicación combinados con los datos de preferencias del cliente de las redes sociales permiten que los comercios dirijan campañas online y dentro de la tienda según el historial de compra. Las notificaciones se envían a través de aplicaciones móviles, SMS y correo electrónico.

FSS, cuidado de la salud: detección de fraudesDatos generados por máquina

Datos de transacciones

La gestión de fraudes generada por humanos

predice la probabilidad de que una transacción determinada o una cuenta de cliente esté experimentando un fraude. Las soluciones analizan las transacciones en tiempo real y generan recomendaciones para acción inmediata, lo cual es crítico para detener el fraude de terceros, el fraude de interno y el uso indebido deliberado de privilegios de cuenta.

Las soluciones son normalmente diseñadas para detectar y prevenir la gran cantidad de tipos de fraudes y riesgos en múltiples industrias, que incluyen:

  • Fraude de pago con tarjeta de crédito y débito
  • Fraude de depósito de cuenta
  • Fraude técnico
  • Deuda
  • Fraude de cuidado de la salud
  • Fraude de asistencia médica y de cuidado médico
  • Fraude de seguros de propiedad y accidentes
  • Fraude de compensación al trabajador
  • Fraude de seguros
  • Fraude de telecomunicaciones

Clasificar problemas de big data por tipo facilita ver las características de cada tipo de datos. Estas características pueden ayudarnos a entender cómo se adquieren los datos, cómo se procesan en el formato apropiado y con qué frecuencia están a disposición los datos nuevos. Los datos de distintos orígenes tienen diferentes características; por ejemplo, los datos de redes sociales pueden tener video, imágenes y texto sin estructura, como publicaciones de blogs, y llegan continuamente.

Nosotros evaluamos los datos de acuerdo con estas características comunes, que se abordan con detalle en la siguiente sección:

  • El formato del contenido
  • El tipo de datos (datos de transacción, datos históricos o datos maestros, por ejemplo)
  • La frecuencia con la cual los datos se ponen a disposición
  • La intención: cómo se deben procesar los datos (consulta ad hoc en los datos, por ejemplo)
  • Si el procesamiento debe ser realizado en tiempo real, casi en tiempo real o en modalidad de procesamiento por lotes.

Uso del tipo de big data para clasificar las características de big data

Es útil observar las características de big data junto con ciertas líneas — por ejemplo, cómo se recopilan, analizan y procesan los datos. Una vez que los datos están clasificados, pueden correlacionarse con el patrón de big data apropiado:

  • Tipo de análisis — si los datos se analizan en tiempo real o se organizan por lotes para su análisis posterior. Considere especialmente la elección del tipo de análisis, ya que afecta muchas otras decisiones sobre productos, herramientas, hardware, orígenes de datos y frecuencia de datos esperada. El caso de uso puede requerir una combinación de ambos tipos:
    • Detección de fraude; el análisis debe realizarse en tiempo real o casi en tiempo real.
    • Análisis de tendencias para decisiones empresariales estratégicas; el análisis puede hacerse en modalidad de procesamiento por lotes.
  • Metodología de procesamiento — El tipo de técnica que se aplicará para procesar los datos (por ejemplo, predictiva, analítica, consulta ad hoc e informes). Los requisitos empresariales determinan la metodología de procesamiento apropiada. Se puede utilizar una combinación de técnicas. La elección de la metodología de procesamiento ayuda a identificar las herramientas y técnicas apropiadas para utilizar en la solución de big data.
  • Frecuencia y tamaño de los datos — Cuántos datos se esperan y con qué frecuencia llegan. Conocer la frecuencia y el tamaño ayuda a determinar el mecanismo y el formato de almacenamiento, y las herramientas de procesamiento necesarias. La frecuencia y el tamaño de los datos dependen de los orígenes de datos:
    • Según la demanda, igual que con los datos de redes sociales
    • Alimentación continua y en tiempo real (datos del clima, datos transaccionales)
    • Serie de tiempo (datos basados en el tiempo)
  • Tipos de datos— Tipos de datos a ser procesados — transaccionales, históricos, datos maestros y otros. Conocer el tipo de datos ayuda a aislar los datos en el almacenamiento.
  • Formato del contenido — Formato de los datos entrantes — estructurados (RDMBS, por ejemplo), no estructurados (audio, video e imágenes, por ejemplo) o semiestructurados. El formato determina la forma en que los datos entrantes deben ser procesados y es clave para elegir las herramientas y técnicas, así como también para definir una solución desde una perspectiva empresarial.
  • Origen de datos — Orígenes de datos (donde se generan los datos) — web y redes sociales, generados por máquina, generados por humanos, etc. Identificar todos los orígenes de datos ayuda a determinar el ámbito desde una perspectiva empresarial. La figura muestra los orígenes de datos más ampliamente utilizados.
  • Consumidores de datos — Una lista de todos los posibles consumidores de los datos procesados:
    • Procesos empresariales
    • Usuarios empresariales
    • Aplicaciones empresariales
    • Personas individuales en diversos roles empresariales
    • Parte de los flujos de proceso
    • Otros repositorios de datos o aplicaciones empresariales
  • Hardware — El tipo de hardware en el que se implementará la solución de big data — hardware comercial o de última generación. Entender las limitaciones del hardware ayuda a informar la elección de la solución de big data.

Figura 1 muestra las diversas categorías de clasificación de big data. Las categorías para definir los patrones de big data han sido identificadas y resaltadas con una línea azul. Los patrones de big data, definidos en el siguiente artículo, derivan de una combinación de estas categorías.

Figura 1. Clasificación de big data
Big data classification
Big data classification

En el resto de esta serie, describiremos la arquitectura lógica y las capas de una solución de big data, desde el acceso hasta el consumo de big data. Incluiremos una lista exhaustiva de orígenes de datos y presentaremos los patrones atómicos que se enfocan en cada uno de los aspectos importantes de una solución de big data. Repasaremos los patrones compuestos y explicaremos cómo se pueden combinar los patrones atómicos para solucionar un caso de uso de big data particular. Concluiremos la serie con algunos patrones de solución que correlacionan ampliamente los casos de uso utilizados con productos.


Recursos para Descargar


Temas relacionados

  • Explore los cursos gratuitos de Big Data University sobre temas que van desde las Bases de Hadoop y las Bases de la Analítica de Texto hasta el Acceso SQL para Hadoop y la Informática de Secuencia en tiempo real.
  • Consulte Big Data Hub para encontrar enlaces populares tales como "The four V's of big data" y "Top 5 big data use cases".
  • Lea el blog de James Kobelius para escuchar lo que el Promotor de big data tiene para decir sobre temas tales como dar al profesional de big data de última generación las habilidades correctas, en el lugar correcto y en el momento correcto.
  • Visite el blog de Swanie Tolentino para conocer la perspectiva de un gestor de marketing de la industria y de soluciones sobre programas de lealtad y la delgada línea entre entrometerse y facilitar la experiencia de compra.
  • Conozca la visión de Michael Brulé leyendo sus pensamientos sobre la optimización de las operaciones aceiteras y gasolineras para metas empresariales específicas y tomar decisiones empresariales competitivas en la industria aceitera y gasolinera.
  • En el blog de Graeme Noseworthy, sea testigo de la misión de un distribuidor para demostrar la habilidad de las soluciones de big data tales como IBM PureData y la plataforma de big data de IBM para crear nuevas oportunidades de colaboración y ofrecer experiencias de cliente más inteligentes.
  • En el blog de Bob Palmer, aprenda cómo big data ofrece la promesa de conseguir un valor empresarial significativo y medible para los sectores bancarios y financieros.
  • Vea el blog Business Analytics 3.0: Analytics as a service para encontrar artículos como "Predictive analytics and wearable computing = personalized big data" y "Goldman Sachs: Big data is a disruptive theme".
  • Lea el documento informativo de McKinsey & Company Big data: The next frontier for innovation, competition, and productivity para aprender cómo big data afecta a los líderes de todos los sectores.
  • Pruebe InfoSphere Streams Quick Start Edition, una versión que no es de producción de InfoSphere Streams, una plataforma informática de alto rendimiento que rápidamente procesa, analiza y correlaciona información a medida que va llegando desde miles de orígenes en tiempo real.
  • Muchos productos adicionales de big data están disponibles para descarga de prueba.
  • Encuentre recursos para iniciarse en InfoSphere BigInsights, la oferta de IBM basada en Hadoop que extiende el valor de Hadoop de código abierto con funciones como Big SQL, analítica de texto y BigSheets.
  • Descargue InfoSphere BigInsights Quick Start Edition, disponible como una instalación nativa de software o como una imagen de VMware.
  • Encuentre recursos para iniciarse en InfoSphere Streams, la plataforma informática de alto rendimiento de IBM que permite a las aplicaciones desarrolladas por usuarios procesar, analizar y correlacionar rápidamente información a medida que va llegando desde miles de orígenes en tiempo real.
  • Descargue InfoSphere Streams, disponible como una instalación nativa de software o como una imagen de VMware.
  • UtiliceInfoSphere Streams en IBM SmartCloud Enterprise.

Comentarios

Inicie Sesión o Regístrese para agregar comentarios.

static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=90
Zone=Big data y analytics
ArticleID=956931
ArticleTitle=Arquitectura y Patrones de Big Data, Parte 1: Introducción a la clasificación y la arquitectura de big data
publish-date=09172013