Crecimiento de datos y estándares

Una exploración de estándares abiertos relevantes

Examine los retos presentados en la explosión de datos, la analítica de los mismos y una introducción a algunos estándares relevantes para estos retos. Un escenario de muestra ilustra un sistema donde grandes cantidades de datos son ingeridas, entendidas y manipuladas, y donde algunos estándares específicos promueven la integración y la interoperabilidad.

Peter Haggar, Senior Software Engineer, IBM

Photo of Peter HaggarPeter Haggar es Miembro Sénior del Personal Técnico con IBM en Research Triangle Park, Carolina del Norte. Recientemente ha trabajado en analítica empresarial, estándares de software emergentes, XML, XML binario y servicios web. Ahora trabaja en tecnología de Internet emergente enfocada en Watson y DeepQA. Ha trabajado para IBM durante más de 20 años. Contacte a Peter escribiendo a haggar@us.ibm.com.



08-08-2011

Visión General

Acrónimos de uso frecuente

  • GPS: Global Positioning System
  • HTML: HyperText Markup Language
  • IT: Information technology
  • OASIS: Organization for the Advancement of Structured Information Standards
  • OLAP: Online Analytical Processing
  • SEC: Securities and Exchange Commission
  • W3C: World Wide Web Consortium
  • XML: Extensible Markup Language

Después de años y mucho dinero invertido en tecnología para registrar y almacenar datos en virtualmente todas las transacciones y de la enorme matriz de objetos instrumentados, los clientes quieren obtener más de esa información. Las empresas quieren información que sea más oportuna y útil, particularmente si puede afectar directa y positivamente al crecimiento y la rentabilidad.

El análisis de datos abarca diversos dominios de problemas incluyendo las ventas minoristas, el fraude, la adquisición y retención de clientes, la seguridad y los servicios financieros, y por lo tanto muchas tecnologías. Los estándares clave y tecnologías utilizadas para soportar la creación de soluciones a los diversos dominios de problemas son dados junto con el valor que entregan.

Durante años, la industria de la IT ha gastado una cantidad incalculable de tiempo y dinero en la creación de sistemas para registrar datos y transacciones. Además, el número de dispositivos que producen datos que son recolectados está creciendo exponencialmente. Más aún, gran cantidad de sistemas de almacenamiento de datos está disponible para almacenar estos datos, y existen redes rápidas para transmitirlos entre centros de datos y máquinas que los procesen. Las empresas quieren aprovechar la inversión en los datos disponibles para obtener conocimientos oportunos y útiles para alimentar el crecimiento y la rentabilidad.


¿Qué es la analítica empresarial?

La analítica empresarial es tecnología que entrega conocimientos inmediatos y accionables en la forma en que una empresa se está desempeñando. Le habilita para encontrar y analizar tendencias, patrones y anomalías, de forma que pueda planificar, presupuestar y pronosticar los recursos. La meta es tomar decisiones más inteligentes que lleven a mejores y más rentables resultados. La oportunidad de crear valor empresarial mediante los datos es aprovechada por el volumen total de datos disponibles. El reto está en producir salidas de analítica que creen este valor de forma costeable. La analítica empresarial se refiere al análisis y organización de datos y a la entrega de información empresarial importante oportuna y de forma conveniente. Por ejemplo, las alertas en tiempo real o los paneles de instrumentos ejecutivos son formas de presentación que muestran medidas de alto nivel del rendimiento corporativo. Al entregar información online, más que en informes estáticos, las herramientas de analítica empresarial le permiten conocer importantes hechos empresariales más pronto, mientras le permiten profundizar para examinar los detalles al hacer clic en una gráfica para ver los números detrás de ella.

La analítica empresarial no es un producto único o tecnología, sino un dominio de tecnología que requiere muchos productos para interoperar. Un sistema de analítica analiza los datos que seguramente fueron almacenados en bases de datos y almacenes dispares en diversos formatos de datos. Además, el sistema también podría incorporar feeds de datos en tiempo real para analizarlos en conjunto con los datos históricos. Mientras que los datos son analizados, se pueden aplicar normas, incorporar modelos predictivos o de optimización y producir distintas formas de salidas dependiendo del escenario o del problema que se está resolviendo.

Considere una tienda minorista que intenta retener a clientes existentes. el historial de compras del cliente podría estar almacenado en una base de datos, mientras que el historial de transacciones del cliente está en otra. La tienda minorista puede recoger qué tipos de productos son comprados, cuánto dinero ha gastado un cliente particular en estos productos durante distintos periodos del año y cómo influyen en las decisiones las ofertas de compra, etc. La tienda minorista también tiene datos en tiempo real que no son almacenados en las bases de datos antes mencionadas, como lo que se está poniendo y quitando de sus aparadores con base en los datos de ventas en vivo. Usando todos estos datos, se puede construir un modelo predictivo para determinar con cierto grado de confianza qué tan probable es que un cliente particular compre los productos que están por venir o los existentes en la tienda. Con base en estos factores diversos, este modelo puede combinarse con normas empresariales, datos demográficos de los clientes y elecciones y patrones de compras históricas para tomar decisiones inteligentes. Por ejemplo, una tienda puede reaccionar en tiempo real mediante una oferta especial en el punto de venta, o puede determinar el mejor momento para ofrecer y publicitar incentivos y ofertas y a quién dirigir estas ofertas. La analítica puede producir conocimientos interesantes y útiles sobre el cliente para entender sus tendencias y comportamiento y para asegurarse de que los clientes saben sobre ofertas específicas y dirigidas.

Los escenarios están formados de distintas bases de datos con información histórica, feeds de datos en tiempo real, modelos predictivos o de optimización, normas empresariales y un panel de instrumentos de interfaz de usuario, todo trabajando junto, pero no diseñado o desarrollado necesariamente para resolver el problema particular. Los estándares atienden mejor estas interacciones complejas entre los diversos productos y sistemas debido a la estrecha comunicación requerida. Los estándares proporcionan beneficios de cliente, ya que saben que sus datos, normas, modelos predictivos, etc., son almacenados en un formato o accesibles en una forma abierta y no controlados por un solo proveedor. Los estándares permiten la libertad de acción que desean los clientes para no ser encerrados en un conjunto de herramientas particular, en un formato de datos o en un protocolo. Además, los estándares permiten que sistemas dispares trabajen juntos sin que estos sistemas sean construidos con otros en mente.

El enfoque de la analítica empresarial es desarrollar nuevos conocimientos como un entendimiento de la empresa con base en métodos estadísticos y análisis aplicados a estos datos, lo que lleva a mejores y más informadas decisiones. El software de analítica empresarial puede proporcionar estos y otros tipos de conocimientos accionables para estos y otros tipos de problemas al analizar enormes cantidades de datos en cortos periodos de tiempo.


Análisis de los datos

El análisis de datos no es nuevo; sin embargo, algunos de los retos actuales pueden incluir los siguientes:

  • La gran cantidad de datos que debe procesar, o que puede procesar, para producir resultados precisos y accionables
  • La velocidad a la que necesita analizar los datos para producir resultados
  • El tipo de datos que analiza — estructurados contra estructurados

Cantidad de datos

Los sistemas de analítica actuales deben poder manejar volúmenes de datos a escala de Internet . Los datos online están creciendo rápidamente, y términos como terabyte, petabyte y exabyte son comúnmente utilizados. (Vea la Tabla 1.)

Tabla 1. Definiciones y estimaciones de volúmenes de datos
DefinicionesEstimaciones
Gigabyte: 1024 megabytes4.7 Gigabytes: Un DVD
Terabyte: 1024 gigabytes

1 Terabyte: El valor de unos dos años de MP3s continuos. (Asumiendo un megabyte por minuto de música)

10 Terabytes: La colección impresa de la Biblioteca del Congreso de EE.UU.

Petabyte: 1024 terabytes

1 Petabyte: La cantidad de datos almacenados en una pila de CDs de unas 2 millas de alto o 13 años de video HD-TV

20 Petabytes: La capacidad de almacenamiento de todas las unidades de disco duro creadas en 1995

Exabyte: 1024 petabytes

1 Exabyte: Mil millones de gigabytes

5 Exabytes: Todas las palabras que ha hablado la humanidad

En 2002, hubieron unos cinco exabytes de datos online. En 2009, ese total se incrementó a 281 exabytes, una taza de crecimiento de 56 veces en siete años. De acuerdo con Forrester Research Inc., la cantidad total de datos almacenados por empresas se está duplicando cada tres años.

A escala de Internet se refiere a la era de tamaños de datos de terabytes y petabytes y la capacidad de escalar para cumplir con los requisitos de procesamiento para manejar esta cantidad de datos en forma oportuna. La cantidad de datos a ser procesados incluye datos almacenados, así como secuencias de datos en tiempo real. Virtualmente todo es grabado electrónicamente en la actualidad: vigilancia de video y audio, transacciones bancarias, transacciones de compra, tráfico de e-mails, tráfico de mensajería instantánea, búsquedas en Internet, imágenes y registros médicos y más.

Por ejemplo, considere el simple escenario de conducir del trabajo a casa y hacer una parada para cargar combustible. Cuando deja su lugar de trabajo y camina hacia su vehículo, probablemente está siendo grabado en cámaras de videovigilancia. Mientras maneja, su teléfono celular podría estar enviando información de ubicación GPS que es grabada. Después recibe un mensaje de texto mientras maneja a casa. La hora y contenido de estos mensajes son almacenados por su portadora. Espera para contestar el mensaje hasta que llega a la gasolinera, donde otro conjunto de cámaras de videovigilancia graba la actividad. Su transacción de compra de combustible es entonces grabada, junto con la tarjeta de cliente frecuente que usted usó en la bomba. Resulta que la gasolinera se encuentra en un área de alta criminalidad que la ciudad está supervisando con tecnología como ShotSpotter (vea Recursos para obtener un enlace). ShotSpotter usa micrófonos posicionados en diversas ubicaciones para registrar y escuchar disparos de armas. Si un disparo es escuchado, las autoridades son notificadas inmediatamente y se realiza una videovigilancia del área. Por lo tanto, mientras usted está en la gasolinera, el audio está siendo analizado y grabado.

Una parte considerable del aumento de datos almacenados puede ser atribuida a los Registros Médicos Electrónicos (EMRs). Los EMRs y los avances en las imágenes médicas, junto con el periodo de tiempo que requieren ser almacenadas (siete años, de acuerdo con la ley federal de EE.UU.), continuarán contribuyendo con el crecimiento masivo de datos almacenados. Estos datos almacenados crean volúmenes de datos a una escala antes impensable. Además, los alimentadores de video y audio son extremadamente costosos debido a los grandes volúmenes recolectados de este tipo de datos, aunados a sus pobres características de compresión. Estos altos volúmenes hacen que el análisis en tiempo real de este tipo de datos sea importante, lo que habilita una forma selectiva de almacenar sólo las partes pertinentes.

Los datos están siendo grabados en todas partes desde virtualmente todo aquello que se mueve, y muchas cosas que no se mueven. Además de una transacción típica grabada, muchos objetos inofensivos, como estacionamientos, edificios y esquinas en las calles, están instrumentados y graban grandes volúmenes de datos durante todo el día.

Velocidad

Con la cantidad de datos almacenados creciendo constante y exponencialmente, también está creciendo la cantidad de datos que un sistema de analítica empresarial debe procesar para producir resultados relevantes. Considere que Twitter procesa siete terabytes de datos todos los días, mientras Facebook procesa 10 terabytes de datos cada día. CERN Hadron Collider genera 40 terabytes cada segundo. Sin sistemas de analítica que escalen a estos volúmenes, los datos recolectados pierden valor.

Para poner este volumen en perspectiva, Yahoo! informó utilizando Hadoop para ordenar un petabyte de datos en unas 16 horas (vea Recursos para aprender más sobre estas referencias). Este ordenamiento requirió unos 3.800 nodos con dos procesadores quad core de 2.5 Ghz por nodo. Con todas las demás cosas siendo iguales, organizar un exabyte en el mismo clúster tomaría unas 1.000 veces más de tiempo, o casi dos años.

Los sistemas de analítica empresarial también procesan las secuencias de datos en tiempo real que no han sido aún almacenadas. La velocidad a la que estas grandes cantidades de datos y los datos en tiempo real son procesados es crítica para producir conocimientos clave de forma oportuna. El algunos casos de uso de analítica empresarial, el conocimiento correcto o la respuesta correcta, pero proporcionados de una forma no oportuna, frecuentemente pueden ser considerados como una respuesta incorrecta. El sistema de analítica empresarial debe poder manejar grandes volúmenes de datos, procesarlos eficientemente y llegar a su resultado en un lapso que sea relevante para el usuario. Por ejemplo, un sistema de reconocimiento facial funcionando en un alimentador de video en tiempo real es de mucho mayor valor si el sistema indica que un sujeto buscado está en una ubicación específica un minuto, y no un día, después del hecho.

Datos estructurados contra no estructurados

La mayoría de los datos producidos actualmente no están estructurados. No estructurado significa que no hay un significado latente adjunto a los datos para que un programa de computadora pueda entender lo que representan. Los datos estructurados son datos que tienen un significado semántico adjunto, haciéndolos más fáciles de entender. Por ejemplo, el siguiente mensaje de texto o e-mail contiene datos no estructurados:

Hola Joe, llámame...mis números son casa – 919-555-1212, oficina – 919-555-1213,
celular – 919-555-1213.

Al leer este mensaje, un humano sabe el significado latente de esos datos y puede decirle cuáles son los números de casa, oficina y celular. Para representar los mismos datos en HTML, los datos ahora se ven estructurados mediante su diseño y cómo está organizado el HTML de forma anidada. Los datos, sin embargo, no están estructurados para un sistema analítico porque no tienen un significado asociado. HTML, e-mails, mensajes de texto, blogs, video y audio, todo esto representa información no estructurada. Si la información relevante de números telefónicos es puesta en HTML, podría tener esto:

<h1>List of Numbers</h1>
<b>HNumber: 919-555-1212</b>
<b>ONumber: 919-555-1213</b>
<b>CNumber: 919-555-1214</b>

El HTML se ve estructurado como se describe aquí, pero no el tipo de estructura que aplica al significado latente de los datos. Estos datos siguen sin tener estructura en lo que se refiere a un sistema de procesamiento de analítica. Más aún, si usted usó XML sin un esquema, también carecería de estructura en la misma forma que el HTML:

<List of Numbers>
<HNumber>919-555-1212</HNumber>
<ONumber>919-555-1213</ONumber>
<CNumber>919-555-1214</CNumber>
</List of Numbers>

XML frecuentemente es referido como semi-estructurado. Existe una estructura en las relaciones de los datos, pero los datos no están estructurados en relación al significado de esos datos. Con un esquema, usted puede decir que el XML anterior está estructurado porque ahora tiene una forma de adjuntar un significado a los datos. Con un esquema, puede saber que los elementos HNumber, ONumber y CNumber representan distintos números telefónicos para Casa, Oficina y Celular, respectivamente. Las bases de datos también contienen datos estructurados. Los datos almacenados en filas y columnas con un esquema permiten que el significado de los datos sea entendido por un programa de computación.

Una parte del valor de distintos productos de analítica es su capacidad de procesar grandes cantidades de datos no estructurados para descubrir el significado latente. Considere los ejemplos de mensaje de texto, HTML y XML sin esquema anteriores. Un programa de computación puede entender que esos son probablemente números telefónicos porque coinciden con un patrón de tres dígitos, seguido de un separador [en la forma de un guión (-), un punto (.) o un espacio ( )], seguido de tres dígitos más, un separador, y después cuatro dígitos. Se puede realizar más procesamiento para inferir que los tres números son de Carolina del Norte, debido al código de área 919. Usted puede imaginar un algoritmo similar para un número internacional con un código de país.

Los datos estructurados son más fáciles de procesar, ya que hay más información disponible para el programa de antemano para que este determine el significado de los datos. Este enfoque es más eficiente en comparación a gastar ciclos de cómputo para averiguarlo. Mucho del crecimiento de los datos de la era actual, sin embargo, pertenece a los datos sin estructura, haciendo crítico para los sistemas que puedan procesarlos eficientemente y determinar correctamente el significado contenido en ellos. Por ejemplo, los e-mails y mensajes de texto así como las secuencias de audio y video son algunas de las categorías más grandes de datos no estructurados actualmente. Este tipo de datos no estructurados continua creciendo sin cesar, haciendo que su procesamiento eficiente sea crítico para el éxito continuado de los sistemas de procesamiento de analítica empresarial.

Mientras la cantidad, velocidad y tipo de datos son retos que enfrentan los sistemas de analítica de datos, grandes avances se están consiguiendo para atender estos retos. El procesamiento de enormes conjuntos de datos que solía tomar semanas ahora toma minutos. Feeds en tiempo real pueden ser procesados eficientemente mientras los datos siguen en movimiento, ejecutándose en clústeres de escalado horizontal con posibilidad de migración tras error, y todo realizado en máquinas básicas. Este tipo de procesamiento permite la creación de aplicaciones que hace sólo algunos años eran inconcebibles. Para que esta área de la computación tenga un beneficio máximo, los estándares de software juegan un rol importante.


Definiciones

Analítica predictiva

La analítica predictiva es donde el software usa diversos orígenes de datos históricos para hacer predicciones sobre eventos o comportamientos futuros. Las predicciones son proporcionadas con un nivel de confianza para la predicción.

Analítica de datos en movimiento

A analítica de datos "en movimiento" es el análisis de datos antes de que estos descansen en una unidad de disco duro u otro medio de almacenamiento. Debido a la gran cantidad de datos siendo recolectados actualmente, frecuentemente no es factible almacenar los datos antes de analizarlos. Además, incluso si tiene el espacio para almacenar los datos antes, se requiere tiempo adicional para almacenar y después analizar. Este retraso de tiempo frecuentemente no es aceptable en algunos casos de uso.

Analítica de datos en reposo

Debido a las grandes cantidades de datos almacenados, se necesita la tecnología para analizarlos, entenderlos y sacar conclusiones de ellos. Muchos datos son almacenados en almacenes de relación u OLAP. Pero actualmente hay más datos que no se están almacenando de forma estructurada. Con el crecimiento explosivo de datos sin estructura, la tecnología es necesaria para proporcionar analítica en orígenes de datos relacionales, no relacionales, estructurados y sin estructura.

Normas empresariales

Las normas son utilizadas para definir o restringir algún aspecto de la empresa para tomar decisiones más inteligentes. Las normas son almacenadas fuera de la lógica de aplicación, haciendo fácil para una persona de la empresa añadir o modificar las normas mientras no está tomando el sistema offline.

Informes

Los informes toman la forma de paneles de instrumentos de interfaz de usuario de diversos grados de complejidad.


Estándares clave

Esta sección describe algunos de los estándares clave y su relevancia y valor para soportar el análisis de datos.

UIMA

UIMA (Arquitectura de Gestión de Información Sin Estructura) es un estándar de OASIS en el cual IBM fue el presidente del comité técnico (vea Recursos). UIMA es una infraestructura para procesar información sin estructura, descubrir el significado latente, las relaciones y los hechos relevantes contenidos en esos datos, y representar esos hallazgos en forma abierta y estándar. Por ejemplo, UIMA puede usarse para ingerir texto plano y determinar las personas, lugares, organizaciones y relaciones, tales como "es amigo de" o "está casado con" contenidos en los datos. Estos hallazgos son representados en una estructura de datos definida por el estándar UIMA.

UIMA define cuatro términos para ayudar a entender su rol y propósito:

  • Artefacto — Una pieza de contenido sin estructura
  • Análisis — Asigna semántica a un artefacto
  • Analítica — Software que realiza el análisis
  • Metadatos de artefacto — El resultado del análisis de un artefacto por la analítica

Considere una gran colección de encuestas de restaurantes de comida rápida, que comprenden una gran cantidad de texto sin estructura. Esta información es analizada para encontrar las razones más comunes de quejas, para identificar los nombres y ubicaciones de las tiendas con la mayoría de las quejas y para cada tipo de queja, para ver qué tiendas generaron la mayoría de las quejas. Puede usar UIMA para recoger este tipo de información, de forma que puede ver tendencias y el tipo de quejas. También puede ver qué tipos de quejas se convierten en menos frecuentes y cuáles se incrementan.

Refiriéndose a la Figura 1, los datos en bruto de la encuesta representan el artefacto (1), ya que es contenido sin estructura. El análisis asigna el significado a los artefactos (2). Por ejemplo, las tiendas 15 y 38 tienen la mayoría de quejas sobre los postres, mientras que la tienda 27 ha reducido sus quejas a la mitad desde la última encuesta. La analítica es normalmente software privado que realiza este análisis y produce los metadatos de artefacto (3). Los metadatos de artefacto están contenidos en una estructura de datos conocida como la Estructura de Análisis Común (CAS).

Figura 1. Vista de alto nivel de UIMA
Vista de alto nivel de UIMA

Una meta de UIMA es soportar la interoperabilidad de la analítica. La CAS permite que se compartan estos resultados a través de la analítica. Este enfoque beneficia a los clientes al permitirles compartir las representaciones de datos e interfaces entre diversas herramientas y productos que soportan UIMA. Dado el ejemplo en la Figura 1, una analítica podría interoperar con una herramienta que realiza el análisis en los artefactos si ambos soportaron UIMA. Esta habilidad permite que diversas herramientas interoperen y permite a los clientes elegir distintos proveedores para el análisis de sus datos sin estructura.

UIMA soporta una representación común de datos de artefactos y metadatos de artefacto independientemente de la representación original del artefacto. También permite el intercambio de artefactos y metadatos de artefacto de plataforma independiente mientras le permite descubrir, reutilizar y componer analítica desarrollada independientemente. Más aún, UIMA proporciona interoperabilidad de analítica desarrollada independientemente. UIMA es la tecnología líder en esta área y está respaldada por implementaciones de código abierto de Apache. La especificación 1.0 está completa desde marzo de 2009, sin trabajo adicional planificado. (Para obtener un enlace de la especificación UIMA, vea Recursos.)

PMML

PMML (Predictive Model Markup Language) es un lenguaje de marcación basado en XML desarrollado por Data Mining Group (DMG) en el que IBM es un contribuyente. (Vea Recursos.) PMML representa un modelo predictivo que es creado después de analizar datos históricos de diversos conocimientos.

Por ejemplo, asuma que una compañía de telecomunicaciones quiere analizar datos históricos para predecir, con cierto nivel de certeza, si los clientes disminuirán su servicio de telefonía fija en favor del servicio celular. El algoritmo (1 en la Figura 2) observa los datos históricos y produce parámetros para una ecuación a través de varios campos de entrada (edad, salario, estado civil, si renta o es propietario de su casa, nivel de educación, etc) que puedan predecir mejor si es probable que el cliente disminuya el servicio. El algoritmo produce un modelo PMML (2) que es la entrada a un proceso de puntuación (3). El proceso de puntuación da una predicción (4) sobre si es probable que un cliente particular disminuya el servicio junto con un indicador de la fiabilidad de esta predicción. Una confianza más alta en la predicción de que perderá un cliente podría dictar una respuesta más agresiva.

Figura 2. Vista de alto nivel de PMML
Vista de alto nivel de PMML

PMML es un estándar de intercambio de modelos para compartir modelos entre proveedores. PMML proporciona aplicaciones con modelos de proveedor independiente con la meta de que los problemas de propietario y las incompatibilidades ya no sean una barrera para el intercambio de modelos entre aplicaciones. Esto es benéfico y permite a los usuarios desarrollar modelos dentro de la aplicación de un proveedor y usar las aplicaciones de otros proveedores para visualizar, analizar, evaluar y usar los modelos. Ya que PMML es un estándar basado en XML, la especificación viene en la forma de un esquema XML.

La adopción de PMML en la industria es fuerte, como se indica en esta lista de adopción actual en la industria. (Para obtener un enlace a la página web, vea Recursos.)

  • Augustus / Open Data Group
  • KNIME
  • MicroStrategy
  • Pervasive DataRush
  • Rapid-i
  • R/Rattle
  • Salford Systems
  • SAS
  • TIBCO
  • Weka
  • Zementis

RIF

RIF (Rule Interchange Format) es un estándar W3C en el que IBM fue co-presidente. RIF representa, en XML, la forma ejecutable de una norma empresarial. Las normas empresariales pueden ser utilizadas en sistemas de analítica empresarial en diversas formas. Las normas son usadas para determinar acciones específicas que el sistema toma con base en diversas condiciones y entradas. Por ejemplo, una compañía de préstamos hipotecarios tendría normas para determinar si una persona calificó para un préstamo. Factores tales como ingreso, deuda e historial crediticio jugarían todos un rol. Las normas podrían ser de esta forma: si el prestatario tiene un ingreso por encima de X, deuda por debajo de Y e historial crediticio por encima de Z, el prestatario califica para una cantidad de préstamo dada. Distintos proveedores tienen su propia forma privada de escribir las normas, pero RIF habilita un formato común e interoperable para su formato ejecutable.

RIF fue diseñado principalmente para el intercambio de normas entre motores de normas. RIF entrega valor porque proporciona interoperabilidad entre sistemas de ejecución de normas mientras previene el bloqueo por parte de proveedores de normas. Esta interoperabilidad habilita a los usuarios para que empleen diversas herramientas para crear sus normas empresariales pero interoperen con diversos sistemas de ejecución de normas que soporten RIF.

RIF se convirtió en una recomendación de W3C en junio de 2010. Por lo tanto, la adopción de la industria se está desarrollando como lo indica esta lista de implementaciones de referencia de RIF. (Para obtener un enlace a la página web, vea Recursos.)

  • SILK
  • OntoBroker
  • fuxi
  • Eye
  • VampirePrime
  • RIFle
  • Oracle (OBR)
  • STI Innsbruck (IRIS)
  • riftr
  • WebSphere ILOG JRULES
  • TIBCO
  • FICO
  • Drools

Estas implementaciones fueron del estándar de RIF como fue desarrollado. Muchas de estas compañías podrían implementar el estándar completo, aunque eso no se puede asegurar.

XBRL

XBRL (eXtensible Business Reporting Language) es un estándar de XBRL International basado en XML usado para informes financieros. XBRL es relevante porque es obligatorio y/o adoptado en diversos gobiernos y países como el formato estándar para proporcionar informes financieros. Con su uso en crecimiento, el análisis de documentos XBRL y los datos que contienen se vuelve relevante.

Tradicionalmente, los informes son producidos en HTML o PDF. Estos formatos, aunque son fáciles de leer para un humano, no son estructurados. XBRL es estructurado porque es proporcionado en XML con un esquema bien conocido, pero no es muy legible para los humanos. Por lo tanto, el significado puede ser inferido de los datos haciendo el documento estructurado y más útil por un programa de computación.

Recientemente, el SEC comenzó a exigir a 500 de las más grandes compañías públicas que comenzaran a archivar sus declaraciones financieras usando XBRL. Este requisito se expandirá gradualmente para incluir compañías públicas más pequeñas en el futuro. Las compañías con capitalización de mercado por encima de los US$ 5 mil millones comenzaron a archivar en XBRL en 2009, pero este año deben enviar las declaraciones financieras con etiquetado más detallado para notas a pie de página. Aquellos con capitalización de mercado por encima de los U$ 700 millones deben hacer su envío inicial en XBRL sin etiquetado detallado para notas a pie de página. Se le ha exigido a todas las firmas públicas coreanas desde octubre de 2007 que archiven electrónicamente sus informes financieros periódicos y de otros tipos en el formato XBRL. Los archivados XBRL requeridos están siendo usados en Japón por Tokyo Stock Exchange (TSE), con contabilidad para el 90% de las transacciones realizadas en los intercambios de acciones japonesas. Desde 2008, el TSE requiere que todas las entidades listadas archiven su información financiera con TSE en el formato XBRL.

XBRL ha sido adoptado y obligado en muchas de las economías mundiales más maduras. La Tabla 2 identifica muchas de las adopciones de XBRL en todo el mundo.

Tabla 2. Adopción de XBRL
PaísOrganizaciónAplicación/programa
Países Bajos Dutch Tax Authority Declaraciones corporativas de impuestos
Australia Australian Prudential Review Authority (APRA) Archivados prudenciales
Jamaica Bank of Jamaica Archivados registrados de compañías financieras
Estados Unidos Federal Financial Institutions Examination Council (FFIEC) Modernización de informes de llamada
Estados Unidos Securities and Exchange Commission Programa de archivado voluntario de XBRL
Bélgica National Bank of Belgium Archivados de cuentas anuales de compañías belgas
Japón Bank of Japan Archivados de compañías de servicios financieros
España Banco de España Archivados COREP
Canadá Ontario Securities Commission (OSC) Programa de archivado voluntario
Japón Tokyo Stock Exchange (TSE) Archivados de informes financieros de registro de TSE

OWL

Web Ontology Language (OWL) es un lenguaje de alto nivel para representar ontologías de información o modelos. Por ejemplo, Joe es un humano, está casado con Jane y es hombre. Sam es un humano, está casado con Sue, es hombre y es un esposo. Por lo tanto, puede deducir que Joe es un esposo. Estas interacciones están siendo exploradas porque el Esquema XML frecuentemente tiene semántica pobre y requiere interacciones más humanas para deducir hechos similares. Con OWL, usted puede deducir más fácilmente conocimiento de forma programática, haciendo a OWL útil para intercambiar modelos y usándolos en sistemas basados en normas.


Escenario

Lo siguiente ilustra un escenario minorista que usa los diversos estándares mencionados anteriormente.


Visión General

La Figura 3 muestra los componentes de alto nivel en este escenario. Los componentes consisten en:

  • Bases de datos que contienen datos históricos (datos en reposo)
  • Feeds de datos en tiempo real (datos en movimiento)
  • Motores que realizan la analítica de esos datos
  • Analítica predictiva
  • Normas empresariales
  • Interfaces de usuario usando paneles de instrumentos para mostrar resultados o alertas, mientras se permiten las interacciones de usuario
Figura 3. Componentes del escenario
Componentes del escenario

La Figura 4 muestra puntos de integración clave actuales y futuros entre los distintos componentes (en la Figura 3) donde diversos estándares previamente discutidos interactúan y proporcionan beneficios de interoperabilidad. Los datos históricos usan una variedad de estándares, tales como XML, CSV, XLS, PDF, DITA y XBRL. Los motores de analítica frecuentemente usan UIMA. La analítica predictiva y las normas empresariales normalmente usan los estándares PMML y RIF, respectivamente.

Figura 4. Puntos de integración clave
Puntos de integración clave

Detalles del escenario

Las siguientes figuras recorren el escenario y explican el valor que llevan los estándares. Los estándares juegan un rol importante, especialmente cuando implementa este tipo de solución en un entorno de cliente heterogéneo existente. Este escenario ilustra una solución de una tienda minorista grande que está intentando usar datos históricos y en tiempo real para aumentar las ventas, retener los clientes existentes y atraer nuevos clientes.

La Figura 5 muestra los datos históricos de la cadena de tiendas en distintas bases de datos y almacenados de diversos formatos de datos. Este escenario incluye datos tales como transacciones de clientes, preferencias, historial de compras, información demográfica, datos de encuestas, notas y registros del centro de atención a clientes, etc. Además, se proporciona un feed de datos en tiempo real. Este feed puede incluir datos tales como transacciones al minuto por tienda o región, datos de transacciones en vivo por cliente o grupo de clientes, feeds del centro de atención a clientes en vivo, feeds de videovigilancia, productos en camino a diversas ubicaciones de tiendas, etc.

Figura 5. Datos históricos y en tiempo real
Datos históricos y en tiempo real

Cada figura sucesiva usa el sombreado para indicar la nueva porción de la imagen que fue añadida. La Figura 6 muestra a Hadoop usado para análisis de datos históricos para proporcionar analíticas de datos estructurados y no estructurados. Por ejemplo, el análisis de estos datos históricos podría revelar información sobre patrones de compra para clientes particulares, preferencias de compra, actitudes en minoristas de la competencia y más. Tome en cuenta la introducción del estándar UIMA para compartir la salida analítica con otros sistemas para habilitar la interoperabilidad.

Figura 6. Análisis de datos históricos
Análisis de datos históricos

La Figura 7 muestra la introducción de un motor de análisis en tiempo real. Estos motores pueden ingerir y procesar datos en movimiento en tiempo real que son estructurados o no estructurados. Además, puede alimentar los resultados desde el análisis histórico en el motor de tiempo real para ayudar a descubrir conocimientos adicionales. Por ejemplo, considere un análisis histórico que muestre que las ventas de un producto en particular son mejores durante el fin de semana lentas en otros días. Más aún, el análisis en tiempo real muestra que el producto particular es escaso en el inventario y que el fin de semana se acerca. Una alerta puede emitirse sobre esta situación con la esperanza de corregirla.

La Figura 7 también muestra una conexión de dos vías entre el motor de análisis en tiempo real y los datos históricos en las bases de datos. Este motor podría usar datos históricos para correlacionarse con los datos en tiempo real y podría también almacenar datos periódicamente. Por ejemplo, asuma que los datos en tiempo real contenían feeds de audio de centros de atención a clientes. Usted no querrá almacenar cada minuto de cada llamada, pero tal vez quiera almacenar llamadas aleatorias para una posterior revisión de calidad. Las llamadas donde el sistema detecta un cliente molesto podrían ser grabadas para su revisión y análisis posterior.

Figura 7. análisis de datos en tiempo real
análisis de datos en tiempo real

La Figura 8 muestra analítica predictiva como parte del escenario. (vea una versión más grande de la Figura 8.) Las herramienta de modelado pueden ser utilizadas para crear un modelo predictivo en PMML. Este modelo de PMML puede almacenarse en la base de datos y ser entendido por un motor de análisis en tiempo real. Por ejemplo, podría usar el modelo de PMML predictivo en este caso para determinar la probabilidad de que un conjunto particular de hechos de los datos en tiempo real e históricos llevará a un cliente a cambiar su lealtad y comprar con la competencia. A medida que el motor de análisis en tiempo real procesa los datos, puede usar este modelo para calificar los hechos de su descubrimiento. Esta calificación permite al motor hacer conocimientos adicionales y posteriores sobre los datos que está procesando.

Figura 8. Analítica predictiva
Analítica predictiva

La Figura 9 muestra que usted puede inyectar nuevos modelos de PMML en el motor de análisis en tiempo real. (Vea una versión más grande de la Figura 9.) Esta inyección es un concepto poderoso ya que puede crear e implementar nuevos modelos mientras el sistema se está ejecutando y en base a los datos que se están recolectando actualmente.

Figura 9. Inyección de modelo de PMML en tiempo real
Inyección de modelo de PMML en tiempo real

La Figura 10 ilustra la introducción de normas empresariales en el escenario. (Vea una versión más grande de la Figura 10.) A media que el motor de análisis en tiempo real está procesando datos entrantes e históricos buscando tendencias de ventas, puede invocar normas creadas con un sistema de gestión de normas empresariales para tomar decisiones inteligentes adicionales. Por ejemplo, una norma podría decir: "Si el cliente A, B o C (parte de sus clientes Gold) no ha realizado ninguna compra en los últimos N días, y si sus datos de encuesta indican que se podrían cambiar a la competencia, ofrézcales un descuento específico".

La Figura 10 también muestra el estándar, RIF. RIF es utilizado para representar una forma ejecutable de una norma. Esta forma habilita a los sistemas de normas del proveedor para que compartan normas, permitiendo que los clientes no sean bloqueados en un proveedor de normas particular.

Como la inyección en tiempo real de nuevos modelos de PMML predictivos ilustrada en la Figura 9, La Figura 10 muestra cómo puede inyectar nuevas normas en tiempo real también.

Figura 10. Implementación de normas empresariales
Implementación de normas empresariales

La Figura 11 muestra cómo los paneles de instrumentos y los dispositivos de visualización son utilizados. (Vea una versión más grande de la Figura 11.) Puede crear estos dispositivos al combinar la información en tiempo real que se está procesando y los datos históricos almacenados en bases de dato tradicionales u OLAP y presentados como una alerta en tiempo real o como un panel de instrumentos de información.

Figura 11. Paneles de instrumentos y visualización
Paneles de instrumentos y visualización

Resumen

Con la explosión de datos recolectados y disponibles, aunada a la expectativa de obtener nuevos conocimientos adicionales de esos datos, la presión está ahí para manejar, procesar eficientemente y dar sentido a los datos en volúmenes que antes eran inimaginables. Para cumplir estas metas se requieren diversos sistemas y tecnologías, tanto de legado como nuevos, que trabajen juntos. Esta integración entre tecnologías llama a los estándares para que habiliten la interoperabilidad requerida para integrar los datos, productos y tecnologías para conseguir eficientemente las metas esperadas por las empresas y los consumidores.

Recursos

Aprender

Obtener los productos y tecnologías

Comentar

Comentarios

developerWorks: Ingrese

Los campos obligatorios están marcados con un asterisco (*).


¿Necesita un IBM ID?
¿Olvidó su IBM ID?


¿Olvidó su Password?
Cambie su Password

Al hacer clic en Enviar, usted está de acuerdo con los términos y condiciones de developerWorks.

 


La primera vez que inicie sesión en developerWorks, se creará un perfil para usted. La información en su propio perfil (nombre, país/región y nombre de la empresa) se muestra al público y acompañará a cualquier contenido que publique, a menos que opte por la opción de ocultar el nombre de su empresa. Puede actualizar su cuenta de IBM en cualquier momento.

Toda la información enviada es segura.

Elija su nombre para mostrar



La primera vez que inicia sesión en developerWorks se crea un perfil para usted, teniendo que elegir un nombre para mostrar en el mismo. Este nombre acompañará el contenido que usted publique en developerWorks.

Por favor elija un nombre de 3 - 31 caracteres. Su nombre de usuario debe ser único en la comunidad developerWorks y debe ser distinto a su dirección de email por motivos de privacidad.

Los campos obligatorios están marcados con un asterisco (*).

(Por favor elija un nombre de 3 - 31 caracteres.)

Al hacer clic en Enviar, usted está de acuerdo con los términos y condiciones de developerWorks.

 


Toda la información enviada es segura.


static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=90
Zone=Industries
ArticleID=750733
ArticleTitle=Crecimiento de datos y estándares
publish-date=08082011