La blockchain y el big data se encuentran entre las principales tecnologías emergentes que se prevé que revolucionarán varios sectores, cambiando radicalmente la forma en que se gestionan las empresas y las organizaciones. Se podría suponer que estas tecnologías son mutuamente excluyentes y que cada una de ellas sigue un camino único e independiente.
Pero eso no sería acertado.
La blockchain, al igual que la ciencia de datos, está transformando gradualmente la forma en que operan varios sectores. La ciencia de datos se centra en aprovechar los datos para una administración adecuada, mientras que la blockchain garantiza la confianza en ellos mediante el mantenimiento de un libro mayor descentralizado.
La pregunta es: ¿hay algún punto en el que estos dos conceptos se crucen?
Entonces, ¿qué se logrará cuando se apliquen estas dos tecnologías de manera simultánea?
En pocas palabras, ¿cómo puede la blockchain revolucionar la ciencia de datos?
Para responder a estas preguntas, será útil comprender mejor la tecnología blockchain y la ciencia de datos por separado.
La blockchain es básicamente un libro de contabilidad desconfiado que registra las transacciones económicas de modo que no puedan manipularse. La tecnología cobró importancia como resultado del interés por el bitcoin y las criptomonedas en general, pero desde entonces ha adquirido relevancia en el registro no solo de transacciones con criptomonedas, sino de cualquier cosa que tenga valor. Conociendo las capacidades de esta tecnología emergente, los desarrolladores y entusiastas de la tecnología se han puesto manos a la obra para diseñar caso de uso tras caso de uso de blockchain.
La demanda de desarrolladores de blockchain ha aumentado en los últimos años, al igual que los proyectos que trabajan en diferentes aplicaciones de esta tecnología. Los informes de plataformas independientes como UpWork han mantenido las habilidades de blockchain como las habilidades más demandadas. De manera similar, se dice que los profesionales de otras áreas, como los estudios jurídicos, tienen una gran ventaja si tienen conocimientos de blockchain, o al menos comprenden la tecnología.
Boletín del sector
Manténgase al día sobre las tendencias más importantes e intrigantes del sector en materia de IA, automatización, datos y mucho más con el boletín Think. Consulte la Declaración de privacidad de IBM.
Su suscripción se enviará en inglés. Encontrará un enlace para darse de baja en cada boletín. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.
La ciencia de datos busca extraer conocimiento y conocimientos de datos estructurados y no estructurados. Este campo abarca la estadística, el análisis de datos, el machine learning y otros métodos avanzados utilizados para comprender y analizar procesos reales utilizando datos.
Los datos se describen a menudo como el nuevo petróleo en el lenguaje económico, razón por la cual las empresas líderes, incluidas las famosas GAFA (Google, Amazon, Facebook y Apple), controlan grandes cantidades de datos. Algunas aplicaciones comunes de la ciencia de datos se ven en los protocolos de los motores de Internet, los anuncios digitales y los servicios de recomendación. El análisis de datos, un aspecto clave de la ciencia de datos, ha demostrado su relevancia en el sector sanitario para hacer un seguimiento del tratamiento de los pacientes y del flujo de equipos, en el sector turístico y del juego para mejorar la experiencia del consumidor y en la gestión energética, entre muchos otros sectores.
También existe una demanda aparentemente insaciable de científicos de datos que puedan extraer conocimientos de los datos y ayudar a resolver problemas. Esto es aún más pronunciado cuando se considera el big data, un aspecto avanzado de la ciencia de datos que se ocupa de cantidades extremadamente grandes de datos que no pueden manejarse con los métodos tradicionales de proceso de datos.
A diferencia de lo que ocurre en áreas como la tecnología financiera, la sanidad y la cadena de suministro, donde la tecnología blockchain ya es muy conocida, no se ha explorado en profundidad su aplicación en aspectos relacionados con la ciencia de datos. Para algunos, la relación entre los conceptos no está clara, si no es que inexistente.
En primer lugar, tanto la blockchain como la ciencia de datos trabajan con datos: la ciencia de datos los analiza para obtener conocimientos ejecutables, mientras que la blockchain los registra y valida. Ambos hacen uso de algoritmos creados para gobernar las interacciones con varios segmentos de datos. Un tema común que pronto le resultará familiar es el siguiente: "ciencia de datos para la predicción; blockchain para la integridad de los datos".
La ciencia de datos, al igual que cualquier avance tecnológico, tiene sus propios retos y limitaciones que, una vez superados, permitirán liberar todo su potencial. Algunos de los principales retos a los que se enfrenta la ciencia de datos son los datos inaccesibles, los problemas de privacidad y los datos sucios.
El control de los datos sucios (o información errónea) es un área en la que la tecnología blockchain puede tener un impacto positivo considerable en el campo de la ciencia de datos. Según una encuesta realizada en 2017 a 16 000 profesionales del sector, la inclusión de datos incorrectos o duplicados se identificó como el mayor reto para la ciencia de datos. Gracias a un algoritmo de consenso descentralizado y a la criptografía, la blockchain valida los datos, lo que hace casi imposible su manipulación debido a la enorme cantidad de potencia informática que se requeriría.
De nuevo, a través de su sistema descentralizado, la tecnología blockchain garantiza la seguridad y privacidad de los datos. La mayoría de los datos se almacenan en servidores centralizados que a menudo son el objetivo de los ciberatacantes; los diversos informes de ataques informáticos y violaciones de seguridad demuestran el alcance de la amenaza. Por otro lado, la tecnología blockchain devuelve el control de los datos a las personas que los generan, lo que dificulta enormemente el acceso y la manipulación de datos a gran escala por parte de los ciberdelincuentes.
Si "'big' hace referencia a la cantidad", dice Maria Weinberger, de Janexter, "'blockchain' hace referencia a la calidad". Esto se basa en la idea de que la blockchain se centra en validar datos, mientras que la ciencia de datos o el big data implican hacer predicciones a partir de grandes volúmenes de información.
La blockchain ha traído una forma completamente nueva de gestionar y operar con datos, ya no desde una perspectiva central en la que todos los datos deben reunirse, sino de una manera descentralizada en la que los datos pueden analizarse directamente desde los Edges de los dispositivos individuales. Blockchain se integra con otras tecnologías avanzadas, como soluciones en la nube, inteligencia artificial (IA) e Internet de las cosas (IoT).
Además, los datos validados generados a través de tecnología blockchain vienen estructurados y completos, además del hecho de que son inmutables, como mencionamos anteriormente. Otra área importante en la que los datos generados por blockchain se convierten en un impulso para el big data es en la integridad de los datos, ya que blockchain determina el origen de los datos a través de sus cadenas vinculadas.
Hay al menos cinco formas específicas en que los datos de blockchain pueden ayudar a los científicos de datos en general.
Los datos registrados en la blockchain son fiables porque deben haber pasado por un proceso de verificación que garantiza su calidad. También proporciona transparencia, ya que se pueden rastrear las actividades y transacciones que tienen lugar en la red blockchain.
El año pasado, Lenovo presentó este caso de uso de la tecnología blockchain para detectar documentos y formularios fraudulentos. Los gigantes de los ordenadores utilizaron la tecnología blockchain para validar los documentos físicos codificados con firmas digitales. Las firmas digitales las procesan los ordenadores y la autenticidad del documento se verifica a través de una blockchain.
La mayoría de las veces, la integridad de los datos se garantiza cuando los detalles del origen y las interacciones relacionadas con un bloque de datos se almacenan en la blockchain y se verifican automáticamente antes de que pueda ser objeto de acción.
Dado que la cadena de bloques utiliza un algoritmo de consenso para verificar las transacciones, es imposible que una sola unidad suponga una amenaza para la red de datos. Un nodo (o unidad) que comienza a actuar de forma anormal puede identificarse y eliminarse fácilmente de la red.
Debido a que la red está tan distribuida, es casi imposible que una sola parte genere suficiente potencia computacional para alterar los criterios de validación y permitir la entrada de datos no deseados en el sistema. Para modificar las reglas de la blockchain, la mayoría de los nodos deben agruparse para crear un consenso. Un único ciberdelincuente no es capaz de lograr esto.
Los datos de la blockchain, al igual que otros tipos de datos, pueden analizarse para revelar conocimiento valioso sobre los comportamientos, las tendencias y, como tal, pueden utilizarse para predecir resultados futuros. Además, blockchain proporciona datos estructurados recopilados de individuos o dispositivos individuales.
En el análisis predictivo, los científicos de datos se basan en grandes conjuntos de datos para determinar con buena precisión el resultado de eventos sociales como las preferencias del cliente, el valor de vida del cliente, los precios dinámicos y las tasas de abandono en relación con las empresas. Sin embargo, esto no se limita a los conocimientos empresariales, ya que casi cualquier suceso se puede predecir con el análisis de datos adecuado, ya se trate de la opinión social o de los marcadores de inversión.
Y debido a la naturaleza distribuida de la blockchain y la enorme potencia computacional disponible a través de ella, los científicos de datos, incluso en organizaciones más pequeñas, pueden realizar extensas tareas de análisis predictivo. Estos científicos de datos pueden utilizar la potencia computacional de varios miles de ordenadores conectados en una red blockchain como un servicio basado en la nube para analizar los resultados sociales en una escala que de otro modo no habría sido posible.
Como se ha demostrado en los sistemas financieros y de pago, blockchain permite transacciones transfronterizas en tiempo real. Varios bancos e innovadores fintech están explorando blockchain porque permite la liquidación rápida, en tiempo real, de grandes sumas independientemente de las barreras geográficas.
Del mismo modo, las organizaciones que requieren un análisis de datos en tiempo real a gran escala pueden recurrir a un sistema habilitado para blockchain para lograrlo. Con la blockchain, los bancos y otras organizaciones pueden observar los cambios en los datos en tiempo real, lo que permite tomar decisiones rápidas, ya sea para bloquear una transacción sospechosa o rastrear actividades anormales.
En este sentido, los datos obtenidos de los estudios de datos pueden almacenarse en una red blockchain. De esta manera, los equipos de proyecto no repiten el análisis de datos ya realizado por otros equipos ni reutilizan erróneamente los datos que ya se han utilizado. Además, una plataforma blockchain puede ayudar a los científicos de datos a monetizar su trabajo, probablemente mediante el intercambio de resultados de análisis almacenados en la plataforma.
La blockchain, como se ha señalado, se encuentra en sus etapas iniciales, aunque puede no parecerlo debido a la exageración que ha recibido la tecnología en un corto período de tiempo. Se esperaría que, a medida que la tecnología madure y haya más innovaciones alrededor de ella, se identifiquen y exploren más casos de uso concretos. La ciencia de datos es un área que se beneficiará de esto.
Dicho esto, se han planteado algunos desafíos en relación con su impacto en la ciencia de datos, especialmente en el big data, que requiere gestionar cantidades de datos excepcionalmente grandes. Una preocupación es que la aplicación de blockchain en este sentido será muy costosa. Esto se debe a que el almacenamiento de datos en la blockchain es caro en comparación con los medios tradicionales. Los bloques tratan con cantidades relativamente pequeñas de datos en comparación con los grandes volúmenes de datos recogidos por segundo para los big data y otras tareas de análisis de datos.
La forma en que la blockchain evolucione para abordar estas preocupaciones y proceder a interrumpir el espacio de la ciencia de datos será particularmente interesante porque, como hemos visto, la tecnología tiene un enorme potencial para transformar la forma en que gestionamos y utilizamos los datos.
De vez en cuando, invitamos a líderes intelectuales del sector, expertos académicos y socios a compartir sus opiniones y conocimientos sobre las tendencias actuales en blockchain en el blog Blockchain Pulse. Aunque las opiniones de estas entradas de blog son propias y no reflejan necesariamente los puntos de vista de IBM, este blog se esfuerza por dar la bienvenida a todos los puntos de vista a la conversación.
IBM Blockchain Platform: Hyperledger Fabric Support Edition proporciona SLA y soporte empresarial 24x7 para Hyperledger Fabric, el estándar de facto para plataformas blockchain empresariales de la Fundación Linux.
IBM Blockchain ayuda a los socios de la cadena de suministro a compartir datos fiables a través de soluciones blockchain autorizadas, lo que aumenta la transparencia y la confianza.
IBM Consulting es una consultora global que trabaja codo con codo con los clientes para diseñar, construir y operar negocios de alto rendimiento.