A medida que las compañías comenzaron a invertir en tecnologías avanzadas de almacenamiento de datos para hacer que los datos fueran ampliamente accesibles y utilizables para generar información empresarial y automatizar decisiones, los ingenieros de datos se enfrentaron a varios desafíos, ya que las soluciones no se escalaron según lo previsto. Debido a que los datos a menudo estaban plagados de errores, incompletos y no eran significativos o veraces,y debido a que tenían muy poca comprensión de los dominios de origen que generaban estos datos, los ingenieros tuvieron dificultades para corregir lo que no sabían o entendían.

Los ingenieros de datos reconocieron la necesidad de cambiar su enfoque a la hora de diseñar arquitecturas distribuidas modernas. Vieron la importancia de adoptar una nueva metodología que organizara la arquitectura en torno a los dominios empresariales específicos a los que pretende dar soporte. Este enfoque incorpora el pensamiento de producto para desarrollar una infraestructura de datos de autoservicio funcional y fácil de usar.1

El pensamiento de producto es más que las características de un producto; se trata de crear soluciones significativas que resuenen con los usuarios y se destaquen en el mercado. Es una filosofía que influye en cada etapa del proceso de desarrollo de productos, desde la ideación hasta el lanzamiento y la iteración. Los ingenieros se dieron cuenta de que al tratar los datos como producto, podían mejorar significativamente su uso y valor dentro de la organización.

Al adoptar un enfoque que trata los conjuntos de datos como productos, se crean equipos de dominio dentro de áreas de negocio específicas para que se encarguen de gestionar y difundir sus datos en toda la organización, para centrar mejor la experiencia del usuario para los consumidores principales de estos datos, generalmente científicos e ingenieros de datos.

Estos equipos de dominio comparten sus datos a través de API (interfaces de programación de aplicaciones), acompañadas de documentación completa, entornos de prueba estables e indicadores de rendimiento claros.

Un DaaP exitoso debe cumplir los siguientes requisitos:

Fácilmente reconocible Direccionable Confiable Bien documentado Capaz de trabajar con otros productos de datos Aseguran

Esto significa que en una metodología DaAP, los datos deben ser fáciles de encontrar, confiables, claros en lo que representa, pueden integrarse con otros datos y estar protegidos contra el acceso no autorizado.

Imagine que DaaP es como un viaje aéreo y que cada pieza de datos es un viajero: las organizaciones y los usuarios necesitan saber de dónde proviene cada punto de datos, qué transformaciones experimentó y dónde está destinado a terminar. Esto se denomina linaje de datos y es un elemento crucial para la adopción efectiva de DaaP. Mediante el uso de herramientas como IBM InfoSphere, AWS Glue o Cloudera Data Hub, las organizaciones pueden gestionar metadatos y realizar un seguimiento de los recorridos de los datos para garantizar la transparencia y evitar confusiones.

Una vez que cada viajero fue debidamente investigado, aborda el avión. Así como la aerolínea necesita cerciorar de que el avión sea lo suficientemente grande y resistente para transportar a los pasajeros, las organizaciones deben emplear una infraestructura escalable para dar cabida a volúmenes de datos crecientes y múltiples solicitudes de acceso. Dependiendo de las necesidades comerciales específicas de una organización y de los segmentos de mercado, existen varias plataformas basadas en la nube, soluciones de código abierto y plataformas comerciales entre las que las organizaciones pueden elegir.

Ahora, imagine que necesita información de vuelo, pero el sistema no funciona. Esto rompe la confianza de los viajeros y pinta a una aerolínea como poco confiable e ineficaz, razón por la cual las herramientas de DaaP deben funcionar de manera constante. También es la razón por la que las organizaciones deben proporcionar planes e reportes claros sobre la recuperación y redundancia de datos.

No hay viajes aéreos sin seguridad y lo mismo ocurre con DaAP. Las características de seguridad como el control de acceso basado en roles, el cifrado de datos y los sistemas de detección de intrusiones protegen los datos confidenciales y garantizan el cumplimiento de regulaciones como GDPR e HIPAA. Las prácticas de gobierno, que incluyen monitoreo de calidad de datos, catalogación y gestión de cambios, aseguran que los datos de la organización sean confiables y accesibles.