A medida que las empresas comenzaron a invertir en tecnologías avanzadas de almacenamiento de datos para hacer que los datos fueran ampliamente accesibles y utilizables con el fin de generar información empresarial y automatizar decisiones, los ingenieros de datos se enfrentaron a varios desafíos, ya que las soluciones no se escalaron según lo previsto. Dado que los datos solían estar plagados de errores, eran incompletos y no eran significativos ni veraces,y debido a que tenían muy poca comprensión de los dominios de origen que generaban estos datos, los ingenieros luchaban por corregir lo que no sabían o entendían.
Los ingenieros de datos reconocieron la necesidad de cambiar su enfoque para diseñar arquitecturas distribuidas modernas. Vieron la importancia de adoptar una nueva metodología que organizase la arquitectura en torno a los dominios empresariales específicos a los que pretende dar soporte. Este enfoque incorpora el pensamiento de producto para desarrollar una infraestructura de datos de autoservicio funcional y fácil de usar.1
El pensamiento de producto va más allá de las características de un producto; se trata de crear soluciones significativas que calen en los usuarios y destaquen en el mercado. Es una filosofía que influye en todas las etapas del proceso de desarrollo del producto, desde la ideación hasta el lanzamiento y la iteración. Los ingenieros se dieron cuenta de que, al tratar los datos como un producto, podían mejorar significativamente su uso y valor en la organización.
Al adoptar un enfoque que trata los conjuntos de datos como productos, se crean equipos de dominio dentro de áreas de negocio específicas para que se encarguen de gestionar y difundir sus datos en toda la organización, con el fin de centrar mejor la experiencia de usuario para los principales consumidores de estos datos, normalmente científicos e ingenieros de datos.
Estos equipos de dominio comparten sus datos a través de API (interfaces de programación de aplicaciones), acompañados de documentación completa, entornos de prueba sólidos e indicadores de rendimiento claros.
Unos DaaP exitosos deben cumplir los siguientes requisitos:
- Fácilmente detectable
- Direccionable
- Fiable
- Bien documentado
- Capaz de trabajar con otros productos de datos
- Seguro
Esto significa que, en una metodología DaaP, los datos deben ser fáciles de encontrar, fiables, claros en lo que representan, integrables con otros datos y protegidos contra accesos no autorizados.
Imaginemos que los DaaP es como viajar en avión y que cada dato es un viajero de la aerolínea: las organizaciones y los usuarios necesitan saber de dónde procede cada punto de datos, qué transformaciones ha sufrido y a dónde va a parar. Esto se llama linaje de datos y es un elemento crucial para la adopción efectiva de DaaP. Mediante el uso de herramientas como IBM InfoSphere, AWS Glue o Cloudera Data Hub, las organizaciones pueden gestionar metadatos y realizar un seguimiento de los recorridos de los datos para garantizar la transparencia y evitar confusiones.
Cuando todos los viajeros han sido debidamente examinados, embarcan en el avión. Al igual que la aerolínea debe asegurarse de que el avión sea lo suficientemente grande y resistente para transportar a los pasajeros, las organizaciones deben utilizar una infraestructura escalable para adaptarse a los crecientes volúmenes de datos y a las múltiples solicitudes de acceso. Según las necesidades empresariales específicas de una organización y de los segmentos de mercado, existen varias plataformas basadas en la nube, soluciones de código abierto y plataformas comerciales entre las que las organizaciones pueden elegir.
Ahora, imagine que necesita información de vuelo, pero el sistema no funciona. Esto rompe la confianza de los viajeros y hace que la aerolínea parezca poco fiable e ineficaz, que es exactamente la razón por la que las herramientas DaaP tienen que ofrecer resultados consistentes. También es la razón por la que las organizaciones deben proporcionar planes e informes claros sobre la recuperación y redundancia de datos.
No hay viajes aéreos sin seguridad y lo mismo ocurre con DaaP. Las funciones de seguridad, como el control de acceso basado en roles, el cifrado de datos y los sistemas de detección de intrusiones, protegen los datos confidenciales y garantizan el cumplimiento de normativas como el RGPD y la HIPAA. Las prácticas de gobierno, incluida la monitorización de la calidad de los datos, la catalogación y la gestión de cambios, garantizan que los datos de la organización sean fiables y accesibles.