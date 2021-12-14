ELT (extraer, cargar, transformar) y ETL (extraer, transformar, cargar) son procesos de integración de datos que mueven datos sin procesar desde un sistema de origen a una base de datos de destino, como un lago de datos o un almacén de datos. Estas fuentes de datos pueden estar en múltiples repositorios diferentes o en sistemas heredados que luego se transfieren mediante ELT o ETL a una ubicación de datos de destino.
Con ELT, los datos no estructurados se extraen de un sistema de origen y se cargan en un sistema de destino para ser transformados posteriormente, según sea necesario. Estos datos extraídos y sin estructurar se ponen a disposición de los sistemas de business intelligence, sin necesidad de realizar una preparación previa de los datos. ELT aprovecha el almacenamiento de datos para realizar transformaciones de datos, como la validación de datos o la eliminación de datos duplicados. Estos procesos se actualizan en tiempo real y se utilizan para grandes cantidades de datos sin procesar. ELT es un proceso más nuevo que no ha alcanzado todo su potencial en comparación con su hermana mayor, ETL. El proceso de ELT se basaba originalmente en scripts SQL codificados de forma rígida. Es más probable que esos scripts SQL tengan posibles errores de programación que los métodos más avanzados utilizados en ETL.
Con ETL, los datos no estructurados se extraen de un sistema de origen y se identifican puntos de datos específicos y posibles "claves" antes de cargar los datos en los sistemas de destino. En un escenario de ETL tradicional, los datos de origen se extraen a un área de preparación y se mueven al sistema de destino. En el área de preparación, los datos se someten a un proceso de transformación que organiza y limpia todos los tipos de datos. Este proceso de transformación permite que los datos ahora estructurados sean compatibles con los sistemas de almacenamiento de datos de destino. ETL se diseñó originalmente para trabajar con bases de datos relacionales, que históricamente dominaban el mercado. Los ingenieros de datos han trabajado en procesos ETL desde la década de 1970, lo que les ha dado tiempo para perfeccionar significativamente los procesos ETL de la ciencia de datos.
En el siguiente video, Jamil Spain profundiza en ETL:
El enfoque ELT permite una implementación más rápida que el proceso ETL, aunque los datos quedan desordenados una vez que se mueven. La transformación se produce después de la función de carga, lo que evita la ralentización de la migración que puede producirse durante este proceso. ELT separa las etapas de transformación y carga, lo que garantiza que un error de programación (u otro error en la etapa de transformación) no detenga el esfuerzo de migración. Además, ELT evita problemas de escalado de servidores mediante el uso de la potencia de procesamiento y el tamaño del almacén de datos para permitir la transformación (o computación escalable) a gran escala. ELT también funciona con soluciones de almacenamiento de datos en la nube para admitir tipos de datos estructurados, no estructurados, semiestructurados y sin procesar.
ETL tarda más en implementarse, pero da como resultado datos más limpios. Este proceso es adecuado para repositorios de datos de destino más pequeños que requieren actualizaciones menos frecuentes. ETL también trabaja con almacenes de datos en la nube mediante el uso de plataformas SaaS basadas en la nube y almacenes de datos en el sitio.
También existen muchas herramientas ETL de código abierto y comerciales con capacidades y beneficios que incluyen lo siguiente:
Un proceso ELT se utiliza mejor en conjuntos de datos de gran volumen o entornos de uso de datos en tiempo real.
Algunos ejemplos específicos son los siguientes:
ETL se utiliza principalmente para sincronizar varios entornos de uso de datos y migrar datos desde sistemas existentes.
A continuación, algunos ejemplos concretos:
Las diferencias clave entre ELT y ETL son el orden de las operaciones entre los dos procesos que los hace especialmente adecuados para diferentes situaciones. Otras diferencias están en el tamaño de los datos y los tipos de datos que cada proceso puede manejar. Aunque ELT y ETL suenan similares, su aplicación es diferente.
Con ELT, el proceso se simplifica en que no necesita "claves" u otros identificadores para transferir y emplear los datos. El proceso ELT se ha refinado y hay muchas herramientas ELT evolucionadas que se utilizan para ayudar a migrar datos. Los tiempos de carga son más cortos porque el proceso no tiene tantos pasos por recorrer. La solución ELT para sistemas de business intelligence surge de la necesidad de poder cargar rápidamente datos no estructurados. Una solución ELT automatizada basada en la nube también puede requerir relativamente poco mantenimiento.
Los datos ETL ofrecen más definición desde el principio, lo que suele requerir más tiempo para transferir los datos con precisión. Este proceso solo requiere actualizaciones periódicas de la información, en lugar de actualizaciones en tiempo real. Los tiempos de carga de ETL son más largos que los de ELT debido a los muchos pasos en la etapa de transformación que deben ocurrir antes de cargar los datos.
