Apache Hadoop es un marco de software de código abierto desarrollado por Douglas Cutting, entonces en Yahoo, que proporciona el procesamiento distribuido altamente confiable de grandes conjuntos de datos utilizando modelos de programación simples.
Hadoop superó las limitaciones de escalabilidad de Nutch y está construido sobre clusters de ordenadores básicos, lo que proporciona una solución rentable para almacenar y procesar cantidades masivas de datos estructurados, semiestructurados y no estructurados sin requisitos de formato.
Una arquitectura de data lake que incluya Hadoop puede ofrecer una solución de gestión de datos flexible para sus iniciativas de análisis de big data. Puesto que Hadoop es un proyecto de código abierto y sigue un modelo de computación distribuida, puede ofrecer precios económicos para una solución de almacenamiento y software de big data.
Hadoop también se puede instalar en servidores en la nube para administrar mejor los recursos informáticos y de almacenamiento necesarios para big data. Para mayor comodidad, el agente del SO Linux, el agente del SO UNIX y el agente del SO Windows están preconfigurados y pueden iniciarse automáticamente. Los principales proveedores de nube, como Amazon Web Services (AWS) y Microsoft Azure, ofrecen soluciones. Cloudera admite la carga de trabajo de Hadoop tanto en las instalaciones como en la nube, incluyendo opciones para uno o más entornos de nube pública de múltiples proveedores. Utilice las API de monitorización de Hadoop para agregar, actualizar, eliminar y ver los clústeres y servicios en los clústeres, y para todos los demás tipos de monitorización en Hadoop.
El marco Hadoop, creado por Apache Software Foundation, incluye:
Mejore Hadoop con proyectos de software de código abierto adicionales.
Una herramienta basada en la web para el aprovisionamiento, la gestión y la monitorización de clústeres Hadoop.
Un sistema de serialización de datos.
Una base de datos NoSQL escalable diseñada para no tener un único punto de anomalía.
Un sistema de recopilación de datos para la monitorización de grandes sistemas distribuidos; construido sobre HDFS y MapReduce.
Un servicio para recopilar, agregar y mover grandes cantidades de datos de transmisión a HDFS.
Una base de datos distribuida, escalable y no relacional, que admite el almacenamiento de datos estructurados para tablas muy grandes.
Una infraestructura de almacenamiento de datos para la consulta de datos, el almacenamiento de metadatos para tablas y el análisis en una interfaz similar a SQL.
Una biblioteca escalable de machine learning y minería de datos.
Un Workload Scheduler basado en Java para gestionar los trabajos de Hadoop.
Un lenguaje de flujo de datos de alto nivel y marco de ejecución para computación paralela.
Una herramienta para transferir datos de manera eficiente entre Hadoop y almacenes de datos estructurados, como bases de datos relacionales.
Una plataforma unificada de IA para ejecutar cargas de trabajo de machine learning y deep learning en un clúster distribuido.
Un marco de programación de flujo de datos generalizado, construido sobre YARN; se está adoptando dentro del ecosistema Hadoop para sustituir a MapReduce.
Un servicio de coordinación de alto rendimiento para aplicaciones distribuidas.
Apache Hadoop se escribió en Java, pero dependiendo del proyecto de big data, los desarrolladores pueden programar en el lenguaje que prefieran, como Python, R o Scala. La utilidad Hadoop Streaming incluida permite a los desarrolladores crear y ejecutar trabajos MapReduce con cualquier script o ejecutable como mapeador o reductor.
Apache Spark a menudo se compara con Hadoop, ya que también es un marco de código abierto para grandes procesos de datos. De hecho, Spark se creó inicialmente para mejorar el rendimiento del procesamiento y ampliar los tipos de cálculos posibles con Hadoop MapReduce. Spark utiliza el procesamiento en memoria, que le confiere una velocidad muy superior a las capacidades de lectura/escritura de MapReduce.
Si bien Hadoop es mejor para el procesamiento por lotes de grandes volúmenes de datos, Spark admite tanto procesos de datos por lotes como en tiempo real, y es ideal para transmisiones de datos y cálculos gráficos. Tanto Hadoop como Spark disponen de bibliotecas de machine learning, pero de nuevo, debido al procesamiento en memoria, el machine learning de Spark es mucho más rápido.
Mejores decisiones basadas en datos: Integre datos en tiempo real (transmisión de audio, vídeo, sentimiento en las redes sociales y datos de flujo de clics) y otros datos semiestructurados y datos no estructurados que no se utilizan en un almacén de datos o una base de datos relacional. Unos datos más completos permiten tomar decisiones más precisas.
Acceso a datos y análisis mejorados: Impulse el acceso de autoservicio en tiempo real para sus expertos en ciencia de datos, propietarios de líneas de negocio (LOB) y desarrolladores. Hadoop puede impulsar la ciencia de datos, un campo interdisciplinar que utiliza datos, algoritmos, machine learning e IA para realizar análisis avanzados que revelen patrones y construyan predicciones.
Descarga y consolidación de datos: racionalice los costes en el almacén de datos de su empresa moviendo datos "fríos" que no se utilizan actualmente a una distribución basada en Hadoop para su almacenamiento, o consolide los datos en toda la organización para aumentar la accesibilidad y reducir los costes.
Diseñe una estrategia de datos que elimine los silos, reduzca la complejidad y mejore la calidad de los datos para ofrecer experiencias excepcionales a clientes y empleados.
Watsonx.data le permite escalar el análisis y la IA con todos sus datos, residan donde residan, a través de un almacén de datos abierto, híbrido y controlado.
Desbloquee el valor de los datos empresariales con IBM Consulting y construya una organización impulsada por conocimientos que ofrezca ventajas empresariales.