Apache Hadoop es un marco de software de código abierto desarrollado por Douglas Cutting, entonces en Yahoo, que proporciona el procesamiento distribuido altamente confiable de grandes conjuntos de datos utilizando modelos de programación simples.
Hadoop superó las limitaciones de escalabilidad de Nutch y está construido sobre clusters de ordenadores básicos, lo que proporciona una solución rentable para almacenar y procesar cantidades masivas de datos estructurados, semiestructurados y no estructurados sin requisitos de formato.
Una arquitectura de data lake que incluya Hadoop puede ofrecer una solución de gestión de datos flexible para sus iniciativas de análisis de big data . Puesto que Hadoop es un proyecto de código abierto y sigue un modelo de computación distribuida, puede ofrecer precios económicos para una solución de almacenamiento y software de big data.
Hadoop también se puede instalar en servidores en la nube para administrar mejor los recursos informáticos y de almacenamiento necesarios para big data. Para mayor comodidad, el agente del SO Linux, el agente del SO UNIX y el agente del SO Windows están preconfigurados y pueden iniciarse automáticamente. Los principales proveedores de nube, como Amazon Web Services (AWS) y Microsoft Azure, ofrecen soluciones. Cloudera admite la carga de trabajo de Hadoop tanto en las instalaciones como en la nube, incluyendo opciones para uno o más entornos de nube pública de múltiples proveedores. Utilice las API de monitorización de Hadoop para agregar, actualizar, eliminar y ver los clústeres y servicios en los clústeres, y para todos los demás tipos de supervisión en Hadoop.
Descubra el poder de integrar una estrategia basada en un lakehouse de datos en su arquitectura de datos, incluidas las mejoras para escalar la IA y las oportunidades de optimización de costes.
Regístrese para obtener el informe técnico sobre el gobierno de la IA
El marco Hadoop, creado por Apache Software Foundation, incluye:
Mejore Hadoop con proyectos de software de código abierto adicionales.
Una herramienta basada en la web para el aprovisionamiento, la gestión y la monitorización de clústeres Hadoop.
Un sistema de serialización de datos.
Una base de datos NoSQL escalable diseñada para no tener un único punto de anomalía.
Un sistema de recopilación de datos para la monitorización de grandes sistemas distribuidos; construido sobre HDFS y MapReduce.
Un servicio para recopilar, agregar y mover grandes cantidades de datos de transmisión a HDFS.
Una base de datos distribuida, escalable y no relacional, que admite el almacenamiento de datos estructurados para tablas muy grandes.
Una infraestructura de almacenamiento de datos para la consulta de datos, el almacenamiento de metadatos para tablas y el análisis en una interfaz similar a SQL.
Una biblioteca escalable de machine learning y minería de datos.
Un Workload Scheduler basado en Java para gestionar los trabajos de Hadoop.
Un lenguaje de flujo de datos de alto nivel y marco de ejecución para computación paralela.
Una herramienta para transferir datos de manera eficiente entre Hadoop y almacenes de datos estructurados, como bases de datos relacionales.
Una plataforma unificada de IA para ejecutar cargas de trabajo de machine learning y deep learning en un clúster distribuido.
Un marco de programación de flujo de datos generalizado, construido sobre YARN; se está adoptando dentro del ecosistema Hadoop para sustituir a MapReduce.
Un servicio de coordinación de alto rendimiento para aplicaciones distribuidas.
Apache Hadoop se escribió en Java, pero dependiendo del proyecto de big data, los desarrolladores pueden programar en el lenguaje que prefieran, como Python, R o Scala. La utilidad Hadoop Streaming incluida permite a los desarrolladores crear y ejecutar trabajos MapReduce con cualquier script o ejecutable como mapeador o reductor.
Apache Spark a menudo se compara con Hadoop, ya que también es un marco de código abierto para grandes procesos de datos. De hecho, Spark se creó inicialmente para mejorar el rendimiento del procesamiento y ampliar los tipos de cálculos posibles con Hadoop MapReduce. Spark utiliza el procesamiento en memoria, que le confiere una velocidad muy superior a las capacidades de lectura/escritura de MapReduce.
Si bien Hadoop es mejor para el procesamiento por lotes de grandes volúmenes de datos, Spark admite tanto procesos de datos por lotes como en tiempo real, y es ideal para transmisiones de datos y cálculos gráficos. Tanto Hadoop como Spark disponen de bibliotecas de machine learning, pero de nuevo, debido al procesamiento en memoria, el machine learning de Spark es mucho más rápido.
Mejores decisiones basadas en datos: Integre datos en tiempo real (transmisión de audio, vídeo, sentimiento en las redes sociales y datos de flujo de clics) y otros datos semiestructurados y datos no estructurados que no se utilizan en un almacén de datos o una base de datos relacional. Unos datos más completos permiten tomar decisiones más precisas.
Acceso a datos y análisis mejorados: Impulse el acceso de autoservicio en tiempo real para sus expertos en ciencia de datos, propietarios de líneas de negocio (LOB) y desarrolladores. Hadoop puede impulsar la ciencia de datos, un campo interdisciplinar que utiliza datos, algoritmos, machine learning e IA para realizar análisis avanzados que revelen patrones y construyan predicciones.
Descarga y consolidación de datos: racionalice los costes en el almacén de datos de su empresa moviendo datos "fríos" que no se utilizan actualmente a una distribución basada en Hadoop para su almacenamiento, o consolide los datos en toda la organización para aumentar la accesibilidad y reducir los costes.
Apoye el análisis predictivo y prescriptivo para la IA actual. Combine la distribución Hadoop de nivel empresarial de Cloudera con un único ecosistema de productos y servicios integrados de IBM y Cloudera para mejorar la detección de datos, las pruebas y las consultas ad hoc y casi en tiempo real. Aproveche la colaboración entre IBM y Cloudera para ofrecer soluciones empresariales de Hadoop.
Utilice un motor SQL en Hadoop híbrido de nivel empresarial y compatible con ANSI para proporcionar procesos en paralelo masivos (MPP) y consultas de datos avanzadas.
Replique los datos a medida que se transmiten para que no sea necesario escribir o cerrar completamente los archivos antes de transferirlos.
Capitalice de forma más rentable el big data con bases de datos de código abierto de proveedores líderes como MongoDB y EDB.
Vea cómo están impulsando analytics avanzado con un data lake de nivel empresarial, seguro, gobernado y basado en código abierto.
Agregue un data lake a su estrategia de gestión de datos para integrar más datos no estructurados y obtener un conocimiento más profundo.
Explore las tecnologías de almacenamiento y gobierno necesarias para que su data lake proporcione datos listos para la IA.
Descubra cómo las soluciones de gobierno de eficacia probada pueden mejorar la integración, la calidad y la seguridad de sus data lakes.
Elija su itinerario de aprendizaje en Your Learning, en función de su nivel de conocimientos, entre cursos gratuitos sobre ciencia de datos, IA, big data y mucho más.
Únase a la comunidad IBM de gestión de datos de código abierto para obtener colaboración, recursos y mucho más.