¿Qué es Hadoop?

¿Qué es Apache Hadoop?

Apache Hadoop es un marco de software de código abierto desarrollado por Douglas Cutting, entonces en Yahoo, que proporciona el procesamiento distribuido altamente confiable de grandes conjuntos de datos utilizando modelos de programación simples.

Hadoop superó las limitaciones de escalabilidad de Nutch y está construido sobre clusters de ordenadores básicos, lo que proporciona una solución rentable para almacenar y procesar cantidades masivas de datos estructurados, semiestructurados y no estructurados sin requisitos de formato.

Una arquitectura de data lake que incluya Hadoop puede ofrecer una solución de gestión de datos flexible para sus iniciativas de análisis de big data . Puesto que Hadoop es un proyecto de código abierto y sigue un modelo de computación distribuida, puede ofrecer precios económicos para una solución de almacenamiento y software de big data.

Hadoop también se puede instalar en servidores en la nube para administrar mejor los recursos informáticos y de almacenamiento necesarios para big data. Para mayor comodidad, el agente del SO Linux, el agente del SO UNIX y el agente del SO Windows están preconfigurados y pueden iniciarse automáticamente. Los principales proveedores de nube, como Amazon Web Services (AWS) y Microsoft Azure, ofrecen soluciones. Cloudera admite la carga de trabajo de Hadoop tanto en las instalaciones como en la nube, incluyendo opciones para uno o más entornos de nube pública de múltiples proveedores. Utilice las API de monitorización de Hadoop para agregar, actualizar, eliminar y ver los clústeres y servicios en los clústeres, y para todos los demás tipos de supervisión en Hadoop.

El almacén de datos para la IA

Descubra el poder de integrar una estrategia basada en un lakehouse de datos en su arquitectura de datos, incluidas las mejoras para escalar la IA y las oportunidades de optimización de costes.

Contenido relacionado

Regístrese para obtener el informe técnico sobre el gobierno de la IA

El ecosistema Hadoop

El marco Hadoop, creado por Apache Software Foundation, incluye:

Hadoop Common: Las utilidades y bibliotecas comunes compatibles con los demás módulos de Hadoop. También conocido como Hadoop Core.
Hadoop HDFS (Hadoop Distributed File System): un sistema de archivos distribuido para almacenar datos de aplicaciones en hardware básico. HDFS se diseñó para proporcionar tolerancia a errores para Hadoop y proporciona un gran ancho de banda de datos agregados y un acceso de alto rendimiento a los datos. De forma predeterminada, los bloques de datos se replican en varios nodos en el momento de la carga o la escritura. El grado de replicación es configurable: la replicación predeterminada es tres. La arquitectura HDFS cuenta con un NameNode para gestionar el espacio de nombres del sistema de archivos y el acceso a los archivos y múltiples DataNodes para gestionar el almacenamiento de datos. Al habilitar la alta disponibilidad, se puede utilizar un nodo secundario cuando un nodo activo deja de funcionar.
Hadoop YARN: Apache Hadoop YARN de código abierto es un marco para la programación de trabajos y la gestión de recursos de clúster que se puede utilizar con IBM Spectrum Symphony en Linux y Linux en POWER. YARN son las siglas de "Yet Another Resource Negotiator". Admite más cargas de trabajo, como SQL interactivo, modelado avanzado y transmisión en tiempo real.
Hadoop MapReduce: un sistema basado en YARN que almacena datos en múltiples fuentes y poderes para el procesamiento paralelo de grandes cantidades de datos. Hay varias técnicas de optimización disponibles para que MapReduce acelere los trabajos.
Hadoop Ozone: Un almacén de objetos escalable, redundante y distribuido diseñado para aplicaciones de big data.

Apoyo a proyectos Apache

Mejore Hadoop con proyectos de software de código abierto adicionales.

Ambari

Una herramienta basada en la web para el aprovisionamiento, la gestión y la monitorización de clústeres Hadoop.

Avro

Un sistema de serialización de datos.

Más información sobre Avro

Cassandra

Una base de datos NoSQL escalable diseñada para no tener un único punto de anomalía.

Chukwa

Un sistema de recopilación de datos para la monitorización de grandes sistemas distribuidos; construido sobre HDFS y MapReduce.

Flume

Un servicio para recopilar, agregar y mover grandes cantidades de datos de transmisión a HDFS.

HBase

Una base de datos distribuida, escalable y no relacional, que admite el almacenamiento de datos estructurados para tablas muy grandes.

Más información sobre Apache HBase

Hive

Una infraestructura de almacenamiento de datos para la consulta de datos, el almacenamiento de metadatos para tablas y el análisis en una interfaz similar a SQL.

Más información sobre Apache Hive

Mahout

Una biblioteca escalable de machine learning y minería de datos.

Oozie

Un Workload Scheduler basado en Java para gestionar los trabajos de Hadoop.

Pig

Un lenguaje de flujo de datos de alto nivel y marco de ejecución para computación paralela.

Más información sobre Apache Pig

Sqoop

Una herramienta para transferir datos de manera eficiente entre Hadoop y almacenes de datos estructurados, como bases de datos relacionales.

Submarine

Una plataforma unificada de IA para ejecutar cargas de trabajo de machine learning y deep learning en un clúster distribuido.

Tez

Un marco de programación de flujo de datos generalizado, construido sobre YARN; se está adoptando dentro del ecosistema Hadoop para sustituir a MapReduce.

Zookeeper

Un servicio de coordinación de alto rendimiento para aplicaciones distribuidas.

Hadoop para desarrolladores

Apache Hadoop se escribió en Java, pero dependiendo del proyecto de big data, los desarrolladores pueden programar en el lenguaje que prefieran, como Python, R o Scala. La utilidad Hadoop Streaming incluida permite a los desarrolladores crear y ejecutar trabajos MapReduce con cualquier script o ejecutable como mapeador o reductor.

Spark frente a Hadoop.

Apache Spark a menudo se compara con Hadoop, ya que también es un marco de código abierto para grandes procesos de datos. De hecho, Spark se creó inicialmente para mejorar el rendimiento del procesamiento y ampliar los tipos de cálculos posibles con Hadoop MapReduce. Spark utiliza el procesamiento en memoria, que le confiere una velocidad muy superior a las capacidades de lectura/escritura de MapReduce.

Si bien Hadoop es mejor para el procesamiento por lotes de grandes volúmenes de datos, Spark admite tanto procesos de datos por lotes como en tiempo real, y es ideal para transmisiones de datos y cálculos gráficos. Tanto Hadoop como Spark disponen de bibliotecas de machine learning, pero de nuevo, debido al procesamiento en memoria, el machine learning de Spark es mucho más rápido.

Más información sobre Apache Spark

Casos prácticos de Hadoop

Mejores decisiones basadas en datos: Integre datos en tiempo real (transmisión de audio, vídeo, sentimiento en las redes sociales y datos de flujo de clics) y otros datos semiestructurados y datos no estructurados que no se utilizan en un almacén de datos o una base de datos relacional. Unos datos más completos permiten tomar decisiones más precisas.

Acceso a datos y análisis mejorados: Impulse el acceso de autoservicio en tiempo real para sus expertos en ciencia de datos, propietarios de líneas de negocio (LOB) y desarrolladores. Hadoop puede impulsar la ciencia de datos, un campo interdisciplinar que utiliza datos, algoritmos, machine learning e IA para realizar análisis avanzados que revelen patrones y construyan predicciones.

Descarga y consolidación de datos: racionalice los costes en el almacén de datos de su empresa moviendo datos "fríos" que no se utilizan actualmente a una distribución basada en Hadoop para su almacenamiento, o consolide los datos en toda la organización para aumentar la accesibilidad y reducir los costes.

Soluciones relacionadas

IBM y Cloudera

Apoye el análisis predictivo y prescriptivo para la IA actual. Combine la distribución Hadoop de nivel empresarial de Cloudera con un único ecosistema de productos y servicios integrados de IBM y Cloudera para mejorar la detección de datos, las pruebas y las consultas ad hoc y casi en tiempo real. Aproveche la colaboración entre IBM y Cloudera para ofrecer soluciones empresariales de Hadoop.

Explore IBM y Cloudera

IBM Db2 Big SQL

Utilice un motor SQL en Hadoop híbrido de nivel empresarial y compatible con ANSI para proporcionar procesos en paralelo masivos (MPP) y consultas de datos avanzadas.

Explore Db2 Big SQL

IBM Big Replicate

Replique los datos a medida que se transmiten para que no sea necesario escribir o cerrar completamente los archivos antes de transferirlos.

Explore Big Replicate

Bases de datos de código abierto

Capitalice de forma más rentable el big data con bases de datos de código abierto de proveedores líderes como MongoDB y EDB.

Explore las bases de datos de código abierto

Recursos

IBM + Cloudera

Vea cómo están impulsando analytics avanzado con un data lake de nivel empresarial, seguro, gobernado y basado en código abierto.

Cómo conectar más datos

Agregue un data lake a su estrategia de gestión de datos para integrar más datos no estructurados y obtener un conocimiento más profundo.

Un data lake sólido y controlado para IA

Explore las tecnologías de almacenamiento y gobierno necesarias para que su data lake proporcione datos listos para la IA.

Gobierno del data lake

Descubra cómo las soluciones de gobierno de eficacia probada pueden mejorar la integración, la calidad y la seguridad de sus data lakes.

Cursos de analytics de big data

Elija su itinerario de aprendizaje en Your Learning, en función de su nivel de conocimientos, entre cursos gratuitos sobre ciencia de datos, IA, big data y mucho más.

Comunidad de código abierto

Únase a la comunidad IBM de gestión de datos de código abierto para obtener colaboración, recursos y mucho más.

Dé el siguiente paso

Escale cargas de trabajo de IA, para todos sus datos, en cualquier lugar con IBM watsonx.data, un almacén de datos adaptado construido sobre una arquitectura de lakehouse de datos abierta.

Explore watsonx.data

Solicite una demostración en directo