¿Qué es Apache Hadoop?

Grupo diverso de diseñadores trabajando en ordenadores en una oficina

¿Qué es Apache Hadoop?

Apache Hadoop es un marco de software de código abierto desarrollado por Douglas Cutting, entonces en Yahoo, que proporciona el procesamiento distribuido altamente confiable de grandes conjuntos de datos utilizando modelos de programación simples.

Hadoop superó las limitaciones de escalabilidad de Nutch y está construido sobre clusters de ordenadores básicos, lo que proporciona una solución rentable para almacenar y procesar cantidades masivas de datos estructurados, semiestructurados y no estructurados sin requisitos de formato.

Una arquitectura de data lake que incluya Hadoop puede ofrecer una solución de gestión de datos flexible para sus iniciativas de análisis de big data. Puesto que Hadoop es un proyecto de código abierto y sigue un modelo de computación distribuida, puede ofrecer precios económicos para una solución de almacenamiento y software de big data.

Hadoop también se puede instalar en servidores en la nube para administrar mejor los recursos informáticos y de almacenamiento necesarios para big data. Para mayor comodidad, el agente del SO Linux, el agente del SO UNIX y el agente del SO Windows están preconfigurados y pueden iniciarse automáticamente. Los principales proveedores de nube, como Amazon Web Services (AWS) y Microsoft Azure, ofrecen soluciones. Cloudera admite la carga de trabajo de Hadoop tanto en las instalaciones como en la nube, incluyendo opciones para uno o más entornos de nube pública de múltiples proveedores. Utilice las API de monitorización de Hadoop para agregar, actualizar, eliminar y ver los clústeres y servicios en los clústeres, y para todos los demás tipos de monitorización en Hadoop.

Diseño 3D de bolas rodando por un circuito

Las últimas noticias + conocimientos de IA  

Descubra ideas y noticias de expertos sobre IA, nube y mucho más en el boletín semanal Think.

El ecosistema Hadoop

El marco Hadoop, creado por Apache Software Foundation, incluye:

Hadoop Common: Las utilidades y bibliotecas comunes compatibles con los demás módulos de Hadoop. También conocido como Hadoop Core.
Hadoop HDFS (Hadoop Distributed File System): un sistema de archivos distribuido para almacenar datos de aplicaciones en hardware básico. HDFS se diseñó para proporcionar tolerancia a errores para Hadoop y proporciona un gran ancho de banda de datos agregados y un acceso de alto rendimiento a los datos. De forma predeterminada, los bloques de datos se replican en varios nodos en el momento de la carga o la escritura. El grado de replicación es configurable: la replicación predeterminada es tres. La arquitectura HDFS cuenta con un NameNode para gestionar el espacio de nombres del sistema de archivos y el acceso a los archivos y múltiples DataNodes para gestionar el almacenamiento de datos. Al habilitar la alta disponibilidad, se puede utilizar un nodo secundario cuando un nodo activo deja de funcionar.
Hadoop YARN: Apache Hadoop YARN de código abierto es un marco para la programación de trabajos y la gestión de recursos de clúster que se puede utilizar con IBM Spectrum Symphony en Linux y Linux en POWER. YARN son las siglas de "Yet Another Resource Negotiator". Admite más cargas de trabajo, como SQL interactivo, modelado avanzado y transmisión en tiempo real.
Hadoop MapReduce: un sistema basado en YARN que almacena datos en múltiples fuentes y poderes para el procesamiento paralelo de grandes cantidades de datos. Hay varias técnicas de optimización disponibles para que MapReduce acelere los trabajos.
Hadoop Ozone: Un almacén de objetos escalable, redundante y distribuido diseñado para aplicaciones de big data.

AI Academy

¿Es la gestión de datos el secreto de la IA generativa?

Explore por qué los datos de alta calidad son esenciales para el uso satisfactorio de la IA generativa.

Ir al episodio

Apoyo a proyectos Apache

Mejore Hadoop con proyectos de software de código abierto adicionales.

Ambari

Una herramienta basada en la web para el aprovisionamiento, la gestión y la monitorización de clústeres Hadoop.

Avro

Un sistema de serialización de datos.

Cassandra

Una base de datos NoSQL escalable diseñada para no tener un único punto de anomalía.

Chukwa

Un sistema de recopilación de datos para la monitorización de grandes sistemas distribuidos; construido sobre HDFS y MapReduce.

Flume

Un servicio para recopilar, agregar y mover grandes cantidades de datos de transmisión a HDFS.

HBase

Una base de datos distribuida, escalable y no relacional, que admite el almacenamiento de datos estructurados para tablas muy grandes.

Hive

Una infraestructura de almacenamiento de datos para la consulta de datos, el almacenamiento de metadatos para tablas y el análisis en una interfaz similar a SQL.

Mahout

Una biblioteca escalable de machine learning y minería de datos.

Oozie

Un Workload Scheduler basado en Java para gestionar los trabajos de Hadoop.

Pig

Un lenguaje de flujo de datos de alto nivel y marco de ejecución para computación paralela.

Sqoop

Una herramienta para transferir datos de manera eficiente entre Hadoop y almacenes de datos estructurados, como bases de datos relacionales.

Submarine

Una plataforma unificada de IA para ejecutar cargas de trabajo de machine learning y deep learning en un clúster distribuido.

Tez

Un marco de programación de flujo de datos generalizado, construido sobre YARN; se está adoptando dentro del ecosistema Hadoop para sustituir a MapReduce.

ZooKeeper

Un servicio de coordinación de alto rendimiento para aplicaciones distribuidas.

Hadoop para desarrolladores

Apache Hadoop se escribió en Java, pero dependiendo del proyecto de big data, los desarrolladores pueden programar en el lenguaje que prefieran, como Python, R o Scala. La utilidad Hadoop Streaming incluida permite a los desarrolladores crear y ejecutar trabajos MapReduce con cualquier script o ejecutable como mapeador o reductor.

Spark frente a Hadoop.

Apache Spark a menudo se compara con Hadoop, ya que también es un marco de código abierto para grandes procesos de datos. De hecho, Spark se creó inicialmente para mejorar el rendimiento del procesamiento y ampliar los tipos de cálculos posibles con Hadoop MapReduce. Spark utiliza el procesamiento en memoria, que le confiere una velocidad muy superior a las capacidades de lectura/escritura de MapReduce.

Si bien Hadoop es mejor para el procesamiento por lotes de grandes volúmenes de datos, Spark admite tanto procesos de datos por lotes como en tiempo real, y es ideal para transmisiones de datos y cálculos gráficos. Tanto Hadoop como Spark disponen de bibliotecas de machine learning, pero de nuevo, debido al procesamiento en memoria, el machine learning de Spark es mucho más rápido.

Casos prácticos de Hadoop

Mejores decisiones basadas en datos: Integre datos en tiempo real (transmisión de audio, vídeo, sentimiento en las redes sociales y datos de flujo de clics) y otros datos semiestructurados y datos no estructurados que no se utilizan en un almacén de datos o una base de datos relacional. Unos datos más completos permiten tomar decisiones más precisas.

Acceso a datos y análisis mejorados: Impulse el acceso de autoservicio en tiempo real para sus expertos en ciencia de datos, propietarios de líneas de negocio (LOB) y desarrolladores. Hadoop puede impulsar la ciencia de datos, un campo interdisciplinar que utiliza datos, algoritmos, machine learning e IA para realizar análisis avanzados que revelen patrones y construyan predicciones.

Descarga y consolidación de datos: racionalice los costes en el almacén de datos de su empresa moviendo datos "fríos" que no se utilizan actualmente a una distribución basada en Hadoop para su almacenamiento, o consolide los datos en toda la organización para aumentar la accesibilidad y reducir los costes.

IBM nombrado líder en integración iPaaS, Forrester Wave Q3 2025

Lea el informe para saber por qué Forrester ha clasificado a IBM como líder con la máxima puntuación en la categoría "Oferta actual". Descubra cómo este liderazgo fortalece IBM webMethods MFT al ofrecer transferencias de archivos seguras y escalables dentro de una estrategia de integración empresarial más amplia.

Recursos

Managing Data for AI and Analytics at Scale

Descubra cómo un enfoque de lakehouse de datos abierto puede proporcionar datos fiables y una ejecución más rápida de los proyectos de análisis e IA.

2024 Gartner Magic Quadrant for Data Integration Tools

IBM nombrada Líder por 19.º año consecutivo en el 2024 Gartner Magic Quadrant for Data Integration Tools.

El diferenciador de datos

Explore la guía del líder de datos para crear una organización basada en datos e impulsar la ventaja empresarial.

Incremente la adopción de la IA con datos preparados para ella

Descubra por qué la inteligencia de datos con IA y la integración de datos son críticos a la hora de impulsar la preparación de datos estructurados y no estructurados y acelerar los resultados de IA.

El lakehouse de datos híbrido y abierto para la IA

Simplifique el acceso a los datos y automatice su gobierno. Descubra el potencial de integrar una estrategia de lakehouse de datos en su arquitectura de datos, incluida la optimización de costes de sus cargas de trabajo y el escalado de IA y analítica, con todos sus datos, en cualquier lugar.

Publicaciones sobre gestión de datos de IBM Research

Explore cómo IBM Research se integra de forma regular en las nuevas características de IBM Cloud Pak for Data.

Gartner Predicts 2024: How AI Will Impact Analytics Users

Obtenga unos conocimientos únicos del panorama en evolución de las soluciones ABI, en el que se destaquen las principales conclusiones, suposiciones y recomendaciones para los líderes de datos y análisis.

Soluciones relacionadas

Software y soluciones de gestión de datos

Diseñe una estrategia de datos que elimine los silos, reduzca la complejidad y mejore la calidad de los datos para ofrecer experiencias excepcionales a clientes y empleados.

Explore las soluciones de gestión de datos

IBM watsonx.data

Watsonx.data le permite escalar el análisis y la IA con todos sus datos, residan donde residan, a través de un almacén de datos abierto, híbrido y controlado.

Descubra watsonx.data

Servicios de asesoramiento sobre datos y análisis

Desbloquee el valor de los datos empresariales con IBM Consulting y construya una organización impulsada por conocimientos que ofrezca ventajas empresariales.

Descubra los servicios de análisis

De el siguiente paso

Diseñe una estrategia de datos que elimine los silos, reduzca la complejidad y mejore la calidad de los datos para ofrecer experiencias excepcionales a clientes y empleados.

Explore las soluciones de gestión de datos

Descubra watsonx.data