¿Qué es Apache Hadoop?
Suscríbase al boletín de IBM
Persona sentada en una mesa de oficina y utilizando un ordenador portátil

Apache Hadoop es un marco de software de código abierto que proporciona un procesamiento distribuido altamente fiable de grandes conjuntos de datos utilizando modelos de programación simples. Hadoop, conocido por su escalabilidad, se basa en clústeres de ordenadores básicos y ofrece una solución rentable para almacenar y procesar cantidades masivas de datos estructurados, semiestructurados y datos no estructurados sin requisitos de formato.

Una arquitectura de data lake que incluya Hadoop puede ofrecer una solución de gestión de datos flexible para sus iniciativas de analytics de big data. Dado que Hadoop es un proyecto de software de código abierto y sigue un modelo de computación distribuida, puede ofrecer un coste total de propiedad más bajo para una solución de software y almacenamiento de big data.

Hadoop también se puede instalar en servidores en la nube para administrar mejor los recursos informáticos y de almacenamiento necesarios para big data. Los principales proveedores de nube, como Amazon Web Services (AWS) y Microsoft Azure, ofrecen soluciones. Cloudera admite la carga de trabajo de Hadoop tanto en local como en la nube, incluyendo opciones para uno o más entornos de nube pública de múltiples proveedores.

El ecosistema Hadoop

El marco Hadoop, creado por Apache Software Foundation, incluye:

  • Hadoop Common: Las utilidades y bibliotecas comunes compatibles con los demás módulos de Hadoop. También conocido como Hadoop Core.

  • Hadoop HDFS (Hadoop Distributed File System): Un sistema de archivos distribuido para almacenar datos de aplicaciones en hardware básico. Proporciona acceso de alto rendimiento a los datos y una alta tolerancia a los fallos. La arquitectura HDFS cuenta con un NameNode para gestionar el espacio de nombres del sistema de archivos y el acceso a los archivos y múltiples DataNodes para gestionar el almacenamiento de datos.

  • Hadoop YARN: Un marco para gestionar los recursos del clúster y programar trabajos. YARN son las siglas de "Yet Another Resource Negotiator". Admite más cargas de trabajo, como SQL interactivo, modelado avanzado y transmisión en tiempo real.

  • Hadoop MapReduce: Un sistema basado en YARN para el procesamiento paralelo de grandes conjuntos de datos.

  • Hadoop Ozone: Un almacén de objetos escalable, redundante y distribuido diseñado para aplicaciones de big data.
Apoyo a proyectos Apache

Mejore Hadoop con proyectos de software de código abierto adicionales.

Ambari

Una herramienta basada en la web para el aprovisionamiento, la gestión y la monitorización de clústeres Hadoop.

Avro

Un sistema de serialización de datos.

Más información sobre Avro
Cassandra

Una base de datos NoSQL escalable diseñada para no tener un único punto de anomalía.

Chukwa

Un sistema de recopilación de datos para la monitorización de grandes sistemas distribuidos; construido sobre HDFS y MapReduce.

Flume

Un servicio para recopilar, agregar y mover grandes cantidades de datos de transmisión a HDFS.

HBase

Una base de datos distribuida, escalable y no relacional, que admite el almacenamiento de datos estructurados para tablas muy grandes.

Más información sobre HBase
Hive

Una infraestructura de almacén de datos para la consulta y el análisis de datos en una interfaz similar a SQL.

Mahout

Una biblioteca escalable de machine learning y minería de datos.

Oozie

Un Workload Scheduler basado en Java para gestionar los trabajos de Hadoop.

Pig

Un lenguaje de flujo de datos de alto nivel y marco de ejecución para computación paralela.

Sqoop

Una herramienta para transferir datos de manera eficiente entre Hadoop y almacenes de datos estructurados, como bases de datos relacionales.

Submarine

Una plataforma unificada de IA para ejecutar cargas de trabajo de machine learning y deep learning en un clúster distribuido.

Tez

Un marco de programación de flujo de datos generalizado, construido sobre YARN; se está adoptando dentro del ecosistema Hadoop para sustituir a MapReduce.

Zookeeper

Un servicio de coordinación de alto rendimiento para aplicaciones distribuidas.

Hadoop para desarrolladores

Apache Hadoop se escribió en Java, pero dependiendo del proyecto de big data, los desarrolladores pueden programar en el lenguaje que prefieran, como Python, R o Scala. La utilidad Hadoop Streaming incluida permite a los desarrolladores crear y ejecutar trabajos MapReduce con cualquier script o ejecutable como mapeador o reductor.

Spark frente a Hadoop.

Apache Spark a menudo se compara con Hadoop, ya que también es un marco de código abierto para grandes procesos de datos. De hecho, Spark se creó inicialmente para mejorar el rendimiento del procesamiento y ampliar los tipos de cálculos posibles con Hadoop MapReduce. Spark utiliza el procesamiento en memoria, que le confiere una velocidad muy superior a las capacidades de lectura/escritura de MapReduce.

Si bien Hadoop es mejor para el procesamiento por lotes de grandes volúmenes de datos, Spark admite tanto procesos de datos por lotes como en tiempo real, y es ideal para transmisiones de datos y cálculos gráficos. Tanto Hadoop como Spark disponen de bibliotecas de machine learning, pero de nuevo, debido al procesamiento en memoria, el machine learning de Spark es mucho más rápido.

Más información sobre Apache Spark
Casos prácticos de Hadoop

Mejores decisiones basadas en datos: Integre datos en tiempo real (transmisión de audio, vídeo, sentimiento en las redes sociales y datos de flujo de clics) y otros datos semiestructurados y datos no estructurados que no se utilizan en un almacén de datos o una base de datos relacional. Unos datos más completos permiten tomar decisiones más precisas.

Acceso a datos y análisis mejorados: Impulse el acceso de autoservicio en tiempo real para sus expertos en ciencia de datos, propietarios de líneas de negocio (LOB) y desarrolladores. Hadoop puede impulsar la ciencia de datos, un campo interdisciplinar que utiliza datos, algoritmos, machine learning e IA para realizar análisis avanzados que revelen patrones y construyan predicciones.

Descarga y consolidación de datos: Racionalice los costes en el almacén de datos de su empresa moviendo datos "fríos" que no se utilizan actualmente a una distribución basada en Hadoop para su almacenamiento, o consolide los datos en toda la organización para aumentar la accesibilidad y reducir los costes.

Soluciones relacionadas
{Etiqueta de categoría de producto genérico} IBM y Cloudera

Apoye el análisis predictivo y prescriptivo para la IA actual. Combine la distribución Hadoop de nivel empresarial de Cloudera con un único ecosistema de productos y servicios integrados de IBM y Cloudera para mejorar la detección de datos, las pruebas y las consultas ad hoc y casi en tiempo real. Aproveche la colaboración entre IBM y Cloudera para ofrecer soluciones empresariales de Hadoop.

Explore IBM y Cloudera

{Etiqueta de categoría de producto genérico} IBM® Db2® Big SQL

Utilice un motor SQL en Hadoop híbrido de nivel empresarial y compatible con ANSI para proporcionar procesos en paralelo masivos (MPP) y consultas de datos avanzadas.

Explore Db2 Big SQL

{Etiqueta de categoría de producto genérico} IBM Big Replicate

Replique los datos a medida que se transmiten para que no sea necesario escribir o cerrar completamente los archivos antes de transferirlos.

Explore Big Replicate
Bases de datos de código abierto

Capitalice de forma más rentable el big data con bases de datos de código abierto de proveedores líderes como MongoDB y EDB.

Explore las bases de datos de código abierto

Recursos IBM + Cloudera

Vea cómo están impulsando analytics avanzado con un data lake de nivel empresarial, seguro, gobernado y basado en código abierto.

Cómo conectar más datos

Agregue un data lake a su estrategia de gestión de datos para integrar más datos no estructurados y obtener un conocimiento más profundo.

Un data lake sólido y controlado para IA

Explore las tecnologías de almacenamiento y gobierno necesarias para que su data lake proporcione datos listos para la IA.

Gobierno de data lakes

Descubra cómo las soluciones de gobierno de eficacia probada pueden mejorar la integración, la calidad y la seguridad de sus data lakes.

Cursos de analytics de big data

Elija su itinerario de aprendizaje en Your Learning, en función de su nivel de conocimientos, entre cursos gratuitos sobre ciencia de datos, IA, big data y mucho más.

Comunidad de código abierto

Únase a la comunidad IBM de gestión de datos de código abierto para obtener colaboración, recursos y mucho más.

De el siguiente paso

IBM y Cloudera se han asociado para crear unos servicios de datos e IA de nivel empresarial líderes en el sector que utilizan ecosistemas de código abierto, todos ellos diseñados para obtener datos y análisis más rápidos y a escala. Construya modelos en colaboración para aplicarlos a los flujos de corriente y analizar cantidades masivas de datos en tiempo real. Dé sentido a sus datos (de texto no estructurado, de vídeo, de audio, geoespaciales y de sensores) para poder detectar oportunidades y riesgos en el momento en que se producen.

Explore las soluciones de IBM y Cloudera