¿Qué es Apache Hadoop?
Suscríbase al boletín de IBM
Persona sentada en un escritorio de oficina y usando una computadora portátil

Apache Hadoop es una infraestructura de software de código abierto que ofrece procesamiento distribuido muy confiable de grandes conjuntos de datos mediante modelos de programación simples. Hadoop, conocido por su escalabilidad, se basa en clústers de computadoras básicas, lo que proporciona una solución rentable para almacenar y procesar cantidades masivas de datos estructurados, semiestructurados y no estructurados sin requisitos de formato.

Una arquitectura de data lake que incluya Hadoop puede ofrecer una solución de gestión de datos flexible para sus iniciativas de analytics de big data.Debido a que Hadoop es un proyecto de software de código abierto y sigue un modelo de computación distribuida, puede ofrecer un costo total de propiedad más bajo para una solución de almacenamiento y software de big data.

Hadoop también se puede instalar en servidores en la nube para gestionar mejor los recursos informáticos y de almacenamiento necesarios para big data. Los principales proveedores de nube, como Amazon Web Services (AWS) y Microsoft Azure, ofrecen soluciones. Cloudera admite cargas de trabajo de Hadoop tanto locales como en la nube, incluidas opciones para uno o más entornos de nube pública de múltiples proveedores.

El ecosistema Hadoop

La infraestructura de Hadoop, desarrollada por la Apache Software Foundation, incluye:

  • Hadoop común: las utilidades y bibliotecas comunes que admiten los otros módulos de Hadoop. También conocido como Hadoop Core.

  • Hadoop HDFS (Hadoop Distributed File System): un sistema de archivos distribuido para almacenar datos de aplicaciones en hardware básico. Proporciona acceso de alto rendimiento a los datos y alta tolerancia a fallos. La arquitectura HDFS presenta un NameNode para administrar el espacio de nombres del sistema de archivos y el acceso a archivos y múltiples DataNodes para gestionar el almacenamiento de datos.

  • Hadoop YARN:  una infraestructura para la gestión de recursos del clúster y programación de trabajos. YARN significa Yet Another Resource Negotiator. Admite más cargas de trabajo, como SQL interactivo, modelado avanzado y transmisión en tiempo real.

  • Hadoop MapReduce: un sistema basado en YARN para el procesamiento paralelo de grandes conjuntos de datos.

  • Hadoop Ozone: un almacén de objetos escalable, redundante y distribuido diseñado para aplicaciones de big data.
Soporte para proyectos de Apache

Mejore Hadoop con proyectos de software de código abierto adicionales.

Ambari

Una herramienta web para aprovisionar, gestionar y monitorear clústeres de Hadoop.

Avro

Un sistema de serialización de datos.

Más información sobre Avro
Cassandra

Una base de datos NoSQL escalable diseñada para no tener un único punto de falla.

Chukwa

Un sistema de recopilación de datos para monitorear grandes sistemas distribuidos; desarrollado sobre HDFS y MapReduce.

Flume

Un servicio para recopilar, agregar y mover grandes cantidades de datos en streaming a HDFS.

HBase

Una base de datos distribuida escalable y no relacional que admite el almacenamiento de datos estructurados para tablas muy grandes.

Más información sobre HBase
Hive

Una infraestructura de almacén de datos para consulta y análisis de datos en una interfaz similar a SQL.

Mahout

Una biblioteca escalable de aprendizaje automático y minería de datos.

Oozie

Un programador de carga de trabajo basado en Java para gestionar trabajos de Hadoop.

Pig

Un lenguaje de flujo de datos de alto nivel e infraestructura de ejecución para computación paralela.

Sqoop

Una herramienta para transferir datos de manera eficiente entre Hadoop y el almacenamiento de datos estructurados, como bases de datos relacionales.

Submarine

Una plataforma de IA unificada para ejecutar cargas de trabajo de aprendizaje automático y aprendizaje profundo en un clúster distribuido.

Tez

Una infraestructura de programación de flujo de datos generalizado, desarrollada sobre YARN; se adoptó dentro del ecosistema Hadoop para reemplazar MapReduce.

Zookeeper

Un servicio de coordinación de alto rendimiento para aplicaciones distribuidas.

Hadoop para desarrolladores

Apache Hadoop fue escrito en Java, pero, dependiendo del proyecto de big data, los desarrolladores pueden programar en el lenguaje que elijan, como Python, R o Scala. La utilidad Hadoop Streaming incluida permite a los desarrolladores crear y ejecutar trabajos de MapReduce con cualquier script o ejecutable como asignador o reductor.

Spark vs. Hadoop

Apache Spark a menudo se compara con Hadoop, ya que también es una infraestructura de código abierto para el procesamiento de big data. De hecho, Spark se creó inicialmente para mejorar el rendimiento del procesamiento y ampliar los tipos de cálculos posibles con Hadoop MapReduce. Spark utiliza procesamiento en memoria, lo que significa que es mucho más rápido que las capacidades de lectura/escritura de MapReduce.

Si bien Hadoop es mejor para el procesamiento por lotes de grandes volúmenes de datos, Spark admite el procesamiento de datos por lotes y en tiempo real, y es ideal para la transmisión de datos y cálculos gráficos. Tanto Hadoop como Spark tienen bibliotecas de aprendizaje automático, pero, nuevamente, debido al procesamiento en memoria, el aprendizaje automático de Spark es mucho más rápido.

Más información sobre Apache Spark
Casos de uso de Hadoop

Mejores decisiones basadas en datos: integre datos en tiempo real (transmisión de audio, video, sentimiento de las redes sociales y datos de secuencia de clics) y otros datos semiestructurados y no estructurados que no se utilizan en un almacén de datos o una base de datos relacional. Unos datos más completos proporcionan decisiones más precisas.

Acceso y análisis de datos mejorados: impulse el acceso de autoservicio en tiempo real para sus científicos de datos, propietarios de líneas de negocio (LOB) y desarrolladores. Hadoop puede impulsar la ciencia de datos, un campo interdisciplinario que utiliza datos, algoritmos, aprendizaje automático e IA para análisis avanzados para revelar patrones y generar predicciones.

Descarga y consolidación de datos: agilice los costos en el almacén de datos de su empresa moviendo datos "fríos" que no se utilizan actualmente a una distribución basada en Hadoop para su almacenamiento. O consolide datos en toda la organización para aumentar la accesibilidad y reducir los costos.

Soluciones relacionadas
{Generic product category label} IBM y Cloudera

Admita los analytics predictivos y prescriptivos para la IA actual.Combine la distribución de Hadoop de nivel empresarial de Cloudera con un único ecosistema de productos y servicios integrados de IBM y Cloudera para mejorar el descubrimiento de datos, las pruebas y las consultas ad hoc y casi en tiempo real. Aproveche la colaboración entre IBM y Cloudera para ofrecer soluciones empresariales de Hadoop.

Conozca IBM y Cloudera

{Generic product category label} IBM® Db2 Big SQL

Utilice un motor SQL-on-Hadoop híbrido de nivel empresarial, compatible con ANSI, para ofrecer procesamiento paralelo masivo (MPP) y consultas de datos avanzadas.

Conozca Db2 Big SQL

{Generic product category label} IBM Big Replicate

Replique los datos a medida que se transmiten para que no sea necesario escribir o cerrar completamente los archivos antes de transferirlos.

Conozca Big Replicate
Bases de datos de código abierto

Aproveche de forma más rentable los big data con bases de datos de código abierto de proveedores líderes como MongoDB y EDB.

Conozca las bases de datos de código abierto

Recursos IBM + Cloudera

Vea cómo están impulsando analytics avanzados con un data lake de nivel empresarial, seguro, gobernado y basado en código abierto.

Cómo conectar más datos

Agregue un data lake a su estrategia de gestión de datos para integrar más datos no estructurados y obtener insights más profundos.

Un data lake robusto y gobernado para la IA

Conozca la tecnología de almacenamiento y gobernanza necesaria para que su lago de datos entregue datos listos para IA.

Gobernanza del data lake

Vea cómo las soluciones de gobernanza comprobadas pueden impulsar una mejor integración, calidad y seguridad de los datos para sus data lakes.

Cursos de analytics de big data

Elija su ruta de aprendizaje, en función de su nivel de conocimientos, entre cursos gratuitos sobre ciencia de datos, IA, big data y mucho más.

Comunidad de código abierto

Únase a la comunidad de IBM para la gestión de datos de código abierto para colaboración, recursos y más.

Dé el siguiente paso

IBM y Cloudera se asociaron para crear servicios de IA y datos de nivel empresarial líderes en la industria mediante ecosistemas de código abierto, que están diseñados para lograr datos y analytics más rápidos a escala. Cree modelos de forma colaborativa para aplicarlos a los flujos de flujo y analice cantidades masivas de datos en tiempo real. Dé sentido a sus datos (texto no estructurado, video, audio, geoespaciales y sensores) para que pueda detectar oportunidades y riesgos a medida que surgen.

Conozca las soluciones de IBM y Cloudera