¿Qué es Hadoop?

Grupo diverso de diseñadores trabajando en computadoras en una oficina

¿Qué es Hadoop?

Hadoop o Apache Hadoop es un marco de software de código abierto desarrollado por Douglas Cutting, antes en Yahoo, que ofrece un procesamiento distribuido altamente confiable de grandes conjuntos de datos a través de modelos de programación simples.

Hadoop superó las limitaciones de escalabilidad de Nutch y se basa en clústeres de computadoras básicas, lo que proporciona una solución rentable para almacenar y procesar cantidades masivas de datos estructurados, semiestructurados y no estructurados sin requisitos de formato.

Una arquitectura de data lake que incluya Hadoop puede ofrecer una solución de gestión de datos flexible para sus iniciativas de analytics de big data . Debido a que Hadoop es un proyecto de código abierto y sigue un modelo de computación distribuida, puede ofrecer precios que ahorran presupuesto para una solución de software y almacenamiento de big data.

Hadoop también se puede instalar en servidores en la nube para gestionar mejor los recursos informáticos y de almacenamiento necesarios para big data. Para mayor comodidad, los agentes de los sistemas operativos Linux, UNIX y Windows están preconfigurados y se pueden iniciar automáticamente.

Los principales proveedores de nube, como Amazon Web Services (AWS) y Microsoft Azure, ofrecen soluciones. Cloudera admite cargas de trabajo de Hadoop tanto on-premises como en la nube, incluidas opciones para uno o más entornos de nube pública de múltiples proveedores. Use las API de monitoreo de Hadoop para agregar, actualizar, eliminar y ver los clústeres y servicios en los clústeres, y para todos los demás tipos de monitoreo en Hadoop.

Diseño 3D de pelotas rodando en una pista

Las últimas novedades e insights sobre IA

Descubra insights y noticias de expertos sobre IA, la nube y mucho más en el boletín semanal Think. 

El ecosistema Hadoop

La infraestructura de Hadoop, desarrollada por la Apache Software Foundation, incluye:

Hadoop común

 

Las utilidades y bibliotecas comunes que admiten los otros módulos de Hadoop. También conocido como Hadoop Core.

Hadoop HDFS (Hadoop Distributed File System)

 

Es un sistema de archivos distribuido para almacenar datos de aplicaciones en hardware básico. HDFS se diseñó para proporcionar tolerancia a fallas para Hadoop y proporciona un alto ancho de banda de datos agregados y acceso de alto rendimiento a los datos.

De forma predeterminada, los bloques de datos se replican en varios nodos en el momento de la carga o la escritura. El grado de replicación es configurable: la replicación predeterminada es tres. La arquitectura HDFS presenta un NameNode para administrar el espacio de nombres del sistema de archivos y el acceso a archivos y múltiples DataNodes para gestionar el almacenamiento de datos. Al habilitar la alta disponibilidad, se puede usar un nodo secundario cuando un nodo activo deja de funcionar.

¿Qué es Hadoop Distributed File System (HDFS)?

Hadoop YARN

 

Apache Hadoop YARN de código abierto es un marco para la programación de trabajos y la administración de recursos de clúster que se puede usar con IBM Spectrum Sínhony en Linux y Linux en POWER. YARN significa Yet Another Resource Negotiator. Admite más cargas de trabajo, como SQL interactivo, modelado avanzado y transmisión en tiempo real.

Hadoop MapReduce

 

Un sistema basado en YARN que almacena datos en múltiples fuentes y potencia para el procesamiento paralelo de grandes cantidades de datos. Existen varias técnicas de optimización disponibles para MapReduce para acelerar los trabajos.

¿Qué es MapReduce?

Hadoop Ozone

 

Un almacén de objetos escalable, redundante y distribuido diseñado para aplicaciones de big data.

Academia de IA

¿Es la gestión de datos el secreto de la IA generativa?

Explore por qué los datos de alta calidad son esenciales para el uso exitoso de la IA generativa.

Mejore Hadoop con proyectos de software de código abierto adicionales

  • Ambari: Una herramienta web para aprovisionar, gestionar y monitorear clústeres de Hadoop.
  • Avro: Un sistema de serialización de datos.
  • Cassandra: Una base de datos NoSQL escalable diseñada para no tener un único punto de falla.
  • Chukwa: Un sistema de recopilación de datos para monitorear grandes sistemas distribuidos; desarrollado sobre HDFS y MapReduce.
  • Flume: Un servicio para recopilar, agregar y mover grandes cantidades de datos en streaming a HDFS.
  • HBase: Una base de datos distribuida escalable y no relacional que admite el almacenamiento de datos estructurados para tablas muy grandes.
  • Hive: Una infraestructura de almacenamiento de datos para la consulta, el almacenamiento de metadatos para tablas y el análisis en una interfaz similar a SQL.
  • Mahout: Una biblioteca escalable de aprendizaje automático y minería de datos.
  • Oozie: Un programador de carga de trabajo basado en Java para gestionar trabajos de Hadoop.
  • Pig: Un lenguaje de flujo de datos de alto nivel e infraestructura de ejecución para computación paralela.
  • Sqoop: Una herramienta para transferir datos de manera eficiente entre Hadoop y el almacenamiento de datos estructurados, como bases de datos relacionales.
  • Submarine: Una plataforma de IA unificada para ejecutar cargas de trabajo de aprendizaje automático y aprendizaje profundo en un clúster distribuido.
  • Tez: Una infraestructura de programación de flujo de datos generalizado, desarrollada sobre YARN; se adoptó dentro del ecosistema Hadoop para reemplazar MapReduce.
  • ZooKeeper: Un servicio de coordinación de alto rendimiento para aplicaciones distribuidas.

Hadoop para desarrolladores

Apache Hadoop fue escrito en Java pero, dependiendo del proyecto de big data, los desarrolladores pueden programar en el lenguaje que elijan, como Python, R o Scala. La empresa de servicios públicos Hadoop permite a los desarrolladores crear y ejecutar trabajos de MapReduce con cualquier script o ejecutable como mapeador o reductor.

Spark vs. Hadoop

Apache Spark a menudo se compara con Hadoop, ya que también es una infraestructura de código abierto para el procesamiento de big data. De hecho, Spark se creó inicialmente para mejorar el rendimiento del procesamiento y ampliar los tipos de cálculos posibles con Hadoop MapReduce. Spark utiliza procesamiento en memoria, lo que significa que es mucho más rápido que las capacidades de lectura/escritura de MapReduce.

Si bien Hadoop es mejor para el procesamiento por lotes de grandes volúmenes de datos, Spark admite el procesamiento de datos por lotes y en tiempo real, y es ideal para la transmisión de datos y cálculos gráficos. Tanto Hadoop como Spark tienen bibliotecas de aprendizaje automático, pero, nuevamente, debido al procesamiento en memoria, el aprendizaje automático de Spark es mucho más rápido.

Diferencias clave entre Hadoop y Spark

 

Rendimiento

Spark es más rápido porque utiliza memoria de acceso aleatorio (RAM) en lugar de leer y escribir datos intermedios en discos. Hadoop almacena datos en múltiples fuentes y los procesa por lotes mediante MapReduce.

Costo

Hadoop tiene un costo menor, ya que utiliza cualquier tipo de almacenamiento en disco para el procesamiento de datos. Spark tiene un costo mayor porque utiliza cálculos en memoria para el procesamiento de datos en tiempo real, lo que requiere el uso de grandes cantidades de RAM para activar los nodos.

Procesamiento

Aunque ambas plataformas procesan datos en un entorno distribuido, Hadoop es ideal para el procesamiento por lotes y el procesamiento lineal de datos. Spark es ideal para el procesamiento en tiempo real y el procesamiento de flujos de datos no estructurados en vivo.

Escalabilidad

Cuando el volumen de datos crece rápidamente, Hadoop escala rápidamente para satisfacer la demanda mediante el Sistema de Archivos Distribuidos de Hadoop (HDFS). A su vez, Spark utiliza el HDFS con tolerancia a fallos para grandes volúmenes de datos.

Seguridad

Spark mejora la seguridad con autenticación mediante secreto compartido o registro de eventos, mientras que Hadoop utiliza múltiples métodos de autenticación y control de acceso. Si bien Hadoop es más seguro en general, Spark puede integrarse con él para alcanzar un mayor nivel de seguridad.

Machine learning

Spark es la plataforma superior en esta categoría porque incluye MLlib, que realiza cálculos iterativos de ML en memoria. También incluye herramientas que realizan regresión, clasificación, persistencia, construcción de pipelines, evaluación, etc.

Casos de uso de Hadoop

Mejores decisiones basadas en datos

 

Integre datos en tiempo real (transmisión de audio, video, sentimiento de las redes sociales y datos de secuencia de clics) y otros datos semiestructurados y no estructurados que no se utilizan en un almacén de datos o una base de datos relacional. Unos datos más completos proporcionan decisiones más precisas.

Acceso y análisis de datos mejorados

 

Impulse el acceso de autoservicio en tiempo real para sus científicos de datos, propietarios de líneas de negocio (LOB) y desarrolladores. Hadoop puede impulsar la ciencia de datos, un campo interdisciplinario que utiliza datos, algoritmos, aprendizaje automático e IA para análisis avanzados para revelar patrones y generar predicciones.

Descarga y consolidación de datos

 

Agilice los costos en los centros de datos de su empresa moviendo datos “fríos” que no se utilizan actualmente a una distribución basada en Hadoop para su almacenamiento. O consolide datos en toda la organización para aumentar la accesibilidad y reducir los costos.

Soluciones relacionadas
Software y soluciones de gestión de datos

Diseñe una estrategia de datos que elimine los silos de datos, reduzca la complejidad y mejore la calidad de los datos para ofrecer experiencias excepcionales a clientes y empleados.

Explore las soluciones de gestión de datos
IBM watsonx.data™

watsonx.data le permite escalar los analytics y la IA con todos sus datos, sin importar donde residan, a través de un almacén de datos abierto, híbrido y gobernado.

Descubra watsonx.data
Servicios de consultoría en datos y analytics

Desbloquee el valor de los datos empresariales con IBM Consulting, y construya una organización impulsada por insights que ofrezca ventajas empresariales.

Descubra los servicios de analytics
Dé el siguiente paso

Diseñe una estrategia de datos que elimine los silos de datos, reduzca la complejidad y mejore la calidad de los datos para ofrecer experiencias excepcionales a clientes y empleados.

Explore las soluciones de gestión de datos Descubra watsonx.data