¿Qué es Apache HBase?

Hombre mira una tableta digital que un colega está mostrando en el trabajo

¿Qué es HBase?

HBase es un sistema de gestión de bases de datos no relacionales orientado a columnas que se ejecuta sobre el sistema de archivos distribuido de Hadoop (HDFS), un componente principal de Apache Hadoop.

HBase ofrece una forma tolerante a fallos de almacenar conjuntos de datos dispersos, habituales en muchos casos de uso de big data. Es muy adecuado para el procesamiento de datos en tiempo real o el acceso aleatorio de lectura/escritura a grandes volúmenes de datos.

A diferencia de los sistemas de bases de datos relacionales, HBase no admite un lenguaje de consulta estructurado como SQL; de hecho, HBase no es un almacén de datos relacionales en absoluto. Las aplicaciones HBase están escritas en Java ™ de forma muy similar a una aplicación Apache MapReduce típica. HBase admite la escritura de aplicaciones en Apache Avro, REST y Thrift.

Un sistema HBase está diseñado para escalar linealmente. Comprende un conjunto de tablas estándar con filas y columnas, muy parecido a una base de datos tradicional. Cada tabla debe tener un elemento definido como clave principal, y todos los intentos de acceso a las tablas de HBase deben usar esta clave principal.

Avro, como componente, admite un amplio conjunto de tipos de datos primitivos, entre los que se incluyen: datos numéricos, binarios y cadenas; y un serial de tipos complejos, como matrices, mapas, enumeraciones y registros. También se puede definir un criterio de clasificación para los datos.

HBase se basa en ZooKeeper para una coordinación de alto rendimiento. ZooKeeper está integrado en HBase, pero si está ejecutando un clúster de producción, se sugiere que tenga un clúster ZooKeeper dedicado que esté integrado con su clúster HBase.

HBase funciona bien con Hive, un motor de consulta para el procesamiento por lotes de big data, para permitir aplicaciones de big data tolerantes a fallas.

Diseño 3D de pelotas rodando en una pista

Las últimas novedades e insights sobre IA

Descubra insights y noticias de expertos sobre IA, la nube y mucho más en el boletín semanal Think. 

Un ejemplo de HBase

Una columna HBase representa un atributo de un objeto; si la tabla almacena registros de diagnóstico de servidores en su entorno, cada fila puede ser un registro y una columna típica podría ser la marca de tiempo de cuándo se escribió el registro o el nombre del servidor donde se originó el registro.

HBase permite agrupar muchos atributos en familias de columnas, de modo que los elementos de una familia de columnas se almacenen juntos. Esto es diferente de una base de datos relacional orientada a filas, donde todas las columnas de una fila determinada se almacenan juntas. Con HBase, debe predefinir el esquema de la tabla y especificar las familias de columnas. Sin embargo, se pueden agregar nuevas columnas a las familias en cualquier momento, lo que hace que el esquema sea flexible y capaz de adaptarse a los requisitos cambiantes de la aplicación.

Así como HDFS tiene un NameNode y nodos esclavos, y MapReduce tiene esclavos JobTracker y TaskTracker, HBase se basa en conceptos similares. En HBase, un nodo maestro administra el cluster y los servidores de región almacenan porciones de las tablas y realizan el trabajo en los datos. De la misma manera, HDFS tiene algunas preocupaciones empresariales debido a la disponibilidad de NameNode, HBase también es sensible a la pérdida de su nodo maestro.

Academia de IA

¿Es la gestión de datos el secreto de la IA generativa?

Explore por qué los datos de alta calidad son esenciales para el uso exitoso de la IA generativa.

Soluciones relacionadas
Software y soluciones de gestión de datos

Diseñe una estrategia de datos que elimine los silos de datos, reduzca la complejidad y mejore la calidad de los datos para ofrecer experiencias excepcionales a clientes y empleados.

Explore las soluciones de gestión de datos
IBM watsonx.data™

watsonx.data le permite escalar los analytics y la IA con todos sus datos, sin importar donde residan, a través de un almacén de datos abierto, híbrido y gobernado.

Descubra watsonx.data
Servicios de consultoría en datos y analytics

Desbloquee el valor de los datos empresariales con IBM Consulting, y construya una organización impulsada por insights que ofrezca ventajas empresariales.

Descubra los servicios de analytics
Dé el siguiente paso

Diseñe una estrategia de datos que elimine los silos de datos, reduzca la complejidad y mejore la calidad de los datos para ofrecer experiencias excepcionales a clientes y empleados.

Explore las soluciones de gestión de datos Descubra watsonx.data