Considere um arquivo que contém números de telefone de um país inteiro. Os números de pessoas com sobrenomes que começam com A podem ser armazenados no servidor 1, B no servidor 2 e assim por diante. Com o Hadoop, partes desse diretório telefônico seriam armazenadas em um único cluster, e para reconstruir o diretório completo, uma aplicação precisaria dos blocos de todos os servidores no cluster.

Para garantir alta disponibilidade caso um servidor falhe, o HDFS replica essas partes menores em mais dois servidores por padrão. (Essa redundância pode ser aumentada ou diminuída por arquivo ou para todo o ambiente. Por exemplo, um cluster Hadoop de desenvolvimento normalmente não precisa de redundância de dados.)

Essa redundância também permite que o cluster Hadoop divida o trabalho em partes menores e execute esses trabalhos em todos os servidores do cluster para melhor escalabilidade. Finalmente, uma organização ganha o benefício da localidade dos dados, o que é essencial ao trabalhar com grandes conjuntos de dados.



O HDFS também pode habilitar inteligência artificial (IA) e aprendizado de máquina (ML) ao escalar de forma eficaz. Primeiro, para armazenar dados em quantidades grandes o suficiente para treinar modelos de ML, e depois para acessar esses enormes conjuntos de dados.



Qualquer organização que capture, armazene e use grandes conjuntos de dados (até petabytes) pode considerar o uso do HDFS. Alguns casos de uso baseados no setor mostram como o HDFS pode ser implementado.