Selon les cofondateurs Mike Cafarella et Doug Cutting, Hadoop trouve son origine dans un article sur le Google File System, publié en 2003.Un second article a suivi, intitulé « MapReduce : Simplified Data Processing on Large Clusters ». Le développement d'un premier moteur de recherche nommé Apache Nutch a commencé, mais Doug Cutting a ensuite transféré ce travail chez Yahoo en 2006.
Hadoop tire son nom d'un éléphant en peluche appartenant au fils de M. Cutting (d'où le logo). Le code initial de Hadoop reposait largement sur Nutch, mais a résolu les problèmes de mise à l’échelle, tout en intégrant les premières versions de HDFS et de MapReduce. Depuis, la suite de programmes dans l’écosystème Hadoop n’a cessé de croître.
Depuis, la suite de programmes dans l’écosystème Hadoop n’a cessé de croître. Outre HDFS, l’écosystème inclut également : HBase (une base de données NoSQL), Mahout, Spark MLLib (bibliothèques d'algorithmes pour le machine learning), MapReduce (traitement des données basé sur la programmation), Oozie (planificateur de tâches), PIG et HIVE (services de traitement des données basés sur des requêtes), Solar et Lucene (pour la recherche et l'indexation), Spark (traitement des données en mémoire), YARN (Yet Another Resource Negotiator), Zookeeper (coordination des clusters).
Les logiciels open source de l’écosystème Hadoop sont désormais gérés par l’Apache Software Foundation1, une communauté mondiale de développeurs et de contributeurs de logiciels.