Prima dei database relazionali, le aziende utilizzavano un sistema di database gerarchico con una struttura ad albero per le tabelle di dati. Questi primi sistemi di gestione dei database (DBMS) permettevano agli utenti di organizzare grandi quantità di dati. Tuttavia, erano complessi, spesso legati a una particolare applicazione e limitati nelle modalità di scoperta dei dati. Queste limitazioni hanno portato il ricercatore IBM Edgar F. Codd a pubblicare un paper (link esterno a IBM) (PDF, 1,5 MB) nel 1970, intitolato "A Relational Model of Data for Large Shared Data Banks", che teorizzava il modello di database relazionale. In questo modello proposto, le informazioni potevano essere recuperate senza conoscenze avanzate in ambito informatico. Codd proponeva di organizzare i dati in base a relazioni significative come tuple o coppie attributo-valore. Gli insiemi di tuple venivano definiti relazioni, il che alla fine consentiva l'unione dei dati tra le tabelle.

Nel 1973, il San Jose Research Laboratory, oggi noto come Almaden Research Center, avviò un programma chiamato System R (R per relational) per dimostrare questa teoria relazionale con quella che definì "un'implementazione di livello industriale". Alla fine è diventato anche un banco di prova per SQL, consentendogli di essere adottato più ampiamente in un breve periodo di tempo. Tuttavia, l'adozione di SQL da parte di Oracle non ha compromesso la sua popolarità tra gli amministratori di database.

Nel 1983, IBM introdusse la famiglia di database relazionali DB2, così chiamata perché era la seconda famiglia di software di gestione di database di IBM. Oggi è uno dei prodotti di maggior successo di IBM, che continua a gestire miliardi di transazioni ogni giorno sull'infrastruttura cloud e definisce il livello di base per le applicazioni di machine learning.