O processamento de linguagem natural, a evolução da linguística computacional, usa métodos de várias disciplinas, como ciência da computação, inteligência artificial, linguística e ciência de dados, para permitir que os computadores entendam a linguagem humana tanto na forma escrita quanto verbal. Enquanto a linguística computacional tem mais foco em aspectos da linguagem, o processamento de linguagem natural enfatiza o uso de técnicas de aprendizado de máquina e deep learning para realizar tarefas, como tradução de idiomas ou resposta a perguntas. O processamento de linguagem natural funciona pegando dados não estruturados e convertendo-os em um formato de dados estruturados . Ele faz isso por meio da identificação de entidades nomeadas (um processo chamado named entity recognition) e identificação de padrões de palavras, usando métodos como tokenização, stemização e lematização, que examinam as formas de raiz das palavras. Por exemplo, o sufixo "-ed" em uma palavra, como "call", indica o passado, mas tem o mesmo infinitivo de base (to call) que o tempo presente do verbo "calling".

Embora existam vários algoritmos de NLP, diferentes abordagens tendem a ser usadas para diferentes tipos de tarefas de linguagem. Por exemplo, cadeias de Markov ocultas tendem a ser usadas para marcação de parte da fala. Redes neurais recorrentes ajudam a gerar a sequência apropriada de texto. Os N-gramas, um modelo de linguagem simples (LM), atribuem probabilidades a sentenças ou frases para prever a precisão de uma resposta. Essas técnicas trabalham juntas para proporcionar compatibilidade com tecnologias populares, como chatbot ou produtos de reconhecimento de fala, como o Alexa da Amazon ou o Siri da Apple. No entanto, sua aplicação tem sido mais ampla do que isso, afetando outros setores, como educação e saúde.