Tokenisierung ist eine Vorverarbeitungstechnik, die in der Verarbeitung natürlicher Sprache (NLP) eingesetzt wird. NLP-Tools verarbeiten Text in der Regel in linguistischen Einheiten wie Wörtern, Klauseln, Sätzen und Absätzen. Daher müssen NLP-Algorithmen große Texte zunächst in kleinere Token segmentieren, die NLP-Tools verarbeiten können. Die Token stellen den Text so dar, dass Algorithmen ihn verstehen können.