El submuestreo es una técnica común de procesamiento de datos que aborda los desequilibrios en un conjunto de datos mediante la eliminación de datos de la clase mayoritaria para que coincidan con el tamaño de la clase minoritaria. Esto se opone al upsampling, que implica volver a muestrear puntos de clase minoritaria. Tanto Python scikit-learn como Matlab contienen funciones integradas para implementar técnicas de submuestreo.
El submuestreo para la ciencia de datos a menudo se confunde con el submuestreo en el procesamiento digital de señales (DSP). Los dos son similares en espíritu. El submuestreo en el procesamiento digital de señales (también conocido como "decimación") es el proceso de disminuir el ancho de banda y la frecuencia de muestreo del dispositivo de muestreo, eliminando así parte de los datos originales de la señal original. El proceso de disminución de la frecuencia de muestreo suele realizarse reduciendo la frecuencia de muestreo en algún factor entero, manteniendo sólo una de cada enésima muestra. Para ello se utiliza un filtro de paso bajo, también conocido como filtro antialiasing, que reduce los componentes de alta frecuencia/ruido de una señal de tiempo discreto en el factor entero antes mencionado.
El submuestreo para el equilibrio de datos también puede confundirse con el submuestreo para el procesamiento de imágenes. Cuando los datos contienen muchos elementos, como en las imágenes de resonancia magnética de alta resolución, los cálculos pueden resultar caros. El submuestreo en el procesamiento de imágenes reduce así la dimensionalidad de cada punto de datos mediante la convolución. No es lo mismo que equilibrar el conjunto de datos: es una técnica de optimización que, más adelante, requerirá la interpolación para recuperar los datos originales.