Una condición necesaria del aprendizaje semisupervisado (SSL) es que los ejemplos no etiquetados utilizados en el entrenamiento del modelo deben ser relevantes para la tarea para la que se entrena el modelo. En términos más formales, el SSL requiere que la distribución p(x) de los datos de entrada contenga información sobre la distribución posterior p(y|x), es decir, la probabilidad condicional de que un punto de datos dado (x) pertenezca a una determinada clase (y). Así, por ejemplo, si se utilizan datos no etiquetados para entrenar un clasificador de imágenes que distinga entre fotos de gatos y fotos de perros, el conjunto de datos de entrenamiento debe contener imágenes tanto de gatos como de perros, y las imágenes de caballos y motocicletas no serán útiles.

En consecuencia, si bien un estudio de 2018 sobre algoritmos de aprendizaje semisupervisado encontró que “aumentar la cantidad de datos sin etiquetar tiende a mejorar el rendimiento de las técnicas del SSL”, también encontró que “agregar datos no etiquetados de un conjunto de clases que no coinciden en realidad puede perjudicar el rendimiento en comparación con no usar ningún dato sin etiquetar en absoluto”. 1

La condición básica de que p(x) tenga una relación significativa con p(x|y) da lugar a múltiples supuestos sobre la naturaleza de esa relación. Estos supuestos son la fuerza impulsora detrás de la mayoría, si no todos, los métodos de SSL: en términos generales, cualquier algoritmo de aprendizaje semisupervisado se basa en que se satisfagan explícita o implícitamente uno o más de los siguientes supuestos.