¿Qué es el aprendizaje semisupervisado?

Fecha de publicación: 12 de diciembre de 2023
Colaboradores: Dave Bergmann

El aprendizaje semisupervisado es una rama del aprendizaje automático que combina el aprendizaje supervisado y no supervisado, utilizando datos etiquetados y sin etiquetar para entrenar modelos de inteligencia artificial (IA) para tareas de clasificación y regresión.

Aunque el aprendizaje semisupervisado por lo general se emplea para los mismos casos de uso en los que uno podría utilizar métodos de aprendizaje supervisado, se distingue por varias técnicas que incorporan datos no etiquetados en el entrenamiento del modelo, además de los datos etiquetados necesarios para el aprendizaje supervisado convencional.

Los métodos de aprendizaje semisupervisado son especialmente importantes en situaciones en las que obtener una cantidad suficiente de datos etiquetados es extremadamente difícil o costoso, pero grandes cantidades de datos no etiquetados son relativamente fáciles de adquirir. En tales escenarios, ni los métodos de aprendizaje totalmente supervisados ni los no supervisados proporcionarán soluciones adecuadas.

Los datos etiquetados y el aprendizaje automático

El entrenamiento de modelos de IA para tareas de predicción como clasificación o regresión generalmente requiere datos etiquetados: puntos de datos anotados que proporcionan el contexto necesario y demuestran las predicciones correctas (salida) para cada entrada de muestra. Durante el entrenamiento, una función de pérdida mide la diferencia (pérdida) entre las predicciones del modelo para una entrada determinada y la “verdad fundamental” proporcionada por la etiqueta de esa entrada. Los modelos aprenden de estos ejemplos etiquetados mediante el uso de técnicas como el descenso de gradiente que actualizan las ponderaciones del modelo para minimizar la pérdida. Debido a que este proceso de aprendizaje automático involucra humanos de manera activa, se le llama aprendizaje “supervisado”.

Etiquetar correctamente los datos se vuelve cada vez más laborioso para tareas complejas de IA. Por ejemplo, para entrenar un modelo de clasificación de imágenes para diferenciar entre automóviles y motocicletas, cientos (si no es que miles) de imágenes de entrenamiento deben etiquetarse como “automóvil” o “motocicleta”; para una tarea de visión por computadora más detallada, como la detección de objetos, los humanos no solo deben hacer anotaciones en los objetos que contiene cada imagen, sino dónde se encuentra cada objeto; para tareas aún más detalladas, como la segmentación de imágenes, las etiquetas de datos deben tener anotaciones sobre límites específicos píxel por píxel de diferentes segmentos de imagen para cada imagen.

Por lo tanto, el etiquetado de datos puede ser particularmente tedioso para ciertos casos de uso. En casos de uso de aprendizaje automático más especializados, como el descubrimiento de fármacos, la secuenciación genética o la clasificación de proteínas, la anotación de datos no solo requiere mucho tiempo, sino que también requiere una experiencia muy específica en el campo.

El aprendizaje semisupervisado ofrece una forma de extraer el máximo beneficio de una escasa cantidad de datos etiquetados y, al mismo tiempo, utilizar datos relativamente abundantes sin etiqueta.

Haga un recorrido por IBM watsonx.ai

Estudio empresarial de próxima generación para que los creadores de IA entrenen, validen, ajusten e implementen modelos de IA.

Contenido relacionado

Suscríbase a los boletines de IBM

Comparación entre aprendizaje semisupervisado, aprendizaje supervisado y aprendizaje no supervisado

El aprendizaje semisupervisado puede considerarse un híbrido o un término medio entre el aprendizaje supervisado y el aprendizaje no supervisado.

Comparación entre el aprendizaje semisupervisado y el aprendizaje supervisado

La principal distinción entre el aprendizaje automático semisupervisado y el aprendizaje automático totalmente supervisado es que este último solo se puede entrenar con conjuntos de datos completamente etiquetados, mientras que el primero utiliza muestras de datos etiquetados y no etiquetados en el proceso de entrenamiento. Las técnicas de aprendizaje semisupervisado modifican o complementan un algorítmico supervisado (llamado “aprendiz base” en este contexto) para incorporar información de ejemplos sin etiqueta. Los puntos de datos etiquetados se utilizan para fundamentar las predicciones del aprendiz base y agregar estructura (como cuántas clases existen y las características básicas de cada una) al problema de aprendizaje.

El objetivo en el entrenamiento de cualquier modelo de clasificación es que este aprenda un límite de decisión preciso: una línea (o, para datos con más de dos dimensiones, una “superficie” o hiperplano) separa los puntos de datos de una categoría de clasificación de los puntos de datos que pertenecen a una categoría de clasificación diferente. Aunque un modelo de clasificación totalmente supervisado puede aprender técnicamente un límite de decisión utilizando solo unos pocos puntos de datos etiquetados, podría no generarse bien con ejemplos reales, lo que hace que las predicciones del modelo no sean confiables.

El clásico conjunto de datos de “medias lunas” visualiza las deficiencias de los modelos supervisados que se basan en muy pocos puntos de datos etiquetados. Aunque el límite de decisión “correcto” separaría cada una de las dos medias lunas, es probable que un modelo de aprendizaje supervisado sobreajuste los pocos puntos de datos etiquetados disponibles. Los puntos de datos sin etiquetar transmiten claramente un contexto útil, pero un algoritmo supervisado tradicional no puede procesar datos sin etiquetar.

Comparación entre el aprendizaje semisupervisado y el aprendizaje no supervisado

A diferencia del aprendizaje semisupervisado (y totalmente supervisado), los algoritmos de aprendizaje no supervisado no utilizan datos etiquetados ni funciones de pérdida. El aprendizaje no supervisado abarca cualquier contexto de “verdad fundamental” con respecto al que se puede medir y optimizar la precisión del modelo.

Un enfoque semisupervisado cada vez más común, especialmente para modelos de lenguaje de gran tamaño, es “entrenar previamente” a través de tareas no supervisadas que requieren que el modelo aprenda representaciones significativas de conjuntos de datos sin etiquetar. Cuando dichas tareas implican una “verdad fundamental” y una función de pérdida (sin anotación manual de datos), se les llama aprendizaje autosupervisado. Después de un “ajuste supervisado” posterior en una pequeña cantidad de datos etiquetados, los modelos preentrenados a menudo pueden lograr un rendimiento comparable al de los modelos totalmente supervisados.

Si bien los métodos de aprendizaje no supervisado pueden ser útiles en muchos escenarios, esa falta de contexto puede hacer que no sean adecuados para la clasificación por sí solos. Tomemos, por ejemplo, cómo un algoritmo de clústeres típico (agrupar puntos de datos en un número predeterminado de clústeres en función de su proximidad entre sí) trataría el conjunto de datos de media luna.

Comparación entre el aprendizaje semisupervisado y el aprendizaje autosupervisado

Tanto el aprendizaje semisupervisado como el autosupervisado tienen como objetivo eludir la necesidad de grandes cantidades de datos etiquetados, pero mientras que el aprendizaje semisupervisado implica algunos datos etiquetados, los métodos de aprendizaje autosupervisado como los autocodificadores son realmente no supervisados.

Si bien el aprendizaje supervisado (y semisupervisado) requiere una “verdad fundamental” externa en forma de datos etiquetados, las tareas de aprendizaje autosupervisado derivan de la verdad fundamental de la estructura subyacente de muestras no etiquetadas. Muchas tareas autosupervisadas no son útiles en sí mismas: su utilidad radica en enseñar modelos de representaciones de datos útiles para las siguientes “tareas posteriores”. Como tales, a menudo se les llama “tareas de pretexto”.

Cuando se combinan con tareas posteriores supervisadas, las tareas de pretexto autosupervisadas forman parte de un proceso de aprendizaje semisupervisado: un método de aprendizaje que utiliza tanto datos etiquetados como no etiquetados para el entrenamiento del modelo.

¿Cómo funciona el aprendizaje semisupervisado?

El aprendizaje semisupervisado se basa en ciertas suposiciones sobre los datos no etiquetados que se usan para entrenar el modelo y la forma en que los puntos de datos de diferentes clases se relacionan entre sí.

Una condición necesaria del aprendizaje semisupervisado (SSL) es que los ejemplos no etiquetados utilizados en el entrenamiento del modelo deben ser relevantes para la tarea para la que se entrena el modelo. En términos más formales, el SSL requiere que la distribución p(x) de los datos de entrada contenga información sobre la distribución posterior p(y|x), es decir, la probabilidad condicional de que un punto de datos dado (x) pertenezca a una determinada clase (y). Así, por ejemplo, si se utilizan datos no etiquetados para entrenar un clasificador de imágenes que distinga entre fotos de gatos y fotos de perros, el conjunto de datos de entrenamiento debe contener imágenes tanto de gatos como de perros, y las imágenes de caballos y motocicletas no serán útiles.

En consecuencia, si bien un estudio de 2018 sobre algoritmos de aprendizaje semisupervisado encontró que “aumentar la cantidad de datos sin etiquetar tiende a mejorar el rendimiento de las técnicas del SSL”, también encontró que “agregar datos no etiquetados de un conjunto de clases que no coinciden en realidad puede perjudicar el rendimiento en comparación con no usar ningún dato sin etiquetar en absoluto”.¹

La condición básica de que p(x) tenga una relación significativa con p(x|y) da lugar a múltiples supuestos sobre la naturaleza de esa relación. Estos supuestos son la fuerza impulsora detrás de la mayoría, si no todos, los métodos de SSL: en términos generales, cualquier algoritmo de aprendizaje semisupervisado se basa en que se satisfagan explícita o implícitamente uno o más de los siguientes supuestos.

Supuesto de clúster

El supuesto de clúster establece que los puntos de datos que pertenecen al mismo clúster, un conjunto de puntos de datos más similares entre sí que a otros puntos de datos disponibles, también pertenecerán a la misma clase.

Aunque a veces se considera que es su propio supuesto independiente, van Engelen y Hoos también han descrito el supuesto de clústeres como “una generalización de los otros supuestos”.² Desde este punto de vista, la determinación de clústeres de puntos de datos depende de qué noción de similitud se está utilizando: el supuesto de homogeneidad, el supuesto de baja densidad y el supuesto de colector simplemente aprovechan cada uno una definición diferente de lo que comprende un punto de datos “similar”.

Supuesto de homogeneidad

Los supuestos de homogeneidad indican que si dos puntos de datos, x y x', están cerca entre sí en el espacio de entrada, el conjunto de todos los valores posibles para x, y sus etiquetas, y y', deberían ser iguales.

Este supuesto, también conocido como el supuesto de continuidad, es común a la mayoría de los aprendizajes supervisados: por ejemplo, los clasificadores aprenden una aproximación significativa (o “representación”) de cada clase relevante durante el entrenamiento; una vez entrenados, determinan la clasificación de nuevos puntos de datos a través de qué representación se asemejan más.

En el contexto del SSL, el supuesto de homogeneidad tiene el beneficio adicional de aplicarse de manera transitiva a los datos sin etiquetar. Considere un escenario que involucre tres puntos de datos:

un punto de datos etiquetado, x₁
un punto de datos sin etiquetar, x₂, que está cerca de x₁
otro punto de datos sin etiquetar, x₃, que está cerca de x₂ pero no cerca de x₁

El supuesto de homogeneidad nos dice que x₂ debe tener la misma etiqueta que x₁. También nos dice que x₃ debe tener la misma etiqueta que x₂. Por lo tanto, podemos suponer que los tres puntos de datos tienen la misma etiqueta, porque la etiqueta x₁se propaga transitoriamente a x₃ debido a la proximidad de x₃a x₂.

Supuesto de baja densidad

El supuesto de baja densidad establece que el límite de decisión entre clases no debe pasar a través de regiones de alta densidad. Dicho de otra manera, el límite de decisión debe estar en un área que contenga pocos puntos de datos.

Por lo tanto, el supuesto de baja densidad podría considerarse como una extensión del supuesto de clústeres (en el sentido de que un clúster de puntos de datos de alta densidad representa una clase, en lugar del límite entre clases) y el supuesto de homogeneidad (en el sentido de que si varios puntos de datos están cerca unos de otros, deben compartir una etiqueta y, por lo tanto, caer en el mismo lado del límite de decisión).

Este diagrama ilustra cómo los supuestos de homogeneidad y baja densidad pueden informar un límite de decisión mucho más intuitivo de lo que sería posible con métodos supervisados que solo pueden considerar los (muy pocos) puntos de datos etiquetados.

Supuesto de colector

El supuesto de colector establece que el espacio de entrada de dimensiones superiores comprende múltiples colectores dimensionales inferiores en los que se encuentran todos los puntos de datos, y que los puntos de datos en el mismo colector comparten la misma etiqueta.

Como ejemplo intuitivo, consideremos un trozo de papel arrugado que forma una bola. La ubicación de cualquier punto en la superficie esférica solo se puede asignar con coordenadas tridimensionales x,y,z. Pero si esa bola arrugada ahora se aplana nuevamente en una hoja de papel, esos mismos puntos ahora se pueden mapear con coordenadas bidimensionales x,y. Esto se denomina reducción de dimensionalidad, y se puede lograr matemáticamente utilizando métodos como los autocodificadores o las convoluciones.

En el aprendizaje automático, las dimensiones corresponden no a las dimensiones físicas conocidas, sino a cada atributo o característica de los datos. Por ejemplo, en aprendizaje automático, una pequeña imagen RGB que mide 32x32 píxeles tiene 3072 dimensiones: 1024 píxeles, cada uno de los cuales tiene tres valores (para rojo, verde y azul). Comparar puntos de datos con tantas dimensiones es un desafío, tanto por la complejidad y los recursos computacionales requeridos como porque la mayor parte de ese espacio de alta dimensión no contiene información significativa para la tarea en cuestión.

El supuesto de colector sostiene que cuando un modelo aprende la función de reducción de dimensionalidad adecuada para descartar información irrelevante, los puntos de datos dispares convergen a una representación más significativa para la cual los otros supuestos del SSL son más confiables.

Aprendizaje transductivo

Los métodos de aprendizaje transductivo utilizan las etiquetas disponibles para discernir predicciones de etiquetas para un conjunto dado de puntos de datos sin etiquetar, de modo que puedan ser utilizadas por un aprendiz de base supervisado.

Mientras que los métodos inductivos tienen como objetivo entrenar a un clasificador que pueda modelar todo el espacio de entrada (etiquetado y sin etiquetar), los métodos transductivos solo tienen como objetivo producir predicciones de etiqueta para datos no etiquetados. Los algoritmos utilizados para el aprendizaje transductivo no tienen nada que ver con los algoritmos que utilizará el modelo clasificador supervisado que se entrenará utilizando estos datos recién etiquetados.

Propagación de etiquetas

La propagación de etiquetas es un algoritmo basado en gráficos que calcula las asignaciones de etiquetas para puntos de datos sin etiquetar en función de su proximidad relativa a los puntos de datos etiquetados, utilizando el supuesto de homogeneidad y el supuesto de clústeres.

La intuición que subyace al algoritmo es que se puede trazar un gráfico totalmente conectado en el que los nodos sean todos los puntos de datos disponibles, tanto etiquetados como sin etiquetar. Cuanto más cerca estén dos nodos según alguna medida de distancia elegida, como la distancia euclidiana (enlace externo a ibm.com), más ponderada será la arista entre ellos en el algoritmo. A partir de los puntos de datos etiquetados, las etiquetas luego se propagan iterativamente a través de puntos de datos vecinos sin etiquetar, utilizando los supuestos de homogeneidad y clústeres.

Aprendizaje activo

Los algoritmos de aprendizaje activo no automatizan el etiquetado de los puntos de datos: en su lugar, se utilizan en el SSL para determinar qué muestras sin etiquetar proporcionarían la información más útil si se etiquetaran manualmente.³ El uso del aprendizaje activo en entornos semisupervisados ha logrado resultados prometedores: por ejemplo, un estudio reciente encontró que redujo a más de la mitad la cantidad de datos etiquetados necesarios para entrenar de manera efectiva un modelo para la segmentación semántica.⁴

Aprendizaje inductivo

Los métodos inductivos de aprendizaje semisupervisado pretenden entrenar directamente un modelo de clasificación (o regresión), utilizando tanto datos etiquetados como no etiquetados.

En general, los métodos inductivos de SSL pueden diferenciarse por la forma en que incorporan datos no etiquetados: mediante un paso de pseudoetiquetado, un paso de preprocesamiento no supervisado o mediante la incorporación directa a la función objetivo del modelo.

Métodos de envoltura

Una forma relativamente sencilla de extender los algoritmos supervisados existentes a una configuración semisupervisada es entrenar primero el modelo con los datos etiquetados disponibles, o simplemente usar un clasificador preexistente adecuado, y luego generar predicciones de pseudoetiquetas para puntos de datos sin etiquetar. Luego, el modelo se puede volver a entrenar utilizando tanto los datos etiquetados originalmente como los datos pseudoetiquetados, sin diferenciar entre los dos.

El principal beneficio de los métodos de envoltura, más allá de su simplicidad, es que son compatibles con casi cualquier tipo de aprendiz base supervisado. La mayoría de los métodos de envoltura introducen algunas técnicas de regularización para reducir el riesgo de reforzar las predicciones de pseudoetiquetas potencialmente inexactas.

Autoentrenamiento
El autoentrenamiento es un método de envoltura básico. Requiere predicciones de pseudoetiquetas probabilísticas, en lugar de deterministas: por ejemplo, un modelo que dé como resultado “85 por ciento perro, 15 por ciento gato” en lugar de simplemente “perro”.

Las predicciones de pseudoetiquetas probabilísticas permiten a los algoritmos de autoentrenamiento aceptar solo las predicciones que superan un determinado umbral de confianza, en un proceso similar a la minimización de la entropía.⁵ Este proceso puede realizarse de forma iterativa, ya sea para optimizar el proceso de pseudoclasificación o para alcanzar un determinado número de muestras pseudoetiquetadas.

Entrenamiento conjunto
Los métodos de entrenamiento conjunto amplían el concepto de autoentrenamiento al entrenar a varios aprendices base supervisados para asignar pseudoetiquetas.

La diversificación tiene como objetivo reducir la tendencia de reforzar las malas predicciones iniciales. Por lo tanto, es importante que las predicciones de cada aprendiz base no estén fuertemente correlacionadas entre sí. Un enfoque típico es usar algoritmos diferentes para cada clasificador. Otra es que cada clasificador se centre en un subconjunto diferente de los datos: por ejemplo, en datos de video, entrenar a un aprendiz base en datos visuales y al otro en datos de audio.

Preprocesamiento no supervisado

A diferencia de los métodos de envoltura (y los algoritmos intrínsecamente semisupervisados), que utilizan datos etiquetados y no etiquetados simultáneamente, algunos métodos de SSL utilizan datos etiquetados y no etiquetados en etapas diferentes: una etapa de preprocesamiento no supervisada, seguida de una etapa supervisada.

Al igual que los métodos de envoltura, estas técnicas se pueden utilizar básicamente para cualquier aprendiz base supervisado. Pero a diferencia de los métodos de envoltura, el modelo supervisado “principal” se entrena en última instancia solo con puntos de datos etiquetados originalmente (anotados por humanos).

Dichas técnicas de preprocesamiento van desde extraer características útiles de datos sin etiquetar hasta preagrupar puntos de datos sin etiquetar y usar “preentrenamiento” para determinar los parámetros iniciales de un modelo supervisado (en un proceso similar a las tareas pretextuales realizadas en el aprendizaje autosupervisado).

Clúster y luego etiqueta
Una técnica semisupervisada sencilla que implica agrupar todos los puntos de datos (tanto etiquetados como no etiquetados) utilizando un algoritmo no supervisado. Aprovechando el supuesto de clústeres, esos clústeres se pueden usar para ayudar a entrenar un modelo clasificador independiente o, si los puntos de datos etiquetados en un clúster determinado son todos de la misma clase, pseudoetiquetar los puntos de datos sin etiquetar y proceder de manera similar a los métodos de envoltura.

Como demuestra el ejemplo de las “medias lunas” de este artículo, los métodos sencillos (como k del vecino más cercano) pueden dar lugar a predicciones inadecuadas. Los algoritmos de agrupamiento más refinados, como DBSCAN (que implementa el supuesto de baja densidad),⁶ han logrado una mayor confiabilidad.

Preentrenamiento y extracción de características
El preentrenamiento no supervisado (o autosupervisado) permite a los modelos aprender representaciones útiles del espacio de entrada, lo que reduce la cantidad de datos etiquetados necesarios para ajustar un modelo con aprendizaje supervisado.

Un enfoque común es emplear una red neuronal, a menudo un autocodificador, para aprender una representación integrada o característica de los datos de entrada, y luego usar estas características aprendidas para entrenar a un aprendiz base supervisado. Esto a menudo implica una reducción de la dimensionalidad, lo que ayuda a hacer uso del supuesto de colector.

Métodos intrínsecamente semisupervisados

Algunos métodos de SSL introducen directamente los datos no etiquetados en la función objetivo del aprendiz base, en lugar de procesar los datos no etiquetados en un paso separado de pseudoetiquetado o preprocesamiento.

Máquinas vectoriales de soporte semisupervisadas
Cuando los puntos de datos de diferentes categorías no son linealmente separables (cuando ninguna línea recta puede definir claramente y con precisión el límite entre categorías) los algoritmos de máquina vectorial de soporte (SVM) asignan datos a un espacio de características de mayor dimensión en el que las categorías se pueden separar mediante un hiperplano. Al determinar este límite de decisión, los algoritmos de SVM maximizan el margen entre el límite de decisión y los puntos de datos más cercanos a él. Esto, en la práctica, aplica el supuesto de baja densidad.

En un entorno supervisado, un término de regularización penaliza al algoritmo cuando los puntos de datos etiquetados caen en el lado equivocado del límite de decisión. En las SVM semisupervisadas (S3VM), esto no es posible para los puntos de datos no etiquetados (cuya clasificación se desconoce), por lo que las S3VM también penalizan los puntos de datos que se encuentran dentro del margen prescrito.

Modelos de aprendizaje profundo intrínsecamente semisupervisados
Se han adaptado una variedad de arquitecturas de redes neuronales para el aprendizaje semisupervisado. Esto se consigue añadiendo o modificando los términos de pérdida utilizados habitualmente en estas arquitecturas, lo que permite incorporar puntos de datos no etiquetados en el entrenamiento.

Entre las arquitecturas de aprendizaje profundo semisupervisado propuestas se incluyen las redes en escalera⁷, los pseudoensamblajes⁸, los ensamblajes temporales⁹ y las modificaciones selectas de las redes generativas adversativas (GANS)¹⁰.

Soluciones relacionadas

IBM watsonx.ai

Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de aprendizaje automático con facilidad, y cree aplicaciones de IA en una fracción del tiempo con un fragmento de los datos.

Explore watsonx.ai

IBM watsonx.data

IBM watsonx.data el almacén de datos hace posible que las empresas escalen los análisis y la IA con un almacén de datos apto para su propósito, construido sobre una arquitectura de lago de datos de datos abierta, respaldada por consultas, gobernanza y formatos de datos abiertos para acceder a los datos y compartirlos. Conéctese a los datos en minutos, obtenga rápidamente insights confiables y reduzca los costos de su almacén de datos.

Explore watsonx.data

Recursos de aprendizaje semisuperivizado

Cursos y recursos para aprender más sobre el aprendizaje semisupervisado y su lugar dentro del mayor contexto del aprendizaje automático.

Aprendizaje automático: regresión y clasificación

Explore dos subconjuntos importantes de aprendizaje automático supervisado: regresión y clasificación. Aprenda a entrenar modelos de regresión para predecir resultados continuos y entrenar modelos predictivos para clasificar resultados categóricos.

¿Qué es el etiquetado de datos?

La adición de una o varias etiquetas proporciona un contexto que permite a un modelo de aprendizaje automático realizar predicciones precisas. Explore los usos y beneficios del etiquetado de datos, incluidas diferentes técnicas y mejores prácticas.

Cómo los datos sin etiquetar mejoran la generalización en el autoentrenamiento

El autoentrenamiento, un algoritmo de aprendizaje semisupervisado, aprovecha una gran cantidad de datos no etiquetados para mejorar el aprendizaje cuando los datos etiquetados son limitados. Este trabajo establece un análisis teórico para el conocido paradigma del autoentrenamiento iterativo y demuestra las ventajas de los datos no etiquetados en el entrenamiento.

Dé el siguiente paso

Capacite, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de aprendizaje automático con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.

Explore watsonx.ai

Reserve una demostración en vivo

Notas de pie de página

¹ "Realistic Evaluation of Deep Semi-Supervised Learning Algorithms"(enlace externo a ibm.com), arXiv, 17 de junio de 2019
² "A survey on semi-supervised learning" (enlace externo a ibm.com), Springer, 15 de noviembre de 2019
³ "Transductive active learning – A new semi-supervised learning approach based on iteratively refined generative models to capture structure in data" (enlace externo a ibm.com), Information Sciences (Volume 293), 18 de septiembre de 2014
⁴ "Semantic Segmentation with Active Semi-Supervised Learning" (enlace externo a ibm.com), arXiv, 16 de octubre de 2022
⁵ "Semi-supervised learning by Entropy Minimization" (enlace externo a ibm.com), Advances in Neural Information Processing Systems 17, 2004
⁶ "Density-based semi-supervised clustering" (enlace externo a ibm.com), Data Mining and Knowledge Discovery, noviembre de 2010
⁷ "Semi-Supervised Learning with Ladder Networks" (enlace externo a ibm.com), arXiv, 24 de noviembre de 2015
⁸ "Learning with Pseudo-Ensembles" (enlace externo a ibm.com), arXiv, 16 de diciembre de 2014
⁹ "Temporal Ensembling for Semi-Supervised Learning" (enlace externo a ibm.com), arXiv, 15 de marzo de 2017
¹⁰ "Improved Techniques for Training GANs" (enlace externo a ibm.com), arXiv, 10 de junio de 2016