¿Qué es el aprendizaje semisupervisado?

Publicado: 12 de diciembre de 2023
Colaborador: Dave Bergmann

El aprendizaje semisupervisado es una rama del machine learning que combina el aprendizaje supervisado y no supervisado, utilizando datos etiquetados y no etiquetados para entrenar modelos de inteligencia artificial (IA) para tareas de clasificación y regresión.

Aunque el aprendizaje semisupervisado generalmente se emplea para los mismos casos prácticos en los que se podrían utilizar métodos de aprendizaje supervisado, se distingue por diversas técnicas que incorporan datos no etiquetados en el entrenamiento del modelo, además de los datos etiquetados necesarios para el aprendizaje supervisado convencional.

Los métodos de aprendizaje semisupervisado son especialmente relevantes en situaciones en las que obtener una cantidad suficiente de datos etiquetados es prohibitivamente difícil o costoso, pero grandes cantidades de datos no etiquetados son relativamente fáciles de adquirir. En tales escenarios, ni los métodos de aprendizaje totalmente supervisado ni los no supervisado proporcionarán soluciones adecuadas.

Datos etiquetados y machine learning

El entrenamiento de modelos de IA para tareas de predicción como la clasificación o la regresión generalmente requiere datos etiquetados: puntos de datos anotados que proporcionan el contexto necesario y demuestran las predicciones correctas (salida) para cada entrada de muestra. Durante el entrenamiento, una función de pérdida mide la diferencia (pérdida) entre las predicciones del modelo para una entrada determinada y la "verdad básica" proporcionada por la etiqueta de esa entrada. Los modelos aprenden de estos ejemplos etiquetados mediante el uso de técnicas como el descenso del gradiente, que actualizan los pesos del modelo para minimizar la pérdida. Debido a que este proceso de machine learning involucra activamente a los humanos, se denomina aprendizaje "supervisado".

Etiquetar correctamente los datos es cada vez más laborioso para tareas complejas de IA. Por ejemplo, para entrenar un modelo de clasificación de imágenes para que diferencie entre automóviles y motocicletas, deben etiquetarse cientos (si no miles) de imágenes de entrenamiento como "automóvil" o "motocicleta"; para una tarea de computer vision más detallada, como la detección de objetos, los humanos no solo deben anotar el objeto u objetos que contiene cada imagen, sino también dónde se encuentra cada objeto; para tareas aún más detalladas, como la segmentación de imágenes, las etiquetas de datos deben anotar los límites específicos píxel por píxel de diferentes segmentos de imagen para cada imagen.

Por lo tanto, etiquetar los datos puede resultar particularmente tedioso para ciertos casos prácticos. En casos prácticos más especializados del machine learning, como el descubrimiento de fármacos, la secuenciación genética o la clasificación de proteínas, la anotación de datos no solo lleva mucho tiempo, sino que también requiere una experiencia de dominio muy específica.

El aprendizaje semisupervisado ofrece una forma de extraer el máximo beneficio de una escasa cantidad de datos etiquetados a la vez que se aprovechan datos sin etiquetar relativamente abundantes.

Realice una visita guiada de IBM watsonx.ai

Un estudio empresarial de nueva generación para que los creadores de IA entrenen, validen, ajusten e implementen modelos de IA.

Contenido relacionado

Suscríbase a los boletines de IBM

Aprendizaje semisupervisado frente a aprendizaje supervisado frente a aprendizaje no supervisado

El aprendizaje semisupervisado puede considerarse un híbrido o un término medio entre el aprendizaje supervisado y el aprendizaje no supervisado.

Aprendizaje semisupervisado frente a aprendizaje supervisado

La principal distinción entre el machine learning semisupervisado y el totalmente supervisado es que este último solo se puede entrenar con conjuntos de datos completamente etiquetados, mientras que el primero utiliza muestras de datos etiquetadas y no etiquetadas en el proceso de entrenamiento. Las técnicas de aprendizaje semisupervisado modifican o complementan un algoritmo supervisado, denominado "alumno base" en este contexto, para incorporar información de ejemplos no etiquetados. Los puntos de datos etiquetados se utilizan para fundamentar las predicciones del alumno base y agregar estructura (como cuántas clases existen y las características básicas de cada una) al problema de aprendizaje.

El objetivo al entrenar cualquier modelo de clasificación es que aprenda un límite de decisión preciso: una línea(o, para datos con más de dos dimensiones, una “superficie” o hiperplano) separa los puntos de datos de una categoría de clasificación de los puntos de datos que pertenecen a una categoría de clasificación diferente. Aunque un modelo de clasificación totalmente supervisado puede aprender técnicamente un límite de decisión utilizando solo unos pocos puntos de datos etiquetados, podría no generalizarse bien a ejemplos del mundo real, haciendo que las predicciones del modelo no fueran fiables.

El conjunto de datos clásico de "media luna" visualiza las deficiencias de los modelos supervisados que dependen de muy pocos puntos de datos etiquetados. Aunque el límite de decisión "correcto" separaría cada una de las dos medias lunas, es probable que un modelo de aprendizaje supervisado se ajuste excesivamente a los pocos puntos de datos etiquetados disponibles. Los puntos de datos sin etiquetar transmiten claramente un contexto útil, pero un algoritmo supervisado tradicional no puede procesar datos sin etiquetar.

Aprendizaje semisupervisado frente a aprendizaje no supervisado

A diferencia del aprendizaje semisupervisado (y totalmente supervisado), los algoritmos de aprendizaje no supervisado no utilizan ni funciones de pérdida ni datos etiquetados. El aprendizaje no supervisado evita cualquier contexto de "verdad básica" con respecto al cual se puede medir y optimizar la precisión del modelo.

Un enfoque semisupervisado cada vez más común, especialmente para grandes modelos lingüísticos, es "preentrenar" modelos a través de tareas no supervisadas que requieren que el modelo aprenda representaciones significativas de conjuntos de datos no etiquetados. Cuando dichas tareas implican una función de "verdad básica" y pérdida (sin anotación manual de datos), se denominan aprendizaje autosupervisado. Después de un "ajuste fino supervisado" posterior en una pequeña cantidad de datos etiquetados, los modelos preentrenados a menudo pueden lograr un rendimiento comparable al de los modelos totalmente supervisados.

Aunque los métodos de aprendizaje no supervisado pueden ser útiles en muchos escenarios, esa falta de contexto puede hacerlos poco adecuados para la clasificación por sí solos. Tomemos, por ejemplo, cómo un algoritmo de agrupamiento típico (agrupación de puntos de datos en un número predeterminado de grupos en función de su proximidad entre sí) trataría el conjunto de datos en forma de media luna.

Aprendizaje semisupervisado frente a aprendizaje autosupervisado

Tanto el aprendizaje semisupervisado como el autosupervisado tienen como objetivo eludir la necesidad de grandes cantidades de datos etiquetados, pero mientras que el aprendizaje semisupervisado implica algunos datos etiquetados, los métodos de aprendizaje autosupervisado, como los autocodificadores, no están supervisados.

Si bien el aprendizaje supervisado (y el semisupervisado) requiere una "verdad básica" externa, en forma de datos etiquetados, las tareas de aprendizaje autosupervisado derivan la verdad básica a partir de la estructura subyacente de las muestras no etiquetadas. Muchas tareas autosupervisadas no son útiles por sí mismas: su utilidad radica en enseñar a los modelos representaciones de datos útiles para las "tareas posteriores" subsiguientes. Como tales, a menudo se denominan "tareas de pretexto".

Cuando se combinan con tareas posteriores supervisadas, las tareas de pretexto autosupervisadas forman parte de un proceso de aprendizaje semisupervisado: un método de aprendizaje que utiliza datos etiquetados y no etiquetados para el entrenamiento del modelo.

¿Cómo funciona el aprendizaje semisupervisado?

El aprendizaje semisupervisado se basa en ciertas suposiciones sobre los datos no etiquetados utilizados para entrenar el modelo y la forma en que los puntos de datos de diferentes clases se relacionan entre sí.

Una condición necesaria del aprendizaje semisupervisado (SSL) es que los ejemplos no etiquetados usados en el entrenamiento del modelo deben ser relevantes para la tarea para la que se entrena el modelo. En términos más formales, SSL requiere que la distribución p(x) de los datos de entrada contenga información sobre la distribución posterior p(y|x), es decir, la probabilidad condicional de que un punto de datos dado (x) pertenezca a una clase determinada (y). Así, por ejemplo, si se utilizan datos no etiquetados para entrenar un clasificador de imágenes para que distinga entre fotos de gatos y fotos de perros, el conjunto de datos de entrenamiento debe contener imágenes tanto de gatos como de perros, y las imágenes de caballos y motocicletas no serán útiles.

En consecuencia, si bien un estudio de 2018 sobre algoritmos de aprendizaje semisupervisado descubrió que "aumentar la cantidad de datos sin etiquetar tiende a mejorar el rendimiento de las técnicas de SSL", también encontró que "agregar datos sin etiquetar de un conjunto de clases que no coinciden puede dañar el rendimiento en comparación con no utilizar ningún dato sin etiquetar en absoluto".¹

La condición básica de que p(x) tenga una relación significativa con p(x|y) da lugar a múltiples suposiciones sobre la naturaleza de esa relación. Estos supuestos son la fuerza motriz de la mayoría de los métodos de SSL, si no de todos: en términos generales, cualquier algoritmo de aprendizaje semisupervisado se basa en el cumplimiento explícito o implícito de uno o varios de los siguientes supuestos.

Suposición de clúster

La suposición de clúster establece que los puntos de datos que pertenecen al mismo clúster (un conjunto de puntos de datos más similares entre sí que a otros puntos de datos disponibles) también pertenecerán a la misma clase.

Aunque a veces se considera una suposición independiente, la suposición de clúster también ha sido descrita por van Engelen y Hoos como "una generalización de las otras suposiciones".² Desde este punto de vista, la determinación de los clústeres de puntos de datos depende de la noción de similitud que se utiliza: la suposición de suavidad, la suposición de baja densidad y la suposición de las variedades simplemente aprovechan una definición diferente de lo que comprende un punto de datos "similar".

Suposición de suavidad

La suposición de suavidad establece que si dos puntos de datos, x y x', están cerca el uno del otro en el espacio de entrada (el conjunto de todos los valores posibles para x, entonces sus etiquetas, y e y', deberían ser las mismas.

Esta suposición, también conocida como suposición de continuidad, es común a la mayoría del aprendizaje supervisado: por ejemplo, los clasificadores aprenden una aproximación significativa (o "representación") de cada clase relevante durante el entrenamiento; una vez entrenados, determinan la clasificación de los nuevos puntos de datos a través de la representación a la que más se asemejen.

En el contexto de SSL, la suposición de suavidad tiene la ventaja añadida de aplicarse transitivamente a los datos no etiquetados. Considere un escenario que involucre tres puntos de datos:

un punto de datos etiquetado, x₁
un punto de datos sin etiquetar, x₂, que está cerca de x₁
otro punto de datos sin etiquetar, x₃, que está cerca de x₂ pero no cerca de x₁

La suposición de suavidad nos dice que x₂ debe tener la misma etiqueta que x₁. También nos dice que x₃ debe tener la misma etiqueta que x₂. Por lo tanto, podemos suponer que los tres puntos de datos tienen la misma etiqueta, porque la etiqueta de x₁se propaga transitivamente a x₃ debido a la proximidad de x₃ a x₂.

Hipótesis de baja densidad

La suposición de baja densidad indica que el límite de decisión entre clases no debe pasar por regiones de alta densidad. Dicho de otra manera, el límite de decisión debe estar en un área que contenga pocos puntos de datos.

Por lo tanto, la suposición de baja densidad podría considerarse como una extensión de la suposición de clúster (en el sentido de que un clúster de alta densidad de puntos de datos representa una clase, en lugar del límite entre clases) y la suposición de suavidad (en el sentido de que si varios puntos de datos están cerca unos de otros, deben compartir una etiqueta y, por lo tanto, se encuentran en el mismo lado del límite de decisión).

Este diagrama ilustra cómo las suposiciones de suavidad y baja densidad pueden informar un límite de decisión mucho más intuitivo de lo que sería posible con métodos supervisados que solo pueden considerar los (escasos) puntos de datos etiquetados.

Suposición de las variedades

La suposición de las variedades indica que el espacio de entrada de mayor dimensión comprende varias variedades de dimensiones inferiores en las que se encuentran todos los puntos de datos y que los puntos de datos de la misma variedad comparten la misma etiqueta.

Para un ejemplo intuitivo, considere un trozo de papel arrugado en forma de bola. La ubicación de cualquier punto en la superficie esférica solo se puede representar con coordenadas tridimensionales x, y, z. Pero si esa bola arrugada ahora se aplana nuevamente en una hoja de papel, esos mismos puntos ahora se pueden representar con coordenadas bidimensionales x, y . Esto se denomina reducción de dimensionalidad, y se puede lograr matemáticamente utilizando métodos como autocodificadores o convoluciones.

En el machine learning, las dimensiones no corresponden a las dimensiones físicas conocidas, sino a cada atributo o entidad de datos. Por ejemplo, en machine learning, una pequeña imagen RGB que mide 32x32 píxeles tiene 3.072 dimensiones: 1.024 píxeles, cada uno de los cuales posee tres valores ( rojo, verde y azul). La comparación de puntos de datos con tantas dimensiones es difícil, tanto por la complejidad y los recursos computacionales necesarios como porque la mayor parte de ese espacio de altas dimensiones no contiene información significativa para la tarea en cuestión.

La suposición de las variedades sostiene que cuando un modelo aprende la función de reducción de dimensionalidad adecuada para descartar la información irrelevante, los puntos de datos dispares convergen en una representación más significativa para la que las demás suposiciones SSL son más confiables.

Aprendizaje transductivo

Los métodos de aprendizaje transductivo utilizan las etiquetas disponibles para discernir las predicciones de etiquetas para un conjunto determinado de puntos de datos no etiquetados, de modo que puedan ser utilizados por un aprendiz base supervisado.

Mientras que los métodos inductivos tienen como objetivo entrenar un clasificador que pueda modelar todo el espacio de entrada (etiquetado y no etiquetado), los métodos transductivos solo pretenden obtener predicciones de etiquetas para datos no etiquetados. Los algoritmos utilizados para el aprendizaje transductivo no tienen nada que ver con los algoritmos que utilizará el modelo clasificador supervisado que se entrenará usando estos datos recién etiquetados.

Propagación de etiquetas

La propagación de etiquetas es un algoritmo basado en gráficos que calcula las asignaciones de etiquetas para puntos de datos sin etiquetar en función de su proximidad relativa a los puntos de datos etiquetados, utilizando la suposición de suavidad y la suposición de clúster.

La intuición que subyace al algoritmo es que se puede trazar un grafo completamente conectado en el que los nodos son todos los puntos de datos disponibles, tanto etiquetados como sin etiquetar. Cuanto más cerca estén dos nodos según alguna medida de distancia elegida, como la distancia euclidiana (enlace externo a ibm.com), más peso tendrá el borde entre ellos en el algoritmo. Partiendo de los puntos de datos etiquetados, las etiquetas se propagan de forma iterativa a través de los puntos de datos vecinos no etiquetados, utilizando las suposiciones de suavidad y de clúster.

Aprendizaje activo

Los algoritmos de aprendizaje activo no automatizan el etiquetado de puntos de datos: en su lugar, se utilizan en SSL para determinar qué muestras sin etiquetar proporcionarían la información más útil si se etiquetaran manualmente.³ El uso del aprendizaje activo en entornos semisupervisados ha logrado resultados prometedores: por ejemplo, un estudio reciente halló que redujo a menos de la mitad la cantidad de datos etiquetados necesarios para entrenar eficazmente un modelo para la segmentación semántica.⁴

Aprendizaje inductivo

Los métodos inductivos de aprendizaje semisupervisado tienen como objetivo entrenar directamente un modelo de clasificación (o regresión), utilizando datos etiquetados y no etiquetados.

Los métodos inductivos de SSL se pueden diferenciar generalmente por la forma en que incorporan datos sin etiquetar: a través de un paso de pseudoetiquetado, un paso de preprocesamiento no supervisado o mediante la incorporación directa a la función objetivo del modelo.

Métodos de envoltura

Una forma relativamente sencilla de ampliar los algoritmos supervisados existentes a un entorno semisupervisado consiste en entrenar primero el modelo con los datos etiquetados disponibles (o simplemente usar un clasificador preexistente adecuado) y, a continuación, generar predicciones de pseudoetiquetas para los puntos de datos no etiquetados. Posteriormente, el modelo se puede volver a entrenar utilizando los datos etiquetados originalmente y los datos pseudoetiquetados, sin diferenciar entre ambos.

El principal beneficio de los métodos de envoltura, más allá de su simplicidad, es que son compatibles con casi cualquier tipo de aprendiz base supervisado. La mayoría de los métodos de envoltura introducen algunas técnicas de regularización para reducir el riesgo de reforzar predicciones potencialmente inexactas de pseudoetiqueta.

Autoentrenamiento
El autoentrenamiento es un método de envoltura básico. Requiere predicciones de pseudoetiquetas probabilísticas, en lugar de deterministas: por ejemplo, un modelo que genere “85 por ciento perro, 15 por ciento gato” en lugar de simplemente generar “perro”.

Las predicciones de pseudoetiquetas probabilísticas permiten que los algoritmos de autoentrenamiento acepten solo predicciones que superen un umbral de confianza determinado, en un proceso similar a la minimización de la entropía.⁵ Este proceso se puede realizar de forma iterativa, ya sea para optimizar el proceso de pseudoclasificación o para alcanzar un cierto número de muestras pseudoetiquetadas.

Coentrenamiento
Los métodos de coentrenamiento amplían el concepto de autoentrenamiento al entrenar a varios aprendices base supervisados para que asignen pseudoetiquetas.

Con la diversificación se pretende reducir la tendencia a reforzar las malas predicciones iniciales. Por lo tanto, es importante que las predicciones de cada aprendiz base no estén fuertemente correlacionadas entre sí. Un enfoque típico es utilizar diferentes algoritmos para cada clasificador. Otro enfoque es que cada clasificador se centre en un subconjunto diferente de datos: por ejemplo, en datos de vídeo, entrenar a un aprendiz base en datos visuales y a otro, en datos de audio.

Preprocesamiento no supervisado

A diferencia de los métodos de envoltura (y los algoritmos intrínsecamente semisupervisados), que utilizan datos etiquetados y no etiquetados simultáneamente, algunos métodos SSL emplean datos etiquetados y no etiquetados en etapas separadas: una etapa de preprocesamiento no supervisada, seguida de una etapa supervisada.

Al igual que los métodos de envoltura, estas técnicas se pueden utilizar esencialmente para cualquier aprendiz base supervisado. Pero, a diferencia de los métodos de envoltura, el modelo supervisado "principal" en última instancia se entrena solo en puntos de datos etiquetados originalmente (anotados por humanos).

Estas técnicas de preprocesamiento van desde extraer características útiles de datos no etiquetados hasta preagrupar puntos de datos sin etiquetar y utilizar el "entrenamiento previo" para determinar los parámetros iniciales de un modelo supervisado (en un proceso similar a las tareas de pretexto que se realizan en el aprendizaje autosupervisado).

Agrupar y luego etiquetar
Una técnica semisupervisada directa implica agrupar todos los puntos de datos (etiquetados y no etiquetados) mediante un algoritmo no supervisado. Aprovechando la suposición de cluster, estos clústeres se pueden utilizar para ayudar a entrenar un modelo de clasificador independiente o, si los puntos de datos etiquetados en un clúster dado son todos de la misma clase, pseudoetiquetar los puntos de datos no etiquetados y proceder de forma similar a los métodos de envoltura.

Como se demostró en el ejemplo de las “medias lunas” anteriormente en este artículo, los métodos simples (como el k-nearest neighbors) pueden dar lugar a predicciones inadecuadas. Los algoritmos de clúster más refinados, como DBSCAN (que implementa la suposición de baja densidad),⁶ han logrado una mayor fiabilidad.

Preentrenamiento y extracción de características
El preentrenamiento no supervisado (o autosupervisado) permite a los modelos aprender representaciones útiles del espacio de entrada, lo que reduce la cantidad de datos etiquetados necesarios para afinar un modelo con aprendizaje supervisado.

Un método habitual es emplear una red neuronal, a menudo un autocodificador, para aprender una representación incrustada o característica de los datos de entrada y, luego, usar estas características aprendidas para entrenar a un aprendiz base supervisado. Esto, frecuentemente, implica una reducción de la dimensionalidad, lo que ayuda a hacer uso de la suposición de las variedades.

Métodos semisupervisados intrínsecamente

Algunos métodos SSL introducen directamente los datos sin etiquetar en la función objetivo del aprendiz base, en lugar de procesar los datos sin etiquetar en un paso independiente de pseudoetiquetado o preprocesamiento.

Máquinas de vectores de soporte semisupervisadas
Cuando los puntos de datos de diferentes categorías no se pueden separar linealmente (cuando ninguna línea recta puede definir con precisión y nitidez el límite entre categorías), los algoritmos de máquinas de vectores de soporte (SVM) asignan los datos a un espacio de características de dimensiones superiores en el que las categorías pueden separarse mediante un hiperplano. Al determinar este límite de decisión, los algoritmos SVM maximizan el margen entre el límite de decisión y los puntos de datos más cercanos a él. Esto, en la práctica, se aplica en la suposición de baja densidad.

En un entorno supervisado, un término de regularización penaliza al algoritmo cuando los puntos de datos etiquetados se encuentran en el lado equivocado del límite de decisión. En las SVM semisupervisadas (S3VM), esto no es posible para los puntos de datos no etiquetados (cuya clasificación se desconoce); por lo tanto, las S3VM también penalizan los puntos de datos que se encuentran dentro del margen prescrito.

Modelos de deep learning intrínsecamente semisupervisados
Se han adaptado diversas arquitecturas de redes neuronales para el aprendizaje semisupervisado. Esto se logra añadiendo o modificando los términos de pérdida que normalmente se utilizan en estas arquitecturas, lo que permite la incorporación de puntos de datos sin etiquetar en el entrenamiento.

Las arquitecturas de deep learning semisupervisadas propuestas incluyen redes escalonadas,⁷ pseudoconjuntos,⁸ conjuntos temporales,⁹ y algunas modificaciones en redes adversariales generativas (GANS).¹⁰

Soluciones relacionadas

IBM watsonx.ai

Entrenar, validar, ajustar e implementar IA generativa, modelos fundacionales y capacidades de aprendizaje automático con facilidad y crear aplicaciones de IA en una fracción del tiempo con una fracción de los datos.

Explore watsonx.ai

IBM watsonx.data

IBM watsonx.data hace posible que las empresas amplíen los análisis y la IA con un almacén de datos adaptado a sus necesidades, construido sobre una arquitectura de lago abierto, respaldado por consultas, gobierno y formatos de datos abiertos para acceder a los datos y compartirlos. Conéctese a los datos en minutos, obtenga rápidamente información fiable y reduzca los costes de su almacén de datos.

Explore watsonx.data

Recursos de aprendizaje semisupervisados

Cursos y recursos para aprender más sobre el aprendizaje semisupervisado y su lugar dentro del contexto más amplio del machine learning.

Machine learning: regresión y clasificación

Explore dos subconjuntos importantes del machine learning supervisado: regresión y clasificación. Aprenda a entrenar modelos de regresión para predecir resultados continuos y a entrenar modelos predictivos para clasificar resultados categóricos.

¿Qué es el etiquetado de datos?

La adición de una o varias etiquetas proporciona un contexto que permite a un modelo de machine learning realizar predicciones precisas. Explore los usos y beneficios del etiquetado de datos, incluidas diferentes técnicas y buenas prácticas.

Cómo los datos sin etiquetar mejoran la generalización en el autoentrenamiento

El autoentrenamiento, un algoritmo de aprendizaje semisupervisado, aprovecha una gran cantidad de datos sin etiquetar para mejorar el aprendizaje cuando los datos etiquetados son limitados. Este trabajo establece un análisis teórico para el conocido paradigma de autoentrenamiento iterativo y demuestra los beneficios de los datos no etiquetados en el entrenamiento.

Dé el siguiente paso

Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para constructores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.

Explore watsonx.ai

Solicite una demostración en directo

Notas a pie de página

¹ "Realistic Evaluation of Deep Semi-Supervised Learning Algorithms"(enlace externo a ibm.com), arXiv, 17 jun 2019
² "A survey on semi-supervised learning" (enlace externo a ibm.com), Springer, 15 nov 2019
³ "Transductive active learning – A new semi-supervised learning approach based on iteratively refined generative models to capture structure in data" (enlace externo a ibm.com), Information Sciences (volumen 293), 18 sep 2014
⁴ "Semantic Segmentation with Active Semi-Supervised Learning" (enlace externo a ibm.com), arXiv, 16 oct 2022
⁵ "Semi-supervised learning by Entropy Minimization" (enlace externo a outside ibm.com), Advances in Neural Information Processing Systems 17, 2004
⁶ "Density-based semi-supervised clustering" (enlace externo a ibm.com), Data Mining and Knowledge Discovery, nov 2010
⁷ "Semi-Supervised Learning with Ladder Networks" (enlace externo a ibm.com), arXiv, 24 nov 2015
⁸ "Learning with Pseudo-Ensembles" (enlace externo a ibm.com), arXiv, 16 dic 2014
⁹ "Temporal Ensembling for Semi-Supervised Learning" (enlace externo a ibm,com), arXiv, 15 mar 2017
¹⁰ "Improved Techniques for Training GANs" (enlace externo a ibm.com), arXiv, 10 jun 2016