Los modelos de clasificación son un tipo de modelado predictivo que organiza los datos en clases predefinidas de acuerdo con los valores de características.
Los modelos de clasificación son un tipo de modelo de machine learning que divide los puntos de datos en grupos predefinidos denominados clases. Los clasificadores son un tipo de modelo predictivo que aprende características de clase a partir de la entrada y aprende a asignar posibles clases a los nuevos datos en función de esas características aprendidas1 Los algoritmos de clasificación se emplean ampliamente en ciencia de datos para forecasting patrones y predecir resultados. De hecho, tienen una gran variedad de casos de uso en el mundo real, como la clasificación de pacientes por posibles riesgos para el estado y el filtrado de correo electrónico.
Las tareas de clasificación pueden ser binarias o multiclase. En los problemas de clasificación binaria, un modelo predice entre dos clases. Por ejemplo, un filtro de spam clasifica los correos electrónicos como spam o no spam. Los problemas de clasificación multiclase clasifican los datos entre más de dos etiquetas de clase. Por ejemplo, un clasificador de imágenes podría clasificar imágenes de mascotas mediante el uso de una gran variedad de etiquetas de clase, como perro , gato , llama , ornitorrinco y más.
Algunas fuentes, especialmente en línea, se refieren a la clasificación como una forma de aprendizaje supervisado de machine learning. Pero los clasificadores no entran exclusivamente en el ámbito del aprendizaje supervisado. Los enfoques de aprendizaje no supervisado para los problemas de clasificación fueron un enfoque clave de la investigación reciente.
Por supuesto, cada algoritmo de clasificación de machine learning difiere en sus operaciones internas. Sin embargo, todos siguen un proceso general de clasificación de datos de dos pasos:
Aprendizaje. En el aprendizaje supervisado, un anotador humano asigna una etiqueta a cada punto de datos del conjunto de datos de entrenamiento. Estos puntos se definen como una serie de variables de entrada (o variables independientes), que pueden ser numéricas, cadenas de texto, características de imagen, etc. En términos matemáticos, el modelo considera cada punto de datos como una tuple x. Una tupla es simplemente una secuencia numérica ordenada representada como x = (x1, x2, x3... xn). Cada valor en la tuple es una característica dada del punto de datos. El modelo utiliza las características de cada punto de datos junto con su etiqueta de clase para decodificar qué características definen cada clase. Al mapear los datos de entrenamiento según esta ecuación, un modelo aprende esas características generales (o variables) asociadas con cada etiqueta de clase.
Clasificación. El segundo paso en las tareas de clasificación es la clasificación misma. En esta fase, los usuarios despliegan el modelo en un conjunto de prueba de datos no vistos. Los datos no empleados anteriormente son ideales para evaluar la clasificación del modelo con el fin de evitar el sobreajuste. El modelo emplea su función de predicción aprendida y=f(x) para clasificar los datos no vistos en distintas clases de acuerdo con las características de cada muestra. A continuación, los usuarios evalúan la precisión del modelo en función del número de muestras de datos de prueba predichas correctamente.2
Los modelos de clasificación dan como resultado dos tipos de predicciones: discretas y continuas.
Discreto. Las predicciones discretas son las etiquetas de clase predichas para cada punto de datos. Por ejemplo, podemos usar un predictor para clasificar a los pacientes médicos como diabéticos o no diabéticos en función del estado. Las clases diabético y no diabético son las predicciones categóricas discretas.
Continuo. Los clasificadores asignan predicciones de clase como probabilidades continuas denominadas puntuaciones de confianza. Estas probabilidades son valores entre 0 y 1, que representan porcentajes. Nuestro modelo podría clasificar a un paciente como diabético con un .82 de probabilidad. Esto significa que el modelo cree que el paciente tiene un 82 % de probabilidades de ser diabético y un 18 % de probabilidades de no serlo.
Los investigadores normalmente evalúan los modelos con predicciones discretas mientras utilizan predicciones continuas como umbrales. Un clasificador omite cualquier predicción por debajo de un umbral determinado. Por ejemplo, si nuestro predictor de diabetes tiene un umbral de .4 (40 %) y clasifica a un paciente como diabético con una probabilidad de .35 (35%), entonces el modelo ignorará esa etiqueta y no asignará al paciente a la clase diabético 3
Los investigadores y desarrolladores utilizan una amplia gama de métricas de evaluación para los modelos de clasificación. La métrica de evaluación elegida depende de la tarea de clasificación específica. Todos miden la precisión con la que un aprendiz (es decir, un clasificador) predice con precisión las clases del modelo.
Las métricas de clasificación usan una terminología común. Los verdaderos positivos (TP) son aquellas muestras de datos que el modelo predice correctamente en su clase correspondiente. Los falsos positivos (FP) son aquellas instancias de clase negativa identificadas incorrectamente como casos positivos. Los falsos negativos (FN) son instancias positivas reales que se predijeron erróneamente como negativas. Los negativos verdaderos (TN) son las instancias de clase negativas reales que el modelo clasifica con precisión como negativas.
Precisión. Esto se denomina valor predictivo positivo (PPV). Es la proporción de predicciones de clase positivas que realmente pertenecen a la clase en cuestión. Por ejemplo, en un filtro de correo no deseado, la precisión es la proporción de mensajes que el modelo clasifica como correo no deseado que, de hecho, son correo no deseado. Se representa mediante la ecuación:4
Recordar. También sensibilidad o tasa de verdaderos positivos (TPR), la recuperación denota el porcentaje de instancias de clase detectadas por un modelo. Volviendo al filtro de spam, la recuperación indica cuántos mensajes de spam reales el modelo clasifica realmente como spam. Se representa mediante la ecuación:5
Puntuación F1. La precisión y la recuperación pueden compartir una relación inversa; a medida que un clasificador devuelve más verdaderos positivos (mayor recuerdo), el clasificador inevitablemente también clasifica erróneamente las no instancias (es decir, falsos positivos), disminuyendo la precisión. La puntuación de F1 tiene como objetivo resolver este compromiso. F1 (o puntuación F) combina eficazmente precisión y recuperación para representar la precisión total de clase de un modelo. Se representa mediante la ecuación6
Las herramientas de visualización de datos ayudan a ilustrar los hallazgos en el análisis de datos. Los científicos de datos y los investigadores de machine learning utilizan dos herramientas principales para visualizar el rendimiento del clasificador:
Matriz de confusión. La matriz de confusión es una tabla cuyas columnas representan los valores predichos de una clase determinada, mientras que las filas representan los valores reales, o viceversa. El cuadro superior izquierdo significa el número de verdaderos positivos; El cuadro de abajo son los falsos positivos; el cuadro superior derecho es el número de falsos negativos; El cuadro de la parte inferior derecha es el número de negativos verdaderos. La suma de cada uno de estos valores proporciona el número total de predicciones del modelo.7 Una matriz de confusión para un clasificador binario puede tener el siguiente aspecto:
Curva ROC. Una curva de características operativas del receptor (ROC) visualiza la proporción de verdaderos positivos con respecto a los verdaderos negativos. El gráfico traza la tasa positiva verdadera frente a la tasa negativa verdadera para cada umbral utilizado en la clasificación del modelo. El estadístico de área bajo curva (AUC) surge de la curva ROC. El AUC mide la probabilidad de que un positivo seleccionado al azar tenga un puntaje de confianza más alta que un negativo aleatorio. Los valores de AUC oscilan entre 0 y 1. El primero significa que el modelo asigna una puntuación a todos los negativos con mayores probabilidades que los positivos, mientras que 1 significa que el modelo asigna una puntuación a todos los positivos con mayor probabilidad.8
Hay muchos tipos diferentes de algoritmos de clasificación. Si bien tienen casos de uso superpuestos, algunos son más adecuados para aplicaciones particulares que otros. A continuación se ofrece una visión general de tres algoritmos de machine learning populares para la clasificación. Los tres se pueden implementar fácilmente en Python empleando varias bibliotecas scikit-learn.
Las fuentes en línea suelen yuxtaponer tareas de clasificación y regresión de machine learning. Pero esto es una simplificación excesiva. La regresión logística es un clasificador de probabilidad derivado de modelos de regresión lineal. La regresión lineal utiliza una o más variables independientes para predecir el valor de una variable independiente, cuyo valor puede ser cualquier número racional continuo. La regresión logística es una modificación de la regresión lineal, puesto que el valor de salida se limita a cualquier valor entre 0 y 1. Lo hace al aplicar una transformación logarítmica (o cuotas logarítmicas) a la fórmula de regresión lineal estándar:9
Los modelos de regresión logística son útiles para la clasificación binaria de problemas de regresión multivariante. Las aplicaciones más comunes son la detección de fraudes y las predicciones biomédicas. Por ejemplo, se aplicó la regresión logística para ayudar a predecir la mortalidad de los pacientes inducida por traumatismos y cardiopatías coronarias.10
Los clasificadores Naïve Bayes (también llamados Naive Bayes) son un tipo popular de clasificador basado en el teorema de Bayes. Una de sus principales diferencias con respecto a otros clasificadores es que calcula la probabilidad posterior de las predicciones de clase. Esto significa que Naive Bayes actualiza las predicciones de clase iniciales (denominadas probabilidades a priori) con cada nuevo dato. Por ejemplo, supongamos que intentamos clasificar la probabilidad de que un paciente desarrolle diabetes. Los datos médicos de este paciente, como la tensión arterial, la edad, los niveles de azúcar en sangre, etc., sirven como variables independientes. Para predecir, un clasificador bayesiano calcula la prevalencia actual que se cree que tiene la diabetes en una población (probabilidad a priori) con la probabilidad de que los valores de los datos médicos de nuestro paciente aparezcan en alguien con diabetes (probabilidad condicional). Naive Bayes classifiers follow the Bayes’ Rule equation:11
Naïve Bayes se conoce como clasificador generativo. Esto significa que el clasificador bayesiano, empleando los valores variables de una observación dada, calcula qué clase es más probable que generó la observación. Los investigadores del procesamiento de lenguaje natural aplicaron ampliamente Naive Bayes para tareas de clasificación de textos, como el análisis de sentimientos. Empleando un modelo bag of words, en el que cada palabra constituye una variable, el clasificador Naïve Bayes para el análisis de sentimientos predice si una clase positiva o negativa produjo el texto en cuestión.12
K-vecinos más cercanos (KNN) mapea puntos de datos en un espacio multidimensional. Luego agrupa esos puntos de datos con valores de características similares en grupos separados o clases. Para clasificar nuevas muestras de datos, el clasificador simplemente observa el número k de puntos más cercanos a una nueva muestra de datos dada entrada de prueba x, cuenta cuántos miembros de cada clase comprenden el subconjunto vecino y devuelve esa proporción como la estimación de clase para el nuevo punto de datos. En otras palabras, el modelo asigna un nuevo punto de datos a la clase que comprende la mayoría de los vecinos de ese punto. Los modelos KNN suelen comparar la distancia entre puntos de datos con la distancia euclidiana: 13
El vecino más cercano aproximado (ANN) es una variante del KNN. En espacios de datos de gran dimensión, puede resultar costoso desde el punto de vista informático encontrar los vecinos exactos de un punto de datos determinado. La reducción de la dimensionalidad es un medio para solucionar este problema. ANN es otro medio. En lugar de encontrar el vecino más próximo exacto de un punto de datos dado, el ANN encuentra un vecino más cercano aproximado dentro de una distancia determinada. Investigaciones recientes han mostrado resultados prometedores para los ANN en el contexto de la clasificación multietiqueta.14
Tenga en cuenta que muchas de estas técnicas pueden verse afectadas negativamente por los valores atípicos. Afortunadamente, varias técnicas de regularización pueden ayudar a tener en cuenta estos factores de impacto negativos. También existen muchos otros algoritmos de clasificación en machine learning. Algunos algoritmos adicionales son decision trees, los bosques aleatorios, impulso de gradientes y las máquinas de vectores soporte (SVM).
Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.
Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.
Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.
1 Chris Drummond, “Classification,” Encyclopedia of Machine Learning and Data Mining, Springer, 2017.
2 Jaiwei Han, Micheline Kamber, and Jian Pei, Data Mining: Concepts and Techniques, 3rd edition, Morgan Kaufman, 2012.
3 Max Kuhn and Kjell Johnson, Applied Predictive Modeling, Springer, 2016.
4 Ethan Zhang and Yi Zhang, “Precision,” Encyclopedia of Database Systems, Springer, 2018.
5 Ethan Zhang and Yi Zhang, “Recall,” Encyclopedia of Database Systems, Springer, 2018.
6 Ben Carterette, “Precision and Recall,” Encyclopedia of Database Systems, Springer, 2018.
7 Kai Ming Ting, “Confusion matrix,” Encyclopedia of Machine Learning and Data Mining, Springer, 2017.
8 Peter Flach, “ROC Analysis,” Encyclopedia of Machine Learning and Data Mining, Springer, 2017.
9 Max Kuhn and Kjell Johnson, Applied Predictive Modeling, Springer, 2016. Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani, and Jonathan Taylor, An Introduction to Statistical Learning with Applications in Python, Springer, 2023
10 Lisa X. Deng, Abigail May Khan, David Drajpuch, Stephanie Fuller, Jonathan Ludmir, Christopher E. Mascio, Sara L. Partington, Ayesha Qadeer, Lynda Tobin, Adrienne H. Kovacs, and Yuli Y. Kim, "Prevalence and Correlates of Post-traumatic Stress Disorder in Adults With Congenital Heart Disease," The American Journal of Cardiology, Vol. 117, No. 5, 2016, pp. 853-857, https://www.sciencedirect.com/science/article/abs/pii/S0002914915023590 .
11 Max Kuhn and Kjell Johnson, Applied Predictive Modeling, Springer, 2016. William Bolstad and James Curran, Introduction to Bayesian Statistics, 3a. edición, Wiley, 2016.
12 Daniel Jurafsky and James Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3a. edición, 2023.
13 Max Kuhn and Kjell Johnson, Applied Predictive Modeling, Springer, 2016. Kevin Murphy, Machine Learning: A Probabilistic Perspective, MIT Press, 2012.
14 Ville Hyvönen, Elias Jääsaari, Teemu Roos, “A Multilabel Classification Framework for Approximate Nearest Neighbor Search,” Journal of Machine Learning Research, Vol. 25, No. 46, 2024, pp. 1−51, https://www.jmlr.org/papers/v25/23-0286.html .