Los modelos de clasificación son un tipo de modelado predictivo que organiza los datos en clases predefinidas según los valores de las características.
Los modelos de clasificación son un tipo de modelo de machine learning que divide los puntos de datos en grupos predefinidos denominados clases. Los clasificadores son un tipo de modelo predictivo que aprende características de clase a partir de los datos de entrada y aprende a asignar posibles clases a los nuevos datos en función de esas características aprendidas1. Los algoritmos de clasificación se utilizan ampliamente en la ciencia de datos para predecir patrones y resultados. De hecho, tienen una gran variedad de casos de uso en el mundo real, como la clasificación de pacientes por posibles riesgos para la salud y el filtrado de spam.
Las tareas de clasificación pueden ser binarias o multiclase. En los problemas de clasificación binaria, un modelo predice entre dos clases. Por ejemplo, un filtro de spam clasifica los correos electrónicos como spam o no spam. Los problemas de clasificación multiclase clasifican los datos entre más de dos etiquetas de clase. Por ejemplo, un clasificador de imágenes podría clasificar imágenes de mascotas mediante el uso de una gran cantidad de etiquetas de clase, como perro, gato, llama, ornitorrinco y más.
Algunas fuentes, especialmente en línea, se refieren a la clasificación como una forma de aprendizaje supervisado de machine learning. Pero los clasificadores no pertenecen exclusivamente al dominio del aprendizaje supervisado. Los enfoques de aprendizaje no supervisado a los problemas de clasificación han sido un foco clave de la investigación reciente.
Por supuesto, cada algoritmo de clasificación de machine learning difiere en sus operaciones internas. No obstante, todos siguen un proceso general de clasificación de datos en dos fases:
Aprendizaje. En el aprendizaje supervisado, un anotador humano asigna a cada punto de datos del conjunto de datos de entrenamiento una etiqueta. Estos puntos se definen como una serie de variables de entrada (o variables independientes), que pueden ser numéricas, cadenas de texto, características de la imagen, etcétera. En términos matemáticos, el modelo considera cada punto de datos como una tupla x. Una tupla no es más que una secuencia numérica ordenada representada como x = (x1, x2, x3...xn). Cada valor de la tupla es una característica determinada del punto de datos. El modelo utiliza las características de cada punto de datos junto con su etiqueta de clase para descifrar qué características definen cada clase. Al mapear los datos de entrenamiento según esta ecuación, un modelo aprende las características generales (o variables) asociadas a cada etiqueta de clase.
Clasificación. El segundo paso en las tareas de clasificación es la clasificación en sí misma. En esta fase, los usuarios implementan el modelo en un conjunto de prueba con datos inéditos. Los datos no utilizados anteriormente son ideales para evaluar la clasificación del modelo y evitar el sobreajuste. El modelo utiliza su función de predicción aprendida y=f (x) para clasificar los datos no vistos en distintas clases según las características de cada muestra. A continuación, los usuarios evalúan la precisión del modelo según el número de muestras de datos de prueba pronosticadas correctamente2.
Los modelos de clasificación output dos tipos de predicciones: discretas y continuas.
Discreto. Las predicciones discretas son las etiquetas de clase predichas para cada punto de datos. Por ejemplo, podemos usar un predictor para clasificar a los pacientes médicos como diabéticos o no diabéticos en función de los datos de salud. Las clases diabético y no diabético son las predicciones categóricas discretas.
Continuo. Los clasificadores asignan predicciones de clase como probabilidades continuas llamadas puntajes de confianza. Estas probabilidades son valores entre 0 y 1, que representan porcentajes. Nuestro modelo podría clasificar a un paciente como diabético con una probabilidad de .82. Esto significa que el modelo cree que el paciente tiene un 82 % de posibilidades de ser diabético y un 18 % de posibilidades de no ser diabético.
Los investigadores normalmente evalúan los modelos utilizando predicciones discretas mientras utilizan predicciones continuas como umbrales. Un clasificador ignora cualquier predicción por debajo de un cierto umbral. Por ejemplo, si nuestro predictor de diabetes tiene un umbral de .4 (40 %) y clasifica a un paciente como diabético con una probabilidad de .35 (35 %), entonces la modelo ignorará esa etiqueta y no asignará al paciente a la clase de diabéticos3.
Los investigadores y desarrolladores utilizan una amplia gama de métricas de evaluación para los modelos de clasificación. La métrica de evaluación elegida depende de la tarea de clasificación específica. Todos miden la precisión con la que un alumno (es decir, un clasificador) predice con exactitud las clases del modelo.
Las métricas de clasificación utilizan una terminología común. Los verdaderos positivos (TP) son aquellas muestras de datos que el modelo predice correctamente en su clase respectiva. Los falsos positivos (FP) son aquellos casos de clase negativa identificados incorrectamente como casos positivos. Los falsos negativos (FN) son instancias positivas reales predichas erróneamente como negativas. Los negativos verdaderos (TN) son las instancias de clase negativas reales que el modelo clasifica con precisión como negativas.
Precisión. Esto se denomina valor predictivo positivo (PPV). Es la proporción de predicciones de clase positivas que realmente pertenecen a la clase en cuestión. Por ejemplo, en un filtro de correo no deseado, la precisión es la proporción de mensajes que el modelo clasifica como correo no deseado que, de hecho, son correo no deseado. Se representa mediante la ecuación:4
Recuperación. También denominada sensibilidad o tasa de verdaderos positivos (TPR), la recuperación denota el porcentaje de instancias de clase detectadas por un modelo. Volviendo al filtro de spam, la recuperación indica cuántos mensajes de spam reales el modelo clasifica realmente como spam. Se representa mediante la ecuación:5
Puntuación de F1. La precisión y la recuperación pueden compartir una relación inversa; a medida que un clasificador devuelve más verdaderos positivos (mayor recuperación), el clasificador inevitablemente clasifica mal también las no instancias (es decir, los falsos positivos), lo que disminuye la precisión. La puntuación de la F1 tiene como objetivo resolver esta disyuntiva. F1 (o puntuación F) combina eficazmente la precisión y la recuperación para representar la exactitud total de un modelo en cuanto a clases. Se representa mediante la ecuación:6
Las herramientas de visualización de datos ayudan a ilustrar los hallazgos en el análisis de datos. Los científicos de datos y los investigadores de machine learning usan dos herramientas principales para visualizar el rendimiento del clasificador:
Matriz de confusión. La matriz de confusión es una tabla cuyas columnas representan los valores previstos de una clase determinada, mientras que las filas representan los valores reales, o viceversa. La casilla de arriba a la izquierda indica el número de verdaderos positivos; la de abajo son los falsos positivos; la de arriba a la derecha es la cantidad de falsos negativos; la de abajo a la derecha es la cantidad de verdaderos negativos. Al sumar cada uno de estos valores, se obtiene el número total de predicciones del modelo7. Una matriz de confusión para un clasificador binario puede tener el siguiente aspecto
:Curva ROC. Una curva de característica operativa del receptor (ROC) visualiza la proporción de verdaderos positivos con respecto a los verdaderos negativos. El gráfico traza la tasa de verdaderos positivos frente a la verdadera tasa negativa para cada umbral utilizado en la clasificación del modelo. La estadística de área bajo la curva (AUC) surge de la curva ROC. La AUC mide la probabilidad de que un positivo seleccionado al azar tenga una puntuación de confianza más alta que un negativo aleatorio. Los valores de AUC oscilan entre 0 y 1. El primero significa que el modelo puntúa todos los negativos con mayores probabilidades que los positivos, mientras que 1 significa que el modelo puntúa todos los positivos con mayor probabilidad8.
Hay muchos tipos diferentes de algoritmos de clasificación. Aunque sus casos de uso se solapan, algunos son más adecuados para aplicaciones concretas que otros. A continuación, se muestra una descripción general de tres algoritmos populares de machine learning para la clasificación. Los tres se pueden implementar fácilmente en Python utilizando varias bibliotecas scikit-learn.
Las fuentes en línea suelen yuxtaponer tareas de clasificación y regresión de machine learning. Pero esto es una simplificación excesiva. La regresión logística es un clasificador de probabilidad derivado de modelos de regresión lineal. La regresión lineal utiliza una o más variables independientes para predecir el valor de una variable independiente, cuyo valor puede ser cualquier número racional continuo. La regresión logística es una modificación de la regresión lineal, puesto que el valor de salida se limita a cualquier valor entre 0 y 1. Lo hace al aplicar una transformación logarítmica (o cuotas logarítmicas) a la fórmula de regresión lineal estándar:9
Los modelos de regresión logística son útiles para la clasificación binaria de problemas de regresión multivariante. Las aplicaciones más comunes son la detección del fraude y las predicciones biomédicas. Por ejemplo, se ha implementado la regresión logística para ayudar a predecir la mortalidad de los pacientes inducida por un traumatismo y una enfermedad coronaria10.
Los clasificadores Naive Bayes (también llamados Naive Bayes) son un tipo popular de clasificadores basado en el teorema de Bayes. Una de sus principales diferencias con otros clasificadores es que calcula la probabilidad posterior para las predicciones de clase. Esto significa que Naive Bayes actualiza las predicciones de clase iniciales (llamadas probabilidades a priori) con cada nuevo dato. Por ejemplo, supongamos que intentamos clasificar la probabilidad de que un paciente desarrolle diabetes. Los datos médicos de este paciente, como la presión arterial, la edad, los niveles de azúcar en sangre, etc., sirven como variables independientes. Para predecir, un clasificador bayesiano calcula la prevalencia actual que se cree que tiene la diabetes en una población (probabilidad a priori) con la probabilidad de que los valores de los datos médicos de nuestro paciente aparezcan en alguien con diabetes (probabilidad condicional). Los clasificadores Naive Bayes siguen la ecuación de la regla de Bayes:11
Naïve Bayes es conocido como clasificador generativo. Esto significa que el clasificador bayesiano, mediante el uso de los valores variables de una observación determinada, calcula qué clase es más probable que haya generado la observación. Los investigadores del procesamiento del lenguaje natural (PNL) han aplicado ampliamente Naïve Bayes para tareas de clasificación de textos, como el análisis de sentimientos. Utilizando un modelo de bag of words, en el que cada palabra constituye una variable, el clasificador Naïve Bayes para el análisis de sentimientos predice si una clase positiva o negativa produjo el texto en cuestión12.
Los vecinos más cercanos (KNN) mapean puntos de datos en un espacio multidimensional. A continuación, agrupa los puntos de datos con valores de características similares en grupos o clases distintos. Para clasificar las nuevas muestras de datos, el clasificador simplemente analiza el número k de puntos más cercano a una nueva entrada de prueba de muestra de datos x, cuenta cuántos miembros de cada clase forman el subconjunto vecino y devuelve esa proporción como estimación de la clase para el nuevo punto de datos. En otras palabras, el modelo asigna un nuevo punto de datos a la clase que contenga la mayoría de los vecinos de ese punto. Los modelos KNN suelen comparar la distancia entre puntos de datos con la distancia euclidiana:13
El vecino más cercano aproximado (RNA) es una variante del KNN. En espacios de datos de gran dimensión, puede resultar costoso desde el punto de vista informático encontrar los vecinos exactos de un punto de datos determinado. La reducción de la dimensionalidad es un medio para solucionar este problema. ANN es otro medio. En lugar de encontrar el vecino más próximo exacto de un punto de datos dado, el RNA encuentra un vecino más cercano aproximado dentro de una distancia determinada. Investigaciones recientes han mostrado resultados prometedores para los RNA en el contexto de la clasificación multietiqueta14.
Tenga en cuenta que muchas de estas técnicas pueden verse afectadas negativamente por los valores atípicos. Afortunadamente, una serie de técnicas de regularización pueden ayudar a tener en cuenta estos factores de impacto negativos.También hay muchos otros algoritmos para la clasificación en machine learning. Algunos algoritmos adicionales son árboles de decisión, los bosques aleatorios, el aumento de gradiente y las máquinas de vectores de soporte (SVM).
Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de nueva generación para desarrolladores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.
Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.
Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.
1 Chris Drummond. “Classification”. Encyclopedia of Machine Learning and Data Mining. Springer. 2017.
2 Jaiwei Han, Micheline Kamber y Jian Pei. Data Mining: Concepts and Techniques. 3.ª edición. Morgan Kaufman. 2012.
3 Max Kuhn y Kjell Johnson. Applied Predictive Modeling. Springer. 2016.
4 Ethan Zhang y Yi Zhang. “Precision”. Encyclopedia of Database Systems. Springer. 2018.
5 Ethan Zhang y Yi Zhang. “Recall”. Encyclopedia of Database Systems. Springer. 2018.
6 Ben Carterette. “Precision and Recall”. Encyclopedia of Database Systems. Springer. 2018.
7 Kai Ming Ting. “Confusion matrix”. Encyclopedia of Machine Learning and Data Mining. Springer. 2017.
8 Peter Flach. “ROC Analysis”. Encyclopedia of Machine Learning and Data Mining. Springer. 2017.
9 Max Kuhn and Kjell Johnson. Applied Predictive Modeling. Springer. 2016. Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani y Jonathan Taylor. An Introduction to Statistical Learning with Applications in Python. Springer. 2023
10 Lisa X. Deng, Abigail May Khan, David Drajpuch, Stephanie Fuller, Jonathan Ludmir, Christopher E. Mascio, Sara L. Partington, Ayesha Qadeer, Lynda Tobin, Adrienne H. Kovacs y Yuli Y. Kim. "Prevalence and Correlates of Post-traumatic Stress Disorder in Adults With Congenital Heart Disease". The American Journal of Cardiology. Vol. 117. N.º 5. 2016. PP. 853-857. https://www.sciencedirect.com/science/article/abs/pii/S0002914915023590 .
11 Max Kuhn y Kjell Johnson. Applied Predictive Modeling. Springer. 2016. William Bolstad y James Curran. Introduction to Bayesian Statistics. 3.ª edición. Wiley. 2016.
12 Daniel Jurafsky y James Martin. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. 3.ª edición. 2023.
13 Max Kuhn y Kjell Johnson. Applied Predictive Modeling. Springer. 2016. Kevin Murphy. Machine Learning: A Probabilistic Perspective. MIT Press. 2012.
14 Ville Hyvönen, Elias Jääsaari, Teemu Roos. “A Multilabel Classification Framework for Approximate Nearest Neighbor Search”. Journal of Machine Learning Research. Vol. 25. N.º 46. 2024. PP. 1−51. https://www.jmlr.org/papers/v25/23-0286.html .