¿Qué son los clasificadores NaÏve Bayes?

Autor

Business Development + Partnerships

IBM Research

¿Qué son los clasificadores Naïve Bayes?

El clasificador Naïve Bayes es un algoritmo de aprendizaje automático supervisado que se utiliza para tareas de clasificación, como la clasificación de texto. Utiliza principios de probabilidad para realizar tareas de clasificación.

Naïve Bayes es parte de una familia de algoritmos de aprendizaje generativo, lo que significa que busca modelar la distribución de entradas de una clase o categoría determinada. A diferencia de los clasificadores discriminativos, como la regresión logística, no aprende qué características son más importantes para diferenciar entre clases.

Boletín de la industria

Las últimas tendencias de IA presentadas por expertos

Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .

Una breve revisión de las estadísticas bayesianas

El clasificador Naïve Bayes (Bayes ingenuo) también se conoce como clasificador probabilístico, ya que se basa en el teorema de Bayes. Sería difícil explicar este algoritmo sin esclarecer primero los conceptos básicos de las estadísticas bayesianas. Este teorema, también conocido como regla de Bayes, nos permite “invertir” las probabilidades condicionales. Como recordatorio, las probabilidades condicionales representan la probabilidad de que suceda un evento dado que ha ocurrido otro evento, y se representan con la siguiente fórmula:

El teorema de Bayes se distingue por el uso de eventos secuenciales, en los que la información adicional adquirida posteriormente afecta la probabilidad inicial. Estas probabilidades se denominan probabilidad previa y probabilidad posterior. La probabilidad previa es la probabilidad inicial de que suceda un evento antes de que sea contextualizado en virtud de una determinada condición, o la probabilidad marginal. La probabilidad posterior es la probabilidad de que ocurra un evento después de observar determinada información.

Un ejemplo popular en la literatura de estadística y aprendizaje automático (enlace externo a ibm.com) para demostrar este concepto son las pruebas médicas. Por ejemplo, imagine que hay una persona, llamada Jane, que se somete a una prueba para determinar si padece diabetes. Digamos que la probabilidad general de padecer diabetes es del 5 %; esta sería nuestra probabilidad previa. No obstante, si obtiene un resultado positivo de su prueba, se actualiza la probabilidad previa para dar cuenta de esta información adicional, y entonces se convierte en nuestra probabilidad posterior. Este ejemplo se puede representar con la siguiente ecuación, usando el teorema de Bayes:

Fórmula de probabilidad condicional para la diabetes y ejemplo de prueba

Sin embargo, dado que no es probable que nuestro conocimiento de las probabilidades previas sea exacto dadas otras variables, como la dieta, la edad, los antecedentes familiares, etc., normalmente aprovechamos las distribuciones de probabilidad de muestras aleatorias, simplificando la ecuación a P(Y|X) = P(X|Y)P(Y) / P(X)

El regreso a Naïve Bayes

Los clasificadores Naïve Bayes funcionan de manera diferente en el sentido de que operan bajo un par de suposiciones clave, lo que les valió el título de "naïve" o "ingenuos". Asume que los predictores en un modelo Naïve Bayes son condicionalmente independientes o no están relacionados con ninguna de las otras características del modelo. También supone que todas las características contribuyen por igual al resultado. Si bien estas suposiciones a menudo se violan en escenarios del mundo real (por ejemplo, una palabra posterior en un correo electrónico depende de la palabra que la precede), simplifica un problema de clasificación al hacerlo más manejable desde el punto de vista computacional. Es decir, ahora solo se requerirá una única probabilidad para cada variable, lo que, a su vez, facilita el cálculo del modelo. A pesar de esta suposición de independencia poco realista, el algoritmo de clasificación funciona bien, especialmente con tamaños de muestra pequeños.

Con esa suposición en mente, ahora podemos reexaminar más de cerca las partes de un clasificador Naïve Bayes. Al igual que el teorema de Bayes, este utilizará probabilidades condicionales y previas para calcular las probabilidades posteriores mediante la siguiente fórmula:

Ahora, imaginemos un caso de uso de clasificación de texto para ilustrar cómo funciona el algoritmo Naïve Bayes. Imagine un proveedor de correo electrónico que busca mejorar su filtro de spam. Los datos de entrenamiento consistirían en palabras de correos electrónicos que se han clasificado como "spam" o "no spam". A partir de ahí, se calculan las probabilidades condicionales de clase y las probabilidades previas para obtener la probabilidad posterior. El clasificador Naïve Bayes operará devolviendo la clase que tiene la máxima probabilidad posterior de un grupo de clases (es decir, “spam” o “not spam”) para un correo electrónico determinado. Este cálculo se representa con la siguiente fórmula:

Fórmula para calcular la probabilidad máxima a posteriori

Dado que cada clase se refiere al mismo fragmento de texto, podemos, de hecho, eliminar el denominador de esta ecuación, simplificándola a:

Fórmula simplificada para calcular la probabilidad máxima a posteriori

Luego, la precisión del algoritmo de aprendizaje basado en el conjunto de datos de entrenamiento se evalúa según el rendimiento del conjunto de datos de prueba.

Probabilidades condicionales de clase

Para desglosar esto un poco más, profundizaremos un nivel más en las partes individuales que componen esta fórmula. Las probabilidades condicionales de clase son las probabilidades individuales de cada palabra en un correo electrónico. Se calculan determinando la frecuencia de cada palabra para em categoría, es decir, “spam” o “not spam”, que también se conoce como estimación de máxima verosimilitud (MLE). En este ejemplo, si estuviéramos examinando la frase "Estimado señor", simplemente calcularíamos la frecuencia con la que esas palabras aparecen en todo el correo electrónico spam y no spam. Esto se puede representar mediante la siguiente fórmula, donde y es "Estimado señor" y x es "spam".

Fórmula de probabilidad condicional para el ejemplo de spam

Probabilidades previas

Las probabilidades previas son exactamente lo que describimos anteriormente con el teorema de Bayes. Con base en el conjunto de entrenamiento, podemos calcular la probabilidad general de que un correo electrónico sea “spam” o “no spam”. La probabilidad previa de la etiqueta de clase “spam” se representaría mediante la siguiente fórmula:

Fórmula para calcular la probabilidad de spam

La probabilidad previa actúa como “peso” de la probabilidad condicional de la clase cuando se multiplican los dos valores y se obtienen las probabilidades individuales posteriores. A partir de ahí, se calcula la estimación máxima a posteriori (MAP) para asignar una etiqueta de clase de “spam” o “no spam”. La ecuación final de la ecuación bayesiana ingenua se puede representar de las siguientes formas:

Alternativamente, se puede representar en el espacio logarítmico dado que el clasificador Bayes ingenuo se usa comúnmente en esta forma:

Forma alternativa de representar la ecuación de Naïve Bayes

Evaluación del clasificador Naïve Bayes

Una forma de evaluar su clasificador es trazar una matriz de confusión, que trazará los valores reales y predichos dentro de una matriz. Las filas generalmente representan los valores reales, mientras que las columnas representan los valores previstos. Muchas guías ilustrarán esta figura como un gráfico de 2 x 2, como el siguiente:

Visualización sobre cómo interpretar una matriz de confusión

Sin embargo, si estuviera prediciendo imágenes del cero al 9, tendría una gráfica de 10 x 10. Si quisiera saber la cantidad de veces que ese clasificador “confundió” imágenes de 4 con otras de 9, solo necesitaría verificar la cuarta fila y la novena columna.

Tipos de clasificadores Naive Bayes

No hay un solo tipo de clasificador Naïve Bayes. Los tipos más populares difieren en función de las distribuciones de los valores de las características. Por ejemplo:

Naïve Bayes gaussiano (GaussianNB): esta es una variante del clasificador Naïve Bayes, que se utiliza con distribuciones gaussianas, es decir, distribuciones normales, y variables continuas. Este modelo se ajusta encontrando la media y la desviación estándar de cada clase.
Naïve Bayes multinomial (MultinomialNB): este tipo de clasificador Naïve Bayes supone que las características provienen de distribuciones multinomiales. Esta variante es útil cuando se utilizan datos discretos, como recuentos de frecuencia, y normalmente se aplica dentro de casos de uso de procesamiento de lenguaje natural, como la clasificación de spam.
Naïve Bayes para modelos Bernoulli (BernoulliNB): esta es otra variante del clasificador Naïve Bayes, que se utiliza con variables booleanas, es decir, variables con dos valores, como Verdadero y Falso o 1 y 0.

Todo esto se puede implementar a través de la biblioteca Scikit Learn Python (también conocida como sklearn).

AI Academy

Ponga la IA a trabajar para servicio al cliente

Vea cómo la IA generativa puede satisfacer a los clientes con una experiencia más fluida y aumentar la productividad de la organización en estas tres áreas clave: autoservicio, agentes humanos y operaciones del centro de contacto.

Ir al episodio

Ventajas y desventajas del clasificador Naïve Bayes

Ventajas

Menos complejo: en comparación con otros clasificadores, Naïve Bayes se considera un clasificador más simple, ya que los parámetros son más fáciles de estimar. En consecuencia, es uno de los primeros algoritmos que se aprenden en los cursos de ciencia de datos y aprendizaje automático.
Se escala bien: en comparación con la regresión logística, Naïve Bayes se considera un clasificador rápido y eficiente que es bastante preciso cuando se cumple el supuesto de independencia condicional. Requiere poco almacenamiento.
Puede manejar datos multidimensionales: los casos de uso, como la clasificación de documentos, pueden tener un gran número de dimensiones, lo que puede ser difícil de manejar para otros clasificadores.

Desventajas:

Sujeto a frecuencia cero: la frecuencia cero ocurre cuando una variable categórica no existe dentro del conjunto de entrenamiento. Por ejemplo, imagine que estamos tratando de encontrar el estimador de máxima verosimilitud para la palabra “señor” a la que se le atribuyó la clase “spam”, pero la palabra “señor” no existe en los datos de entrenamiento. La probabilidad en este caso sería cero, y dado que este clasificador multiplica todas las probabilidades condicionales, esto también significa que la probabilidad posterior será cero. Para evitar este problema, se puede aprovechar el suavizado de Laplace.
Suposición básica poco realista: si bien el supuesto de independencia condicional en general funciona bien, el supuesto no siempre se mantiene, lo que conduce a clasificaciones incorrectas.

Aplicaciones del clasificador Naïve Bayes

Junto con otros algoritmos, Naïve Bayes pertenece a una familia de algoritmos de minería de datos que convierten grandes volúmenes de datos en información útil. Algunas aplicaciones de Naïve Bayes incluyen:

Filtrado de spam: la clasificación de spam es una de las aplicaciones más populares del Naive Bayes citadas en la literatura. Para una lectura más profunda sobre este caso de uso, consulte este capítulo de O'Reilly.
Clasificación de documentos: la clasificación de documentos y textos van de la mano. Otro caso de uso popular de Naïve Bayes es la clasificación de contenidos. Imagine las categorías de contenido de un sitio web de medios de noticias. Todas las categorías de contenido se pueden clasificar en una taxonomía temática basada en cada artículo del sitio. A Federick Mosteller y David Wallace se les atribuye la primera aplicación de la inferencia bayesiana en su artículo de 1963.
Análisis de opiniones:: si bien esta es otra forma de clasificación de textos, el análisis de opiniones se aprovecha comúnmente dentro del marketing para comprender y cuantificar mejor las opiniones y actitudes en torno a productos y marcas específicos.
Predicciones del estado mental: utilizando datos de fMRI, se ha aprovechado el Naïve Bayes para predecir diferentes estados cognitivos entre los seres humanos. El objetivo de esta investigación fue ayudar a comprender mejor los estados cognitivos ocultos, particularmente entre los pacientes con lesiones cerebrales.

Desbloquee el poder de la IA generativa + ML

Aprenda a incorporar con confianza la IA generativa y el aprendizaje automático en su negocio.

¿Qué son los clasificadores Naïve Bayes?

Autor

¿Qué son los clasificadores Naïve Bayes?

Las últimas tendencias de IA presentadas por expertos

¡Gracias! Ya está suscrito.

Una breve revisión de las estadísticas bayesianas

El regreso a Naïve Bayes

Probabilidades condicionales de clase

Probabilidades previas

Evaluación del clasificador Naïve Bayes

Tipos de clasificadores Naive Bayes

Ponga la IA a trabajar para servicio al cliente

Ventajas y desventajas del clasificador Naïve Bayes

Ventajas

Desventajas:

Aplicaciones del clasificador Naïve Bayes

Recursos