¿Qué es la clasificación de texto?

Autores

Cole Stryker

Staff Editor, AI Models

IBM Think

¿Qué es la clasificación de texto?

La clasificación de texto es una tarea de machine learning que implica asignar etiquetas predefinidas a los datos de texto para categorizarlos automáticamente en grupos. A medida que las empresas y plataformas se ocupan de volúmenes cada vez mayores de texto no estructurado, la clasificación de texto proporciona una forma poderosa de organizar, interpretar y actuar sobre datos de texto a escala.

Las organizaciones actuales producen una enorme cantidad de datos de texto en sitios web, aplicaciones y otras redes en forma de comentarios de clientes, publicaciones en redes sociales, documentos legales, correos electrónicos y más. Hay insights ocultos en estos datos que podrían ayudar a la organización a tomar mejores decisiones. La clasificación de textos es el primer paso del proceso.

Un ticket de soporte etiquetado como "urgente" se puede enrutar a un flujo de trabajo priorizado. Un correo electrónico etiquetado como "spam" se puede archivar automáticamente. Una reseña de cliente etiquetada como "positiva" puede informar un informe de opinión del cliente sobre un nuevo producto. Los datos clasificados se pueden agregar y visualizar para descubrir tendencias y patrones que de otro modo permanecerían ocultos.

Las últimas tendencias de IA presentadas por expertos

Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .

¡Gracias! Ya está suscrito.

Su suscripción se entregará en inglés. En cada boletín, encontrará un enlace para darse de baja. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

Cómo funciona la clasificación de texto

La clasificación de textos es una tarea fundamental en procesamiento de lenguaje natural (PLN), que se utiliza en una amplia gama de aplicaciones. Un clasificador de texto es un modelo de machine learning que resuelve diferentes problemas de clasificación, como clasificar textos por tema, sentimiento o intención. Descubra cómo funciona:

Clasificación de texto monitorear

Los modelos supervisados se utilizan normalmente para realizar la clasificación de texto. El primer paso es recopilar un gran conjunto de datos de muestras de texto. Pueden ser correos electrónicos, publicaciones en redes sociales, comentarios de clientes o documentos.

Los anotadores humanos aplican una etiqueta a cada fragmento de texto. Por ejemplo, "spam" o "no spam" o sentimiento "positivo" frente a "negativo". Este conjunto de datos de entrenamiento etiquetado forma la base para entrenar un modelo de aprendizaje automático. Por lo general, cuantos más datos, más precisos son los resultados.

El preprocesamiento del texto de entrada transforma el texto en un formato estandarizado y legible por máquina. Los clasificadores solo pueden trabajar con texto que se ha traducido a representaciones numéricas, a menudo utilizando incorporaciones de palabras o arquitecturas de codificador más avanzadas que capturan el significado semántico del lenguaje.

Hiperparámetros configuran variables como el número de capas de las Redes Neuronales, el número de neuronas por capa o el uso de una activación. Estos hiperparámetros se eligen antes de que comience el entrenamiento.

Luego, los datos se introducen en un algoritmo de clasificación, que aprende a asociar patrones en los datos con sus etiquetas asociadas.

Los algoritmos de clasificación de texto incluyen:

El modelo entrenado se prueba en un conjunto de datos de validación o prueba separado para evaluar el rendimiento del modelo con métricas como exactitud, precisión, recuperación y puntuación F1, y se evalúa frente a puntos de referencia establecidos.

Un modelo de clasificación de texto de buen rendimiento se puede integrar en los sistemas de producción donde clasifica el texto entrante en tiempo real.

Los modelos Advanced pueden mejorar con el tiempo mediante la incorporación de nuevos datos y el reentrenamiento. Los modelos de lenguaje previamente entrenados como BERT ya han aprendido una comprensión profunda del lenguaje y pueden ajustarse en tareas de clasificación específicas con relativamente pocos datos. Ajuste fino reduce el tiempo de entrenamiento y aumenta el rendimiento, especialmente para categorías complejas o matizadas.

Clasificación de texto no monitorear

Si bien los métodos supervisados son mucho más comunes, los modelos se pueden entrenar sin datos etiquetados mediante aprendizaje no supervisado. En lugar de que se le diga la categoría correcta para cada texto, el modelo intenta encontrar estructuras o patrones en los datos por sí solo. Esto contrasta con la clasificación de texto supervisada, donde cada ejemplo de entrenamiento se etiqueta con una categorización predefinida. Los métodos supervisados son mucho más comunes.

Por ejemplo, con una técnica llamada clustering, el modelo agrupa fragmentos de texto similares en clústeres basados en características compartidas, que luego pueden interpretarse como Categories.

AI Academy

Ponga la IA a trabajar para servicio al cliente

Vea cómo la IA generativa puede satisfacer a los clientes con una experiencia más fluida y aumentar la productividad de la organización en estas tres áreas clave: autoservicio, agentes humanos y operaciones del centro de contacto.

Casos de uso de clasificación de texto

Estas son algunas tareas comunes de PLN que implican clasificación:

  • Detección de spam
  • Análisis de sentimiento
  • Clasificación de temas
  • Detección de intenciones
  • Detección de toxicidad y abuso

Detección de spam

Los sistemas de detección de spam analizan los mensajes entrantes y los clasifican como "spam" o "no spam". Utilizan una combinación de reglas, patrones estadísticos y técnicas de machine learning para detectar correos electrónicos de phishing, mensajes de marketing masivo de remitentes desconocidos, enlaces sospechosos, malware y más.

Análisis de sentimientos

Elanálisis de sentimiento es el proceso de analizar grandes volúmenes de texto para determinar su sentimiento. El análisis de sentimiento ayuda a las organizaciones a determinar si las personas tienen asociaciones positivas o negativas en los puntos de contacto digitales.

Un algoritmo de machine learning puede medir el sentimiento utilizando palabras que aparecen en el texto, así como el orden en que aparecen. Los desarrolladores utilizan algoritmos de análisis de sentimientos para enseñar al software a identificar emociones en el texto de manera similar a como lo hacen los humanos.

Clasificación de temas

El objetivo de la clasificación de temas es asignar categorías predefinidas a un fragmento de texto. Se utiliza comúnmente en la gestión de contenidos, la agregación, la investigación académico y el análisis de feedback de los clientes para organizar grandes volúmenes de texto no estructurado.

Detección de intenciones

Mientras que la clasificación de temas le dice de qué se trata un mensaje, la detección de intenciones le dice qué está tratando de hacer el usuario. La detección de intenciones es útil para automatizar conversaciones y enrutar tareas en atención al cliente o comercio electrónico. Sin ella, los sistemas tendrían dificultades para proporcionar una asistencia significativa.

Detección de toxicidad y abuso

La detección de toxicidad y abuso es una tarea de clasificación de texto que se centra en identificar y marcar contenido dañino, ofensivo o abusivo en línea. Esto podría incluir lenguaje que sea odioso, amenazante, acosador, obsceno o inapropiado. Las grandes plataformas de redes sociales utilizan algoritmos de clasificación para ayudar a su personal de soporte a gestionar enormes bases de usuarios globales.

Marcos, herramientas y API

Hay muchas herramientas de código abierto disponibles para crear clasificadores de texto. Las infraestructuras como TensorFlow y PyTorch ofrecen componentes para crear y entrenar modelos. Por ejemplo, un clasificador basado en TensorFlow podría usar una API de Keras con módulos como validación_datos, optimizador y pérdida para entrenar un modelo con datos etiquetados. PyTorch, una biblioteca de machine learning basada en Python conocida por su flexibilidad, también se utiliza ampliamente con utilidades como DataLoader y nn.Module.

Si bien los clasificadores tradicionales utilizan etiquetas fijas, el auge de los modelos de lenguaje de gran tamaño (LLM) ha introducido enfoques generativos para la clasificación. Se puede pedir a los modelos que produzcan etiquetas y explicaciones en lenguaje natural. Por ejemplo, se podría dar una instrucción a un LLM con una oración y pedirle que clasifique el sentimiento, genere una justificación o sugiera categorías, todo sin entrenamiento adicional.

Con la aceleración de GPU, los tiempos de entrenamiento se reducen drásticamente, especialmente para grandes conjuntos de datos o arquitecturas complejas de aprendizaje profundo. Los investigadores y desarrolladores suelen compartir sus pipelines y modelos de entrenamiento en GitHub.

Soluciones relacionadas
IBM watsonx.ai

Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.

Descubra watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.

Explore las soluciones de IA
Consultoría y servicios de IA

Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Conozca los servicios de IA
Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida del desarrollo de IA. Produzca potentes soluciones de IA con interfaces fáciles de usar, flujos de trabajo y acceso a API y SDK estándar de la industria.

Explore watsonx.ai Reserve una demostración en vivo