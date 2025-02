Bolsa de n-gramas. La adopción de n-gramas en lugar de palabras puede corregir una serie de desventajas inherentes a los modelos de bag of words. En lugar de crear un modelo en el que cada palabra sea una característica, se pueden utilizar n-gramas como características vectoriales. En este contexto, n se refiere a la cantidad de palabras que se tratan como una unidad semántica, quizás la más común en la bolsa de n-gramas son los bigramas (es decir, dos palabras). Los bigramas de palabras son útiles porque pueden dar cuenta de palabras compuestas, como Nueva York o Torre Eiffel. Por supuesto, no todos los bigramas de palabras son informativos, por ejemplo, en el o de la. Sin embargo, es un medio para dar cuenta de problemas como las palabras compuestas y la correlación de palabras.7

Técnicas de normalización de textos. Es posible que los datos de texto sin procesar se deban normalizar para mejorar la estructura y la función de los modelos de bag of words. Al crear una bag of words, o una bolsa de n-gramas, las palabras como artículos (por ejemplo, un, el, etc.) y preposiciones (por ejemplo, desde, de, sobre, etc.) pueden tener la cantidad más alta de ocurrencias. Estas palabras no proporcionan mucha información sobre el contenido o el tipo de un documento, por lo que son en gran medida inútiles en las tareas de clasificación. Las técnicas de preprocesamiento de texto, como la eliminación de palabras vacías (a menudo utilizadas en stemming) pueden ayudar a eliminar palabras irrelevantes de los conjuntos de datos de texto para ayudar a mejorar la estructura de los modelos de bag of words. Afortunadamente, muchas bibliotecas y paquetes de Python, como NLTK o sklearn, vienen con funciones para llevar a cabo técnicas comunes de preprocesamiento.

Hash. Básicamente, el hash de características convierte palabras individuales de los datos de texto de entrada a un conjunto numérico de tamaño fijo. Este rango fijo de números se utiliza para construir el espacio vectorial para el modelo de bag of words. Limitar el rango de números, y por lo tanto las dimensiones del modelo, a un tamaño fijo ayuda a evitar la dispersión y la alta dimensionalidad. Una desventaja clave del hash son las llamadas colisiones. Una colisión de hash se produce cuando dos tokens no relacionados se asignan al mismo entero. Otra desventaja del hash es que no tiene en cuenta las palabras polisémicas.8