¿Qué es la extracción de características?

Autores

Vanna Winland

AI Advocate & Technology Writer

¿Qué es la extracción de características?

La extracción de características es una técnica que reduce la dimensionalidad o complejidad de los datos para mejorar el rendimiento y la eficiencia de los algoritmos de machine learning (ML). Este proceso facilita las tareas de machine learning (ML) y mejora el análisis de datos al simplificar el conjunto de datos para incluir solo sus variables o atributos significativos. 

El rendimiento de un modelo de inteligencia artificial (AI) depende de la calidad de sus datos de entrenamiento. Los modelos de machine learning pasan por un preprocesamiento para ayudar a garantizar que los datos estén en un formato adecuado para el entrenamiento y el rendimiento eficientes del modelo. La extracción de características es una parte crucial del flujo de trabajo de preprocesamiento.

Durante el proceso de extracción, los datos no estructurados se convierten en un formato más estructurado y utilizable para mejorar la calidad de los datos y la interpretabilidad del modelo. La extracción de características es un subconjunto de la ingeniería de características, el proceso más amplio de creación, modificación y selección de características dentro de los datos sin procesar para optimizar el rendimiento del modelo.  

Desde las primeras investigaciones en el reconocimiento de patrones, se han estudiado nuevos métodos y técnicas para emplear un método heurístico para extraer las características más relevantes de un conjunto de datos utilizando IA.1 A medida que avanzaba la investigación, los autocodificadores se utilizaban tradicionalmente para la reducción de la dimensionalidad para el aprendizaje de características.2

Es difícil trabajar con los datos cuando el número de características o covariables supera el número de puntos de datos independientes. Este tipo de datos se consideran datos de alta dimensión.3 La extracción de características puede considerarse una técnica de reducción de dimensionalidad. 4

Esto es crucial cuando se trabaja con grandes conjuntos de datos o conjuntos de datos de múltiples modalidades. Cuantas más características extraídas deba gestionar el modelo, menos competente y eficaz será.5 Las tareas comunes que dependen de la extracción eficiente de características incluyen el procesamiento de imágenes, el procesamiento de lenguaje natural (PLN) y el procesamiento de señales. 

Las últimas tendencias de IA presentadas por expertos

Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .

¡Gracias! Ya está suscrito.

Su suscripción se entregará en inglés. En cada boletín, encontrará un enlace para darse de baja. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

¿Cómo funciona la extracción de características?

La reducción de dimensionalidad es una técnica de ciencia de datos utilizada en el paso de preprocesamiento en el machine learning.6 Durante este proceso, los datos irrelevantes y redundantes se eliminan mientras se conserva la información relevante del conjunto de datos original.

Las características se pueden considerar como los atributos de un objeto de datos. Por ejemplo, en un conjunto de datos de animales, se esperarían algunas características numéricas (edad, altura, peso) y características categóricas (color, especie, raza). La extracción de características forma parte de la arquitectura de Neural Networks del modelo, como una Neural Networks convolucional (CNN).

Primero, el modelo toma datos de entrada, luego el extractor de características transforma los datos en una representación numérica que se puede usar para calcular los métodos de reducción de dimensionalidad para la extracción de características. Estas representaciones se almacenan en vectores de características para que el modelo realice algoritmos para la reducción de datos. 

Después de la extracción, a veces es necesario estandarizar los datos mediante la normalización de característica, especialmente cuando se utilizan ciertos algoritmos que son sensibles a la magnitud y escala de las variables (algoritmos de descenso basados en gradientes, k-means clúster).

Se pueden seguir diferentes métodos para lograr ciertos resultados dependiendo de las tareas.

Todos los métodos buscan simplificar los datos preservando la información más valiosa. La mayoría de los modelos modernos de IA realizan la extracción automática de características, pero sigue siendo útil comprender las diversas formas de manejarla. Estos son algunos métodos comunes de extracción de características utilizados para la dimensión:

Análisis de componentes principales (PCA): esta técnica reduce el número de características en grandes conjuntos de datos a componentes principales o nuevas características que utilizará el clasificador del modelo para sus tareas específicas.

PCA es popular debido a su capacidad para crear datos originales que no están correlacionados, lo que significa que las nuevas dimensiones que crea PCA son independientes entre sí.7 Esto convierte a PCA en una solución eficiente para el sobreajuste debido a la falta de redundancia de datos porque cada característica es única.   
 
Análisis discriminante lineal (LDA): Esta técnica se utiliza comúnmente en el aprendizaje automático supervisado para separar múltiples clases y característica para resolver problemas de clasificación.

Esta técnica se utiliza comúnmente para optimizar los modelos de machine learning. Los nuevos puntos de datos se clasifican utilizando estadísticas bayesianas para modelar la distribución de datos para cada clase. 

Incorporación de vecinos estocásticos distribuidos en T (t-SNE): esta técnica de machine learning se aplica comúnmente a tareas como la visualización de características en el aprendizaje profundo.8 Esto es especialmente útil cuando la tarea es renderizar visualizaciones de datos de alta dimensión en 2D o 3D.

Esto se usa comúnmente para analizar patrones y relaciones en la ciencia de datos. Debido a su naturaleza no lineal, t-SNE es costoso desde el punto de vista informático y, por lo general, solo se utiliza para tareas de visualización.

Frecuencia de términos-Frecuencia inversa del documento (TF-IDF): este método estadístico evalúa la importancia de las palabras en función de la frecuencia con la que aparecen. El término frecuencia en un documento específico se pondera en función de la frecuencia con la que aparece en todos los documentos de una colección o corpus.9 

Esta técnica se utiliza comúnmente en NLP para clasificación, clúster y recuperación de información. Bag of words (Bag of words) es una técnica similar, pero en lugar de considerar la relevancia del término, trata efectivamente todas las palabras por igual. 

Mixture of Experts | 12 de diciembre, episodio 85

Decodificación de la IA: Resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el revuelo de la IA para ofrecerle las últimas noticias e insights al respecto.

Casos de uso

Procesamiento de imágenes y visión artificial: el proceso de extracción de características identifica y extrae las características clave de imágenes y videos. Los datos de imagen sin procesar (píxeles) se transforman en características que la máquina puede aplicar algoritmos para extraer y clasificar un nuevo conjunto de características. Por ejemplo, el histograma de gradientes orientados (HOG) es un algoritmo de extracción de características utilizado para la detección de objetos.

Procesamiento de lenguaje natural: La extracción de características convierte los datos de texto sin procesar en una estructura de formato que el modelo de machine learning puede procesar. Esto es útil para tareas como la clasificación, el análisis de sentimientos o el reconocimiento de entidades nombradas (NER). Esta técnica se puede aplicar en todas las industrias, en interfaces de chat e incluso en el estado. Esta investigación sugiere que la extracción de características ayuda en el reconocimiento multimodal de emociones para monitorear la salud del paciente.10

Procesamiento de señales: esta técnica se utiliza para analizar y extraer información significativa de datos de señales sin procesar (audio, imágenes o incluso datos de series temporales) para facilitar tareas como la clasificación, la detección o la predicción. Si bien el procesamiento de señales se asocia tradicionalmente con áreas como el reconocimiento de voz, el procesamiento de audio y el análisis de imágenes, también se puede aplicar en muchos otros dominios. Por ejemplo, en el contexto médico, se utilizan señales psicológicas, como lecturas de ECG, para detectar tendencias.11

Soluciones relacionadas
IBM watsonx.ai

Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.

Descubra watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.

Explore las soluciones de IA
Consultoría y servicios de IA

Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Conozca los servicios de IA
Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida del desarrollo de IA. Produzca potentes soluciones de IA con interfaces fáciles de usar, flujos de trabajo y acceso a API y SDK estándar de la industria.

Explore watsonx.ai Reserve una demostración en vivo
Notas de pie de página

1 Minsky, Marvin. "Pasos hacia la inteligencia artificial". Actas de la IRE 49, no. 1 (1961): 8-30. https://rodsmith.nz/wp-content/uploads/minsky-steps-towards-artificial-intelligence-1.pdf.

2 Ian Goodfellow, Yoshua Bengio y Aaron Courville. Aprendizaje profundo (Cambridge, MA: MIT Press, 2016).  https://www.deeplearningbook.org/contents/autoencoders.html.

3 Narisetty, Naveen Naidu. "Selección de modelos bayesianos para datos de alta dimensión". En Handbook of statistics, vol. 43, págs. 207-248. Elsevier, 2020. https://www.sciencedirect.com/science/article/abs/pii/s0169716119300380.  

4 de-la-Bandera, Isabel, David Palacios, Jessica Mendoza, and Raquel Barco. "Extracción de características para la reducción de dimensionalidad en el análisis de rendimiento de redes celulares". Sensors 20, no. 23 (2020): 6944. https://pmc.ncbi.nlm.nih.gov/articles/pmc7730729.

5 https://www.sciencedirect.com/topics/computer-science/feature-extraction.

6 Khalid, Samina, Tehmina Khalil y Shamila Nasreen. "Una encuesta de selección y extracción de características en el machine learning." En la conferencia de ciencia e información de 2014, págs. 372-378. IEEE, 2014. https://ieeexplore.ieee.org/abstract/document/6918213.  

7 Kuhn, Max y Kjell Johnson. Modelado predictivo aplicado. vol. 26. Nueva York: Springer, 2013.  

8 Zhou, Yuansheng y Tatyana O. Sharpee. "Uso de t-SNE global para preservar la estructura de datos entre clústeres". Cálculo neuronal 34, no. 8 (2022): 1637-1651. https://pmc.ncbi.nlm.nih.gov/articles/pmc10010455/.  

9 Sammut, Claude, and Geoffrey I. Webb, eds. Enciclopedia de machine learning. Springer Science & Business Media, 2011.  

10 Minsky, Marvin. "Pasos hacia la inteligencia artificial". Actas de la IRE 49, no. 1 (1961): 8 30. https://www.sciencedirect.com/science/article/abs/pii/s1566253523005341.  

11 Geetha, A. V., T. Mala, D. Priyanka y E. Uma. "Reconocimiento de emociones multimodal con aprendizaje profundo: avances, desafíos y direcciones futuras". Information Fusion 105 (2024): 102218. https://www.sciencedirect.com/science/article/abs/pii/s1566253523005341.