¿Qué es la extracción de características?

Autores

Vanna Winland

AI Advocate & Technology Writer

¿Qué es la extracción de características?

La extracción de características es una técnica que reduce la dimensionalidad o complejidad de los datos para mejorar el rendimiento y la eficiencia de los algoritmos de ML (machine learning). Este proceso facilita las tareas de ML (machine learning) y mejora el análisis de datos al simplificar el conjunto de datos para incluir solo sus variables o atributos significativos. 

El rendimiento de un modelo de inteligencia artificial (IA) depende de la calidad de sus datos de entrenamiento Los modelos de machine learning pasan por un preprocesamiento para ayudar a garantizar que los datos estén en un formato adecuado para un entrenamiento y un rendimiento eficientes del modelo. La extracción de características es una parte crucial del flujo de trabajo de preprocesamiento.

Durante el proceso de extracción, los datos no estructurados se convierten en un formato más estructurado y utilizable para mejorar la calidad de los datos y la interpretabilidad del modelo. La extracción de características es un subconjunto de la ingeniería de características, el proceso más amplio de crear, modificar y seleccionar características dentro de datos sin procesar para optimizar el rendimiento del modelo.  

Desde las primeras investigaciones en el reconocimiento de patrones, se han estudiado nuevos métodos y técnicas para emplear un método heurístico para extraer las características más relevantes de un conjunto de datos utilizando IA.1 A medida que avanzaba la investigación, los autocodificadores se utilizaron tradicionalmente para reducir la dimensionalidad para el aprendizaje de características.2

Es difícil trabajar con los datos cuando el número de características o covariables supera el número de puntos de datos independientes. Este tipo de datos se consideran datos de alta dimensión.3 La extracción de características puede considerarse una técnica de reducción de la dimensionalidad. 4

Esto es crucial cuando se trabaja con grandes conjuntos de datos o conjuntos de datos de múltiples modalidades. Cuantas más características extraídas deba gestionar el modelo, menos competente y eficaz será.5 Las tareas comunes que dependen de la extracción eficiente de características incluyen el procesamiento de imágenes, el procesamiento del lenguaje natural (PLN) y el procesamiento de señales. 

Las últimas tendencias en IA, presentadas por expertos

Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.

¡Gracias! Está suscrito.

Su suscripción se enviará en inglés. Encontrará un enlace para darse de baja en cada boletín. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

¿Cómo funciona la extracción de características?

La reducción de la dimensionalidad es una técnica de ciencia de datos utilizada en el paso de preprocesamiento en el machine learning.6 Durante este proceso, los datos irrelevantes y redundantes se eliminan al tiempo que se conserva la información relevante del conjunto de datos original.

Las características se pueden considerar como los atributos de un objeto de datos. Por ejemplo, en un conjunto de datos de animales, se esperarían algunas características numéricas (edad, altura, peso) y características categóricas (color, especie, raza). La extracción de características forma parte de la arquitectura de redes neuronales del modelo, como una red neuronal convolucional (CNN).

En primer lugar, el modelo toma los datos de entrada y, a continuación, el extractor de características transforma los datos en una representación numérica que se puede utilizar para calcular los métodos de reducción de dimensionalidad para la extracción de características. Estas representaciones se almacenan en vectores de características para que el modelo realice algoritmos para la reducción de datos. 

Después de la extracción, a veces es necesario estandarizar los datos mediante la normalización de característica, especialmente cuando se utilizan ciertos algoritmos que son sensibles a la magnitud y la escala de las variables (algoritmos de descenso basados en gradientes, clúster k-means).

Se pueden seguir diferentes métodos para lograr ciertos resultados dependiendo de las tareas. Todos los métodos buscan simplificar los datos preservando la información más valiosa.

La mayoría de los modelos modernos de IA realizan la extracción automática de características, pero sigue siendo útil comprender las diversas formas de manejarlas. Estos son algunos métodos comunes de extracción de características utilizados para la dimensión:

Análisis de componentes principales (PCA): esta técnica reduce el número de características de grandes conjuntos de datos a componentes principales o nuevas características que el clasificador del modelo utilizará para sus tareas específicas.

PCA es popular debido a su capacidad para crear datos originales que no están correlacionados, lo que significa que las nuevas dimensiones que crea PCA son independientes entre sí.7 Esto convierte a PCA en una solución eficaz para el sobreajuste debido a la falta de redundancia de datos, ya que cada característica es única.   
 
Análisis discriminante lineal (LDA): esta técnica se utiliza comúnmente en el machine learning supervisado para separar múltiples clases y características para resolver problemas de clasificación.

Esta técnica se utiliza comúnmente para optimizar los modelos de machine learning. Los nuevos puntos de datos se clasifican utilizando estadísticas bayesianas para modelar la distribución de datos para cada clase. 

Embedding de vecinos estocásticos distribuidos en T (t-SNE): esta técnica de machine learning se aplica comúnmente a tareas como la visualización de características en deep learning.8 Esto es especialmente útil cuando la tarea es renderizar visualizaciones de datos de alta dimensión en 2D o 3D.

Esto se utiliza comúnmente para analizar patrones y relaciones en la ciencia de datos. Debido a su naturaleza no lineal, t-SNE es costoso desde el punto de vista computacional y normalmente solo se utiliza para tareas de visualización.

Frecuencia de términos-Frecuencia inversa del documento (TF-IDF): este método estadístico evalúa la importancia de las palabras en función de la frecuencia con la que aparecen. El término frecuencia en un documento específico se pondera en función de la frecuencia con la que aparece en todos los documentos de una colección o corpus.9 

Esta técnica se utiliza habitualmente en el PLN para la clasificación, clustering y la recuperación de información. Bag of words (BoW) es una técnica similar, pero en lugar de considerar la relevancia del término, trata efectivamente todas las palabras por igual. 

Mixture of Experts | 12 de diciembre, episodio 85

Descifrar la IA: resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el bullicio de la IA para ofrecerle las últimas noticias y conocimientos al respecto.

Casos de uso

Procesamiento de imágenes y visión artificial: el proceso de extracción de características identifica y extrae las características clave de imágenes y vídeos. Los datos de imagen sin procesar (píxeles) se transforman en características que la máquina puede aplicar algoritmos para extraer y clasificar un nuevo conjunto de características. Por ejemplo, el histograma de gradientes orientados (HOG) es un algoritmo de extracción de características utilizado para la detección de objetos.

Procesamiento del lenguaje natural: la extracción de características convierte los datos de texto sin procesar en una estructura de formato que el modelo de machine learning puede procesar. Esto es útil para tareas como la clasificación, el análisis de sentimiento o named entity recognition (NER). Esta técnica puede aplicarse en todos los sectores, utilizarse en interfaces de chat e incluso en salud conductual. Esta investigación sugiere que la extracción de características ayuda en el reconocimiento multimodal de emociones para monitorizar la salud conductual del paciente.10

Procesamiento de señales: esta técnica se utiliza para analizar y extraer información significativa de datos de señales sin procesar (audio, imágenes o incluso datos de series temporales) para facilitar tareas como la clasificación, la detección o la predicción. Aunque el procesamiento de señales se asocia tradicionalmente con áreas como el reconocimiento de voz, el procesamiento de audio y el análisis de imágenes, también se puede aplicar en muchos otros dominios. Por ejemplo, en el contexto médico, se utilizan señales psicológicas, como lecturas de ECG, para detectar tendencias.11

Soluciones relacionadas
IBM watsonx.ai

Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de nueva generación para desarrolladores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.

Descubra watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.

Explore las soluciones de IA
Consultoría y servicios de IA

Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Explore los servicios de IA
Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida de desarrollo de la IA. Produzca potentes soluciones de IA con interfaces intuitivas, flujos de trabajo y acceso a API y SDK estándar del sector.

Explore watsonx.ai Solicite una demostración en directo
Notas a pie de página

1 Minsky, Marvin. "Steps toward artificial intelligence." Actas de la IRE 49, núm. 1 (1961): 8-30. https://rodsmith.nz/wp-content/uploads/Minsky-steps-towards-artificial-intelligence-1.pdf.

2 Ian Goodfellow, Yoshua Bengio y Aaron Courville. Deep Learning (Cambridge, MA: MIT Press, 2016).  https://www.deeplearningbook.org/contents/autoencoders.html.

3 Narisetty, Naveen Naidu. "Bayesian model selection for high-dimensional data." En Handbook of Statistics, vol. 43, pp. 207-248. Elsevier, 2020. https://www.sciencedirect.com/science/article/abs/pii/S0169716119300380.  

4 de-la-Bandera, Isabel, David Palacios, Jessica Mendoza y Raquel Barco. "Feature extraction for dimensionality reduction in cellular networks performance analysis." Sensors 20, no. 23 (2020): 6944. https://pmc.ncbi.nlm.nih.gov/articles/PMC7730729.

5 https://www.sciencedirect.com/topics/computer-science/feature-extraction.

6 Khalid, Samina, Tehmina Khalil y Shamila Nasreen. "A survey of feature selection and feature extraction techniques in machine learning." En la conferencia de ciencia e información de 2014, pp. 372-378. IEEE, 2014. https://ieeexplore.ieee.org/abstract/document/6918213.  

7 Kuhn, Max y Kjell Johnson. Applied predictive modeling. vol. 26. Nueva York: Springer, 2013.  

8 Zhou, Yuansheng y Tatyana O. Sharpee. "Using global t-SNE to preserve intercluster data structure." Neural computation 34, no. 8 (2022): 1637-1651. https://pmc.ncbi.nlm.nih.gov/articles/PMC10010455/.  

9 Sammut, Claude y Geoffrey I. Webb, eds. Enciclopedia de machine learning. Springer Science & Business Media, 2011.  

10 Minsky, Marvin. "Steps toward artificial intelligence." Actas de la IRE 49, núm. 1 (1961): 8 30. https://www.sciencedirect.com/science/article/abs/pii/S1566253523005341.  

11 Geetha, A. V., T. Mala, D. Priyanka y E. Uma. "Multimodal emotion recognition with deep learning: advancements, challenges, and future directions." Information Fusion 105 (2024): 102218. https://www.sciencedirect.com/science/article/abs/pii/S1566253523005341.