¿Qué es la extracción de información?

Una imagen que muestra bloques de diferentes formas

Autores

Ivan Belcic

Staff writer

Cole Stryker

Staff Editor, AI Models

IBM Think

¿Qué es la extracción de información?

La extracción de información (EI) es el proceso automatizado de extracción de información estructurada a partir de datos de texto semiestructurados o no estructurados, transformando fuentes de texto en lenguaje humano, como los PDF, en un formato organizado, consultable y legible por máquina. El procesamiento de lenguaje natural (PNL) se basa en la extracción de información para identificar datos importantes dentro del texto de entrada.

Los algoritmos de extracción de información pueden identificar entidades, incluidos nombres, relaciones, eventos, sentimientos y más, y luego clasificarlos y almacenarlos en una base de datos para su uso posterior. La información estructurada resultante tiene un formato estandarizado y normalmente se almacena en filas y columnas que identifican sus atributos. El almacenamiento estandarizado es el principal diferenciador entre los datos estructurados y los datos no estructurados.

Todos los valores de datos dentro de la misma base de datos se adhieren al mismo formato estructurado con los mismos atributos definidos. Los atributos relacionales también se resaltan para conectar bases de datos en función de atributos compartidos.

Diseño 3D de pelotas rodando en una pista

Las últimas novedades e insights sobre IA

Descubra insights y noticias de expertos sobre IA, la nube y mucho más en el boletín semanal Think. 

¿Por qué es importante la extracción de información?

La extracción de información permite a las empresas transformar documentos en conjuntos de datos aplicables en la práctica y generar insights valiosos a partir de ellos. Se proyecta que el mercado de procesamiento inteligente de documentos, que IE facilita, experimentará una tasa de crecimiento anual compuesta (CAGR) del 33.1% hasta 2030, desde un valor de 2300 millones de dólares en 2024.1

Recuperación de información

Los sistemas de extracción de información sientan las bases para la recuperación automatizada de información: el uso de algoritmos de inteligencia artificial (IA) para encontrar y recuperar automáticamente datos relevantes de bases de conocimiento. La recuperación de información es un componente esencial de la generación aumentada por recuperación (RAG), un proceso mediante el cual los modelos de lenguaje grandes (LLM) obtienen acceso a más datos para una alta precisión en casos de uso específicos de dominio. 

RAG puede hacer que los chatbots de LLM sean más precisos cuando se aplican a tareas de respuesta a preguntas porque el LLM puede aprovechar más conocimientos fuera de sus datos de entrenamiento para generar mejores respuestas.

Toma de decisiones basada en datos

Los líderes empresariales pueden utilizar la información extraída para facilitar la toma de decisiones basadas en datos en tiempo real. El IE es una etapa preliminar en el ciclo más amplio de procesamiento de la información en el que la información se adquiere, organiza, almacena, manipula y dispone para su uso. 

Los canales de datos entregan información a toda la compañía, conectando puntos de entrada (por ejemplo, pedidos en línea) con bases de datos. A partir de allí, las herramientas de visualización de datos los aprovechan para crear gráficos y cuadros en tiempo real, revelando insights aplicables en la práctica que impulsan la toma de decisiones estratégicas. 

Los grandes conjuntos de datos estructurados generados por los sistemas de IE se pueden utilizar para crear informes y resúmenes. Los algoritmos de machine learning para IE también pueden realizar resúmenes de texto para condensar documentos detallados en viñetas rápidamente digeribles con anotaciones para una referencia rápida. 

Por ejemplo, IE en atención médica puede compilar automáticamente un informe de un paciente a partir de varios archivos, lo que podría facilitar a los médicos el diagnóstico de problemas y la prescripción de tratamientos. Los profesionales financieros pueden generar pronósticos más precisos con información extraída de múltiples informes, artículos de noticias y otras fuentes.

Mixture of Experts | 28 de agosto, episodio 70

Decodificación de la IA: Resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el revuelo de la IA para ofrecerle las últimas noticias e insights al respecto.

Tipos de extracción de información

Las tareas de extracción de información se clasifican según el tipo de información que se identifica y etiqueta. Los sistemas IE pueden gestionar tareas que incluyen: 

  • Named entity recognition (NER) 
  • Extracción de relaciones
  • Extracción de eventos 
  • Análisis de sentimiento

Named entity recognition (NER) 

Named entity recognition es la tarea de IE de identificar entidades nombradas en datos no estructurados. Las entidades con nombre son objetos del mundo real que se pueden identificar de forma única. Esencialmente, son los nombres propios de los datos. Las entidades nombradas incluyen personas, fechas, corporaciones, lugares y productos, y pueden ser tanto físicas como abstractas. 

En la oración "A partir de enero de 2025, Arvind Krishna es el director ejecutivo (CEO) de IBM", las entidades nombradas incluyen enero de 2025, Arvind Krishna, director ejecutivo (CEO) e IBM

Vinculación de entidades

La vinculación de entidades es el proceso de averiguar si varias entidades se refieren al mismo objeto del mundo real. Al realizar una IE sobre un artículo que menciona a "Arvind Krishna", "Krishna" y "director ejecutivo (CEO) de IBM", una subtarea de vinculación de entidades identificaría las tres como referencias a la misma persona. La vinculación de entidades también se conoce como resolución de correferencia.

Extracción de relaciones (RE)

La extracción de relaciones es la tarea de extracción de información que consiste en identificar y categorizar las relaciones entre entidades de una fuente de datos. Descubrir las relaciones entre entidades puede abrir la puerta a insights que de otro modo pasarían desapercibidos. 

En nuestra oración de ejemplo del comienzo de esta sección, el proceso de RE dibujaría una conexión "trabaja en" entre "Arvind Krishna" e "IBM" con el título de "director ejecutivo (CEO)".

Extracción relacional versus extracción de relaciones

Los términos extracción relacional y extracción de relaciones a menudo se usan indistintamente, pero algunos científicos de datos abogan por una distinción sutil. Si bien la extracción de relaciones cubre cualquier intento de discernir las relaciones entre entidades, la extracción de relaciones se utiliza con mayor frecuencia con respecto a la aplicación de modelos de machine learning para realizar esta tarea.

Extracción de eventos

La extracción de eventos es la forma en que los sistemas IE reconocen eventos discretos en un cuerpo de texto de entrada. Palabras como “cita” o “reunión” pueden desencadenar una secuencia de extracción de eventos, al igual que las fechas. La extracción de eventos abarca el evento en sí, la hora y la fecha en que ocurrió, así como los participantes mencionados. 

En la oración de muestra, "Arvind Krishna asistió a la conferencia en enero de 2025", un algoritmo de extracción de eventos identificaría que una conferencia tuvo lugar en enero de 2025 y que uno de los asistentes fue el director ejecutivo de IBM, Arvind Krishna.

Análisis de sentimiento

El análisis de sentimiento determina el sentimiento comunicado por un fragmento de texto. El análisis de sentimiento es una herramienta valiosa para realizar estudios de mercado y comprender el comportamiento del cliente. 

Si se le proporciona un conjunto de datos que consiste en comentarios de usuarios, un algoritmo de IE puede proporcionar insights que revelen los porcentajes de consumidores con una opinión positiva, negativa o neutral sobre un producto. Los gerentes de producto podrían luego tomar esos insights y ajustar el producto para hacerlo más atractivo a una mayor proporción de sus usuarios actuales y potenciales.

¿Cómo funciona la extracción de información?

La extracción de información funciona analizando fuentes de datos no estructurados con algoritmos de machine learning para identificar datos significativos. Los sistemas de IE etiquetan las entidades de datos descubiertas y las almacenan en una base de datos organizada y consultable para una recuperación eficiente. 

Las técnicas de extracción de información incluyen: 

  • Basada en reglas
  • Clasificación (machine learning)
  • Etiquetado de secuencias

Estos métodos no se excluyen mutuamente: los avances en IE dieron lugar a modelos híbridos que combinan métodos para obtener mejores resultados.

Extracción de información basada en reglas

La extracción de información basada en reglas analiza los documentos para identificar entidades basadas en "reglas" establecidas: patrones y definiciones predefinidos que se conocen sobre las entidades del texto. La IE basada en reglas se aplica con mayor frecuencia a fuentes de datos semiestructuradas: datos que no están completamente estructurados pero que aún tienen algunas características de identificación, como etiquetas o metadatos. 

La IE basada en reglas de arriba hacia abajo funciona progresando de casos generales a casos específicos, mientras que el método de abajo hacia arriba hace lo contrario.

Extracción de información basada en clasificaciones

La IE basada en clasificación es un proceso de 2 pasos que aborda la extracción de información como una tarea de clasificación de aprendizaje supervisado. En primer lugar, los modelos de machine learning se entrenan en conjuntos de datos etiquetados para aprender las conexiones entre entidades y sus atributos correspondientes. Luego, los modelos predicen etiquetas para las entidades que identifican en nuevos datos no estructurados. 

Etiquetado de secuencias

El etiquetado de secuencias es la piedra angular del NLP y utiliza modelos de aprendizaje profundo para identificar y etiquetar los componentes de una secuencia de entrada, por ejemplo, las palabras en una instrucción de chatbot. El etiquetado de secuencias es un paso crítico de preprocesamiento de NLP, que ayuda a garantizar que las neural networks sepan exactamente cómo interpretar los datos de entrada. 

Además de identificar entidades en los datos, el etiquetado de secuencias también captura dependencias entre partes de una secuencia de entrada. Las dependencias son un tipo especial de relación en la que una parte de una secuencia de entrada se basa en otra parte para interpretarse correctamente. Los modelos transformadores, como las tecnologías de propósito general (GPT), se destacan en la captura de dependencias, por lo que pueden mantener la comprensión contextual a través de secuencias de entrada largas.

Soluciones relacionadas
IBM watsonx Orchestrate

Diseñe asistentes y agentes de IA escalables con facilidad, automatice tareas repetitivas y simplifique procesos complejos con IBM watsonx Orchestrate.

Descubra watsonx Orchestrate
Herramientas y API de procesamiento de lenguaje natural

Acelere el valor de negocio de la inteligencia artificial con una cartera potente y flexible de bibliotecas, servicios y aplicaciones.

Explorar las soluciones de PLN
Consultoría y servicios de IA

Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Conozca los servicios de IA
Dé el siguiente paso

Diseñe asistentes y agentes de IA escalables con facilidad, automatice tareas repetitivas y simplifique procesos complejos con IBM watsonx Orchestrate.

Descubra watsonx Orchestrate Explorar las soluciones de PLN