Aprendizaje automático en base de datos

Con el aprendizaje automático, puede crear un modelo estadístico utilizando datos de la base de datos Db2® . El aprendizaje automático es una potente solución para resolver problemas complejos.

Nota: Esta característica está disponible a partir de Db2 versión 11.5.4.
Entre los casos de uso de las soluciones de aprendizaje automático se incluyen:
  • Problemas cuya solución existente requiere largas listas de reglas. Con frecuencia, un algoritmo de aprendizaje automático puede simplificar el problema y dar más rendimiento que este enfoque tradicional.
  • Problemas para los que el enfoque tradicional no es una solución satisfactoria.
  • Entornos fluctuantes.
  • Analizar grandes cantidades de datos complejos para obtener conocimientos.
  • Descubrir y explotar características «latentes» u «ocultas» de los datos que, de otra forma, pasarían desapercibidas a los humanos y a los métodos estadísticos tradicionales.
En general, el aprendizaje automático se divide en tres categorías:
Aprendizaje supervisado
El aprendizaje supervisado se lleva a cabo usando una «verdad terreno» donde se tiene un conocimiento previo de cuáles van a ser los valores de salida. Estos valores de verdad terreno se llaman «etiquetas» o «destinos». Por ejemplo, cuando se intenta predecir un fraude de tarjeta de crédito, los datos de entrenamiento incluirán transacciones pasadas que son claramente fraudulentas (el destino).
Aprendizaje por incentivos («reinforcement learning»)
En el aprendizaje por incentivos, una máquina o «agente» observa su entorno, lleva a cabo «acciones», recibe «recompensas» y aprende a decidir qué acciones adicionales hay que realizar a fin de obtener la máxima «recompensa». El aprendizaje por incentivos es distinto del aprendizaje supervisado, ya que tiene un conocimiento previo del concepto de «recompensa» respecto de determinadas «acciones». Además, este método no depende de datos etiquetados.
Aprendizaje no supervisado
En el aprendizaje no supervisado, los datos de entrenamiento no incluyen ninguna etiqueta. Al no haber salidas etiquetadas, el modelo tiene que inferir la estructura natural que los puntos de datos tienen en común. Como tales, las tareas de aprendizaje no supervisado suelen implicar la obtención de una estructura subyacente o de patrones de los datos que de otra forma no serían evidentes.
Entre las tareas de aprendizaje automático típicas se incluyen:
Clasificación
Clasificación de instancias en una de varias categorías. Por ejemplo, la clasificación de correos electrónicos como «spam» o «no spam».
Regresión
Predicción de un valor numérico de destino. Por ejemplo, la estimación del precio de una vivienda.
Agrupación en clústeres
Detección de grupos dentro de los datos. Por ejemplo, la detección de grupos de visitantes similares de un sitio web.

Para generar un modelo predictivo robusto y preciso suelen ser necesarias ingentes cantidades de datos. Con el aprendizaje automático para Db2, un usuario puede crear un modelo de aprendizaje automático sin mover datos de Db2. Esto mejora la seguridad, ya que los datos no salen en ningún momento de una base de datos segura. También mejora la velocidad, ya que no hay costes asociados a la transferencia de datos.