Inicio

Temas

AutoML

¿Qué es AutoML?
Explore la solución AutoML de IBM Regístrese para recibir actualizaciones sobre IA
Ilustración con collage de pictogramas de nubes, gráfico circular, pictogramas gráficos
¿Qué es AutoML?

Automated Machine Learning(AutoML), independientemente de si está creando clasificadores o entrenando regresiones, puede considerarse como un concepto de búsqueda generalizada, con algoritmos de búsqueda especializados para encontrar las soluciones óptimas para cada componente de la canalización del aprendizaje automático.

AutoML se ha convertido en un tema de tendencia en la industria y en la investigación académica en materia de  inteligencia artificial (IA) en los últimos años. AutoML es una solución muy prometedora al proporcionar soluciones para la IA en industrias reguladas al proporcionar resultados explicables y reproducibles. AutoML permite un mayor acceso al desarrollo de la IA para aquellos que no cuentan con la base teórica que actualmente se necesita para desempeñar una función en el área de la ciencia de datos

Cada paso en el proceso prototípico actual de la canalización en ciencia de datos, como el procesamiento previo de datos, la ingeniería de características y la optimización de hiperparámetros, se debe realizar de forma manual por expertos en aprendizaje automático. En comparación, la adopción de AutoML permite que el proceso de desarrollo sea más simple, mediante el cual unas pocas líneas de código pueden generar el código necesario para comenzar a desarrollar un modelo de aprendizaje automático.  

Al crear un sistema que permite la automatización de solo tres piezas clave de la automatización (ingeniería de características, optimización de hiperparámetros y búsqueda de arquitectura neuronal), Automl promete un futuro donde el aprendizaje automático democratizado sea una realidad.

IA generativa y aprendizaje automático (ML) para empresas

Conozca los beneficios clave de la IA generativa y cómo las organizaciones pueden incorporar la IA generativa y el aprendizaje automático en su negocio.

Contenido relacionado Regístrese para obtener el libro electrónico sobre almacenes de datos de IA
Comience su camino hacia la IA
Tipos de AutoML

 

En una canalización de ciencia de datos, hay muchos pasos que un equipo de ciencia de datos debe seguir para crear un modelo predictivo. Incluso los equipos experimentados de científicos de datos e ingenieros de ML pueden beneficiarse de la mayor velocidad y transparencia que aporta AutoML. Un científico de datos debe comenzar con una hipótesis, recopilar el conjunto de datos correcto, probar algunas visualizaciones de datos, diseñar características adicionales para aprovechar todas las señales disponibles, entrenar un modelo con hiperparámetros (enlace externo a ibm.com) y para el aprendizaje profundo de última generación debe diseñar la arquitectura óptima para una red neuronal profunda, con suerte, en una GPU si está a disposición.

 

Ingeniería de características automatizada


Una característica de datos es una parte de los datos que se ingresan a un modelo de aprendizaje automático y la ingeniería de características se refiere al proceso transformador en el que un científico de datos obtiene nueva información de los datos existentes. La ingeniería de características es uno de los procesos fundamentales de valor agregado en un flujo de trabajo de ML y las buenas características son la diferencia entre un modelo con un rendimiento aceptable y un modelo con un rendimiento brillante. Estas transformaciones matemáticas de los datos sin procesar se leen en el modelo y funcionan como el corazón del proceso de aprendizaje automático. La ingeniería automatizada de características (AFE) (enlace externo a ibm.com) es el proceso de exploración del espacio de las combinaciones viables de características de una manera mecánica, en lugar de hacerlo de forma manual.

La ingeniería manual de características es una alquimia moderna que tiene un costo importante en términos de tiempo: la creación de una sola característica a menudo puede tardar horas, y la cantidad de características requeridas para obtener un puntaje con una precisión mínima, por no hablar de una base de referencia con una precisión a nivel de producción, puede ascender a cientos. Al automatizar la exploración de un espacio de características, AutoML reduce el tiempo que un equipo de ciencia de datos dedica a esta fase de días a minutos.

Reducir las horas de intervención manual por parte de un científico de datos no es el único beneficio de la ingeniería de características automatizada. Las características generadas con frecuencia se pueden interpretar de forma clara.En industrias sujetas a una regulación estricta, como la atención médica o las finanzas, esa explicabilidad es importante porque reduce las barreras para adoptar la IA a través de la interpretabilidad. Además, un científico o analista de datos se beneficia de la claridad de estas características porque hacen que los modelos de alta calidad sean más convincentes y procesables. Las características generadas de manera automática también tienen el potencial de encontrar nuevos KPI para que una organización los monitoree y actúe en consecuencia. Una vez completada la ingeniería de características, el científico de datos debe optimizar sus modelos con una selección estratégica de características. 

 

Optimización automatizada de hiperparámetros


Los hiperparámetros forman parte de los algoritmos de aprendizaje automático que, por analogía y para entenderlos mejor, son como palancas que permiten ajustar el rendimiento del modelo, aunque a menudo los ajustes incrementales tienen un impacto enorme. En el modelado de ciencia de datos a pequeña escala, los hiperparámetros se pueden configurar a mano con facilidad y pueden optimizarse mediante prueba y error.

Para las aplicaciones de aprendizaje profundo, el número de hiperparámetros crece exponencialmente, lo que hace que su optimización supere las capacidades de un equipo de ciencia de datos para llevarla a cabo de forma manual y oportuna. La optimización de hiperparámetros(HPO) automatizada (enlace externo a ibm.com) libera a los equipos de la intensa responsabilidad de explorar y optimizar todo el espacio de eventos para hiperparámetros y, en su lugar, permite a los equipos iterar y experimentar sobre características y modelos.

Otro punto fuerte de la automatización del proceso de aprendizaje automático es que ahora los científicos de datos pueden centrarse en el por qué de la creación de modelos en lugar del cómo. Teniendo en cuenta las cantidades extremadamente grandes de datos disponibles para muchas empresas y la abrumadora cantidad de preguntas que se pueden responder con estos datos, un equipo de análisis puede prestar atención a los aspectos del modelo que deben optimizar, como el problema tradicional de minimizar los falsos negativos en los exámenes médicos.

Búsqueda de arquitectura neuronal


El proceso más complejo y lento en el aprendizaje profundo es la creación de la arquitectura neuronal. Los equipos de ciencia de datos dedican mucho tiempo a seleccionar las capas adecuadas y las tasas de aprendizaje que, al final, a menudo son solo para las ponderaciones del modelo, como en muchos modelos de lenguaje. La búsqueda de arquitectura neuronal (NAS) (enlace externo a ibm.com) se describió como "el uso de redes neuronales para diseñar redes neuronales" y es una de las áreas más evidentes del ML que pueden beneficiarse de la automatización.

Las búsquedas de NAS comienzan con la elección de las arquitecturas que se van a probar. El resultado de NAS está determinado por la métrica con la que se juzga cada arquitectura. Hay varios algoritmos comunes que se pueden usar en una búsqueda de arquitectura neuronal. Si el número potencial de arquitecturas es pequeño, las opciones para las pruebas se pueden hacer al azar. Los enfoques basados en gradientes, en los que el espacio de búsqueda discreto se convierte en una representación continua, demostraron ser muy eficaces. Los equipos de ciencia de datos también pueden probar algoritmos evolutivos en los que las arquitecturas se evalúan al azar y los cambios se aplican lentamente, propagando las arquitecturas secundarias que tienen más éxito y recortando las que no lo son.

Las búsquedas de arquitecturas neuronales son uno de los elementos clave de AutoML que prometen democratizar la IA. Sin embargo, estas búsquedas suelen tener una huella de carbono muy alta. Aún no se ha realizado un examen de estas compensaciones y la optimización del costo ecológico es un área de búsqueda en curso en los enfoques de NAS.

Enlaces relacionados Data science Aprendizaje automático AutoAI
Estrategias para usar AutoML

El aprendizaje automático automático suena como la panacea de las soluciones técnicas que una organización puede usar para reemplazar a los costosos científicos de datos, pero en realidad su uso requiere estrategias inteligentes para la organización. Los científicos de datos cumplen funciones esenciales para diseñar experimentos, traducir los resultados en resultados empresariales y mantener el ciclo de vida completo de sus modelos de aprendizaje automático. Entonces, ¿cómo pueden los equipos multifuncionales hacer uso de AutoML para optimizar su uso del tiempo y reducir el tiempo para obtener valor de sus modelos?

El flujo de trabajo óptimo para incluir API de AutoML es aquel que se utiliza para paralelizar cargas de trabajo y acortar el tiempo dedicado a tareas manuales intensivas. En lugar de dedicar días al ajuste de hiperparámetros, un científico de datos podría automatizar este proceso en múltiples tipos de modelos al mismo tiempo y, posteriormente, probar cuál tuvo el mejor rendimiento.  

Además, hay características de AutoML que permiten a los miembros del equipo de diferentes niveles de habilidades contribuir a la canalización de ciencia de datos. Un analista de datos sin experiencia en Python podría usar un kit de herramientas, como AutoAI en Watson Studio, para entrenar un modelo predictivo utilizando los datos que puede extraer por su cuenta a través de una consulta. Con AutoML, un analista de datos ahora puede preprocesar datos, crear una canalización de aprendizaje automático y producir un modelo completamente entrenado que puede usar para validar sus propias hipótesis sin requerir la atención de un equipo completo de ciencia de datos.

AutoML e IBM Research

Los investigadores y desarrolladores de IBM contribuyen al crecimiento y desarrollo de AutoML. El desarrollo continuo de productos con AutoAI en IBM Watson y el trabajo de los investigadores de IBM en Lale (enlace externo a ibm.com), una biblioteca automatizada de ciencia de datos de código abierto, son solo algunas de las formas en que IBM ayuda a crear la próxima generación de enfoques de IA. Si bien Lale es un proyecto de código abierto, en realidad es fundamental para muchas de las capacidades de AutoAI. 

Para los equipos de ciencia de datos que trabajan con Python como núcleo de su pila de ML, Lale ofrece una biblioteca semiautomatizada que se integra a la perfección dentro de las canalizaciones de scikit-learn (enlace externo a ibm.com), a diferencia de auto-sklearn (enlace externo a ibm .com), o una biblioteca como TPOT (enlace externo a ibm.com). Lale va más allá de scikit-learn con automatización, verificaciones de corrección e interoperabilidad.  Si bien se basa en el paradigma scikit-learn, tiene un número creciente de transformadores y operadores de otras bibliotecas de Python y de bibliotecas en lenguajes como Java y R.  

Soluciones relacionadas
watsonx.ai

Experimente con modelos fundacionales y cree modelos de aprendizaje automático instantáneamente en nuestro estudio de próxima generación para creadores de IA.

Explore watsonx.ai Vea la demostración interactiva
AutoAI

Cree y entrene rápidamente modelos predictivos de alta calidad. Simplifique la gestión del ciclo de vida de la IA.

Conozca AutoAI
IBM Watson Studio

Cree y amplíe la IA de confianza en cualquier nube. Automatice el ciclo de vida de la IA para ModelOps.

Más información sobre IBM Watson Studio
Recursos Utilice AutoML para encontrar e implementar los mejores modelos en cuestión de minutos

Descubra cómo Watson AutoAI, la solución de AutoML de próxima generación, descubre y crea las canalizaciones de modelado más adecuadas para sus datos.

IBM Research: AutoML gradual con Lale

Lale es una biblioteca compatible con sklearn para AutoML. Es de código abierto y aborda la necesidad de automatización gradual del aprendizaje automático en lugar de ofrecer una herramienta de AutoML de caja negra.

Cree modelos óptimos con facilidad con AutoAI de IBM Watson Studio

IBM Watson Studio es una poderosa herramienta de ciencia de datos de código opcional en IBM Cloud Pak for Data. En este laboratorio práctico, experimentará cómo la capacidad de AutoAI de Watson Studio elimina la complejidad de la creación de modelos.

Dé el siguiente paso

Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de aprendizaje automático con IBM® watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.

Explore watsonx.ai Reserve una demostración en vivo