Visão geral do AutoAI
A ferramenta gráfica " AutoAI " analisa seus dados e utiliza algoritmos, transformações e configurações de parâmetros para criar o melhor modelo preditivo. AutoAI apresenta vários modelos potenciais como pipelines candidatos e os classifica em uma tabela de classificação para que você possa escolher.
Serviço O serviço Watson Machine Learning não está disponível por padrão. Um administrador deve instalar o serviço. Para verificar se o serviço está instalado, abra o catálogo de serviços. Se o serviço estiver instalado e pronto para uso, o bloco no catálogo exibirá a mensagem “Pronto para uso ”.
- Serviço necessário
- Watson Machine Learning
- Watson Studio
- Formato de dados : Tabular:
- CSV ou arquivos Parquet, com delimitador de vírgula (,) para todos os tipos de experimentos do AutoAI.
- Dados conectados do Sistema de Arquivos em Rede ( NFS ).
- Dados provenientes de conexões de dados compatíveis. Para mais detalhes, consulte a seção “Uso de dados” em AutoAI.
Os limites de tamanho dos arquivos de dados correspondem ao tamanho de computação escolhido para um experimento. Consulte a lista a seguir de conexões de dados compatíveis para obter mais detalhes.
Uso de dados do AutoAI
Os dados de treinamento e os dados de entrada do modelo estão em formato tabular. Os nomes das colunas na tabela devem ser únicos. Nomes de colunas duplicados resultarão em um erro.
Conexões de dados compatíveis para o treinamento de modelos do AutoAI :
- Amazon S3
- DataStax Enterprise
- Db2
- Dremio
- Exasol
- genericjdbc
- generics3
- Google BigQuery
- Microsoft SQL Server
- MySQL
- PostgreSQL
- Netezza Performance Server
- Presto
- SingleStoreDB
- Snowflake
- Teradata
- Arquivos na infraestrutura d IBM Cloud Object Storage
- Arquivos em uma conexão de volume de armazenamento
- Arquivos no formato " IBM Cloud Object Storage " ( S3 ), incluindo Parquet e Microsoft Excel
- Tabelas de dados virtualizadas criadas com o uso de Data Virtualization
Observações sobre o acesso às planilhas do Microsoft Excel:
- Se você importar dados da conexão do Cloud Object Storage, poderá selecionar diretamente o arquivo ou a planilha.
- Se você adicionar dados vinculados, certifique-se de que eles apontem para a planilha do Excel que você deseja usar.
Observações sobre a integração com projetos do Git :
- Você pode treinar experimentos e salvar os modelos resultantes em projetos baseados n Git.
- Os modelos salvos podem ser compartilhados com os colaboradores do projeto, mas os recursos de treinamento e os metadados associados não são salvos.
- Para adicionar um modelo do AutoAI de um projeto baseado no Git a um espaço de implantação, crie um arquivo ZIP de exportação para o projeto que contém o modelo. Em seguida, siga as etapas descritas na seção “Importação de recursos de espaço e projeto para espaços de implantação” em Watson Machine Learning para importar o arquivo ZIP para um espaço.
Escolhendo uma configuração de computação
Ao configurar seu experimento, você pode escolher uma configuração de computação que forneça os recursos de computação necessários para o seu experimento. A configuração que você escolher determina os limites de dados.
| Configuração de cálculo | Recursos | Limites de dados |
|---|---|---|
| Pequeno | 2vCPUs e 8 GB de RAM | Se você usar um arquivo de dados, uma conexão de dados ou um recurso de dados conectado (por exemplo: tabela de banco de dados) que exceda 100 MB, será utilizada uma amostra aleatória de 100 MB. Observação: a aprendizagem incremental não está disponível nesta configuração. |
| Médio | 4 núcleos e 16 GB | Se você usar um arquivo de dados, uma conexão de dados ou um recurso de dados conectado (por exemplo: tabela de banco de dados) que exceda 100 MB, será utilizada uma amostra aleatória de 100 MB. |
| Grande | CPU de 8 núcleos e 32 GB | Se você usar um arquivo de dados, uma conexão de dados ou um recurso de dados conectado com mais de 1 GB, será utilizada uma amostra aleatória de 0.7 GB. |
| Muito grande | CPU de 16 núcleos e 64 GB | Se você usar um arquivo de dados, uma conexão de dados ou um recurso de dados conectado com mais de 1 GB, será utilizada uma amostra aleatória de 1 GB. |
Notas:
- Você pode alterar a forma como os dados de treinamento são amostrados nas Configurações do experimento.
- Se você estiver usando uma fonte de dados maior (até 100 GB), o experimento “ AutoAI ” pode ser treinado com todos os dados por meio do ensamblamento e da aprendizagem incremental.
- Se você estiver se conectando a um banco de dados como fonte de dados, a configuração do banco de dados afeta o desempenho do acesso aos dados. Por padrão, o AutoAI abre quatro conexões paralelas com um banco de dados para acelerar o download dos dados. No entanto, se a configuração do banco de dados não permitir 4 conexões, o AutoAI volta a fazer o download usando uma conexão por vez. Configurar o banco de dados para aceitar mais conexões melhora o desempenho do acesso aos dados.
- O número máximo de colunas de características para um experimento de classificação ou regressão é 5.000.
Processo do AutoAI
Usando o AutoAI, é possível construir e implementar um modelo de aprendizado de máquina com recursos de treinamento sofisticados e sem codificação. A ferramenta faz a maior parte do trabalho para você.
Para visualizar o código que criou um determinado experimento ou interagir com esse experimento programaticamente, é possível salvar um experimento como um notebook.
O AutoAI executa automaticamente as tarefas a seguir para construir e avaliar os pipelines de modelo candidato:
- Pré-processamento de dados
- Seleção de modelo automatizado
- Engenharia de recursos automatizada
- Otimização de hiperparâmetro
- Ensamblagem e aprendizagem incremental
Entendendo o processo do AutoAI
Para obter mais detalhes sobre cada uma dessas fases, incluindo links para artigos de pesquisa associados e descrições dos algoritmos aplicados para criar os pipelines de modelo, consulte Detalhes de implementação do AutoAI.
Pré-processamento de dados
A maioria dos conjuntos de dados contém diferentes formatos de dados e valores ausentes, mas os algoritmos padrão de aprendizado de máquina funcionam apenas com números e não aceitam valores ausentes. Portanto, o AutoAI aplica vários algoritmos ou estimadores para analisar, limpar e preparar seus dados brutos para o aprendizado de máquina. Essa técnica detecta e categoriza automaticamente os valores com base em características, como o tipo de dados: categórico ou numérico. Dependendo da categorização, o ` AutoAI ` utiliza a otimização de hiperparâmetros para determinar a melhor combinação de estratégias para imputação de valores ausentes, codificação de características e escalonamento de características para os seus dados.
Seleção de modelo automatizado
AutoAI utiliza a seleção automatizada de modelos para identificar o melhor modelo para os seus dados.Essa nova abordagem testa modelos potenciais em pequenos subconjuntos dos dados e os classifica com base na precisão. AutoAI em seguida, seleciona os modelos mais promissores e aumenta o tamanho do subconjunto de dados até identificar a melhor correspondência. Essa abordagem economiza tempo e melhora o desempenho ao filtrar gradualmente os modelos potenciais com base na precisão.
Para obter informações sobre como lidar com pipelines gerados automaticamente a fim de selecionar o melhor modelo, consulte Selecionando um modelo de AutoAI.
Engenharia de recursos automatizados
A engenharia de características identifica o modelo mais preciso ao transformar dados brutos em uma combinação de características que melhor representam o problema. Essa abordagem única explora várias opções de construção de características de maneira estruturada e não exaustiva, ao mesmo tempo em que maximiza progressivamente a precisão do modelo por meio do aprendizado por reforço. Essa técnica resulta em uma sequência otimizada de transformações dos dados que melhor se adapta aos algoritmos da etapa de seleção do modelo.
Otimização de hiperparâmetro
A otimização de hiperparâmetros aprimora os modelos com melhor desempenho. AutoAI utiliza um novo algoritmo de otimização de hiperparâmetros para determinadas avaliações de funções, como treinamento e classificação de modelos, que são comuns na aprendizagem de máquina. Essa abordagem identifica rapidamente o melhor modelo, apesar dos longos tempos de avaliação em cada iteração.
Ensamblagem e aprendizagem incremental
O processo de criação de pipelines d BatchedTreeEnsemble, com base nos pipelines classificados. Os pipelines de conjunto oferecem recursos de aprendizado incremental e podem ser usados para continuar o treinamento utilizando os dados restantes de uma fonte subamostrada, dividindo esses dados em lotes, se necessário. Cada lote de dados de treinamento é avaliado de forma independente por meio da métrica otimizada, permitindo que você analise o desempenho de cada lote ao explorar os resultados. Para mais detalhes, consulte Aprendizagem incremental.
Próximas etapas
Experimente o tutorial “Introdução rápida: criar e implantar um modelo de aprendizado de máquina com o AutoAI ”.