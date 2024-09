Em um pipeline de ciência de dados, há muitas etapas pelas quais uma equipe de ciência de dados deve passar para construir um modelo preditivo. Mesmo equipes experientes de cientistas de dados e engenheiros de ML podem se beneficiar da maior velocidade e transparência que acompanham o AutoML. Um cientista de dados deve começar com uma hipótese, coletar o conjunto de dados correto, experimentar a visualização de dados, criar recursos adicionais para aproveitar todos os sinais disponíveis, treinar um modelo com hiperparâmetros e, para o deep learning de última geração, eles necessitam projetar a arquitetura ideal para uma Rede Neural Profunda, preferencialmente em uma GPU, se disponível para eles.

Engenharia automatizada de recursos



Um recurso de dados é uma parte dos dados de entrada de um modelo de machine learning; engenharia de recursos refere-se ao processo transformador em que um cientista de dados obtém novas informações a partir de dados existentes. A engenharia de recursos é um dos principais processos de valor agregado em um fluxo de trabalho de ML, e bons recursos fazem a diferença entre um modelo com desempenho aceitável e um modelo com desempenho brilhante. Essas transformações matemáticas de dados brutos são lidas no modelo e atuam como o cerne do processo de machine learning. Engenharia automatizada de recursos (PDF 1,7 MB) (AFE) (link externo à IBM) é o processo que explora o espaço das combinações viáveis de recursos de forma mecanística, em vez de manual.

A engenharia de recursos manual é uma alquimia contemporânea que tem um grande custo em termos de tempo: a construção de um único recurso pode muitas vezes levar horas, e o número de recursos necessários para atingir uma pontuação mínima de precisão, sem mencionar a necessária para atingir uma linha-base de precisão para um nível de produção, pode chegar a centenas. Ao automatizar a exploração de um espaço de recursos, o AutoML reduz o tempo que uma equipe de ciência de dados gasta nesta fase, de dias para minutos.

A redução do número de horas de intervenção manual por um cientista de dados não é o único benefício da engenharia automatizada de recursos. Os recursos gerados são em sua maioria claramente interpretáveis. Em setores com regulamentações rígidas, como assistência médica ou financeiro, essa explicabilidade é importante pois reduz as barreiras para a adoção da IA por meio da interpretabilidade. Além disso, um cientista de dados ou analista beneficia-se da clareza desses recursos porque eles tornam os modelos de alta qualidade mais interessantes e acionáveis. Os recursos gerados de forma automatizada também têm o potencial de descobrir novos KPIs para uma organização monitorar e agir de acordo. Assim que um cientista de dados conclui a engenharia de recursos, os modelos precisam ser otimizados com a seleção estratégica de recursos.

Otimização automatizada de hiperparâmetros



Hiperparâmetros fazem parte dos algoritmos de machine learning que podem ser melhor compreendidos pela analogia de serem como alavancas, usadas para ajustar o desempenho do modelo, embora, muitas vezes, ajustes incrementais tenham um impacto enorme. Na modelagem de ciência de dados em pequena escala, os hiperparâmetros podem ser facilmente definidos manualmente e otimizados por tentativa e erro.

Para aplicações de deep learning, o número de hiperparâmetros cresce exponencialmente, fazendo com que sua otimização fique além das capacidades de uma equipe de ciência de dados realizar manualmente e de forma oportuna. A otimização automatizada de hiperparâmetros (HPO - link externo à IBM) libera as equipes da enorme responsabilidade de explorar e otimizar todo o espaço de eventos de hiperparâmetros e, em vez disso, permite que as equipes iterem e experimentem recursos e modelos.

Outro ponto forte da automatização do processo de machine learning é os cientistas de dados agora poderão concentrar-se no por que da criação do modelo, em vez do como.Considerando as quantidades extremamente grandes de dados disponíveis para muitas empresas e o número esmagador de perguntas que podem ser respondidas com esses dados, uma equipe de análise pode se concentrar em quais aspectos do modelo ela deve otimizar, como minimizar os falsos negativos em testes médicos.

Busca de Arquitetura Neural (BAN)



O processo mais complexo e que consome mais tempo em deep learning é a criação da arquitetura neural. Equipes de ciência de dados passam longos períodos selecionando as camadas e as taxas de aprendizado apropriadas que, no final, geralmente são apenas para os pesos no modelo, como acontece em muitos modelos de linguagem. A Busca de Arquitetura Neural (BAN - link externo à IBM) tem sido descrita como o "uso de redes neurais para projetar redes neurais" e é uma das áreas mais óbvias do ML a se beneficiar da automação.

As buscas do BAN começam com uma opção de quais arquiteturas experimentar. O resultado do BAN é determinado pela métrica com relação à qual cada arquitetura é julgada. Existem vários algoritmos comuns a serem usados em uma busca de arquitetura neural. Se o número potencial de arquiteturas for pequeno, as escolhas para teste podem ser feitas aleatoriamente. Abordagens baseadas em gradientes, nas quais o espaço de procura discreta é transformado em uma representação contínua, têm se mostrado muito eficazes. As equipes de ciência de dados também podem experimentar algoritmos evolucionários nos quais as arquiteturas são avaliadas aleatoriamente e as alterações são aplicadas lentamente, propagando arquiteturas filho que são mais bem-sucedidas e removendo as que não são.

As buscas de arquiteturas neurais são um dos principais elementos do AutoML que prometem democratizar a IA. Essas buscas, no entanto, geralmente são acompanhadas por uma pegada de carbono muito alta. Um exame dessas compensações ainda não foi feito, e a otimização para um custo ecológico é uma área de busca em andamento nas abordagens BAN.