O que é um armazenamento de funcionalidade?

By Tom Krantz , Alexandra Jonker

Definição de armazenamento de funcionalidade

Um armazenamento de funcionalidade é um sistema de dados que gerencia, armazena e fornece funcionalidades para modelos de aprendizado de máquina (ML). Ele fornece um repositório centralizado para dados de funcionalidade, garantindo que os valores de funcionalidade sejam definidos e usados de forma consistente em ambientes de treinamento e produção de modelos.

No aprendizado de máquina, uma característica é uma variável ou atributo derivado de dados brutos que é usado como input para os modelos gerarem previsões. Eles representam aspectos mensuráveis de comportamento, contexto ou estado dentro dos dados, como frequência de compra ou localização geográfica.

Por exemplo, na detecção de fraudes, os modelos dependem de sinais selecionados em vez de dados brutos. As funcionalidades podem incluir o número de transações na semana anterior ou a localização de compras recentes, representações projetadas para capturar padrões que podem indicar comportamento fraudulento.

As funcionalidades (muitas vezes chamadas de funcionalidades de ML) são geradas a partir de várias fontes de dados e organizadas em conjuntos de dados compatíveis com os fluxos de trabalho de ciência de dados e aprendizado de máquina. Essas funcionalidades são então utilizadas para treinar modelos, avaliar métricas e implementar modelos nos sistemas de produção.

Qual é o propósito do armazenamento de funcionalidade no ML?

Os modelos de aprendizado de máquina operam com representações numéricas de dados. Cada ponto de dados é expresso como um conjunto de valores de funcionalidade, geralmente em forma de vetor, em que cada dimensão corresponde a um atributo específico. Embora alguns tipos de dados estruturados sejam inerentemente numéricos, como informações contábeis, outros, como texto, imagens ou áudio, não são estruturados e precisam ser transformados em formato numérico estruturado antes de serem usados por um modelo.

Uma forma de transformar dados não estruturados é através da engenharia de funcionalidades, onde os dados brutos são convertidos em inputs estruturados e legíveis por máquina, utilizando técnicas como agregações, filtragem e codificação. A engenharia de funcionalidades também inclui a extração de funcionalidades (onde os algoritmos derivam representações significativas a partir de dados brutos) e a seleção de funcionalidades (que identifica as variáveis mais relevantes).

Como os fluxos de trabalho de aprendizado de máquina abrangem o treinamento de modelos e a inferência, as funcionalidades são calculadas a partir de dados históricos e novos dados na produção. Manter o alinhamento requer coordenação entre os pipelines de dados, os pipelines de funcionalidade e os sistemas de engenharia de dados, um desafio com o qual os armazenamentos de funcionalidade foram projetados para lidar.

Na prática, os armazenamentos de funcionalidades oferecem suporte a cada estágio do ciclo de vida do aprendizado de máquina:

Engenharia e desenvolvimento de funcionalidades: proporcione um ambiente estruturado para a definição de novas funcionalidades, permitindo que as equipes compartilhem e reutilizem as funcionalidades, evitando implementações duplicadas.

Treinamento do modelo: forneça dados históricos de funcionalidade e dados de treinamento, garantindo que os modelos sejam treinados em conjuntos de dados confiáveis.

Inferência e veiculação: forneça valores de funcionalidade em tempo real por meio de sistemas de armazenamento de funcionalidades online, permitindo previsões de baixa latência.

Monitoramento e iteração: rastreie métricas, detecte distorções (ou distribuição desigual de dados) e monitore a qualidade das funcionalidades dentro dos fluxos de trabalho.

Saiba mais sobre aprendizado de máquina

As mais recentes notícias de tecnologia, corroboradas por insights de especialistas.

Mantenha-se atualizado sobre as tendências mais importantes (e intrigantes) do setor em IA, automação, dados e muito mais com o boletim informativo Think. Consulte a Declaração de privacidade da IBM.

Por que os armazenamentos de funcionalidade são importantes?

O desempenho dos modelos de aprendizado de máquina, que sustentam muitos dos sistemas de inteligência artificial (IA) atuais, depende diretamente da qualidade de suas variáveis de entrada. O que entra determina o que sai.

Os valores das funcionalidades determinam como os modelos interpretam os padrões nos dados de treinamento e aplicam esses padrões nos novos dados. Essa coordenação melhora o desempenho do modelo por dois motivos: gerencia os dados de funcionalidade em escala e, ao mesmo tempo, proporciona consistência entre o treinamento e a inferência.

Gerenciamento de dados de funcionalidade em escala

À medida que os sistemas de aprendizado de máquina escalam, o gerenciamento de dados de funcionalidades se torna cada vez mais complexo. As funcionalidades são geradas e distribuídas por meio de vários fluxos de trabalho, frequentemente por equipes de engenharia de dados e ML que atuam em ambientes distribuídos.

Sem um sistema centralizado, surgem funcionalidades duplicadas e definições de funcionalidades inconsistentes. As equipes podem computar a mesma funcionalidade usando lógicas ligeiramente diferentes, o que leva a inconsistências dentro do conjunto de dados e dos pipelines. Essas inconsistências dificultam a reutilização de funcionalidades e introduzem riscos no desenvolvimento de modelos.

Garantia da consistência entre o treinamento e a inferência

Durante o treinamento do modelo, as funcionalidades são calculadas a partir de dados históricos e organizadas em um conjunto de dados de treinamento. Depois de implementadas, essas mesmas definições de funcionalidade devem ser aplicadas a novos dados e recalculadas para inferência, geralmente em ambientes em tempo real ou quase em tempo real.

Mesmo pequenas diferenças na forma como as funcionalidades são calculadas podem introduzir inconsistências entre as entradas de treinamento e produção (frequentemente chamadas de distorções entre o treinamento e a produção), o que pode levar à degradação do desempenho do modelo.

Os armazenamentos de funcionalidade lidam com esses desafios centralizando as definições de funcionalidade e padronizando as transformações de funcionalidade. As funcionalidades são definidas uma vez, armazenadas em um sistema compartilhado e acessadas por meio de uma interface de programação de aplicativos (API) ou interface de kit de desenvolvimento de software (SDK). Essa coordenação, geralmente gerenciada por meio de um registro de funcionalidades, permite que as equipes reutilizem as funcionalidades em diversos pipelines, modelos e casos de uso.

Como funciona o armazenamento de funcionalidades

A arquitetura de armazenamento de funcionalidade conecta os dados entre vários estágios importantes do aprendizado de máquina, incluindo:

Ingestão e transformação
Camadas de armazenamento
Serviço de recursos
Registro de funcionalidade e metadados
Orquestração e gerenciamento do ciclo de vida

Ingestão e transformação

Os dados são coletados de várias fontes de dados e processados por meio de pipelines de ingestão. Esses pipelines aplicam transformações de dados e funcionalidade para converter dados brutos em valores de funcionalidade.

A computação de funcionalidades pode ocorrer de várias maneiras: processamento em lote de dados coletados anteriormente; pipelines de fluxo de dados para atualizações em tempo real; e computação de funcionalidades sob demanda no momento da inferência. Essas transformações são frequentemente implementadas usando Python, linguagem de consulta estruturada (SQL) ou outros sistemas dentro de fluxos de trabalho automatizados.

Camadas de armazenamento

Os armazenamentos de funcionalidade usam um modelo de armazenamento duplo que consiste em um armazenamento offline e um armazenamento online. O armazenamento offline, ou armazenamento de funcionalidades offline, mantém os dados de funcionalidade históricos e é compatível com o treinamento de modelos, fornecendo acesso aos dados e conjuntos de dados de treinamento. Normalmente, é construído sobre data warehouses ou data lakes.

O armazenamento online, ou armazenamento de funcionalidades online, mantém os valores da funcionalidade atual e é compatível com a pesquisa de baixa latência durante a inferência do modelo. Essa separação entre armazenamentos offline e online permite escalabilidade e desempenho em diferentes cargas de trabalho.

Serviço de funcionalidade

O fornecimento de funcionalidades é o processo de fornecer os valores da funcionalidade para os modelos de aprendizado de máquina. Uma camada de API ou SDK permite que as aplicações recuperem as funcionalidades entre ambientes, garantindo que as definições das funcionalidades permaneçam alinhadas. Isso também ajuda a minimizar a distorção entre os dados de treinamento e os dados de produção, além de garantir que os modelos recebam valores de funcionalidade atualizados ao fazer previsões.

Registro de funcionalidades e metadatos

Um registro de funcionalidades atua como um sistema centralizado de registro para definições de funcionalidade. Ele armazena informações de metadados, linhagem e controle de versão, fornecendo visibilidade sobre como as funcionalidades são construídas e onde são usadas. Essa rastreabilidade facilita a descoberta de funcionalidades reutilizáveis, a aplicação de governança e controle de acesso e o rastreamento de dependências nos fluxos de trabalho.

Orquestração e gerenciamento do ciclo de vida

Os armazenamentos de funcionalidade orquestram os pipelines e fluxos de trabalho em todo o ciclo de vida das funcionalidades. As tarefas comuns incluem automatizar a computação da funcionalidade, gerenciar as operações de preenchimento dos dados históricos da funcionalidade, recomputar a funcionalidade quando as definições mudam e identificar funcionalidades duplicadas ou desatualizadas. A orquestração, portanto, garante que os pipelines de funcionalidade permaneçam confiáveis e escaláveis em toda a plataforma de dados.

AI Academy

O gerenciamento de dados é o segredo para a IA generativa?

Explore por que é essencial ter dados de alta qualidade para utilizar a IA generativa com qualidade.

Acessar o episódio

Principais recursos de um armazenamento de funcionalidade

Embora as implementações variem, a maioria dos armazenamentos de funcionalidades fornece um conjunto consistente de recursos que vão além de sua arquitetura principal, permitindo fluxos de trabalho de aprendizado de máquina escaláveis e confiáveis.

Transformação de funcionalidades

Garante a consistência da computação de funcionalidade dentro dos fluxos de trabalho, de forma que a mesma lógica seja aplicada tanto no treinamento quanto na inferência.

Armazenamento offline e armazenamento online

Viabiliza a análise histórica e o acesso de baixa latência aos valores das funcionalidades, oferecendo suporte a ambientes de processamento e fluxos de dado em lote.

Serviço de recursos

Proporciona uma recuperação rápida e confiável dos valores de funcionalidades para previsões de modelos em casos de uso em tempo real e de alto rendimento.

Registro de funcionalidades

Centraliza as definições de funcionalidades para melhorar a descoberta, o controle de versão e a governança entre equipes e fluxos de trabalho.

Orquestração

Automatiza os fluxos de trabalho e o gerenciamento do ciclo de vida em pipelines de funcionalidade para manter a confiabilidade e a escalabilidade.

Controle de acesso e segurança

Aplica políticas de governança e permissões para proteger os dados de funcionalidade e reduzir o risco de vazamento de dados.

Juntos, esses recursos definem como os dados de funcionalidade são gerenciados em fluxos de trabalho de aprendizado de máquina. Eles também refletem como os armazenamentos de funcionalidade se encaixam em uma arquitetura de dados mais ampla.

Os sistemas de dados tradicionais, como depósitos e outros armazenamentos de dados, são projetados para processar e migrar os dados em toda a organização. No entanto, esses dados não estão inerentemente prontos para o aprendizado de máquina.

Os armazenamentos de funcionalidades se baseiam nessa estrutura, organizando os dados de funcionalidades em entradas reutilizáveis para modelos de aprendizado de máquina, padronizando como as funcionalidades são definidas, calculadas e disponibilizadas nos estágios de desenvolvimento e produção.

Benefícios do armazenamento de funcionalidade

Os armazenamentos de funcionalidades fornecem um conjunto de vantagens práticas que melhoram a forma como os sistemas de aprendizado de máquina são desenvolvidos e mantidos.

Maior eficiência no desenvolvimento de modelos: as definições de funcionalidades reutilizáveis reduzem a necessidade de recriar funcionalidades para cada novo projeto, permitindo que as equipes se concentrem no design do modelo em vez da preparação dos dados.

Consistência entre modelos de aprendizado de máquina: os pipelines de funcionalidades padronizados garantem que as funcionalidades sejam computadas da mesma maneira durante o treinamento e a inferência, reduzindo o risco de distorção entre os dados de treinamento e os de produção.

Colaboração mais forte entre as equipes: os dados de funcionalidade centralizados permitem que os cientistas de dados, a engenharia de dados e as equipes ML compartilhem as funcionalidades e trabalhem a partir de um sistema de registro (SOR) comum.

Governança e rastreabilidade: o armazenamento de funcionalidades introduz um SOR estruturado para as definições de funcionalidade, facilitando a compreensão de como as funcionalidades são definidas e usadas em todos os modelos, ao mesmo tempo em que impõe padrões consistentes.

Suporte para aprendizado de máquina em tempo real: os armazenamentos de funcionalidades permitem um acesso de baixa latência aos valores das funcionalidades por meio de sistemas de armazenamento de funcionalidades online, viabilizando casos de uso como hiperpersonalização e mecanismos de recomendação.

Fluxos de trabalho escaláveis e repetíveis: os pipelines de funcionalidades automatizados e a orquestração são compatíveis com operações de aprendizado de máquina (MLOps). Isso capacita as organizações a escalar os sistemas de aprendizado de máquina entre as equipes e casos de uso.

Os armazenamentos de funcionalidade também permitem o fornecimento de funcionalidades de alto rendimento usando camadas de armazenamento otimizadas e sistemas de chave-valor como Redis, que são comumente implementados como serviços gerenciados na memória em plataformas de dados modernas. Essa abordagem ajuda a garantir que os modelos recuperem os valores de funcionalidades atualizados de forma eficiente.

Saiba mais sobre os bancos de dados em nuvem para Redis

Escolha de um armazenamento de funcionalidade

A escolha de um armazenamento de funcionalidades depende da arquitetura de dados, da infraestrutura e da maturidade do aprendizado de máquina de uma organização. As considerações típicas incluem:

Integração com as plataformas de dados existentes
Opções de código aberto e gerenciadas
Requisitos de arquitetura e cargas de trabalho
Governança e confiança

Integração com as plataformas de dados existentes

Os armazenamentos de funcionalidades devem estar alinhados com os pipelines de dados, data warehouses, data lakes e sistemas de plataforma de dados mais amplos existentes. No entanto, a integração de pipelines de funcionalidades em fluxos de trabalho já estabelecidos geralmente exige a refatoração de transformações de dados e a coordenação entre equipes.

Como resultado, as organizações normalmente começam avaliando como um armazenamento de funcionalidades se integra às ferramentas existentes como Snowflake, Databricks e serviços da AWS como o armazenamento de funcionalidades SageMaker. Frequentemente, os armazenamentos de funcionalidades são integrados como parte de sistemas MLOps mais amplos que conectam a engenharia de dados e a implementação do modelo.¹

Opções de código aberto e gerenciadas

As implementações de armazenamento de funcionalidades variam amplamente, com as organizações equilibrando continuamente o desempenho, a escalabilidade e a complexidade operacional.²Frameworks de código aberto do armazenamento de funcionalidades, como o Feast, permitem que empresas construam e gerenciem seus próprios pipelines e infraestrutura de funcionalidades, enquanto plataformas como a Tecton oferecem soluções totalmente gerenciadas e prontas para produção.

Algumas organizações, no entanto, optam por construir suas próprias plataformas de aprendizado de máquina de ponta a ponta, como o Michelangelo da Uber, que incluem o recurso de armazenamento de funcionalidades como parte de um sistema mais amplo. Em última análise, a decisão de construir ou adotar uma armazenamento de funcionalidades depende do conhecimento interno e dos requisitos de escalabilidade de longo prazo.

Requisitos de arquitetura e cargas de trabalho

Os requisitos arquitetônicos desempenham um papel central. Alguns casos de uso exigem a disponibilização de funcionalidades em tempo real ou de baixa latência, enquanto outros dependem do processamento em lote ou da computação de funcionalidades sob demanda. Os requisitos de alto desempenho também impõem demandas significativas à infraestrutura à medida que os volumes de dados aumentam.

A compatibilidade tanto com o processamento de dados históricos quanto com a inferência em tempo real torna-se complexa ao manter a consistência entre os valores de funcionalidades offline e online. A pesquisa destaca como o projeto do armazenamento de funcionalidades é frequentemente orientado por esses requisitos de carga de trabalho, apontando para problemas como latência, escalabilidade e correção pontual.³

Governança e confiança

A governança é igualmente importante. Os armazenamentos de funcionalidades operam com base em dados de funcionalidades compartilhados, portanto, as organizações precisam de uma visibilidade clara sobre como as funcionalidades são definidas, testadas e utilizadas.

À medida que os dados da funcionalidade são compartilhados entre as equipes, as organizações devem impor controles para evitar o vazamento de dados e garantir que as funcionalidades sejam calculadas de forma consistente. Frameworks formais de governança podem dar suporte à consistência, linhagem e conformidade em todos os pipelines de funcionalidades,⁴ ajudando a manter a confiança nos sistemas de aprendizado de máquina.

Autores

Tom Krantz

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

IBM watsonx.data - O único data lakehouse aberto e híbrido

Melhore a precisão da IA com dados estruturados e não estruturados preparados para IA.

Notas de rodapé

¹An Analysis of MLOps Architectures: A Systematic Mapping Study, arXiv, 28 de junho de 2024.

²Evolution of Feature Store Architectures in Modern ML Platforms, International Journal of Information Technology and Management Information Systems (IJITMIS), março-abril de 2025.

³Conceptual Approaches to Organizing Feature Stores in High-Load ML Systems, International Journal of Computer (IJC), 2 de fevereiro de 2026.

⁴A Formal Model for Feature Store Architecture and Governance, International Journal of Computational and Experimental Science and Engineering, dezembro de 2025.

O que é um armazenamento de funcionalidades?