A importância da ingestão e integração de dados para a IA empresarial

Uma jovem e um colega escrevendo ideias em notas adesivas

O surgimento da IA generativa levou várias empresas importantes a restringir seu uso devido ao tratamento inadequado de dados internos confidenciais. De acordo com a CNN, algumas empresas impuseram proibições internas de ferramentas de IA generativa enquanto buscavam entender melhor a tecnologia e muitas também bloquearam o uso do ChatGPT interno.

As empresas ainda aceitam o risco de usar dados internos ao explorar grandes modelos de linguagem (LLMs) porque esses dados contextuais são o que permitem que os LLMs mudem de conhecimento de uso geral para conhecimento específico de domínio. Na IA generativa ou no ciclo de desenvolvimento da IA tradicional, a ingestão de dados serve como ponto de entrada. Aqui, os dados brutos adaptados aos requisitos de uma empresa podem ser coletados, pré-processados, mascarados e transformados em um formato adequado para LLMs ou outros modelos. Atualmente, não existe nenhum processo padronizado para superar os desafios da ingestão de dados, mas a precisão do modelo depende disso.

As mais recentes notícias de tecnologia, corroboradas por insights de especialistas.

Mantenha-se atualizado sobre as tendências mais importantes (e intrigantes) do setor em IA, automação, dados e muito mais com o boletim informativo Think. Consulte a Declaração de privacidade da IBM.

Agradecemos sua inscrição!

Sua assinatura será entregue em inglês. Você pode encontrar um link para cancelar a assinatura em todos os boletins informativos. Você pode gerenciar suas inscrições ou cancelar a inscrição aqui. Consulte nossa Declaração de privacidade da IBM para obter mais informações.

Quatro riscos de dados mal ingeridos

  1. Geração de desinformação: quando um LLM é treinado com dados contaminados (dados que contêm erros ou imprecisões), ele pode gerar respostas incorretas, levando a tomada de decisão falhaa e possíveis problemas em cascata.
  2. Aumento da variância: a variância mede a consistência. Dados insuficientes podem levar a respostas variadas ao longo do tempo, ou valores discrepantes enganosos, afetando especialmente conjuntos de dados menores. A alta variância em um modelo pode indicar que ele funciona com dados de treinamento, mas ser inadequado para casos de uso reais do setor.
  3. Escopo de dados limitado e respostas não representativas: quando as fontes de dados são restritivas, homogêneas ou contêm duplicatas erradas, erros estatísticos como viés de amostragem podem distorcer todos os resultados. Isso pode fazer com que o modelo exclua áreas inteiras, departamentos, dados demográficos, setores ou fontes da conversa.
  4. Desafios na retificação de dados com viés: se os dados tiverem viés desde o início, “a única maneira de remover retroativamente uma parte desses dados é treinando novamente o algoritmo a partir do zero”. É difícil para os modelos de LLMs desaprender respostas derivadas de dados não representativos ou contaminados quando eles foram vetorizados. Esses modelos tendem a reforçar a compreensão das pessoas com base em respostas já assimiladas.

A ingestão de dados deve ser feita corretamente desde o início, pois o tratamento inadequado pode levar a uma série de novos problemas. A base dos dados de treinamento em um modelo de IA é comparável à pilotagem de um avião. Se o ângulo de decolagem estiver um único grau fora, você pode pousar em um continente totalmente novo do que o esperado.

Todo o pipeline de IA generativa depende dos pipelines de dados que a capacitam, tornando imperativa a tomada das precauções corretas.

AI Academy

O gerenciamento de dados é o segredo para a IA generativa?

Explore por que é essencial ter dados de alta qualidade para utilizar a IA generativa com qualidade.

Quatro componentes-chave para garantir a ingestão confiável de dados

  1. Qualidade e governança de dados: qualidade de dados significa garantir a segurança das fontes de dados, manter dados abrangentes e fornecer metadados claros. Isso também pode envolver o trabalho com novos dados por meio de métodos como web scraping ou upload. Gestão de dados é um processo contínuo no ciclo de vida dos dados para ajudar a garantir a conformidade com as leis e as melhores práticas da empresa.
  2. Integração de dados: essas ferramentas permitem que as empresas combinem fontes de dados díspares em um local seguro. Um método popular é extrair, carregar, transformar (ELT). Em um sistema ELT, os conjuntos de dados são selecionados de warehouses isolados, transformados e, em seguida, carregados em pools de dados de origem ou destino. Ferramentas de ELT como o IBM® DataStage facilitam transformações rápidas e seguras por meio de mecanismos de processamento paralelo. Em 2023, a empresa média recebe centenas de fluxos de dados díspares, tornando as transformações de dados eficientes e precisas cruciais para o desenvolvimento de modelos de IA tradicionais e novos.
  3. Limpeza e pré-processamento de dados: inclui a formatação de dados para atender a requisitos específicos de treinamento de LLMs, ferramentas de orquestração ou tipos de dados. Os dados de texto podem ser fragmentados ou tokenizados, enquanto os dados de imagem podem ser armazenados como embeddings. Transformações abrangentes podem ser realizadas usando ferramentas de integração de dados. Além disso, pode haver uma necessidade de manipular diretamente dados brutos, excluindo duplicatas ou alterando tipos de dados.
  4. Armazenamento de dados: depois que os dados são limpos e processados, surge o desafio do armazenamento de dados. A maioria dos dados é hospedada na nuvem ou localmente, exigindo que as empresas tomem decisões sobre onde armazenar seus dados. É importante ter cuidado ao usar LLMs externos para lidar com informações confidenciais, como dados pessoais, documentos internos ou dados de clientes. No entanto, os LLMs desempenham um papel crítico no ajuste fino ou implementação de uma abordagem baseada em geração aumentada de recuperação (RAG). Para mitigar os riscos, é importante executar o maior número possível de processos de integração de dados em servidores internos. Uma possível solução é usar opções de tempo de execução remoto, como.

Inicie sua ingestão de dados com a IBM

O IBM DataStage simplifica a integração de dados combinando várias ferramentas, permitindo que você extraia, organize, transforme e armazene facilmente os dados necessários para o treinamento de modelos de IA em um ambiente de nuvem híbrida. Praticantes de dados de todos os níveis de habilidade podem interagir com a ferramenta usando GUIs no-code ou acessar APIs com código personalizado guiado.

A nova opção de tempo de execução remota do DataStage as a Service Anywhere oferece flexibilidade para executar suas transformações de dados. Ele capacita você a usar o mecanismo paralelo de qualquer lugar, dando-lhe um controle sem precedentes sobre sua localização. O DataStage as a Service Anywhere se manifesta como um contêiner leve, permitindo que você execute todos os recursos de transformação de dados em qualquer ambiente. Isso permite que você evite muitas das armadilhas da ingestão de dados ao executar integração, limpeza e pré-processamento de dados em sua nuvem privada. Com o DataStage, você mantém controle total sobre segurança, qualidade de dados e eficácia, lidando com todas as suas necessidades de dados para iniciativas de IA generativa.

Embora praticamente não haja limites para o que pode ser alcançado com a IA generativa, há limites para os dados que um modelo usa — e esses dados podem fazer toda a diferença.

Soluções relacionadas
IBM StreamSets

Crie e gerencie pipelines de dados de streaming inteligentes por meio de uma interface gráfica intuitiva, facilitando a integração sem dificuldades dos dados em ambientes híbridos e de multinuvem.

Explore o StreamSets
IBM watsonx.data™

O watsonx.data permite escalar a análise de dados e a IA com todos os seus dados, onde quer que estejam, por meio de um armazenamento de dados aberto, híbrido e governado.

Conheça o watsonx.data
Serviços de consultoria de dados e análise de dados

Libere o valor dos dados empresariais com a IBM Consulting, construindo uma organização baseada em insights, que traz vantagem para os negócios.

Conheça os serviços de análise de dados
Dê o próximo passo

Crie uma estratégia de dados que elimine silos de dados, reduza a complexidade e melhore a qualidade de dados para proporcionar experiências excepcionais para clientes e funcionários.

Explore soluções de gerenciamento de dados Conheça o watsonx.data