IA generativa, também conhecida como gen AI, é inteligência artificial (IA) que pode criar texto, imagens, vídeo, áudio e até mesmo código de software em resposta a uma solicitação do usuário. Atualmente, as organizações estão fazendo fila para criar novos aplicativos de IA generativa, mas muitas vezes ignoram as etapas necessárias para criar uma estratégia de dados eficaz que as suporte.
Modelos de IA generativa— programas de computador que foram treinados para decidir de forma semelhante ao cérebro humano — exigem volumes massivos de dados para treinar. E embora as organizações possam ter uma ideia brilhante para uma aplicação, se os dados subjacentes não forem tratados adequadamente, a aplicação falhará.
Desde o custo de coleta e processamento de dados, passando pela infraestrutura subjacente necessária para armazená-los de forma segura, até as exigências em evolução da governança de dados, é importante que as organizações adotem uma abordagem estratégica para que as aplicações tenham sucesso.
Boletim informativo do setor
Receba insights selecionados sobre as notícias mais importantes (e intrigantes) sobre IA. Inscreva-se no nosso boletim informativo semanal Think. Consulte a Declaração de privacidade da IBM.
Sua assinatura será entregue em inglês. Você encontrará um link para cancelar a assinatura em cada boletim informativo. Você pode gerenciar suas assinaturas ou cancelar a assinatura aqui. Consulte nossa Declaração de privacidade da IBM para obter mais informações.
Em 2022, o lançamento do ChatGPT inaugurou uma nova era de inovação em IA generativa, levando as organizações a buscar maneiras de aproveitar a tecnologia para aplicações empresariais. O ChatGPT era um chatbot de IA, treinado em grandes modelos de linguagem (LLMs), que interagia com os usuários de forma conversacional. Desde o seu lançamento, a Organização tem procurado aplicar a sua tecnologia subjacente a vários problemas empresariais, incluindo a automação, o aumento da produtividade e o conhecimento profundo do cliente.
Vários riscos e desafios também se tornaram aparentes. No campo médico, por exemplo, embora tenha ajudado a automatizar certos diagnósticos, também levantou preocupações com privacidade e segurança.1 Além disso, uma condição conhecida como alucinações de IA permanece persistente, fazendo com que alguns modelos de IA generativa "inventem" fatos quando não conseguem encontrar a resposta para uma pergunta.
Mas enquanto esses e outros problemas persistem, organizações de todos os tamanhos e em vários setores continuaram investindo pesadamente no espaço, buscando novas maneiras de alavancar seu poder. Segundo a Menlo Ventures, de 2022 para 2023, o investimento empresarial em IA generativa aumentou seis vezes, passando de US$ 2,3 bilhões para US$ 1,5 bilhão. 13,8 bilhões.
Infraestrutura de IA é um termo que descreve as soluções de hardware e software necessárias para criar aplicativos de IA. Na era da IA generativa, a infraestrutura de IA deve evoluir para atender às maiores demandas de recursos computacionais, capacidade de armazenamento de dados, largura de banda e muito mais associados à Tecnologia. Mas as organizações estão com tanta pressa em implementar novos aplicativos de IA generativos que às vezes ignoram as necessidades de IA e infraestrutura de dados.
À medida que as organizações buscam aproveitar a IA generativa e todo o seu potencial para fins de negócios, elas devem repensar os principais aspectos de suas abordagens à infraestrutura e à estratégia de dados.
Para criar uma aplicação de negócios de IA generativa bem-sucedida, as organizações geralmente precisam de uma combinação de dados estruturados e dados não estruturados. Dados estruturados, também conhecidos como dados quantitativos, são dados que foram previamente formatados para que possam ser facilmente processados por algoritmos de aprendizado de máquina (ML) que impulsionam aplicação de IA generativa.
Usando modelos avançados de ML, os algoritmos simulam a maneira como os humanos aprendem com grandes quantidades de dados (conjuntos de dados) até que possam entender perguntas sobre os dados e responder criando novo conteúdo.
Embora alguns dados coletados pelas empresas já estejam estruturados (por exemplo, informações financeiras e de clientes, como nomes, datas e valores de transações), uma grande quantidade não é estruturada. Dados não estruturados, também conhecidos como dados qualitativos, são dados que não possuem um formato predefinido. Os dados não estruturados são bastante variados e podem incluir arquivos de vídeo, áudio e texto provenientes de e-mails, páginas da web, contas de mídias sociais e sensores da Internet das Coisas (IoT) .
À medida que a economia digital se expande, a quantidade de dados não estruturados coletados pelas empresas está crescendo a uma taxa exponencial. Segundo a Forbes, 80% a 90% dos dados coletados pelas empresas não são estruturados. Dados não estruturados são inadequados para fins de ML e devem ser transformados antes de serem usados para treinar um modelo de IA.
Converter dados não estruturados em dados que podem ser processados por um computador e usados para fins comerciais envolve extrair informações relevantes e organizá-las em um formato predefinido. O volume e a complexidade dos dados criam desafios, e o ambiente de gerenciamento de dados desafiador e a adesão às leis de gestão de dados podem ser caros.
Gestão de dados é a prática de ajudar a garantir a qualidade, a segurança e a disponibilidade dos dados que pertencem a uma Organização por meio de conjuntos de políticas e procedimentos. O surgimento da IA generativa e do big data trouxe a gestão de dados e todos os seus requisitos para a vanguarda da empresa moderna.
A IA generativa, com sua capacidade de criar novos conteúdos com base nos dados treinados, cria novas demandas na coleta, armazenamento e processamento seguros e legais de dados.
Qualidade
Como os modelos de IA generativa são treinados em enormes conjuntos de dados, os dados contidos nesses conjuntos devem ser da mais alta qualidade e sua integridade deve ser inegável. A gestão de dados desempenha um papel importante ao garantir que os conjuntos de dados nos quais os modelos de IA generativa treinam sejam precisos e completos, um componente fundamental na geração de respostas confiáveis.
Conformidade
Dependendo do setor e da localização, as aplicações de negócios da IA generativa enfrentam um ambiente rigoroso de conformidade na forma como os dados podem ser usados. As regras do GDPR (Regulamento Geral de Proteção de Dados), por exemplo, regem como dados pertencentes a residentes da UE podem ser usados por organizações. Violações acarretam multas pesadas e penalidades quando as informações do cliente são comprometidas de qualquer forma.
Em 2021, o Google e outras empresas foram multadas em mais de um bilhão de dólares por violarem as regras de proteção de dados estipuladas no GDPR.
Transparência
Para que uma aplicação de IA generativa seja eficaz, a origem dos dados e a forma como os dados foram transformados para uso comercial deve ser claramente estabelecida e visível. A gestão de dados ajuda a garantir que a documentação exista — e seja transparente para os usuários — em cada etapa do ciclo de vida dos dados, desde a coleta até o armazenamento, processamento e produção, para que os usuários entendam como uma resposta foi gerada.
O sucesso das aplicações de IA generativa depende de ter a estratégia de dados e a infraestrutura corretas para suportá-las. Aqui estão algumas práticas recomendadas para ajudar a garantir o sucesso.
Devido à natureza dos dados não estruturados – de onde vêm, como são coletados e armazenados – as organizações tendem a coletar muito.
Mas isso não significa que tudo será útil para uma aplicação de IA generativa. “Comece com uma pergunta”, aconselha Margaret Graves, pesquisadora sênior do Centro IBM para Negócios Governamentais. "Não precisa ser apenas uma pergunta, podem ser algumas, mas tente se concentrar em maneiras específicas de como a aplicação que você deseja criar avançará e apoiará sua missão."
Desde o lançamento do ChatGPT em 2022, as empresas têm pressa em aplicar a IA generativa a uma série de problemas de negócios, incluindo o aumento da produtividade, a identificação de insights e a aceleração da transformação digital. Embora essas sejam certamente áreas que a tecnologia pode abordar, elas também são amplas e podem levar uma organização a construir um aplicativo que carece de especificidade.
Quanto mais específico for o problema de negócios, mais fácil será identificar os conjuntos de dados relevantes para treinar seu modelo de IA generativa e o tipo de infraestrutura de IA para dar suporte ao processo.
Depois que a organização decide em quais questões de negócio deseja concentrar uma aplicação de IA generativa, ela pode começar a analisar os conjuntos de dados relevantes para treinar seus modelos de IA. Graves compara essa parte do processo à observação de um espectro. "De um lado", diz ela, "você tem dados internos altamente confidenciais e proprietários com os quais precisa treinar seu modelo. Por outro lado, você tem dados mais gerais que não são proprietários, mas que ajudarão a melhorar o desempenho da sua aplicação."
O mundo dos RFPs (Request for Proposals) é um bom exemplo, pois é um dos casos de uso de negócios mais convincentes de IA generativa que surgiram nos últimos anos. Uma empresa B2B que desejava criar uma aplicação de IA generativa para ajudar a automatizar aspectos de seu processo de RFP precisaria treinar com dados internos, ou não seria capaz de apresentar os recursos exclusivos de uma empresa. Mas esse mesmo modelo de IA generativa também precisaria treinar com dados mais gerais, como criar uma frase e estruturar suas respostas gramaticalmente, ou suas respostas não fariam sentido.
"Esses dois aspectos precisam ser reunidos em sua estratégia de dados, tanto conjuntos de dados gerais e amplos quanto conjuntos de dados internos mais proprietários", diz IBM. "Caso contrário, você estará apenas construindo uma ferramenta, lançando uma grande quantidade de dados nela e vendo o que acontece, o que é um desperdício de dinheiro e tempo."
O uso de dados específicos do domínio, dados relevantes para um setor ou campo específico, pode ajudar as empresas a criar modelos de IA mais focados em uma necessidade comercial específica. "Há uma ênfase em dados específicos de domínio agora quando se trata de treinar modelos de IA, por exemplo, nos campos de finanças ou RH", diz Jason Prow, parceiro sênior da IBM Consulting. "Com todos os dados disponíveis, organizar seu modelo em torno de um domínio específico está se tornando crítico."
O uso de dados de domínio na criação de modelos de IA ajuda a personalizá-los de maneiras que possam torná-los mais aplicáveis a uma necessidade comercial específica. Os modelos específicos de domínio são mais precisos e relevantes para as necessidades do usuário e podem levar a um melhor desempenho geral das aplicações de IA generativa associadas.
Os dados específicos de um domínio podem ser técnicos e complexos, portanto, as organizações que buscam aproveitá-los precisam considerar a possibilidade de adicionar posteriormente uma camada de "semântica", uma camada de abstração em seus modelos de IA para ajudar a traduzi-los. "A indústria farmacêutica, em particular, faz muitas descrições semânticas", diz Anthony Vachino, Parceiro Associado da IBM Consulting. “Diferentes empresas fazem testes diferentes, e a camada semântica descreve isso de maneiras que podem ajudar a tornar a pesquisa aplicável a outras empresas, para que elas não tenham que replicá-la.
Seja se preparando para mudanças geopolíticas que podem interromper cadeias de suprimentos ou desastres naturais que ameaçam infraestrutura crítica, os líderes de dados modernos estão começando a considerar mais do que apenas talento e custos ao escolher onde armazenar e acessar dados. Segundo o Instituto de Valor Empresarial IBM , 60% dos líderes do governo acreditam que a frequência de choques na cadeia de suprimentos e na infraestrutura aumentará no futuro, enquanto 70% acreditam que sua intensidade também aumentará.
Cada região tem vantagens diferentes, e coisas como talentos, ecossistema de dados e infraestrutura, governança e fatores geopolíticos precisam ser considerados. Os executivos estão anotando: no ano passado, de acordo com o mesmo relatório do IBV, quase 70% dos executivos entrevistados disseram esperar que a IA mudasse onde localizaram os recursos principais, enquanto este ano, essa porcentagem saltou para 96%.
Dan Chenok, Diretor Executivo do Centro IBM para Negócios do Governo, está interessado no potencial do uso de dados distribuídos no treinamento de modelos generativos de IA, pois isso permite que os dados sejam armazenados e acessados em mais de um local. "Dados distribuídos permitem que você treine o modelo com dados que estão em vários locais", diz ele, "enquanto a segurança e as regulamentações são mantidas por meio do controle de acesso."
Soluções modernas e híbridas ajudam as organizações a criar modelos de IA mais adequados para resolver problemas específicos de negócios, economizando dinheiro, tempo e outros recursos críticos. "Quando você integra várias plataformas, pode fornecer serviços melhores, especialmente se for uma empresa trabalhando em vários locais", acrescenta Chenok. "E as melhores soluções ajudam a reconciliar tudo isso para que sua aplicação tenha um bom desempenho."
Data lakehouses abertos e híbridos oferecem aos usuários a capacidade de compartilhar dados tanto na nuvem quanto na infraestrutura local, onde quer que os dados estejam, para que possam ser acessados por aplicações de IA generativa. Data lakehouses são plataformas que mesclam aspectos de data warehouses e data lakes em uma única solução unificada de gerenciamento de dados.
Data lakes são soluções de armazenamento de dados de baixo custo construídas para lidar com grandes quantidades de dados estruturados e dados não estruturados, e data warehouses são sistemas que coletam dados de várias fontes em um único local para que possam ser analisados. Embora não sejam tão escaláveis quanto lakes ou warehouses, data lakehouses tendem a ser mais simplificados, têm melhor desempenho e são capazes de suportar uma gama mais ampla de cargas de trabalho.
Para empresas em busca de uma solução mais abrangente, plataformas como Databricks, Snowflake e Amazon RedShift estão se tornando mais populares devido à complexidade da preparação de dados para IA generativa e do desenvolvimento e implementação das aplicações. Soluções abrangentes ajudam no gerenciamento de dados, treinamento de modelos e implementação de soluções, permitindo que as organizações lancem uma aplicação de IA generativa com escalabilidade e governança integradas para vários casos de uso.
IBM watsonx.data é um armazenamento de dados adequado à finalidade, construído em um data lakehouse aberto que aumenta a escalabilidade da carga de trabalho generativa de IA. A abordagem aberta, híbrida e construída para propósitos melhora a integração com diferentes tipos de bancos de dados, permitindo que as empresas aproveitem dados que estão espalhados por diferentes ecossistemas e ambientes, e não fiquem presas em uma única região ou conjunto de regras.
Treine, valide, ajuste e implemente recursos de IA generativa, modelos de base e recursos de aprendizado de máquina com o IBM watsonx.ai, um estúdio empresarial de última geração para construtores de IA. Crie aplicações de IA em uma fração do tempo com uma fração dos dados.
Use a IA a serviço de sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.
Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.