Os sistemas de IA só podem ser tão confiáveis quanto os dados utilizados em seu desenvolvimento. É por isso que usar dados confiáveis e de alta qualidade é uma primeira etapa crítica para a construção de uma IA responsável. Mas, sem transparência sobre a procedência dos dados (detalhes sobre onde os dados se originaram, como foram desenvolvidos e como podem ser usados de um ponto de vista legal e contratual), avaliar a confiabilidade de um conjunto de dados pode ser desafiador, mesmo para profissionais de dados experientes. A falta de uma taxonomia de metadados padrão para conjuntos de dados é um ponto problemático comum em todo o ecossistema de dados.
Então, quando a Data & Trust Alliance (D&TA) empreendeu o desenvolvimento das primeiras Data Provenance Standards entre setores, a IBM estava ansiosa para contribuir. Ao longo de 2024, lideramos os primeiros esforços de testes e estivemos entre as primeiras organizações a começar a alinhar nossas normas internos de dados com as Data Provenance Standards, quando apropriado. Agora, três meses após concluirmos nossos testes e o anúncio formal da versão 1.0 das Data Provenance Standards, observamos um impacto consistente e quantificável na eficiência geral de nossos processos de gerenciamento e diligência de dados.
A IBM tem o compromisso de desenvolver e implementar a IA de forma responsável. E esse compromisso se estende aos dados que usamos para construir e treinar nossos sistemas de IA. Como "Client Zero", queríamos avaliar as Data Provenance Standards em um ambiente rigoroso para realmente entender seu impacto e testá-las de maneira significativa. Assim, implementamos elementos-chave em nosso próprio Integrated Governance Program (IGP), que rege dados e modelos desenvolvidos e usados pela IBM, começando com uma avaliação da abrangência das normas. Para fazer isso, comparamos as Data Provenance Standards com nossos próprios requisitos de entrada de dados para conjuntos de dados que são usados para desenvolver modelos de base e avaliamos o grau em que a taxonomia de metadados das Data Provenance Standards nos permitiu validar a adequação dos dados para uma variedade de casos de uso.
Em seguida, pedimos a cientistas de dados da IBM, com vários níveis de experiência, que aplicassem as Data Provenance Standards a vários tipos comuns de dados, incluindo dados proprietários da IBM, dados de terceiros e dados que incluem material HAP (discurso de ódio, linguagem abusiva e profanação).
Por fim, pedimos a especialistas do IBM Office of Privacy and Responsible Technology para examinar a integridade e a precisão dos envios de metadados de acordo com as Data Provenance Standards, revisando os envios com os cientistas de dados e pesquisadores para entender melhor seus pontos problemáticos ou confusão. Esse feedback qualitativo nos permitiu identificar termos, definições e orientações que não eram claros ou eram ambíguos.
O impacto mais notável que observamos desde que alinhamos mais estreitamente nossas normas de dados internas com as Data Provenance Standards é a redução no tempo necessário para processar as solicitações de liberação de dados. No período de oito meses durante o qual testamos as Data Provenance Standards e implementamos outras melhorias de tecnologia e processo, observamos que o tempo médio de processamento da liberação de dados diminuiu 58% para dados de terceiros e 62% para dados proprietários da IBM. Essa melhoria é particularmente importante devido ao aumento nas solicitações de liberação provenientes do IGP. Em agosto de 2024, o número de solicitações de liberação para dados de terceiros e de propriedade da IBM já havia ultrapassado o número total de todo o ano de 2023.
Essa eficiência aprimorada é altamente valiosa. Nossa equipe de governança de dados é capaz de processar mais solicitações de dados com maior velocidade, o que nos permite escalar nosso programa de governança de dados e, ao mesmo tempo, manter nossos padrões de confiança e transparência. Alguns aspectos das Data Provenance Standards que nos ajudaram a acelerar nossos processos de diligência de dados incluem o seguinte:
Isso tem um efeito cascata em toda a nossa empresa. Quando as solicitações de liberação de dados são precisas e processadas com mais eficiência, o desenvolvimento do modelo é acelerado, permitindo que nossas equipes respondam mais rapidamente às solicitações dos clientes. Isso também significa que nosso catálogo de dados liberados entre empresas está sempre se expandindo e melhorando em qualidade, permitindo uma reutilização mais eficiente e responsável por nossos profissionais em toda a empresa.
Metadados transparentes e consistentes permitem que os profissionais façam escolhas mais rápidas e informadas sobre a seleção de dados, o que pode levar a modelos e sistemas mais responsáveis. Isso é verdade não apenas para a IBM, mas também para todo o ecossistema de dados. A adoção mais ampla das Data Provenance Standards pode gerar um retorno sobre o investimento significativo por meio de maior automação e inovação responsável.
Por meio de nossa experiência de “Client Zero” com as Data Provenance Standards, estamos fortalecendo nosso compromisso com a confiança ao elevar o nível de transparência sobre os dados subjacentes aos nossos sistemas de IA. Nossa experiência na administração de nosso próprio Integrated Governance Program, ou IGP, incluindo o alinhamento mais estreito de nossas normas de dados internas com as Data Provenance Standards, está nos permitindo levar a IA ao mercado com maior velocidade e confiança. Também nos preparou para melhor apoiar os clientes na implementação de suas próprias frameworks de governança de dados, incluindo o alinhamento com normas e frameworks dos setores, como as Data Provenance Standards. Afinal, se podemos fazer algo funcionar para a IBM, certamente podemos ajudar nossos clientes a fazer o mesmo.