Publicado em: 30 de agosto de 2024
Colaboradores: Tim Mucci
O compartilhamento de dados é o processo de disponibilizar os recursos de dados de uma organização para várias aplicações, usuários e outras organizações. O compartilhamento eficaz de dados envolve uma combinação de tecnologias, práticas, frameworks legais e esforços organizacionais para facilitar o acesso seguro a várias entidades sem comprometer a integridade dos dados.
As organizações que adotam a análise de big data reconhecem os dados como um ativo estratégico valioso em seu portfólio. Esses dados vêm de várias fontes, como métricas derivadas de aplicações de software, dados de comportamento do cliente e sinais da Internet das coisas (IoT) de aparelhos e sensores.
Pense nos dados como livros em uma biblioteca. O compartilhamento de dados é semelhante a ter um cartão de biblioteca que permite que todos na organização acessem e emprestem esses livros quando precisarem deles. Sem o compartilhamento de dados, cada departamento precisaria criar e manter sua própria biblioteca, levando à duplicação, informações desatualizadas e recursos limitados.
As organizações que compartilham dados podem colaborar de forma mais eficaz com parceiros, estabelecer novas oportunidades de negócios, formar novas parcerias e gerar fluxos de receita por meio de produtos de dados e outras monetizações. No entanto, o compartilhamento de dados exige o compromisso de manter a integridade e a confiabilidade dos dados compartilhados durante todo o seu ciclo de vida, garantindo que permaneçam confiáveis, coerentes e úteis para análises precisas. O compartilhamento bem-sucedido de dados permite que os stakeholders obtenham perspectivas valiosas, desenvolvam novos serviços e tecnologias e se preparem para tendências futuras, analisando grandes quantidades de dados de dentro e de fora da organização.
As organizações já compartilhavam dados muito antes da invenção da internet, mas os avanços na alfabetização digital, na tecnologia e na adoção da nuvem levaram ao compartilhamento de dados em tempo real em escala global. As tecnologias de armazenamento e transferência de dados estão mais disponíveis e acessíveis do que nunca. Como resultado, políticas e regulamentações evoluíram para reduzir os riscos associados ao compartilhamento de dados. O compartilhamento de dados é mais do que apenas permitir o acesso para análise e monetização; ele também rompe barreiras entre unidades de negócios e parceiros externos. Diferentes equipes podem trabalhar de forma independente ou em conjunto, cada uma utilizando a mesma fonte de dados atualizada. A maior quantidade e variedade de dados disponíveis permite que diversas equipes da organização contribuam para metas organizacionais mais amplas.
A combinação de informações de várias fontes, como dados de pesquisa, dados operacionais ou feedback do cliente, melhora o desempenho do serviço e aumenta o valor desses serviços. Por exemplo, unidades de negócios com acesso a dados podem usar a análise de dados para decidir com base nas tendências de mercado e nas preferências dos clientes e desenvolver estratégias de marketing bem-sucedidas.
Além disso, o compartilhamento de dados permite que autoridades públicas e organizações compartilhem seus dados de maneira segura, legal e governada. Uma parte essencial da higiene de compartilhamento de dados envolve os produtores de dados documentando e rotulando cuidadosamente os conjuntos de dados com metadados precisos para apoiar a reprodutibilidade. Descrições detalhadas com definições claras garantem que outras pessoas possam encontrar, descobrir e entender facilmente os dados compartilhados.
O Future of Privacy Forum1 (FPF) analisou parcerias de compartilhamento de dados entre empresas e pesquisadores acadêmicos e determinou que essas parcerias podem acelerar pesquisas socialmente benéficas, ampliar o acesso a conjuntos de dados valiosos e melhorar a reprodutibilidade dos resultados de pesquisas. À medida que o compartilhamento de dados se torna mais difundido, os stakeholders estão adotando medidas proativas para lidar com riscos e violações de dados usando acordos de compartilhamento de dados (DSAs) e tecnologias de aprimoramento de privacidade (PETs).
A IBM fornece um bom exemplo de implantação de protocolos rigorosos de privacidade e segurança em suas práticas de compartilhamento de dados, incluindo o uso de PETs para anonimizar dados antes de compartilhá-los com universidades, organizações sem fins lucrativos e laboratórios de pesquisa. A abordagem da IBM apoia a descoberta científica e, ao mesmo tempo, protege dados confidenciais, promovendo parcerias mais seguras e eficazes. Por exemplo, a IBM colaborou com a Melbourne Water na Austrália para analisar dados visando reduzir as emissões de energia. Durante a pandemia do COVID-19, a IBM processou sequências genômicas do SARS-CoV-2, contribuindo com mais de três milhões de sequências para um repositório de pesquisa.
Outro caso de uso atraente do valor do compartilhamento de dados vem da Benefits Data Trust, uma organização sem fins lucrativos dos EUA. A Benefits Data Trust (BDT) promove o compartilhamento de dados entre estados e organizações envolvidos na saúde e educação dos EUA. Por meio de acordos de compartilhamento de dados, a BDT aumenta as inscrições em programas públicos essenciais, como o Supplemental Nutrition Assistance Program (SNAP) e o Medicaid.
O Departamento de Serviços Social da Carolina do Sul, com a BDT, comparou as listas mensais do Medicaid e do SNAP, onde identificaram indivíduos elegíveis não inscritos no programa. Essa iniciativa resultou em mais de 20 mil inscrições no SNAP desde 2015, melhorando o acesso à assistência nutricional para populações vulneráveis. Esforços semelhantes na Pensilvânia também tiveram sucesso, com o compartilhamento de dados ajudando a inscrever aproximadamente 240.000 pessoas em vários programas de assistência pública desde 2005.
Embora o compartilhamento de dados ofereça muitos benefícios às empresas, ele também apresenta riscos. Quando informações confidenciais são distribuídas de forma inadequada, elas podem expor uma organização a riscos regulatórios, de concorrência, financeiros e de segurança. Os consumidores de dados têm controle limitado sobre a qualidade e a disponibilidade dos dados. Dados de baixa qualidade também podem conter vieses ocultos contra gêneros, raças, religiões ou grupos étnicos.
Os processos de governança de dados estabelecem as políticas, os padrões e as melhores práticas para gerenciar dados de forma segura, precisa e consistente em toda a organização. A governança eficaz limita o acesso para que somente usuários autorizados tenham permissões de uso de dados. A governança também protege, classifica e ajuda a garantir que os dados sejam usados em conformidade com os órgãos legais e normativos.
Toda organização tem obrigações legais e éticas de proteger a privacidade dos dados dos clientes que gerencia. Tecnologias como criptografia e redação de dados permitem o compartilhamento seguro de dados e protegem a privacidade. No entanto, a falta de comunicação entre produtores e consumidores de dados pode levar a interpretações errôneas, resultando em suposições incorretas ao desenvolver relatórios ou no engajamento de iniciativas de tomada de decisões baseadas em dados.
Por exemplo, em 2012, o Knight Capital Group² sofreu uma falha de negociação devido à falta de comunicação e coordenação entre as equipes, fazendo com que perdessem US$ 440 milhões em apenas 45 minutos. Uma atualização de software ativou inadvertidamente uma peça de software incorporado não testada, não documentada e inativa. Como os desenvolvedores não comunicaram de forma eficaz os possíveis impactos das mudanças aos sistemas dos traders, negociações errôneas foram executadas em alta velocidade, resultando em perdas financeiras significativas.
A dispendiosa movimentação de dados, especialmente por meio de processos de extração, transformação e carregamento(ETL) com uso intensivo de recursos, tem impedido tradicionalmente o compartilhamento generalizado de dados. Manter a qualidade dos dados e as práticas recomendadas de governança pode ser um desafio, especialmente quando se lida com grandes volumes de dados. O compartilhamento seguro de grandes conjuntos de dados em redes é demorado e altamente técnico e requer um grande investimento em armazenamento e infraestrutura.
A segurança de dados exige medidas de proteção rigorosas e educação para proteger dados confidenciais. As informações que trafegam entre redes e plataformas durante os processos de compartilhamento de dados ficam vulneráveis a ameaças, como acesso não autorizado, violações de dados e ataques cibernéticos. Além disso, as organizações devem navegar por leis e regulamentações complexas de privacidade de dados ao compartilhar dados com parceiros externos, stakeholders ou fornecedores terceirizados.
A implementação de melhores práticas no compartilhamento de dados ajuda as organizações a maximizar os benefícios e, ao mesmo tempo, minimizar os riscos.
Um mercado de dados permite que as organizações compartilhem e monetizem com segurança seus dados e produtos de dados. Existem alguns tipos diferentes de mercados de dados:
Os mercados de dados públicos oferecem um ambiente seguro para os participantes comprarem e venderem dados e serviços relacionados, o que, por sua vez, certifica a alta qualidade e a consistência dos provedores de dados. As empresas podem usar um mercado de dados para adquirir dados de terceiros para enriquecer seus conjuntos de dados existentes ou para oferecer e monetizar novos produtos e serviços de dados.
Cada tipo de compartilhamento de dados cumpre uma função específica para facilitar uma troca segura de informações.
Os tipos de tecnologias de compartilhamento de dados mais usados entre as organizações corporativas são o data warehouse e o data lakehouse. Esses sistemas modernos de arquitetura de dados fornecem repositórios centrais para coleta, armazenamento e compartilhamento de big data de várias unidades de negócios. Essas arquiteturas geralmente incluem camadas para clientes front-end, analytics engines e servidores de bancos de dados.
As interfaces de programação de aplicativos (APIs) permitem que componentes de software comuniquem definições e protocolos compartilhados. As APIs de compartilhamento de dados são compatíveis com controles e permissões de acesso detalhados, especificando o que os consumidores de dados podem ou não solicitar.
Aprendizado federado, tecnologia blockchain e plataformas de troca de dados são outras tecnologias compatíveis com o compartilhamento de dados. O aprendizado federado permite que os sistemas de IA treinem em conjuntos de dados distribuídos de diversas fontes sem precisar migrar os dados. O blockchain fornece um livro-razão transparente e imutável para rastrear transações, incluindo aquelas em trocas de dados abertas, fornecendo uma camada de integridade e segurança aos processos de compartilhamento de dados.
Tecnologias legadas, como Secure File Transfer Protocol (SFTP) e e-mail, permitem soluções locais e independentes do fornecedor, mas são cada vez mais difíceis de proteger e governar. Elas não têm recursos avançados de segurança, como criptografia em repouso, controles granulares de acesso a dados e auditoria automatizada, que são mais comuns nas soluções modernas.
As soluções de dados modernas se concentram no compartilhamento seguro de dados, com armazenamento de dados em nuvem oferecendo escalabilidade e confiabilidade com limitações de acessibilidade e segurança. As soluções de compartilhamento de dados específicas do fornecedor oferecem segurança e escalabilidade integradas, mas geralmente vêm com lock-in com fornecedor, o que limita a flexibilidade e aumenta os custos de longo prazo.
Tecnologias de aprimoramento de privacidade, salas de limpeza de dados e outras tecnologias estão aprimorando as operações de dados por meio da automação. Essas tendências destacam a mudança em direção à privacidade, descentralização e abordagens orientadas por IA no manuseio e análise de dados.
As tendências futuras no compartilhamento de dados enfatizam a crescente importância da privacidade. Tecnologias que aprimoram a privacidade, como computação segura multipartes e mascaramento de dados, estão se tornando cruciais para equilibrar o compartilhamento contínuo de dados e a proteção segura de dados. A adoção de PETs oferece às empresas uma vantagem competitiva à medida que essas ferramentas se tornam parte integrante das operações.
As salas limpas de dados são ambientes seguros e focados na privacidade, onde várias partes podem colaborar com os dados sem compartilhar dados brutos. Elas permitem que as empresas realizem análise de dados e obtenham insights e, ao mesmo tempo, protejam dados confidenciais, para que permaneçam em conformidade com as normas de privacidade. As salas limpas ajudam a manter a confiança entre os parceiros, evitando a exposição de informações pessoais e permitindo que dados agregados e anônimos sejam compartilhados.
Uma malha de dados permite que uma organização trate os dados como um produto, tornando-os detectáveis e utilizáveis em um formato de autoatendimento. Essa abordagem permite que as unidades de negócios criem e gerenciem seus produtos de dados de forma independente. Também facilita uma visão centralizada dos dados em várias plataformas e tecnologias, melhorando a conectividade e os insights sem a necessidade de plataformas de dados separadas
Grandes modelos de linguagem (LLMs) podem otimizar a engenharia e as operações de dados ao automatizar tarefas como criação de perfis, modelagem e integração de dados, resultando em melhor qualidade de dados. A implementação da IA generativa em infraestruturas de dados existentes permite que as organizações lidem com tarefas rotineiras de forma mais eficiente, liberando recursos para análises e tomadas de decisões mais complexas.
O IBM Data Product Hub ajuda a simplificar o compartilhamento de dados e automatiza a entrega de produtos de dados aos consumidores de dados da organização inteira.
O IBM Cloud Pak for Data ajudar a melhorar a qualidade, a privacidade e a conformidade de dados, e ajuda os usuários a encontrar os dados de que precisam mais rapidamente.
O IBM watsonx.data é um armazenamento de dados híbrido e escalável projetado para cargas de trabalho de IA e análise de dados. Ele oferece acesso aberto a dados, mecanismos de consulta adequados à finalidade e integração com vários ambientes de dados, permitindo preparação de dados eficiente em qualquer configuração de nuvem ou no local.
1 Data sharing for research (link externo a IBM.com), The Future of Privacy Forum, agosto de 2022
2 Knight Capital Group stock trading disruption (link externo a ibm.com), Wikipedia, agosto de 2012