Conteúdo


Explorar a Advanced Analytics Platform, Parte 8

O modelo de controle de informações

Comments

Conteúdos da série:

Esse conteúdo é a parte # de # na série: Explorar a Advanced Analytics Platform, Parte 8

Fique ligado em conteúdos adicionais dessa série.

Esse conteúdo é parte da série:Explorar a Advanced Analytics Platform, Parte 8

Fique ligado em conteúdos adicionais dessa série.

Este é o oitavo tutorial da série sobre a Advanced Analytics Platform (AAP). Em tutoriais anteriores, fornecemos uma visão geral dos principais casos de uso, algoritmos, padrões de descoberta e fluxos de dados/lógica. Esses tutoriais ajudam você a determinar quando usar a AAP e como montá-la e integrá-la em uma arquitetura do aplicativo de ponta a ponta. A Parte 5, "Detalhamento de descoberta e visualização", focou na arquitetura de informações. Cobriu aspectos de modelagem de dados e ontologia para a descoberta de dados. O tutorial "Hub de perfil do cliente" examinou o desenvolvimento do modelo de dados de perfil do cliente. Descreveu como organizar os dados ingeridos e derivou atributos para obter insights de valor sobre os comportamentos dos clientes.

Este tutorial dá continuidade a tutoriais anteriores ao examinar o controle de informações dos dados usados na AAP. Suponha, por exemplo, que um provedor de serviço de telefonia - ao usar algumas das técnicas descritas em tutoriais anteriores e Registros de Detalhe de Chamada (CDR) - descobre que um cliente está em um novo local internacional. Algumas das perguntas importantes que surgem relativamente ao poder e aos riscos associados ao controle de informações são:

  • Podemos usar essas informações para vender serviços de telecomunicações e de terceiros nesse novo local internacional (preferências de privacidade)?
  • Trata-se de um evento fraudulento em que alguém está roubando a identidade do cliente para uso não autorizado (furto de dados)?
  • O dispositivo portátil foi devolvido por um cliente e vendido para outro, mas os registros do cliente não foram devidamente atualizados (qualidade de dados)?

Os dados são um dos maiores ativos que uma organização tem, mas também são cada vez mais difíceis de gerenciar e controlar. Dados limpos e confiáveis ajudam as organizações a prestar um serviço melhor, promovem a fidelidade do cliente e exigem menos esforço para cumprir as políticas regulamentares. Entretanto, podem ser considerados como a maior fonte de risco de uma organização. A utilização eficaz de informações traz consigo a promessa de maior inovação ao otimizar pessoas e processos por meio de usos criativos das informações. Por outro lado, um gerenciamento de dados ruim frequentemente leva a decisões e resultados de negócios ruins, com maior exposição a violações de conformidade e furto.

O Big Data traz considerações adicionais para os processos, ferramentas e organizações de controle de informações. Isso se torna ainda mais importante conforme nos aproximamos de decisões de baixa latência e altos volumes de dados externos sem controle. Várias perguntas importantes sobre controle precisam ser feitas em ambientes de Big Data, incluindo como usar o controle de informações em casos em que a análise em tempo real e a tomada de decisão em tempo real forçam uma curadoria de dados de baixa latência?

Componentes de controle

De dados estruturados a dados não estruturados—incluindo dados de clientes e funcionários, metadados, segredos comerciais, e-mail, vídeo e áudio—as organizações precisam encontrar uma maneira de controlar dados em consonância com as necessidades de negócios sem obstruir o fluxo livre de informações e inovação. O Modelo de Maturidade do Recurso (CMM) descreve uma estrutura e uma metodologia para medir o progresso para o controle de dados. Essa coleção estruturada de elementos oferece uma progressão mensurável e constante até o estado de maturidade desejado final.

De acordo com o CMM, os cinco níveis para medir o progresso do controle de dados são:

  • Nível de Maturidade 1 (inicial): Os processos normalmente são ad hoc e o ambiente não é estável.
  • Nível de Maturidade 2 (gerenciado): Os sucessos são passíveis de repetição, mas os processos podem não se repetir para todos os projetos na organização.
  • Nível de Maturidade 3 (definido): Os processos padrão da organização são utilizados para estabelecer consistência em todas as suas partes.
  • Nível de Maturidade 4 (gerenciado quantitativamente): As organizações definem objetivos quantitativos de qualidade para processo e manutenção.
  • Nível de Maturidade 5 (otimização): Objetivos quantitativos de melhoria dos processos para a organização são firmemente estabelecidos e revisados de forma contínua para refletir mudanças nos objetivos de negócios, além de serem usados como critério para o gerenciamento da melhoria no processo.

O IBM Data Governance Maturity Model ajuda a instruir outras partes interessadas sobre como tornar a estratégia mais eficaz. Ele se baseia em entradas dos membros do IBM Data Governance Council. Define o escopo de quem precisa estar envolvido no controle e na medição da forma como as empresas controlam os dados em uma organização.

O IBM Data Governance Maturity Model mede as competências de controle de dados com base nestas 11 categorias de maturidade de controle de dados:

  1. Gerenciamento de risco de dados e conformidade: Uma metodologia segundo a qual os riscos são identificados, qualificados, quantificados, evitados, aceitos, mitigados ou transferidos. Podem existir requisitos diferentes para a infraestrutura comum; por exemplo, com relação à alta disponibilidade ou à recuperação de desastre. Também são áreas em que as tecnologias de Big Data não são tão maduras.
  2. Criação de valor: Um processo por meio do qual ativos de dados são qualificados e quantificados para permitir que as empresas maximizem o valor criado por eles. Como Big Data lidam com grande volume e velocidade, a infraestrutura não pode ser replicada facilmente em silos. O valor de negócios nas divisões da organização pode ser agrupado a fim de criar uma infraestrutura comum para compartilhar nas diferentes organizações, tais como marketing, atendimento e gerenciamento de risco.
  3. Estruturas organizacionais e reconhecimento: O nível de responsabilidades mútuas entre negócios e TI, assim como o reconhecimento da responsabilidade fiduciária para controlar dados em diferentes divisões. Cada organização pode trazer diferentes origens externas de Big Data com diferentes níveis de veracidade. À medida que ocorrem curadoria e mineração nessas origens de dados em busca de identificadores e uso comuns, é importante entender uma unificação federada, que oferece a capacidade para cada organização manter seu ambiente, enquanto permanece conectada com as definições federadas.
  4. Administração: Uma disciplina de controle de qualidade concebida para assegurar a assistência custodial de dados para aprimoramento de ativos, mitigação de risco e controle organizacional. Conforme dados externos, como mídia social, são acessados, é importante ampliar as funções de administração para incluir dados externos. Os organizadores também devem considerar questões de privacidade, especialmente com relação à mídia social e dados de uso.
  5. Política: A articulação por escrito do comportamento organizacional desejado. Os Big Data lakes e os dados curados seguem essas políticas ao usar uma estrutura de Controle, Risco e Conformidade (GRC). Por exemplo, há uma organização utilizando dados de uso em seu ambiente de CRM. Ela estabeleceu uma política que exige a exclusão desses dados de forma periódica para manter a privacidade do cliente. O programa de controle de Big Data poderia manter dados de uso anônimos por um período mais longo, mas remove os links com o CRM.
  6. Gerenciamento de qualidade de dados: Métodos para medir, melhorar e certificar a qualidade e a integridade de dados de produção, teste e arquivamento. Big Data trazem problemas de qualidade de dados que estão associados a dados em movimento e dados em repouso. É possível usar mineração de dados com CRM e origens de Big Data para melhorar a qualidade de dados. Por exemplo, um endereço para cobrança para um assinante pode ser diferente do local do serviço. Usando dados de CDR, é possível atualizar o local do serviço e usar tais dados para melhorar a qualidade do serviço.
  7. Gerenciamento do ciclo de vida de informações (ILM): Uma abordagem sistemática e baseada em política para a coleta, uso, retenção e exclusão de informações. É possível preencher facilmente petabytes de armazenamento do Hadoop com Big Data de alto volume. Apesar de o custo ser inferior ao de um ambiente de Business Intelligence tradicional, o custo de petabytes de armazenamento por um longo período se acumula. As políticas de ILM são baseadas em projeções de volume, valor de negócios e custo. As políticas permitem que as empresas decidam onde armazenar os dados (online para análise em oposição a offline para conformidade regulamentar), quantos dados serão armazenados (quantos dados agregados em oposição a dados brutos) e quando começar a excluir os dados (antigos padrões de uso que podem não ser válidos após mudanças no estilo de vida).
  8. Segurança e privacidade de informações: As políticas, práticas e controles utilizados por uma organização para mitigar riscos e proteger ativos de dados. A dimensão abrange a definição e a execução da política. Esta é a dimensão de controle mais importante para Big Data. Embora dados privados e sensíveis devam ser protegidos com cuidado, existe o potencial de revelá-los e armazená-los. Em alguns casos, ao aderir, os assinantes concordam com o uso de dados privados para casos de uso específicos. Nessas situações, os dados não devem estar disponíveis fora dos casos de uso limitados para os quais a adesão foi obtida. Com as informações de uso, os dados de comportamento inferidos (local de trabalho, lista de contatos e encontros) podem ser tão privados, ou, em alguns casos, mais privados, em comparação com dados demográficos, tais como nome, número de telefone e informações de cartão de crédito.
  9. Arquitetura de dados: O projeto arquitetural de sistemas de dados estruturados e não estruturados e de aplicativos que possibilita disponibilidade de dados e distribuição para os usuários adequados. Em uma organização comum, os altos investimentos passados em Business Intelligence precisam ser preservados. Isso leva a uma arquitetura híbrida em que os dados transacionais e demográficos podem permanecer em um ambiente de Business Intelligence tradicional e uma arquitetura de Big Data pode ser incluída para trazer dados de conversa e uso. Organizar o compartilhamento de ETLs, dados principais/de referência e metadados é importante nessas situações híbridas. No caso de dados e informações de alta velocidade, a arquitetura de dados precisa ser concebida para trabalhar com requisitos de latência.
  10. Classificação e metadados: Os métodos e ferramentas que são usados para criar definições semânticas comuns para termos de negócios e TI, modelos de dados e repositórios. Um glossário de negócios comum, linhagem de dados e representações físicas de dados são exemplos de integração de metadados entre dados tradicionais e Big Data. Esta é uma área em evolução; Big Data trazem novos desafios (linhagem de dados a nível de registro em oposição à linhagem de dados a nível de campo, por exemplo) e novas oportunidades (uso de ontologia para entender dados externos).
  11. Criação de log e relatório de informações de auditoria: Os processos organizacionais para monitorar e medir o valor dos dados, riscos e a eficácia do controle de dados. Sem auditorias adequadas, as soluções de Big Data correm o risco de implementações ruins de políticas bem definidas. A implementação inconsistente de uma política de privacidade em diferentes divisões pode resultar em pontos de falha. Um funcionário descontente com acesso a informações privilegiadas pode usar tais pontos de falha e hackear dados do cliente e insights.

Figura 1 mostra uma visão geral do IBM Data Governance Maturity Model.

Figura 1. Data Governance Maturity Model da IBM
Governance Maturity Model categories and progress measures
Governance Maturity Model categories and progress measures

Figura 2 mostra a medição de controle de dados de um provedor de Serviços de Informações Globais. Nem sempre medimos todas as dimensões de controle de dados. Por exemplo, na Figura 2, oito das 11 dimensões foram consideradas importantes e incluídas na avaliação. Para cada dimensão medida, as maturidades atual e de destino foram calculadas. Isso forneceu uma medida das lacunas que devem ser preenchidas usando um programa de controle de dados.

Figura 2. Maturidade de controle de dados ilustrativa – atual e de destino
Data Governance current and desired maturity state
Data Governance current and desired maturity state

Desafios de Big Data e controle

As soluções de Big Data enfrentam muitos desafios de controle de dados. Os dados de origem vêm de origens internas e externas que requerem controle:

  • Qualidade de dados e correspondência
  • Indexação de dados principais
  • Identificação e proteção de privacidade de dados

Realizar um exercício de controle formal em todas as origens pode ser algo desafiador. Contudo, quando os dados permanecem sem controle, surgem desafios de recebimento de dados significativos. Os desafios de recebimento de dados:

Controle na leitura: É um desafio aplicar controle durante a ingestão de dados quando os dados são gerados por origens externas em alta velocidade. Consequentemente, eles transportam uma quantia considerável de dados sem controle. O controle é aplicado quando os dados são utilizados. Infelizmente, essa abordagem pode resultar na combinação de dados sem controle com dados altamente controlados de Enterprise Data Warehouses (EDW) e outras origens controladas. Identifique e cure os dados antes do uso, mesmo se o uso for para fins de descoberta e exploração de dados. Muitas vezes, os cientistas concluem que os problemas de qualidade de dados são insignificantes devido ao grande tamanho dos dados. Isso acontece na agregação de preenchimento, mas pode não acontecer na hora de descobrir e definir microssegmentos.

Correspondência no data lake: Se os Big Data forem provenientes de vários sistemas, muitas vezes transportarão dados sem correspondência. Dados sem correspondência não estão vinculados a identificações comuns, como usar um ID de assinante comum. Conforme os dados crescem, também aumenta o esforço necessário para fazer a correspondência. Com frequência, os dados têm diferentes níveis de latência de origens de dados, o que transforma a correlação durante a ingestão de dados em um desafio. A alternativa é descartar os dados sem correspondência no data lake com a esperança de fazer a correspondência ali. Entretanto, o custo da correspondência diminui quando ela é feita mais perto da origem.

Relevância dos dados para análise: Big Data podem incluir muitos atributos que, com frequência, são duplicados em muitas observações. Do mesmo modo, origens de dados externas, como mídia social, podem transportar mais dados do que o necessário para o desenvolvimento de insights. Se todo o conjunto de dados brutos for movido para o data lake, seu tamanho pode aumentar rapidamente, até mesmo para armazenamento barato no Hadoop. Não é raro que uma empresa de telefonia faça análises de uso de rede que geram dados que se aproximam de milhares de gigabits por segundo. Se ficarem armazenados por uma semana, esses dados podem aumentar e chegar a petabytes. O armazenamento de dados brutos por períodos de tempo prolongados não é aconselhável em tal situação Mantenha os dados necessários para a análise e descarte ou arquive o resto.

Privacidade: As políticas de privacidade normalmente definem a privacidade do cliente usando Informações Pessoalmente Identificáveis (PII). Porém, uma quantia considerável de informações privadas pode ser inferida de outros dados. Um exemplo é a localização (presença de um dispositivo em uma latitude e longitude específicas). Com a localização, os dados brutos poderiam ser considerados tão privados quanto os dados de cartão de crédito e seguridade social da pessoa em questão. É necessária uma permissão explícita do cliente para acessar tais dados e utilizá-los.

Lembrar até a contradição: Em sua maioria, os dados se tornam antigos com o passar do tempo. Nos EUA, aproximadamente um terço dos clientes mudam de residência a cada ano. Isso pode afetar os locais que frequentam e o interesse por locais específicos. Utilize novos dados que contradigam um insight passado para desenvolver evidências para uma mudança. O sistema de análise deve ser capaz de atribuir diferentes pesos a insights passados com base em tempo decorrido e evidências contraditórias.

Transformação e qualidade de dados na descoberta orientada a data lakes

Data lakes são grandes repositórios que contêm enormes quantias de dados em formato bruto. Dados de conversa e uso são acumulados nos repositórios, ou data lakes, e analisados para obter insights úteis sobre os assinantes. Comportamentos e posturas relativamente a produtos e serviços podem ser descobertos, por exemplo. Isso foi descrito em tutoriais anteriores nesta série.

Em sua maioria, os dados de uso são estruturados. Dados de CDR de origens de rede, tal como descrito no tutorial " Hub de perfil do cliente", são um bom exemplo de dados estruturados. No entanto, os dados de CDR podem ser obtidos em várias origens de rede, cada um com seu próprio formato. Para analisar esses dados, primeiramente unifique-os de forma que um mecanismo de descoberta ou previsão possa ver todos os dados da mesma maneira. Pode haver dados ausentes ou alguns dados que são recuperados com atrasos substancialmente mais longos. Além disso, cure os dados para remover ruídos.

Os recursos que são extraídos para cada entidade têm tempos de vida diferentes. Alguns recursos extraídos são efêmeros, pois estão relacionados a eventos que acontecerão ou são válidos apenas por um período de tempo limitado. Um exemplo são ações executadas por usuários em breve, tais como ir ao cinema, comprar um produto ou comer. Muitas vezes, elas são compartilhadas em redes sociais e têm validade limitada com o passar do tempo.

Sexo, idade, estado civil e etnia são exemplos de recursos com dados que possuem valor por um longo período. Alguns deles são difíceis de inferir ou extrair. Se não for informada explicitamente por um usuário, idade é uma pergunta de pesquisa aberta, pois é difícil de inferir com base apenas nos recursos de idioma. As predições e a inferência nesses recursos também devem conter uma métrica relativamente ao nível de confiança do preditor ou do recurso extraído. Em termos de controle, inclua o nível de confiança de uma métrica variável.

Os dados sociais são inerentemente não estruturados e a maioria desses repositórios está aberta à manipulação externa. Por exemplo:

  • Fatores externos: Spam, publicidade, abuso de link
  • Fatores internos: Imprecisões, autorrelatório, problemas de formatação

Estas são diversas abordagens para aprimorar a qualidade dos dados contidos em um data lake. Existem várias maneiras de avaliar e aprimorar a qualidade dos dados; elas estão divididas em duas abordagens básicas:

  • Com base na comunidade
  • Métodos supervisionados por máquina

Os métodos com base na comunidade foram bem-sucedidos no passado, mas dependem de uma comunidade ativa para curar os dados contidos nela. A Wikipédia e as respostas do Yahoo são bons exemplos de grandes comunidades que curam dados.

Em alguns casos, é possível utilizar métodos automáticos para detectar possíveis problemas de qualidade, corrigir os problemas e, em seguida, aprimorar a qualidade da origem de dados automaticamente. Um exemplo disso são os diversos agentes automatizados que inspecionam novos artigos da Wikipédia para encontrar possíveis spams, bem como os diversos agentes que detectam publicações de robôs no Facebook e no Twitter.

Outros problemas comuns que afetam a qualidade de dados em dados de mídia social incluem sarcasmo, neologismos (palavras cunhadas recentemente), abreviações, gírias, etc. Com frequência, ontologias específicas do domínio são usadas para analisar os dados a fim de entender e traduzir essas palavras, além de acompanhar as tendências e outras mudanças.

Arquitetura e produtos de controle

Figura 3 mostra os quatro maiores componentes da arquitetura de controle de informações de Big Data. Esses componentes são:

Origens de dados: Incluem todos os dados brutos, zonas de entrada, zonas de descoberta e zonas harmonizadas. Armazene os dados utilizando arquivos simples, Hadoop, colunas ou armazenamentos de dados relacionais.

Malha de informações: Fornece as políticas e o projeto de controle, assim como as ferramentas para organizar os dados. O repositório principal para controle é o Information Governance Catalog. Além disso, outras ferramentas, tais como Streams, Spark, Optim, Guardium e InfoServer, oferecem o projeto e a execução do controle.

Segurança: Fornece uma execução de segurança usando políticas definias na malha de informações. Utiliza ferramentas de segurança padrão, tais como LDAP, Kerberos, HTTPS, Certificates e assim por diante.

Análise, relatório e consumo: Fornece ferramentas para monitorar o controle. Também fornece ferramentas para consumo por analista e usuário da estrutura de controle, utilizando R, ML, SPSS e Cognos.

Figura 3. Arquitetura de controle de informações para Big Data
Major components Big Data Information Governance
Major components Big Data Information Governance

Conclusão

Para que uma empresa possa obter insights e tomar as decisões certas, é essencial ter controle para gerenciar os dados corporativos. Neste tutorial, você aprendeu sobre a estrutura de controle, componentes específicos para qualidade de dados, privacidade e a arquitetura de controle em geral. Descobriu quais ferramentas IBM oferecem suporte para o controle.

Chegamos ao fim desta série sobre a Advanced Analytics Platform.

A intenção da série é ajudar você a entender a necessidade de uma Advanced Analytics Platform dentro da empresa, além de como projetar tal plataforma. Esta série começou com uma visão geral da plataforma. Depois, aprendeu a usar a plataforma para implementar diversos casos de uso que são executados em vários segmentos de mercado. Uma vez que é possível implementar a plataforma incrementalmente, dois padrões independentes em torno de análise de texto e análise de local como pontos de partida foram os dois tópicos a seguir. A complexidade do sistema aumenta à medida que todos esses dados se acumulam. Como descobrir os dados acumulados no data lake e visualizá-los a fim de obter insights adicionais foi o assunto da Parte 5. Em seguida, veio Analisar grandes volumes de dados em tempo real . Estruturas de dados comuns, em especial, a criação de um perfil em 360 graus, veio depois. O presente artigo sobre controle de dados conclui a série. O controle de dados é ignorado com frequência, mas é importante. Tomar decisões eficazes e corretas é fundamental para seus negócios. É difícil tomar tais decisões sem controle de dados.


Recursos para download


Temas relacionados


Comentários

Acesse ou registre-se para adicionar e acompanhar os comentários.

static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=80
Zone=Big data e análise de dados
ArticleID=1025959
ArticleTitle=Explorar a Advanced Analytics Platform, Parte 8: O modelo de controle de informações
publish-date=01222016