O InfoSphere Guardium Data Redaction é um produto voltado para alcançar um equilíbrio entre abertura e privacidade. Frequentemente, os mesmos regulamentos exigem que as organizações compartilhem seus documentos com os reguladores, parceiros de negócios ou clientes e ao mesmo tempo protejam as informações sensíveis que podem estar presentes nesses documentos. Com milhares de documentos nos sistemas Enterprise Content Management como o IBM FileNet ® e o IBM Content Manager®, automação combinada com um fluxo de trabalho bem estruturado é essencial para controlar de forma prática o acesso a informações privadas em documentos em um nível detalhado.
Por exemplo, no eDiscovery, advogados devem compartilhar documentos com os advogados adversários do lado oposto. Mas os advogados não desejam liberar nenhuma informação que não precisem, e as informações com privilégio advogado-cliente devem ser cuidadosamente protegidas. De maneira similar, o Freedom of Information Act (FOIA) tem como objetivo responsabilidade mais as organizações do governo por suas ações tornando as informações sobre essas ações disponíveis sob demanda. Entretanto, os indivíduos não têm direito de acessar informações pessoais sensíveis. Por outro lado, o mesmo regulamento exige que aqueles que solicitam os documentos não vejam informações pessoais sensíveis ou informações de segurança nacional integradas nesses documentos que possam acabar se tornando públicas.
O produto InfoSphere Guardium Data Redaction automaticamente encontra e exclui o texto sensível dentro de um documento, editando o documento. Ele então produz o documento editado em um formato como PDF. Como alternativa, o produto inclui um Secure Viewer com base na web para ainda mais controle sobre a liberação de informações privadas. Cada usuário vê apenas o que tem permissão para ver. Em alguns casos, mesmo se um usuário tem permissão para ver alguma informação, ela não é revelada até que seja solicitada, especificando o motivo pelo qual ele precisa ter acesso a tais informações.
Dentro de uma organização, nem todos os documentos contêm dados sensíveis. Para a edição de dados ser eficiente, é crucial que os documentos relevantes sejam identificados. O InfoSphere Guardium Data Redaction é capaz de identificar e editar muitos tipos de informações que identificam pessoas, mas nem todas as ocorrências constituem dados sensíveis. A sensibilidade das entidades frequentemente depende do contexto. Por exemplo, nomes de procedimentos médicos em catálogos de documentos administrativos não são sensíveis, mas em prontuários de pacientes são. O IBM Classification Module é capaz de identificar documentos sensíveis contendo dados que exigem edição de dados.
O nível de sensibilidade varia através de documentos de diferentes tipos. Um grupo de documentos de um departamento dentro da organização pode exigir uma política de edição de dados personalizada. Outros grupos de documentos podem ter sido criados para consumo público, e é possível presumir que esses documentos não contêm dados sensíveis. Esses agrupamentos de documentos podem ou não ser parte de um sistema de classificação formalizado.
Abaixo está um exemplo de documento sensível e sua versão editada. Nomes, endereços, números de conta e telefones pessoais foram removidos.
Figura 1. Uma visão geral do processo de edição de dados
Há diferentes formatos disponíveis para a versão editada do documento. Além dos formatos comuns (PDF, Microsoft Word document, TIFF, texto, e assim por diante), um formato proprietário está disponível que pode ser visualizado pelo Secure Viewer (um aplicativo enviado com o InfoSphere Guardium Data Redaction).
O IBM Classification Module é capaz de identificar documentos de acordo com uma grande variedade de critérios, incluindo classificações estatísticas e decisões com base em regras. A implementação envolve estes estágios:
- Criar uma base de conhecimento e treiná-la usando grupos definidos pelo usuário de documentos de amostra.
- Criar um plano de decisão que:
- Categorize novos documentos com base nos resultados da base de conhecimento.
- Mova os documentos para pastas relevantes.
- Execute o Classification Module Classification Center usando o plano de decisão criado. Os documentos são movidos para as pastas relevantes.
- Execute os processos do lote de edição de dados nas pastas do repositório. As versões editadas do documento são criadas; cópias originais são mantidas.
A implementação descrita aqui envolve documentos armazenados em um sistema de arquivos. O Classification Module e o InfoSphere Guardium Data Redaction são ambos capazes de acessar e processar documentos nos sistemas IBM FileNet e IBM Content Manager.
O fluxo de trabalho descrito aqui usa o Classification Center do IBM Classification Module para classificar documentos em uma árvore de taxonomia.
Para informações sobre como criar uma base de conhecimento e um plano de decisão, e para configurar o Classification Center para classificar documentos em pastas, consulte o IBM Classification Module Information Center
O Guardium Data Redaction então edita os documentos em duas pastas de categoria diferentes, aninhadas dentro das Repository Folders, de acordo com duas políticas de edição de dados diferentes. O Guardium Data Redaction usa uma estrutura de pasta específica (pastas de repositório) que serve como base para os processadores de dados.
O fluxo de trabalho descrito aqui envolve estas etapas:
- Definir a configuração para edição de dados: configurar dois processadores no InfoSphere Guardium Data Redaction.
- Iniciar o servidor Data Redaction para criar os processadores relevantes e suas pastas de repositório.
- Criar a base de conhecimento e o plano de decisão do Classification Module.
- Executar o Classification Module Classification Center para mover os documentos para pastas in de edição de dados.
- Reiniciar o servidor do InfoSphere Guardium Data Redaction para editar documentos e movê-los para as pastas adequadas para mais processamento.
Definir a configuração para edição de dados
Antes de executar o Classification Module Classification Center ou o InfoSphere Guardium Data Redaction, os processadores devem estar configurados.
Dois processadores separados (Legal e IBM Global Financing) são definidos em dois arquivos de configuração do processador em IBM\GuardiumDataRedaction\server\conf .
Cada processador tem um arquivo de configuração denominado no IBM\GuardiumDataRedaction\server\conf\plugins.xml :
Lista 1. Configuração do processador de amostra em
plugins.xml
<plugin>
<pluginClass>com.ibm.nex.redaction.docrepository.SimpleFilesDocumentRepository
</pluginClass>
<configFile>batchFileSystemProcessorIBM_Legal.xml</configFile>
</plugin>
<plugin>
<pluginClass>com.ibm.nex.redaction.docrepository.SimpleFilesDocumentRepository
</pluginClass>
<configFile>batchFileSystemProcessorIBM_Finance.xml</configFile>
</plugin>
|
Cada arquivo de configuração XML contém as seguintes configurações:
- A pasta de base para o repositório
Essa pasta deve corresponder ao diretório usado pelo Classification Center, por exemplo:
<baseDir>c:/data/IBM Products CC Output Folder</baseDir> - Nome da pasta do repositório
O nome da pasta deve corresponder exatamente ao nome da categoria associada na base de conhecimento do Classification Module.
<processor folder="Legal">
Configurando diferentes políticas de dados
Serão definidas duas políticas:
- Função jurídica: Valores em dólares dos EUA são editados.
- Função financeira: Nomes de organizações são editados.
Esses perfis são configurados no arquivo XmlPolicyModel.xml em IBM\GuardiumDataRedaction\server\conf
Cada elemento ns21:permission mapeia uma função com uma categoria. O elemento ns21:redact define isso como a categoria editada. As categorias são mapeadas em <ns21:category id="1"> dentro do mesmo arquivo.
Abaixo, cada usuário tem uma categoria editada. Cada mapeamento mapeia um único usuário para uma única categoria. A função do usuário (userRoleID) e a categoria (semanticCategoryId) são configuradas em outro lugar no mesmo arquivo. Aqui, cada categoria é definida para ser editada.
Lista 2. Função jurídica
<ns21:permission userRoleId="1002" semanticCategoryId="100"> <ns21:redact /> </ns21:permission> |
Lista 3. Função financeira
<ns21:permission userRoleId="1003" semanticCategoryId="3"> <ns21:redact /> </ns21:permission> |
Iniciar o servidor InfoSphere Guardium Data Redaction
A partir do menu do IBM InfoSphere Guardium Data Redaction Windows, escolha Start server. Isso iniciará o servidor e criará os repositórios configurados. É possível, opcionalmente, parar o servidor para evitar que processe os arquivos criados pelo Classification Center antes de você os ter verificado. Se a pasta in for preenchida enquanto o servidor Data Redaction está executando, esses arquivos serão escolhidos para processamento.
Criar a base de conhecimento e o plano de decisão do Classification Module
O Classification Module Classification Center é capaz de copiar e/ou mover arquivos dentro de um sistema de arquivos e ler/modificar metadados associados com um documento dentro de um sistema de gerenciamento de conteúdo completo. Essas ações são baseadas em uma série de decisões tomadas dentro de um plano de decisão executando no servidor Classification Module. Embora esse plano de decisão tome ações baseadas em acionadores, essas regras podem considerar resultados da análise estatística do conteúdo do documento retornado pela base de conhecimento (também executando no servidor). A base de conhecimento normalmente atribui uma categoria ao documento, com base em similaridades estatísticas.
Para detalhes sobre como criar uma base de conhecimento e um plano de decisão, consulte o tópico Classification Module InfoCenter Workbench no Information Center, acessível a partir da seção Recursos
O Classification Module Workbench é enviado com um projeto chamado IBM Products. Esse projeto contém a base para a base de conhecimento usada aqui. As figuras a seguir mostram a lista de categorias.
Figura 2. A base de conhecimento de IBM Products
A estrutura da base de conhecimento imita a estrutura da pasta de destino. A figura a seguir mostra a estrutura da pasta, cada pasta nomeada de acordo com uma categoria.
Figura 3. A estrutura da pasta
O plano de decisão inclui um conjunto de regras. Abaixo está um exemplo de uma regra que move documentos para as pastas de destino com base na correspondência de categoria mais alta (para um exemplo dessas regras, consulte o projeto Rules for File System no Classification Module Workbench).
Figura 4. O plano de decisão (primeira regra)
As pastas que serão editadas são um caso especial. A figura abaixo mostra uma ação para mover o documento para a subpasta in dentro de um repositório de edição de dados:
Figura 5. O plano de decisão (segunda regra)
Execute o Classification Module Classification Center
Para detalhes sobre como configurar o Classification Center para classificar documentos em pastas, consulte o tópico InfoSphere Classification Module InfoCenter Classification Center.
Quando o Classification Center é executado, os documentos para edição de dados devem ser movidos para as pastas in de edição de dados; documentos não editados devem ser movidos para subcategorias de produto dentro dessa estrutura. A figura abaixo mostra a pasta in de edição de dados para dois repositórios e outras pastas que não de repositório nomeadas de acordo com as categorias.
Figura 6. A estrutura do arquivo de repositório de edição de dados
Verifique para ver se as pastas acima foram preenchidas pelo Classification Center.
A figura a seguir mostra duas pastas (Financeiro e Jurídico) que servirão também como pastas de Repositório de Dados:
Figura 7. As pastas Financeiro e Jurídico
Aqui, o Classification Center move os arquivos para a subpasta in de cada pasta do repositório.
Reiniciar o servidor InfoSphere Guardium Data Redaction
A partir do menu do IBM InfoSphere Guardium Data Redaction Windows, escolha Start server. Como a pasta in dos dois novos repositórios agora contém os documentos criados pelo Classification Center, Redaction agora processará esses arquivos.
A figura abaixo mostra as pastas orig e out dentro de cada estrutura de repositório.
Figura 8. A pasta out agora contém documentos editados. A pasta orig contém as cópias originais.
A edição de dados processa documentos da pasta in e cria versões editadas e não editadas nas respectivas pastas:
pastas orig: documentos originais
pastas out: cópias editadas
A percentagem de arquivos que são enviados para revisão depende da percentagem definida no arquivo de repositório relevante (como batchFileSystemProcessorIBM_Legal.xml acima):
<reviewPercentage>0</reviewPercentage>
Agora temos várias versões, editadas e não editadas, dos documentos originais classificados em pastas. Há vários aspectos desse modelo que podem ser adaptados de acordo com as necessidades de negócio.
Algumas ideias para variar o modelo
Descobrindo documentos sensíveis para edição de dados sem classificação de assunto
No caso em que a única meta é localizar dados sensíveis, não há necessidade de classificação de conteúdo convencional. Nesse caso, uma base de conhecimento do Classification Module pode ser criada que reconhece a natureza de documentos sensíveis, e o plano de decisão pode ser usado para mover apenas esses documentos para a pasta do repositório de Redaction. Não há necessidade de uma pasta dedicada a saída CC. Como a base de conhecimento de duas categorias é bastante usada para descobrir alguns itens relevantes dentro de um conjunto de conteúdo grande, esse método é normalmente chamado de "localização". Entretanto, ele também pode ser usado para descobrir um grupo grande de documentos similares entre documentos não relevantes.
Figura 9. A base de conhecimento de localização
Para criar essa base de conhecimento, escolha um número de documentos sensíveis e um número igual de documentos não sensíveis.
Adicionando revisão manual da saída do Classification Center antes e/ou depois da edição de dados
O Classification Center pode ser usado para revisar manualmente os documentos antes de serem enviados para edição de dados.
Esse método pode ser usado cedo, quando o sistema é colocado em produção pela primeira vez quando a confiança da base de conhecimento pode ser baixa. Além disso, feedback pode ser enviado para melhorar a base de conhecimento.
O Redaction Manager pode ser usado para revisar documentos após eles terem sido classificados e editados . A edição de dados do documento pode ser editada ou removida e enviada para outra Repository Folder para edição de dados de acordo com uma política diferente.
Usando várias bases de conhecimento de localização
Várias bases de conhecimento podem ser configuradas para localizar documentos específicos para edição de dados. Um ou mais processos poderiam ser implementados consecutivamente de acordo com a necessidade, até que todos os documentos sejam movidos para uma pasta para edição de dados. Isso seria útil, por exemplo, no caso em que novos documentos sensíveis de uma natureza diferente precisam ser localizados para edição de dados, ou quando a natureza dos novos documentos muda.
Aprender
- Conheça mais sobre o InfoSphere Classification Module no Centro de Informações do InfoSphere Classification Module.
- Para detalhes sobre como criar uma base de conhecimento e um plano de decisão, consulte o tópico do InfoSphere Classification Module InfoCenter Workbench..
- Para detalhes sobre como configurar o Classification Center para classificar documentos em pastas, consulte o tópico InfoSphere Classification Module InfoCenter Classification Center.
- Conheça mais sobre Guardium e o processo de edição de dados no artigo Integrar um Processo de Edição de Dados de Documento no seu Fluxo de Trabalho Usando o IBM InfoSphere Guardium Data Redaction " (developerWorks, setembro de 2011).
- Obtenha os recursos necessários para ampliar suas qualificações em produtos IBM InfoSphere na seção InfoSphere no developerWorks.
- Fique por dentro dos eventos técnicos e webcasts do developerWorks com foco em uma variedade de produtos IBM e tópicos do segmento de mercado de TI.
- Participe de um briefing gratuito do developerWorks Live!
para atualizar-se rapidamente sobre produtos e ferramentas IBM e tendências do segmento de mercado de TI.
- Siga o developerWorks no Twitter.
- Saiba mais sobre Information Management na zona de Information Management do developerWorks. Encontre documentação técnica, artigos com instruções, educação, downloads, informações sobre produtos e mais.
- Fique por dentro doseventos técnicos e webcasts do developerWorks
.
- Siga o DeveloperWorks no Twitter.
Obter produtos e tecnologias
- Crie seu próximo projeto de desenvolvimento com o Versão de testes do software IBM,
disponível para download diretamente no developerWorks.
Discutir
- Participar do fórum de discussão.
- Participe da comunidade do My developerWorks
.
Entre em contato com outros usuários do developerWorks, enquanto explora os blogs, fóruns, grupos e wikis orientados ao desenvolvedor.
- Confira os
blogs do developerWorks
e participe da
comunidade do developerWorks.
