Avançar para a área de conteúdo

Ao clicar em Enviar, você concorda com os termos e condições do developerWorks.

Na primeira vez que você efetua sign in no developerWorks, um perfil é criado para você. Informações selecionadas do seu perfil developerWorks são exibidas ao público, mas você pode editá-las a qualquer momento. Seu primeiro nome, sobrenome (a menos que escolha ocultá-los), e seu nome de exibição acompanharão o conteúdo que postar.

Todas as informações enviadas são seguras.

  • Fechar [x]

Ao se conectar ao developerWorks pela primeira vez, é criado um perfil para você e é necessário selecionar um nome de exibição. O nome de exibição acompanhará o conteúdo que você postar no developerWorks.

Escolha um nome de exibição de 3 - 31 caracteres. Seu nome de exibição deve ser exclusivo na comunidade do developerWorks e não deve ser o seu endereço de email por motivo de privacidade.

Ao clicar em Enviar, você concorda com os termos e condições do developerWorks.

Todas as informações enviadas são seguras.

  • Fechar [x]

Integrar o InfoSphere Guardium Data Redaction com o IBM Classification Module

Identificando documentos sensíveis e não sensíveis

Jane Singer, QA Engineer, IBM
Jane Singer photo
Jane Singer está nas equipes de controle de qualidade para o InfoSphere Guardium Data Redaction e o InfoSphere Classification Module no IBM Israel Software Lab. Além disso, ela lidera o suporte pré-vendas e L3 para o InfoSphere Classification Module.

Resumo:  O IBM® InfoSphere® Guardium® Data Redaction é capaz de descobrir e ocultar texto sensível dentro de um documento. Dentro de uma organização, nem todos os documentos contêm dados sensíveis. Para a edição de dados ser eficiente, é essencial que os documentos relevantes sejam identificados. A sensibilidade das entidades frequentemente depende do contexto. O InfoSphere Classification Module é capaz de identificar documentos sensíveis contendo dados que exigem edição de dados. Este artigo explica como integrar o Guardium Data Redaction e o Classification Module para alcançar a meta de editar apenas documentos relevantes.

Data:  17/Nov/2011
Nível:  Intermediário Também disponível em :   Inglês
Atividade:  447 visualizações
Comentários:  


Visão geral

O InfoSphere Guardium Data Redaction é um produto voltado para alcançar um equilíbrio entre abertura e privacidade. Frequentemente, os mesmos regulamentos exigem que as organizações compartilhem seus documentos com os reguladores, parceiros de negócios ou clientes e ao mesmo tempo protejam as informações sensíveis que podem estar presentes nesses documentos. Com milhares de documentos nos sistemas Enterprise Content Management como o IBM FileNet ® e o IBM Content Manager®, automação combinada com um fluxo de trabalho bem estruturado é essencial para controlar de forma prática o acesso a informações privadas em documentos em um nível detalhado.

Por exemplo, no eDiscovery, advogados devem compartilhar documentos com os advogados adversários do lado oposto. Mas os advogados não desejam liberar nenhuma informação que não precisem, e as informações com privilégio advogado-cliente devem ser cuidadosamente protegidas. De maneira similar, o Freedom of Information Act (FOIA) tem como objetivo responsabilidade mais as organizações do governo por suas ações tornando as informações sobre essas ações disponíveis sob demanda. Entretanto, os indivíduos não têm direito de acessar informações pessoais sensíveis. Por outro lado, o mesmo regulamento exige que aqueles que solicitam os documentos não vejam informações pessoais sensíveis ou informações de segurança nacional integradas nesses documentos que possam acabar se tornando públicas.

O produto InfoSphere Guardium Data Redaction automaticamente encontra e exclui o texto sensível dentro de um documento, editando o documento. Ele então produz o documento editado em um formato como PDF. Como alternativa, o produto inclui um Secure Viewer com base na web para ainda mais controle sobre a liberação de informações privadas. Cada usuário vê apenas o que tem permissão para ver. Em alguns casos, mesmo se um usuário tem permissão para ver alguma informação, ela não é revelada até que seja solicitada, especificando o motivo pelo qual ele precisa ter acesso a tais informações.

Dentro de uma organização, nem todos os documentos contêm dados sensíveis. Para a edição de dados ser eficiente, é crucial que os documentos relevantes sejam identificados. O InfoSphere Guardium Data Redaction é capaz de identificar e editar muitos tipos de informações que identificam pessoas, mas nem todas as ocorrências constituem dados sensíveis. A sensibilidade das entidades frequentemente depende do contexto. Por exemplo, nomes de procedimentos médicos em catálogos de documentos administrativos não são sensíveis, mas em prontuários de pacientes são. O IBM Classification Module é capaz de identificar documentos sensíveis contendo dados que exigem edição de dados.

O nível de sensibilidade varia através de documentos de diferentes tipos. Um grupo de documentos de um departamento dentro da organização pode exigir uma política de edição de dados personalizada. Outros grupos de documentos podem ter sido criados para consumo público, e é possível presumir que esses documentos não contêm dados sensíveis. Esses agrupamentos de documentos podem ou não ser parte de um sistema de classificação formalizado.

Abaixo está um exemplo de documento sensível e sua versão editada. Nomes, endereços, números de conta e telefones pessoais foram removidos.


Figura 1. Uma visão geral do processo de edição de dados

Há diferentes formatos disponíveis para a versão editada do documento. Além dos formatos comuns (PDF, Microsoft Word document, TIFF, texto, e assim por diante), um formato proprietário está disponível que pode ser visualizado pelo Secure Viewer (um aplicativo enviado com o InfoSphere Guardium Data Redaction).

O IBM Classification Module é capaz de identificar documentos de acordo com uma grande variedade de critérios, incluindo classificações estatísticas e decisões com base em regras. A implementação envolve estes estágios:

  1. Criar uma base de conhecimento e treiná-la usando grupos definidos pelo usuário de documentos de amostra.
  2. Criar um plano de decisão que:
    • Categorize novos documentos com base nos resultados da base de conhecimento.
    • Mova os documentos para pastas relevantes.
  3. Execute o Classification Module Classification Center usando o plano de decisão criado. Os documentos são movidos para as pastas relevantes.
  4. Execute os processos do lote de edição de dados nas pastas do repositório. As versões editadas do documento são criadas; cópias originais são mantidas.

A implementação descrita aqui envolve documentos armazenados em um sistema de arquivos. O Classification Module e o InfoSphere Guardium Data Redaction são ambos capazes de acessar e processar documentos nos sistemas IBM FileNet e IBM Content Manager.

O fluxo de trabalho descrito aqui usa o Classification Center do IBM Classification Module para classificar documentos em uma árvore de taxonomia.

Para informações sobre como criar uma base de conhecimento e um plano de decisão, e para configurar o Classification Center para classificar documentos em pastas, consulte o IBM Classification Module Information Center

O Guardium Data Redaction então edita os documentos em duas pastas de categoria diferentes, aninhadas dentro das Repository Folders, de acordo com duas políticas de edição de dados diferentes. O Guardium Data Redaction usa uma estrutura de pasta específica (pastas de repositório) que serve como base para os processadores de dados.

O fluxo de trabalho descrito aqui envolve estas etapas:

  1. Definir a configuração para edição de dados: configurar dois processadores no InfoSphere Guardium Data Redaction.
  2. Iniciar o servidor Data Redaction para criar os processadores relevantes e suas pastas de repositório.
  3. Criar a base de conhecimento e o plano de decisão do Classification Module.
  4. Executar o Classification Module Classification Center para mover os documentos para pastas in de edição de dados.
  5. Reiniciar o servidor do InfoSphere Guardium Data Redaction para editar documentos e movê-los para as pastas adequadas para mais processamento.

Definir a configuração para edição de dados

Antes de executar o Classification Module Classification Center ou o InfoSphere Guardium Data Redaction, os processadores devem estar configurados.

Configurar dois repositórios

Dois processadores separados (Legal e IBM Global Financing) são definidos em dois arquivos de configuração do processador em IBM\GuardiumDataRedaction\server\conf .

Cada processador tem um arquivo de configuração denominado no IBM\GuardiumDataRedaction\server\conf\plugins.xml :


Lista 1. Configuração do processador de amostra em plugins.xml


<plugin>
	<pluginClass>com.ibm.nex.redaction.docrepository.SimpleFilesDocumentRepository
	</pluginClass>
        <configFile>batchFileSystemProcessorIBM_Legal.xml</configFile>
</plugin>
<plugin>
	<pluginClass>com.ibm.nex.redaction.docrepository.SimpleFilesDocumentRepository
	</pluginClass>
	<configFile>batchFileSystemProcessorIBM_Finance.xml</configFile>
</plugin>



Cada arquivo de configuração XML contém as seguintes configurações:

  • A pasta de base para o repositório

    Essa pasta deve corresponder ao diretório usado pelo Classification Center, por exemplo:

    <baseDir>c:/data/IBM Products CC Output Folder</baseDir>

  • Nome da pasta do repositório

    O nome da pasta deve corresponder exatamente ao nome da categoria associada na base de conhecimento do Classification Module.

    <processor folder="Legal">

Configurando diferentes políticas de dados

Serão definidas duas políticas:

  • Função jurídica: Valores em dólares dos EUA são editados.
  • Função financeira: Nomes de organizações são editados.

Esses perfis são configurados no arquivo XmlPolicyModel.xml em IBM\GuardiumDataRedaction\server\conf

Cada elemento ns21:permission mapeia uma função com uma categoria. O elemento ns21:redact define isso como a categoria editada. As categorias são mapeadas em <ns21:category id="1"> dentro do mesmo arquivo.

Abaixo, cada usuário tem uma categoria editada. Cada mapeamento mapeia um único usuário para uma única categoria. A função do usuário (userRoleID) e a categoria (semanticCategoryId) são configuradas em outro lugar no mesmo arquivo. Aqui, cada categoria é definida para ser editada.


Lista 2. Função jurídica
<ns21:permission userRoleId="1002" semanticCategoryId="100">
<ns21:redact />
</ns21:permission>
	


Lista 3. Função financeira
<ns21:permission userRoleId="1003" semanticCategoryId="3">
	  <ns21:redact />
</ns21:permission>
	


Iniciar o servidor InfoSphere Guardium Data Redaction

A partir do menu do IBM InfoSphere Guardium Data Redaction Windows, escolha Start server. Isso iniciará o servidor e criará os repositórios configurados. É possível, opcionalmente, parar o servidor para evitar que processe os arquivos criados pelo Classification Center antes de você os ter verificado. Se a pasta in for preenchida enquanto o servidor Data Redaction está executando, esses arquivos serão escolhidos para processamento.


Criar a base de conhecimento e o plano de decisão do Classification Module

O Classification Module Classification Center é capaz de copiar e/ou mover arquivos dentro de um sistema de arquivos e ler/modificar metadados associados com um documento dentro de um sistema de gerenciamento de conteúdo completo. Essas ações são baseadas em uma série de decisões tomadas dentro de um plano de decisão executando no servidor Classification Module. Embora esse plano de decisão tome ações baseadas em acionadores, essas regras podem considerar resultados da análise estatística do conteúdo do documento retornado pela base de conhecimento (também executando no servidor). A base de conhecimento normalmente atribui uma categoria ao documento, com base em similaridades estatísticas.

Para detalhes sobre como criar uma base de conhecimento e um plano de decisão, consulte o tópico Classification Module InfoCenter Workbench no Information Center, acessível a partir da seção Recursos

Criar a base de conhecimento

O Classification Module Workbench é enviado com um projeto chamado IBM Products. Esse projeto contém a base para a base de conhecimento usada aqui. As figuras a seguir mostram a lista de categorias.


Figura 2. A base de conhecimento de IBM Products

A estrutura da base de conhecimento imita a estrutura da pasta de destino. A figura a seguir mostra a estrutura da pasta, cada pasta nomeada de acordo com uma categoria.


Figura 3. A estrutura da pasta

Criar o plano de decisão

O plano de decisão inclui um conjunto de regras. Abaixo está um exemplo de uma regra que move documentos para as pastas de destino com base na correspondência de categoria mais alta (para um exemplo dessas regras, consulte o projeto Rules for File System no Classification Module Workbench).


Figura 4. O plano de decisão (primeira regra)

As pastas que serão editadas são um caso especial. A figura abaixo mostra uma ação para mover o documento para a subpasta in dentro de um repositório de edição de dados:


Figura 5. O plano de decisão (segunda regra)


Execute o Classification Module Classification Center

Para detalhes sobre como configurar o Classification Center para classificar documentos em pastas, consulte o tópico InfoSphere Classification Module InfoCenter Classification Center.

Quando o Classification Center é executado, os documentos para edição de dados devem ser movidos para as pastas in de edição de dados; documentos não editados devem ser movidos para subcategorias de produto dentro dessa estrutura. A figura abaixo mostra a pasta in de edição de dados para dois repositórios e outras pastas que não de repositório nomeadas de acordo com as categorias.


Figura 6. A estrutura do arquivo de repositório de edição de dados

Verifique para ver se as pastas acima foram preenchidas pelo Classification Center.

A figura a seguir mostra duas pastas (Financeiro e Jurídico) que servirão também como pastas de Repositório de Dados:


Figura 7. As pastas Financeiro e Jurídico

Aqui, o Classification Center move os arquivos para a subpasta in de cada pasta do repositório.


Reiniciar o servidor InfoSphere Guardium Data Redaction

A partir do menu do IBM InfoSphere Guardium Data Redaction Windows, escolha Start server. Como a pasta in dos dois novos repositórios agora contém os documentos criados pelo Classification Center, Redaction agora processará esses arquivos.

A figura abaixo mostra as pastas orig e out dentro de cada estrutura de repositório.


Figura 8. A pasta out agora contém documentos editados. A pasta orig contém as cópias originais.

A edição de dados processa documentos da pasta in e cria versões editadas e não editadas nas respectivas pastas:

pastas orig: documentos originais

pastas out: cópias editadas

A percentagem de arquivos que são enviados para revisão depende da percentagem definida no arquivo de repositório relevante (como batchFileSystemProcessorIBM_Legal.xml acima):

<reviewPercentage>0</reviewPercentage>

Agora temos várias versões, editadas e não editadas, dos documentos originais classificados em pastas. Há vários aspectos desse modelo que podem ser adaptados de acordo com as necessidades de negócio.


Algumas ideias para variar o modelo

Descobrindo documentos sensíveis para edição de dados sem classificação de assunto

No caso em que a única meta é localizar dados sensíveis, não há necessidade de classificação de conteúdo convencional. Nesse caso, uma base de conhecimento do Classification Module pode ser criada que reconhece a natureza de documentos sensíveis, e o plano de decisão pode ser usado para mover apenas esses documentos para a pasta do repositório de Redaction. Não há necessidade de uma pasta dedicada a saída CC. Como a base de conhecimento de duas categorias é bastante usada para descobrir alguns itens relevantes dentro de um conjunto de conteúdo grande, esse método é normalmente chamado de "localização". Entretanto, ele também pode ser usado para descobrir um grupo grande de documentos similares entre documentos não relevantes.


Figura 9. A base de conhecimento de localização

Para criar essa base de conhecimento, escolha um número de documentos sensíveis e um número igual de documentos não sensíveis.

Adicionando revisão manual da saída do Classification Center antes e/ou depois da edição de dados

O Classification Center pode ser usado para revisar manualmente os documentos antes de serem enviados para edição de dados.

Esse método pode ser usado cedo, quando o sistema é colocado em produção pela primeira vez quando a confiança da base de conhecimento pode ser baixa. Além disso, feedback pode ser enviado para melhorar a base de conhecimento.

O Redaction Manager pode ser usado para revisar documentos após eles terem sido classificados e editados . A edição de dados do documento pode ser editada ou removida e enviada para outra Repository Folder para edição de dados de acordo com uma política diferente.

Usando várias bases de conhecimento de localização

Várias bases de conhecimento podem ser configuradas para localizar documentos específicos para edição de dados. Um ou mais processos poderiam ser implementados consecutivamente de acordo com a necessidade, até que todos os documentos sejam movidos para uma pasta para edição de dados. Isso seria útil, por exemplo, no caso em que novos documentos sensíveis de uma natureza diferente precisam ser localizados para edição de dados, ou quando a natureza dos novos documentos muda.


Recursos

Aprender

Obter produtos e tecnologias

Discutir

Sobre o autor

Jane Singer photo

Jane Singer está nas equipes de controle de qualidade para o InfoSphere Guardium Data Redaction e o InfoSphere Classification Module no IBM Israel Software Lab. Além disso, ela lidera o suporte pré-vendas e L3 para o InfoSphere Classification Module.

Ajuda para Relatar Abuso

Relatar abuso

Obrigado. Esta entrada foi sinalizada para atenção do moderador.


Ajuda para Relatar Abuso

Relatar abuso

Falha no envio do Relatório de abuso. Tente novamente mais tarde.


developerWorks: Registre-se


Precisa de um ID IBM?
Esqueceu seu ID IBM?


Esqueceu sua senha?
Alterar sua senha

Ao clicar em Enviar, você concorda com os termos de uso do developerWorks.

 


Na primeira vez que você efetua sign in no developerWorks, um perfil é criado para você. Informações selecionadas do seu perfil developerWorks são exibidas ao público, mas você pode editá-las a qualquer momento. Seu primeiro nome, sobrenome (a menos que escolha ocultá-los), e seu nome de exibição acompanharão o conteúdo que postar.

Selecione seu nome de exibição

Ao se conectar ao developerWorks pela primeira vez, é criado um perfil para você e é necessário selecionar um nome de exibição. O nome de exibição acompanhará o conteúdo que você postar no developerWorks.

Escolha um nome de exibição de 3 - 31 caracteres. Seu nome de exibição deve ser exclusivo na comunidade do developerWorks e não deve ser o seu endereço de email por motivo de privacidade.

(Deve possuir de 3 a 31 caracteres.)


Ao clicar em Enviar, você concorda com os termos de uso do developerWorks.

 


Classificar este artigo

Comentários

static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=80
Zone=Information Management
ArticleID=774373
ArticleTitle=Integrar o InfoSphere Guardium Data Redaction com o IBM Classification Module
publish-date=11172011

Conheça a IBM da sua cidade

Virtual Branch Office Brasil

A IBM está mais perto do que você imagina!


Tags

Help
Use o campo de pesquisa para encontrar todos os tipos de conteúdo no My developerWorks com essa tag.

Use a barra de rolagem para ver mais ou menos tags.

Tags populares mostra as principais tags para esta zona de conteúdo em particular (por exemplo, Java technology, Linux, WebSphere).

Minhas tags mostra suas tags para esta zona de conteúdo em particular (por exemplo, Java technology, Linux, WebSphere).

Use o campo de pesquisa para localizar todos os tipos de conteúdo no Meu developerWorks com essa tag. Tags populares mostra as tags principais para essa zona de conteúdo particular (por exemplo, tecnologia Java, Linux, WebSphere). My tags shows your tags for this particular content zone (for example, Java technology, Linux, WebSphere). Minhas tags mostra as suas tags para essa zona de conteúdo em particular (por exemplo, tecnologia Java, Linux, WebSphere).