Conteúdo


Mineração de dados em um mundo de documentos

Comments

Arquitetura do banco de dados de documento

Um dos elementos-chave de todos os bancos de dados de documentos é que eles podem manipular e trabalhar com estruturas e conjuntos de dados muito maiores do que o normal. Em especial, devido à sua natureza distribuída e à maneira diferente em que armazenam dados fisicamente, eles são ideais quando houver uma grande quantidade de dados a serem processados, como frequentemente é o caso na mineração de dados.

Esses benefícios são evidentes e documentados em outra parte. Este artigo concentra-se na estrutura e no formato das informações e nas técnicas utilizadas para processar e relatar as informações armazenadas.

Estrutura de dados flexível

Bancos de dados de documentos têm uma estrutura (quase) infinitamente flexível que fornece diversas áreas-chave diferentes de funcionalidade:

  • Sem esquema: bancos de dados de documento não precisam predefinir a estrutura dos dados que devem ser armazenados neles. Em RDBM tradicional, especifique a estrutura das tabelas em que os dados são armazenados e tente prever o conteúdo, os valores possíveis e a estrutura das informações. Com um banco de dados de documentos, é possível armazenar informações nos documentos sem ter que se preocupar com a estrutura, se há vários campos e nem mesmo, na maioria dos casos, quais são os relacionamentos de um para muitos e de muitos para muitos. Em vez disso, é possível concentrar-se no próprio conteúdo das informações. Isso pode facilitar muito o armazenamento de matéria-prima e de informações, embora possam ser provenientes de fontes distintas. A maior flexibilidade também significa que é possível combinar e processar informações de diferentes tipos e estruturas. Por exemplo, o processamento de dados textuais é difícil de conseguir com um RDBMS tradicional, porque é preciso garantir que a estrutura (número de frases, parágrafos, etc.) seja flexível o suficiente para suportar as informações recebidas. De forma mais explícita, imagine cotejar os dados do Twitter, Facebook e outras fontes de mídia social e procurar padrões. As informações no Twitter têm um comprimento fixo, e são incluídas em uma única cadeia de caractere pequena. O Facebook não tem elementos separados para saída de informações (texto, localização e indivíduos). Seria necessária uma quantidade significativa de processamento dessas informações de forma a coletá-las, unificá-las e colocá-las em uma estrutura rígida.
  • Objetos lógicos: a maioria das soluções de RDBMS é utilizada para modelar informações que normalmente estariam em um formato (relativamente) estruturado. Em seguida, SQL e junções são usados para moldar essas informações em um objeto que é usado internamente. Pode-se observar individualmente diferentes elementos da estrutura de dados global, mas com frequência as informações são combinadas e relatadas de acordo com o objeto que recolhe todos os dados.

    A partir de uma perspectiva mais complexa, muitas vezes fatiamos e fragmentamos os diferentes elementos de dados de maneiras diferentes, embora na realidade ainda estejamos apenas escolhendo elementos dessa estrutura geral. A estrutura do documento altera essa perspectiva. Em vez de observar pontos de dados distintos e individuais, os documentos observam os objetos como um todo. O rastreamento de informações sobre coletores de dados, por exemplo, pode exigir que todas as informações sobre esse objeto estejam no lugar, embora diferentes coletores de dados possam ter diferentes sensores, números diferentes de sensores e diferentes níveis de complexidade.
  • Estrutura migratória: os dados mudam ao longo do tempo, às vezes lenta e às vezes rapidamente. Modificar a estrutura de dados é um processo complexo, que não afeta apenas o banco de dados que você usa, mas também exige mudanças nos aplicativos que acessam e usam essas informações. Com uma estrutura baseada em documento, visto que a estrutura dos dados é fixa, a adaptação dessa estrutura a novas versões e formatos diferentes dos dados originais é difícil e complexa. É preciso criar uma tabela ou modificar a tabela existente para lidar com a nova estrutura, o que significa a conversão de todos os registros criados anteriormente para corresponderem à nova estrutura. Com um banco de dados de documento, a estrutura dos documentos pode ser modificada. De fato, as estruturas dos documentos individuais podem ser diferentes de um para o outro. Visto que você está sempre lidando com documentos inteiros, é improvável que seu aplicativo precise lidar com mudanças até precisar processar os novos dados.
static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=80
Zone=Information Management, Software livre
ArticleID=936227
ArticleTitle=Mineração de dados em um mundo de documentos
publish-date=07082013