Содержание


Интеллектуальный анализ данных в документо-ориентированном мире

Comments

Архитектура документо-ориентированной базы данных

Одним из ключевых элементов всех документо-ориентированных баз данных является то, что они могут работать с гораздо более крупными структурами и наборами данных, чем обычно. В частности, ввиду их распределенной природы и другого способа физического хранения данных, они идеально подходят там, где нужно обрабатывать огромное количество информации, как это часто бывает в случае интеллектуального анализа данных.

Эти преимущества очевидны и документированы повсюду; предлагаемая статья посвящена структуре и формату информации, а также методам, которые используются для ее обработки и составления отчетов.

Гибкая структура данных

Документо-ориентированные базы данных имеют (почти) бесконечно гибкую структуру, которая обеспечивает ряд важных особенностей.

  • Отсутствие схемы: документо-ориентированным базам данных не нужна предопределенная структура данных, которую нужно хранить в базе данных. В традиционных РСУБД сначала определяется структура таблиц, в которых будут храниться данные, для чего требуется знать наперед содержание, возможные значения и структуру информации. В документо-ориентированной базе данных информацию можно хранить прямо в документах и не нужно беспокоиться о структуре, достаточном количестве полей и в большинстве случаев даже о том, что такое отношения "один ко многим" и "многие ко многим". Вместо этого можно сосредоточиться на содержании самой информации. Хранить необработанные документы и информацию намного проще, даже если она поступает из разных источников. Дополнительная гибкость также означает, что можно объединять и обрабатывать информацию разных типов и с разной структурой. Например, в традиционных РСУБД трудно производить обработку текстовых данных, потому что нужно обеспечить достаточную гибкость структуры (количество предложений, абзацев и т.д.) для поддержки поступающей информации. Для наглядности представьте себе процесс сведения воедино данных из Twitter, Facebook и других социальных сетей и поиска в них типовых моделей. В Twitter информация имеет фиксированную длину и укладывается в одну короткую строку. Facebook разделяет элементы информации (текст, местоположение и учетные записи пользователей). При сборе всей этой информации и ее объединении значительная часть времени обработки уйдет на то, чтобы разместить все это в жесткой структуре.
  • Логические объекты: большинство решений на основе СУБД используется для моделирования информации, которая обычно хранится в структурированном (относительно) формате. Затем с помощью SQL и соединений эта информация компонуется в объект, который используется внутри приложения. Различные элементы общей структуры данных можно просматривать отдельно, но часто информация скомбинирована и предоставляется в соответствии с объектом, в котором собраны все данные.

    Для получения более сложной перспективы часто выполняются продольные и поперечные, плоскостные и объемные срезы, хотя на самом деле это просто подбор элементов одной и той же общей структуры. Документо-ориентированная конструкция меняет эту перспективу. Вместо того чтобы рассматривать отдельные, дискретные элементы данных, с документами можно работать как с цельными объектами. Например, для отслеживания сведений о коллекторах данных может потребоваться вся информация об этом объекте, хотя разные коллекторы данных могут иметь разные сенсоры, разное число сенсоров и разные уровни сложности.
  • Мигрирующая структура: с течением времени данные изменяются, иногда быстро, иногда медленно. Изменение структуры данных — это сложный процесс, который не только влияет на используемую базу данных, но и требует внесения изменений в приложения, которые обращаются к этой информации и работают с ней. В случае структуры на основе документов, так как структура данных фиксирована, адаптация этой структуры для новых версий и различных форматов исходных данных оказывается трудным и сложным делом. Нужно создать новую таблицу или изменить существующую для новой структуры, а это означает преобразование всех ранее созданных записей. В случае документо-ориентированной базы данных структура документов может меняться. На самом деле, отдельные документы могут иметь разную структуру. Так как вы всегда имеете дело с целым документом, приложение вряд ли потребует изменений, пока ему не придется обрабатывать новые данные.
static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=40
Zone=Open source
ArticleID=934071
ArticleTitle=Интеллектуальный анализ данных в документо-ориентированном мире
publish-date=06142013