- Начало работы с NoSQL
NoSQL-хранилища данных становятся все более популярными, поскольку они решают проблему масштабируемости в широком плане. Хранилища данных, не использующие схемы (schemaless datastores), фундаментально отличаются от традиционных реляционных баз данных, но использовать их легче, чем можно подумать.
- Практическое введение в популярные NoSQL-хранилища
данных
После изучения основ NoSQL можно исследовать более популярные хранилища данных. Познакомьтесь с практическим введением в MongoDB, CouchDB и Amazon SimpleDB, а также с различными вариантами хранилищ Google AppEngine.
Слушать: Элиот Хоровиц (Eliot Horowitz) о MongoDB(EN)
Читать: Облачное хранилище средствами Amazon SimpleDB (статья из двух частей)
Читать: REST вместе с CouchDB и Groovy RESTClient
Читать: Хранилища Bigtable, Blobstore и Google Storage для GAE
- Анализ распределенных данных при помощи
MapReduce
Ключевой технологией революции в области обработки данных большого объема является MapReduce – модель программирования и реализация, разработанные компанией Google для обработки широкомасштабных распределенных наборов данных. Исследуйте Apache Hadoop, реализацию MapReduce с открытыми исходными кодами, играющую главную роль в подходе IBM к анализу данных большого объема.
Читать: Анализ больших объемов данных с использованием Hadoop
Читать: Обработка больших объемов имеющихся данных с использованием Apache Hadoop
Читать: Диалог с Родом Смитом (Rod Smith), специалистом IBM по обработке больших объемов данных(EN)
Об этой knowledge path
Модель СУБД является надежной основой для хранения данных в традиционных клиент-серверных архитектурах, но с позиций простоты и дешевизны она плохо масштабируется на несколько узлов. В эпоху масштабируемых Web-приложений, таких как Facebook и Twitter, решение обеспечивают хранилища данных (например, NoSQL), не использующие схемы. Этот сборник из серии Knowledge Path знакомит Java-разработчиков с технологией NoSQL и ролью Apache Hadoop MapReduce в анализе данных большого объема.