Восьмая всероссийская открытая ежегодная конференция
«Современные проблемы дистанционного зондирования Земли из космоса»
Москва, ИКИ РАН, 15-19 ноября 2010 г.
(Физические основы, методы и технологии мониторинга окружающей среды, природных и антропогенных объектов)
VIII.B.270
Создание распределённой базы многомерных массивов для хранения климатических данных
Новиков А.М.(1), Медведев Д.Ю.(2)
(1) ИКИ РАН
(2) ГЦ РАН
В работе представляется создание и оптимизация базы многомерных массивов для хранения климатических данных. Многомерность вытекает из представления данных по измерениям времени, географических координат и других возможных уровней. В качестве данных для хранения используются климатические данные о земле (реанализ на регулярной сетке) и прогнозы погоды. Объём данных составлял для первого случая ~2Гб и ~30Гб с уровнями для одной переменной и во втором случае ~18Мб для всех переменных в одном отсчёте по времени и ~6-10Гб для всех отсчётов за сутки, с накоплением.
Структура используемого решения включает в себя объектно-реляционную СУБД PostgreSQL и встроенные процедуры на языке Java, что совместно обеспечивает кроссплатформенность и удобство расширения функциональности. В качестве основы для схемы хранения была использована Общая модель данных(CDM), созданная на основе таких форматов научных данных, как NetCDF,HDF5,OpenDAP. Данные организуются в иерархическую структуру и хранятся в виде бинарных объектов - блобов. Отличительной особенностью является хранение данных, при которым блобы структурируются по определённой схеме и включают в себя определённую форму по измерениям хранимых величин, таким образом исходный многомерный массив разделяется на отрезки или чанки. Меняя размеры чанков можно варьировать скорость извлечения данных в разных видах запросов, например с преобладанием координаты по времени или пространственных (по всей земле или по всем годам измерений). Для ускорения работы так же предусмотрена масштабируемость структуры по кластеру баз данных. Показано, что параллельная версия уменьшает время запросов.
Система разделена на клиентскую и серверную часть. Среди доступных клиенту функций такие, как: функции работы с метаданными - создание иерархической структуры организации переменных, добавление и изменение атрибутов, создание, получение или удаление любого элемента структуры; для работы с данными – загрузка чанков фиксированной и произвольной длины, с перезаписью или без, чтение данных по запросу заданной формы и начальным смещениям в многомерном массиве.
Получаемые данные можно визуализировать на таких средствах наблюдения, как электронные карты с наложением слоёв (например, Google Maps или Microsft Virtual Earth), трёхмерные средства отображения, такие как NASA World Wind, или просто получать в виде файлов научных форматов. Преимущество состоит в том, что некоторые базовые преобразования данных возможно делать на сервере в непосредственной близости от самих данных, не загружая сеть и клиента избыточными данными. Практически, возможно выдавать пользователю графическое отображение результата обработки данных в веб-браузере по запросу на специализированном сайте. Планируется расширить серверную часть функциями обработки данных, как базовыми (добавление или умножение на число, усреднение), так и сложными (такими как свёртка и т.п.). Кроме того, возможно создание удобного языкового интерфейса. В настоящее время проводится тестирование, оптимизация и внедрение системы.
Технологии и методы использования спутниковых данных в системах мониторинга
92