Двадцатая международная конференция «СОВРЕМЕННЫЕ ПРОБЛЕМЫ ДИСТАНЦИОННОГО ЗОНДИРОВАНИЯ ЗЕМЛИ ИЗ КОСМОСА (Физические основы, методы и технологии мониторинга окружающей среды, потенциально опасных явлений и объектов)»
XX.B.507
ChronosDB: высокопроизводительная обработка данных дистанционного зондирования Земли
Родригес Залепинос Р.А. (1)
(1) Национальный исследовательский университет, Высшая школа экономики, Москва, Россия
ChronosDB – распределенная массив-ориентированная СУБД (Array DBMS), которая способна эффективно обрабатывать данные дистанционного зондирования Земли (ДЗЗ) на компьютерном кластере. Современный мир испытывает колоссальный рост данных ДЗЗ. Например, около 203 TiB/день и 80.5 PiB/год – объемы распространяемых продуктов только лишь для одного семейства космических аппаратов Sentinel. Следовательно, стремительно растущие объемы данных ДЗЗ постоянно требуют новых подходов для их эффективного хранения, управления и обработки.
Моделью данных ChronosDB является многомерный массив – естественное представление для многих видов данных ДЗЗ: большая мозаика одного из каналов сцен (двумерный массив), временной ряд таких мозаик (трехмерный массив), временной ряд многоканальных сцен (четырехмерный массив) и так далее.
ChronosDB поддерживает следующие операции. Map Algebra (растровая алгебра либо алгебра карт) позволяет выполнять локальные, фокальные, зональные и глобальные операции любой арности, например, вычисление индекса растительности. Агрегация (усреднение массива по одному из измерений), перестановка измерений массива, выборка подмассива, chunking (чанкинг). Все операции выполняются в распределенном режиме, инициируя перемещение данных между узлами кластера при необходимости. При этом возможна обработка объема данных, которая не умещается полностью на одной машине.
ChronosDB существенно опережает существующие на сегодняшний день массив-ориентированные СУБД. Например, ChronosDB в среднем в 75 раз превосходит SciDB. ChronosDB быстрее SciDB для всех запросов и может быть в 1034 раза быстрее SciDB. Проект SciDB разрабатывается под руководством M. Stonebraker, лауреата премии А. Тьюринга. Исследования производительности выполнялись на реальных данных ДЗЗ на компьютерном кластере до 32 виртуальных машин в Облаке Microsoft Azure.
Домашняя страница проекта ChronosDB: http://chronosdb.gis.land/
Ключевые слова: компьютерный кластер, большие данные, распределенные вычисления, Облачные сервисы, данные дистанционного зондирования Земли, array DBMS
Литература:
- R.A. Rodriges Zalipynis. Array DBMS: Past, Present, and (Near) Future. PVLDB, 14(12): 3186–3189, 2021. http://vldb2021.gis.gg
- R.A. Rodriges Zalipynis. ChronosDB: Distributed, File Based, Geospatial Array DBMS. PVLDB, 11(10): 1247–1261, 2018. http://chronosdb.gis.land
- R.A. Rodriges Zalipynis. BitFun: Fast Answers to Queries with Tunable Functions in Geospatial Array DBMS. PVLDB, 13(12): 2909–2912, 2020. http://bitfun.gis.land
- R.A. Rodriges Zalipynis. Convergence of Array DBMS and Cellular Automata: A Road Traffic Simulation Case. SIGMOD 2021, P. 2399–2403. http://sigmod2021.gis.gg
- R.A. Rodriges Zalipynis. SimDB in Action: Road Traffic Simulations Completely Inside Array DBMS. PVLDB, 15(12): 3742–3745, 2022. https://wikience.github.io/simdb2022
- Peter Baumann, Dimitar Misev, Vlad Merticariu, et al . 2021. Array databases: concepts, standards, implementations. Journal of Big Data 8, 1 (2021), 1–61.
- Olha Horlova, Abdulrahman Kaitoua, and Stefano Ceri. Array-based Data Management for Genomics. ICDE 2020. 109–120.
- S. Papadopoulos, Kushal Datta, Samuel Madden, and Timothy Mattson. The TileDB Array Data Storage Manager. PVLDB 10, 4 (2016), 349–360.
- Alam, M.M., Torgo, L. and Bifet, A., 2021. A survey on spatio-temporal data analytics systems. ACM Computing Surveys (CSUR).
- R.A. Rodriges Zalipynis. ChronosDB in Action: Manage, Process, and Visualize Big Geospatial Arrays in the Cloud. SIGMOD 2019, P. 1985–1988.
- R.A. Rodriges Zalipynis, N. Terlych. WebArrayDB: A Geospatial Array DBMS in Your Web Browser. PVLDB, 15(12): 3622–3625, 2022. https://wikience.github.io/webdb2022
Видео доклада
Технологии и методы использования спутниковых данных в системах мониторинга
113