Восемнадцатая Всероссийская Открытая конференция «СОВРЕМЕННЫЕ ПРОБЛЕМЫ ДИСТАНЦИОННОГО ЗОНДИРОВАНИЯ ЗЕМЛИ ИЗ КОСМОСА (Физические основы, методы и технологии мониторинга окружающей среды, потенциально опасных явлений и объектов)»
XVIII.A.256
Восстановление пропущенных значений в спутниковых снимках методами машинного обучения на примере данных температуры поверхности Земли
Сарафанов М.И. (1), Казаков Э.Э. (2)
(1) Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики (ИТМО), Санкт-Петербург, Россия
(2) Государственный гидрологический институт, Санкт-Петербург, Россия
Современные продукты дистанционного зондирования Земли из космоса широко востребованы в научной деятельности и в различных областях хозяйства. Так, редко без спутниковых снимков обходятся системы мониторинга природных объектов, модели прогнозирования опасных природных явлений, научные исследования в географических и геологических науках. Однако, значения в данных зондирования могут быть искажены, или вовсе отсутствовать из-за помех при невозможности прохода сигнала через атмосферу. Так, облачность является одним из основных факторов, затрудняющих или, в ряде случаев, делающих невозможным полноценно использовать данные зондирования оптического и теплового диапазонов.
Решить эту проблему возможно при помощи алгоритмов восстановления пропущенных значений. Популярным подходом в задачи заполнения пропусков является использование алгоритмов машинного обучения, которые на основе обучающей выборки способны улавливать и формализовать в математической форме зависимости в данных. Мы предлагаем подход, которые позволяет восстанавливать пропуски на основе известных, то есть не закрытых облаками, пикселей на снимке. В данном случае для каждого неизвестного пикселя строится своя модель, где в качестве предикторов выступает некоторое множество известных пикселей на снимке. Определять зависимость между предикторами и откликом может один из следующих алгоритмов: метод опорных векторов, ЛАССО регрессия, случайный лес или k-ближайших соседей. Описанный подход был реализован как open-source модуль на языке программирования Python - https://github.com/Dreamlone/SSGP-toolbox.
Верификация алгоритма производилась на данных теплового дистанционного зондирования с сенсоров MODIS (спутники Terra и Aqua) и SLSTR (спутники Sentinel-3) на трех продуктах: однодневные композиты (продукт MOD11A1) и мгновенные данные (продукт MOD11_L2 и Sentinel-3 LST). На трех тестовых территориях (Санкт-Петербург, Владивосток, Мадрид) для каждого продукта были подготовлены по 6 снимков, на каждом из которых генерировалось 8 типов пропусков различной формы и размеров: от 4% до 96%. Валидационные снимки приходились на сентябрь, в то время как обучающая выборка формировалась из исторических данных за летний период, в среднем для этого использовалось около 350 снимков. Для проверки точности восстановления данных использовалась распространенная метрика - средняя абсолютная ошибка. В результате проведенных экспериментов было выявлено, что в большинстве случаев средняя абсолютная ошибка не превышала 1 ℃ при размахе значений в пропуске 13 ℃.
Ключевые слова: машинное обучение, пропуски, спутниковые снимки, MODIS, Sentinel-3, температура поверхности, облачность
Презентация доклада
Методы и алгоритмы обработки спутниковых данных
47