Четырнадцатая Всероссийская открытая конференция "Современные проблемы дистанционного зондирования Земли из космоса"
XIV.D.204
Построение динамической модели критических температурных аномалий Арктического региона методами машинного обучения по данным длительных космических наблюдений.
Головко В.А. (1,2), Федотов И.А. (2), Синёва А.А. (2)
(1) Научно-исследовательский центр космической гидрометеорологии «Планета», Москва, Россия
(2) Московский физико-технический институт (государственный университет), Москва, Россия
Глобальное потепление реальность, которая даже у скептиков уже не вызывает сомнений. Но если постиндустриальная аномалия приземной температуры возрастет до двух градусов (как предсказывает ансамблевый прогноз), то во многих регионах планеты наступит настоящая катастрофа [1]. Поэтому в последние годы ведется активный поиск новых более совершенных технологий космического мониторинга предвестников возможных климатических бедствий [2]. Аномалии характеристик уходящей радиации, которые могут детектироваться по наблюдениям из космоса, определяют чувствительность климата Земли по отношению к различным возмущающим факторам. Они также являются важнейшими индикаторами многих скрытых процессов, протекающих в преддверии проявления радикальных климатических изменений [3]. В случае экстремальных ситуаций, указывающих на неизбежность климатических катастроф в отдельных регионах, могут задействоваться некоторые технологии геопроектирования, направленные на искусственную коррекцию составляющих радиационного баланса [4].
За последние 35 лет (1980-2015 гг.) потепление наблюдалось во всех широтных зонах, однако наиболее значительный рост температуры был зафиксирован в северных широтах. Если глобальная аномалия приземной температуры в 2015 году (признанным самым тёплым за всю историю наблюдений) достигла 0.87°С, то в зоне 64°-90°с.ш. она составила уже 1.76°С. Несмотря на понимание мировым научным сообществом важности проявлений последствий глобального потепления климата, для разных стран объективно существуют региональные приоритеты и если говорить о России, то таким приоритетом в рассматриваемой проблеме, несомненно, являются климатические изменения в арктическом регионе.
Глобальный климат Земли определяется радиационным балансом нашей планеты. Последние несколько десятилетий (с 1970-х) космические системы наблюдений фиксируют устойчивый радиационный дисбаланс Земли. Текущая оценка глобального дисбаланса составляет около +0.59 Вт/м2. Это свидетельствует о том, что Земля получает от Солнца энергии больше, чем её излучает в космическое пространство, т.е. продолжается нагрев нашей планеты.
Построение математической модели осуществлялось на основе всего набора данных космического мониторинга составляющих радиационного баланса Земли (РБЗ), полученных за последние 38 лет (1978-2016). Однако наиболее полно (с контролируемой точностью) были представлены данные, полученные в интервале с марта 2000 г. по июнь 2016 г. Информация представлена среднемесячными значениями на глобальной сетке 1° х 1° на верхней и нижней границах атмосферы. В качестве независимых переменных рассматривались потоки приходящей и уходящей коротковолновой и длинноволновой радиации, а также данные о радиационном форсинге облачности на эти потоки. Для учета глобальной и региональной составляющих осцилляций климата, обусловленных особенностями циркуляции, были включены данные индексов Арктической осцилляции (AO), Северо-Атлантической осцилляции (NAO) и Эль-Ниньо/Южное колебание (ENSO). Поскольку большая часть приземной температурной аномалии в Арктике в последнее время связывается с образовавшимся в атмосфере на севере Восточной Сибири планетарным максимумом парниковых газов (в первую очередь метана и СО2), в число независимых переменных были включены значения общего содержания этих газов в атмосфере данного региона, полученные системами космического мониторинга. В качестве целевой переменной модели рассматривалась приземная температурная аномалия в зоне 64°-90°с.ш.
На первом этапе набор имеющихся данных разделялся методом случайной выборки на две части: обучающей (training set) ~90% и валидационной (validation set) ~10%.
Ввиду больших объёмов исходных данных важными последующими этапами разработки модели были уменьшение размерности данных и отбор наиболее информативных признаков. При решении задачи понижения размерности кроме классических методов, в частности, метода главных компонент (PCA) и многомерного шкалирования (MDS)использовался также один из мощнейших современных методов - t-SNE (t-Distributed Stochastic Neighbor Embedding). Наиболее впечатляющие результаты новый t-SNE алгоритм позволяет получить при визуализации сложных особенностей в данных большой размерности, с которыми мы имеем дело. Отбор признаков осуществлялся как одним из популярных методов, основанном на "жадном" алгоритме (greedy feature selection), так и современными методами логистической регрессии (logistic regression) и случайного леса (random forest).
Важным этапом разработки модели являлся выбор алгоритмов машинного обучения и настройка гиперпараметров. В настоящее время доступно большое число библиотек, реализующих самые современные алгоритмы, которые целесообразно было апробировать [5]: случайный лес (random forest), градиентный бустинг (gradient boosting), логистическая регрессия (logistic regression), наивный Байес (naive Bayes), метод опорных векторов (support vector machine). Но разные алгоритмы требуют и различных подходов к выбору оптимальных значений параметров для них. Это наиболее сложная задача, возникающая на этапе настройки гиперпараметров. К сожалению однозначных рекомендаций, на этот счет не существует, и получить приемлемые результаты для каждого алгоритма, можно только постепенно приобретая опыт работы с комбинациями параметров на различных случайных выборках имеющегося набора данных.
Наилучших результатов при построении модели удалось достичь с помощью современных ансамблевых методов (ensemble method). Преимущества ансамблевых методов заключаются в том, что это синтез алгоритмов машинного обучения, которые обучают множество классификаторов, а затем классифицируют новые наблюдения, объединяя прогнозы этих классификаторов на основе взвешенного большинства голосов. В результате использования ансамбля уменьшается смещение (bias), уменьшается дисперсия (variance), минимизируется эффект переобучения. Сейчас в качестве наиболее перспективных новых техник совершенствования модели можно рассматривать такие методы, как бэггинг (bagging) и бустинг (boosting).
Современное машинное обучение представляет собой разновидность искусственного интеллекта, предоставляющее возможность в итеративном режиме компьютерным системам обучаться без каких-либо строго запрограммированных сценариев построения модели. Это позволяет разрабатываемой модели обучаться практически самостоятельно, т.е. актуализироваться на основе поступления новых данных, что особенно важно для адаптации к постоянно и быстро изменяющимся климатическим условиям. При решении задачи машинного обучения необходимо оценивать текущий результат на основе выбранной метрики, в частности, для задачи многоклассовой классификации хорошие результаты можно получить, используя категорийную кросс-энтропию (categorical cross-entropy).
Для машинного обучения некоторых блоков модели были использованы быстро развивающиеся сейчас нейросетевые технологии. Они помогают найти в исходных данных уже известные (по прецедентам) паттерны/шаблоны климатических изменений. Но, несмотря на все современные успехи применения нейросетей (в частности, «глубокого обучения» - deep learning), есть и одна общая проблема: полученные с их помощью результаты часто очень трудно интерпретируемы, а это в свою очередь означает, что бывает достаточно трудно определить, когда результат может оказаться ошибочным.
Основная часть исходных данных (за последние 16 лет) представлена в виде качественных непрерывных временных рядов. Это позволяет в рамках динамической модели решать не только задачи классификации и регрессии, но и задачи, присущие анализу исключительно временных рядов. В их число входит выявление трендов, особенностей сезонного поведения и краткосрочный прогноз. Без качественных временных рядов наблюдений часто бывает невозможно определить, что является причиной, а что следствием (spurious correlations) в поведении сложных систем, в частности климатических, т.е. алгоритм поиска зависимостей должен быть комплексным и интегрированным в динамическую модель исследуемой системы.
Дополнительными достоинствами динамической модели является возможность уточнения всех найденных закономерностей по мере пополнения временных рядов. Это некоторая современная версия обучения с подкреплением (reinforcement learning), когда имеет место определенная форма обратной связи для каждого этапа прогнозирования. Данный подход позволяет использовать динамическую модель как само-подстраивающуюся экспертную систему текущих и будущих климатических изменений в Арктике.
Ключевые слова: динамическая модель, радиационный баланс Земли, глобальное потепление, критическая ситуация, Арктика, радиационный форсинг, машинное обучение, космические наблюдения.
Литература:
- Головко В.А. Энергетические аспекты изменения климата Земли: взгляд из космоса. // Сб. «Современные проблемы дистанционного зондирования Земли из космоса», – М.: ООО «ДоМира», 2012 , т.9., №5 , с.140-154.
- Головко В.А. Энтропийные метрики экстремальных геофизических явлений для диагностики и геопроектирования. // Сб. «Современные проблемы дистанционного зондирования Земли из космоса», – М.: ООО «ДоМира», 2012 , т.9., №4, с.140-153.
- Головко В.А. Радиационный баланс и чувствительность климата Земли: диагностика и геопроектирование . // Сб. «Современные проблемы дистанционного зондирования Земли из космоса», – М.: ООО «ДоМира», 2011 , т.8., №2, с.137-149.
- Головко В.А. Геофизические аспекты искусственной коррекции составляющих радиационного баланса для стабилизации климата Земли // Сб. «Современные проблемы дистанционного зондирования земли из космоса», – М: ООО «ДоМира», 2010, т.7, № 2, с. 310-320.
- Thakur A., Krohn-Grimberghe A. AutoCompete: A Framework for Machine Learning Competitions, ICML 2015 AutoML Workshop
Презентация доклада
Дистанционные методы исследования атмосферных и климатических процессов
160