(1) Научно-исследовательский центр космической гидрометеорологии «Планета», Москва, Россия
(2) Московский физико-технический институт (государственный университет), Москва, Россия

Глобальное потепление реальность, которая даже у скептиков уже не вызывает сомнений. Но если постиндустриальная аномалия приземной температуры возрастет до двух градусов (как предсказывает ансамблевый прогноз), то во многих регионах планеты наступит настоящая катастрофа [1]. Поэтому в последние годы ведется активный поиск новых более совершенных технологий космического мониторинга предвестников возможных климатических бедствий [2]. Аномалии характеристик уходящей радиации, которые могут детектироваться по наблюдениям из космоса, определяют чувствительность климата Земли по отношению к различным возмущающим факторам. Они также являются важнейшими индикаторами многих скрытых процессов, протекающих в преддверии проявления радикальных климатических изменений [3]. В случае экстремальных ситуаций, указывающих на неизбежность климатических катастроф в отдельных регионах, могут задействоваться некоторые технологии геопроектирования, направленные на искусственную коррекцию составляющих радиационного баланса [4].
За последние 35 лет (1980-2015 гг.) потепление наблюдалось во всех широтных зонах, однако наиболее значительный рост температуры был зафиксирован в северных широтах. Если глобальная аномалия приземной температуры в 2015 году (признанным самым тёплым за всю историю наблюдений) достигла 0.87°С, то в зоне 64°-90°с.ш. она составила уже 1.76°С. Несмотря на понимание мировым научным сообществом важности проявлений последствий глобального потепления климата, для разных стран объективно существуют региональные приоритеты и если говорить о России, то таким приоритетом в рассматриваемой проблеме, несомненно, являются климатические изменения в арктическом регионе.
Глобальный климат Земли определяется радиационным балансом нашей планеты. Последние несколько десятилетий (с 1970-х) космические системы наблюдений фиксируют устойчивый радиационный дисбаланс Земли. Текущая оценка глобального дисбаланса составляет около +0.59 Вт/м2. Это свидетельствует о том, что Земля получает от Солнца энергии больше, чем её излучает в космическое пространство, т.е. продолжается нагрев нашей планеты.
Построение математической модели осуществлялось на основе всего набора данных космического мониторинга составляющих радиационного баланса Земли (РБЗ), полученных за последние 38 лет (1978-2016). Однако наиболее полно (с контролируемой точностью) были представлены данные, полученные в интервале с марта 2000 г. по июнь 2016 г. Информация представлена среднемесячными значениями на глобальной сетке 1° х 1° на верхней и нижней границах атмосферы. В качестве независимых переменных рассматривались потоки приходящей и уходящей коротковолновой и длинноволновой радиации, а также данные о радиационном форсинге облачности на эти потоки. Для учета глобальной и региональной составляющих осцилляций климата, обусловленных особенностями циркуляции, были включены данные индексов Арктической осцилляции (AO), Северо-Атлантической осцилляции (NAO) и Эль-Ниньо/Южное колебание (ENSO). Поскольку большая часть приземной температурной аномалии в Арктике в последнее время связывается с образовавшимся в атмосфере на севере Восточной Сибири планетарным максимумом парниковых газов (в первую очередь метана и СО2), в число независимых переменных были включены значения общего содержания этих газов в атмосфере данного региона, полученные системами космического мониторинга. В качестве целевой переменной модели рассматривалась приземная температурная аномалия в зоне 64°-90°с.ш.
На первом этапе набор имеющихся данных разделялся методом случайной выборки на две части: обучающей (training set) ~90% и валидационной (validation set) ~10%.
Ввиду больших объёмов исходных данных важными последующими этапами разработки модели были уменьшение размерности данных и отбор наиболее информативных признаков. При решении задачи понижения размерности кроме классических методов, в частности, метода главных компонент (PCA) и многомерного шкалирования (MDS)использовался также один из мощнейших современных методов - t-SNE (t-Distributed Stochastic Neighbor Embedding). Наиболее впечатляющие результаты новый t-SNE алгоритм позволяет получить при визуализации сложных особенностей в данных большой размерности, с которыми мы имеем дело. Отбор признаков осуществлялся как одним из популярных методов, основанном на "жадном" алгоритме (greedy feature selection), так и современными методами логистической регрессии (logistic regression) и случайного леса (random forest).
Важным этапом разработки модели являлся выбор алгоритмов машинного обучения и настройка гиперпараметров. В настоящее время доступно большое число библиотек, реализующих самые современные алгоритмы, которые целесообразно было апробировать [5]: случайный лес (random forest), градиентный бустинг (gradient boosting), логистическая регрессия (logistic regression), наивный Байес (naive Bayes), метод опорных векторов (support vector machine). Но разные алгоритмы требуют и различных подходов к выбору оптимальных значений параметров для них. Это наиболее сложная задача, возникающая на этапе настройки гиперпараметров. К сожалению однозначных рекомендаций, на этот счет не существует, и получить приемлемые результаты для каждого алгоритма, можно только постепенно приобретая опыт работы с комбинациями параметров на различных случайных выборках имеющегося набора данных.
Наилучших результатов при построении модели удалось достичь с помощью современных ансамблевых методов (ensemble method). Преимущества ансамблевых методов заключаются в том, что это синтез алгоритмов машинного обучения, которые обучают множество классификаторов, а затем классифицируют новые наблюдения, объединяя прогнозы этих классификаторов на основе взвешенного большинства голосов. В результате использования ансамбля уменьшается смещение (bias), уменьшается дисперсия (variance), минимизируется эффект переобучения. Сейчас в качестве наиболее перспективных новых техник совершенствования модели можно рассматривать такие методы, как бэггинг (bagging) и бустинг (boosting).
Современное машинное обучение представляет собой разновидность искусственного интеллекта, предоставляющее возможность в итеративном режиме компьютерным системам обучаться без каких-либо строго запрограммированных сценариев построения модели. Это позволяет разрабатываемой модели обучаться практически самостоятельно, т.е. актуализироваться на основе поступления новых данных, что особенно важно для адаптации к постоянно и быстро изменяющимся климатическим условиям. При решении задачи машинного обучения необходимо оценивать текущий результат на основе выбранной метрики, в частности, для задачи многоклассовой классификации хорошие результаты можно получить, используя категорийную кросс-энтропию (categorical cross-entropy).
Для машинного обучения некоторых блоков модели были использованы быстро развивающиеся сейчас нейросетевые технологии. Они помогают найти в исходных данных уже известные (по прецедентам) паттерны/шаблоны климатических изменений. Но, несмотря на все современные успехи применения нейросетей (в частности, «глубокого обучения» - deep learning), есть и одна общая проблема: полученные с их помощью результаты часто очень трудно интерпретируемы, а это в свою очередь означает, что бывает достаточно трудно определить, когда результат может оказаться ошибочным.
Основная часть исходных данных (за последние 16 лет) представлена в виде качественных непрерывных временных рядов. Это позволяет в рамках динамической модели решать не только задачи классификации и регрессии, но и задачи, присущие анализу исключительно временных рядов. В их число входит выявление трендов, особенностей сезонного поведения и краткосрочный прогноз. Без качественных временных рядов наблюдений часто бывает невозможно определить, что является причиной, а что следствием (spurious correlations) в поведении сложных систем, в частности климатических, т.е. алгоритм поиска зависимостей должен быть комплексным и интегрированным в динамическую модель исследуемой системы.
Дополнительными достоинствами динамической модели является возможность уточнения всех найденных закономерностей по мере пополнения временных рядов. Это некоторая современная версия обучения с подкреплением (reinforcement learning), когда имеет место определенная форма обратной связи для каждого этапа прогнозирования. Данный подход позволяет использовать динамическую модель как само-подстраивающуюся экспертную систему текущих и будущих климатических изменений в Арктике.

Ключевые слова: динамическая модель, радиационный баланс Земли, глобальное потепление, критическая ситуация, Арктика, радиационный форсинг, машинное обучение, космические наблюдения.

Литература:

Головко В.А. Энергетические аспекты изменения климата Земли: взгляд из космоса. // Сб. «Современные проблемы дистанционного зондирования Земли из космоса», – М.: ООО «ДоМира», 2012 , т.9., №5 , с.140-154.
Головко В.А. Энтропийные метрики экстремальных геофизических явлений для диагностики и геопроектирования. // Сб. «Современные проблемы дистанционного зондирования Земли из космоса», – М.: ООО «ДоМира», 2012 , т.9., №4, с.140-153.
Головко В.А. Радиационный баланс и чувствительность климата Земли: диагностика и геопроектирование . // Сб. «Современные проблемы дистанционного зондирования Земли из космоса», – М.: ООО «ДоМира», 2011 , т.8., №2, с.137-149.
Головко В.А. Геофизические аспекты искусственной коррекции составляющих радиационного баланса для стабилизации климата Земли // Сб. «Современные проблемы дистанционного зондирования земли из космоса», – М: ООО «ДоМира», 2010, т.7, № 2, с. 310-320.
Thakur A., Krohn-Grimberghe A. AutoCompete: A Framework for Machine Learning Competitions, ICML 2015 AutoML Workshop

Презентация доклада

Дистанционные методы исследования атмосферных и климатических процессов

160