Двадцатая международная конференция «СОВРЕМЕННЫЕ ПРОБЛЕМЫ ДИСТАНЦИОННОГО ЗОНДИРОВАНИЯ ЗЕМЛИ ИЗ КОСМОСА (Физические основы, методы и технологии мониторинга окружающей среды, потенциально опасных явлений и объектов)»
XX.D.155
Распознавание смерчеобразующих облаков над Черным морем с использованием моделей машинного обучения
Калмыкова О.В. (1)
(1) Научно-производственное объединение "Тайфун", Обнинск, Россия
Ранее для выявления смерчеобразующих облаков над Черным морем был предложен алгоритм поиска особых зон риска по результатам анализа радиолокационных данных (Калмыкова и др., 2019). Зоны риска представляют собой области, в пределах которых отмечаются превышения пороговых значений для таких радиолокационных характеристик как максимальная горизонтальная отражаемость (Zm), высота верхней границы облачности (ВГО) и вертикально интегрированная водность (VIL). Алгоритм предполагает, что при обнаружении соответствующих зон в пределах границ рассматриваемого облака, оно может быть классифицировано как смерчеопасное. Однако при этом не исключается возможность формирования из данного облака и других опасных конвективных явлений (ливни, грозы, град, шквалы). Иными словами, разработанный алгоритм позволяет выявить потенциальную опасность, не уточняя с каким из явлений или с какой группой явлений эта опасность может быть связана. Результаты тестирования показали, что предупрежденность черноморских смерчей на базе данного алгоритма может варьироваться от 48 до 66%.
Для повышения качества распознавания смерчеобразующих облаков над Черным морем был разработан новый алгоритм, учитывающий специфику процессов смерчегенеза над рассматриваемой акваторией. Для этих целей на базе библиотеки scikit-learn языка Python были построены три модели машинного обучения: дерево решений (DecisionTreeClassifier, DT), случайный лес из 100 деревьев (RandomForestClassifier, RF) и логистическая регрессия (LogisticRegression, LR). Данные модели показали наилучшие результаты среди прочих других моделей, также участвовавших в тестировании (SGDClassifier, KNeighborsClassifier, SVC, MLPClassifier, AdaBoostClassifier, GradientBoostingClassifier, XGBClassifier (библиотека xgboost)). С помощью моделей решалась задача классификации облаков на те, из которых могут сформироваться смерчи (класс W) и облака без возможных смерчей (класс NW). В качестве входных данных для работы моделей используется набор из 26 параметров, рассчитываемых на основе радиолокационных данных. Рассматриваются четыре группы параметров моделей:
- мгновенные значения радиолокационных характеристик;
- скорости изменения значений радиолокационных характеристик;
- максимальные значения радиолокационных характеристик за последние 60 минут;
- максимальные скорости изменения значений радиолокационных характеристик за последние 60 минут.
Для построения моделей использовались данные о 81 смерче над Черным морем за период с 2019 по 2021 гг. Эта выборка описывает класс W. Выборка класса NW была построена путем случайного отбора данных о несмерчевых облаках. Совокупная выборка была разделена на тестовую (30%), по которой проводилась оценка качества работы моделей, и на обучающую (70%), которая использовалась для обучения моделей. Методом бутстрэпа размер обучающей выборки был увеличен в 5 раз. Перед обучением значения всех параметров моделей были промасштабированы до нулевого среднего и единичного стандартного отклонения.
Построенные модели на тестовой выборке показали следующие результаты по предупрежденности смерчей: модель DT – 83%, модель RF – 88%, модель LR – 100%. По первым двум моделями были получены оценки значимости каждого параметра модели. Наиболее значимым оказалось мгновенное значение Zm – облака с небольшими значения радиолокационной отражаемости (в частности по модели DT меньше 38 dBZ) с высокой долей вероятности не могут генерировать смерчи. Следом идут параметры, связанные со скоростями изменения ВГО и VIL, что в целом согласуется с представлением об интенсификации процессов роста и развития материнского облака перед формированием смерча. Еще одним важным параметром работы моделей является высота столба с большими значениями дифференциальной отражаемости (> 5 dB) – чем ближе к верхней границе облака обнаруживается этот столб, тем больше вероятность того, что в рассматриваемом облаке начинает зарождаться смерч. Эта особенность объясняется тем, что в водяном смерче происходит вынос крупных капель воды в верхнюю часть облака, где они сплющиваются (Михайловский и др., 2020). Как следствие на картах дифференциальной отражаемости фиксируются области больших значений, указывающие на горизонтальную ориентацию гидрометеоров.
С июня по сентябрь 2022 г. проводилось тестирование построенных моделей. В ходе тестирования для каждой конвективной системы, начиная с момента после ее первого обнаружения и до момента ее распада, по каждой из трех моделей прогнозировался класс опасности. Предупрежденность смерчей (точность классификации в момент регистрации смерча) по модели DT составила 79%, по модели RF – 93%, по модели LR – 93%, по композиции моделей – 71%. Для сравнения алгоритм порогового распознавания позволил идентифицировать смерчевые облака лишь в 29% случаев. Модели машинного обучения, как показало тестирование, могут быть использованы и для заблаговременного распознавания (прогноза) смерчеопасности. При этом заблаговременность может варьироваться от 10 минут до нескольких часов. Прогноз считался оправдавшимся, если облако классифицировалось как смерчеобразующее как минимум дважды (с учетом частоты поступления радиолокационных данных раз в 10 минут) за время его жизни до регистрации смерча. Заблаговременная предупрежденность смерчей по модели DT составила 50%, по модели RF – 58%, по модели LR - 92%, по композиции моделей – 42%. Если снизить требование на присвоение класса смерчеопасности до минимум одного раза (до регистрации смерча), некоторое оценки будут чуть выше: по модели DT – 75%, по модели RF – 83%, по композиции моделей – 75%. По алгоритму порогового распознавания соответствующая предупрежденность составила 17% (25% при снижении требования). Таким образом, построенные модели машинного обучения достаточно хорошо описывают характерные для смерчегенеза вариации радиолокационных характеристик материнских облаков смерчей.
Для оценки качества работы моделей также было рассчитано процентное соотношение ложных прогнозов – доля облаков без смерчей, которые были распознаны как смерчеобразующие. По модели RF это соотношение составило 12%, по модели DT – 17%, по модели LR – 45%, по алгоритму порогового распознавания – 12%. Композиция моделей RF, DT и LR позволила достичь минимального значения ложных тревог в 9%.
Результаты проведенного тестирования работы моделей машинного обучения по распознаванию и прогнозу смерчеобразующих облаков над Черным морем показывают возможность их практического применения. Минимизация ложных прогнозов может быть достигнута за счет использования композиции моделей.
Ключевые слова: смерч, Черное море, распознавание угроз, радиолокационные данные, машинное обучение, случайный лес, дерево решений, логистическая регрессия
Литература:
- Калмыкова О.В., Шершаков В.М., Новицкий М.А., Шмерлин Б.Я. Автоматизированный прогноз смерчей у Черноморского побережья России: первый опыт и оценка его результативности // Метеорология и Гидрология, 2019, № 11, с. 84–94.
- Михайловский Ю.П., Попов В.Б., Синькевич А.А., Абшаев А.М., Торопова М.Л., Кашлева Л.В. Радиофизические характеристики облаков со смерчами / Международная научно-практическая конференция «Современные проблемы гидрометеорологии и мониторинга окружающей среды на пространстве СНГ», 2020, с. 196–197.
Презентация доклада
Видео доклада
Дистанционные методы исследования атмосферных и климатических процессов
421