Двадцать третья международная конференция "СОВРЕМЕННЫЕ ПРОБЛЕМЫ ДИСТАНЦИОННОГО ЗОНДИРОВАНИЯ ЗЕМЛИ ИЗ КОСМОСА"
XXIII.F.382
Сравнительная оценка эффективности методов отбора предикторов при картографировании кислотности почв алгоритмом машинного обучения Random Forest
Гопп Н.В. (1)
(1) Институт почвоведения и агрохимии СО РАН, Новосибирск, Россия
Почвенная кислотность (реакция среды, рН) оказывает значительное влияние на рост растений и микроорганизмов, химические и биогеохимические процессы, круговорот питательных веществ и общие экосистемные услуги. По картам кислотности можно определить географическое расположение ареалов почв, в которых целесообразно проведение химической мелиорации, позволяющей повысить эффективность землепользования. В настоящей работе представлены результаты сравнительной оценки эффективности 2-х методов отбора предикторов при картографировании рН водной суспензии почв алгоритмом машинного обучения Random Forest, реализованным на онлайн-платформе Google Earth Engine. Десять наиболее важных предикторов из 92-х имеющихся было выбрано с использованием следующих методов: 1) Борута; 2) рекурсивное устранение признаков (Recursive Feature Elimination, RFE). Использованные в работе 92 предиктора, характеризуют факторы почвообразования (климат, рельеф, растительность, пространственное положение, почвенные свойства). Все растровые карты предикторов приведены к разрешению 30×30 м. Обучающий набор данных (ОНД) содержал сведения по рН водной суспензии почв в 0–30 см слое почв для 612 почвенных разрезов, а валидационный (ВНД) – для 110. Эти наборы данных для территории Предсалаирья (Тогучинский район, Новосибирская область) были созданы по архивным данным ЗапсибНИИгипрозем (1983–1994 гг.). Результаты сравнительной оценки показали, что значения коэффициентов детерминации для обучающего набора данных у моделей равны 0,81 при использовании обоих методов отбора предикторов (Борута и RFE), что демонстрирует высокую объясняющую способность моделей. Однако значения коэффициентов детерминации для валидационного набора данных равны 0,24 (при выборе предикторов методом Борута) и 0,26 (при выборе предикторов методом RFE), что указывает на ограниченную обобщающую способность моделей при использовании новых данных, т.е. модели объясняли вариацию значений рН немного лучше, чем среднее значение. Низкие значения коэффициентов детерминации для валидационного набора свидетельствуют об ограниченной возможности экстраполяции на территории, не охваченные полевыми наблюдениями, также это может свидетельствовать о переобучении модели, т.е. когда модель учитывает особенности конкретной обучающей выборки, а не общие закономерности. Сравнительный анализ показал, что у модели с предикторами, отобранными с использованием метода RFE, лучшие показатели эффективности моделирования: R2(ОНД)=0,81; R2(ВНД)=0,26; корень из среднеквадратической ошибки RMSE(ВНД)=0,45; средняя абсолютная процентная ошибка MAPE(ВНД)=4,9; средняя абсолютная ошибка MAE(ВНД)=0,29. Значение MAPE(ВНД)<10% показывает, что точность картографирования высокая. Метод RFE позволил выявить наиболее важные предикторы для картографирования рН, к их числу относились: NO – отрицательная открытость (замкнутость ландшафта); CND – расстояние до водотоков (дренажной сети); BIO15 – сезонность осадков (коэффициент вариации); RSP – относительное положение на склоне; BIO3 – изотермичность; BIO2 – среднесуточная разность; AgPot – агроэкологический потенциал; BIO19 – количество осадков в самом холодном квартале; BIO5 – максимальная температура самого теплого месяца; BIO1 – среднегодовая температура. Представленные выше предикторы относятся к таким факторам почвообразования, как рельеф и климат, которые оказывают опосредованное влияние на рН через регулирование параметров окружающей среды. Согласно составленной карте, изучаемые почвы характеризовались сильнокислой (5,0–6,0), слабокислой (6,0–6,5), нейтральной (6,5–7,5) и слабощелочной (7,5–8,5) реакцией среды. Сильнокислые и слабокислые почвы выявлены в почвах северной, западной и южной частях Тогучинского района, а почвы восточной и частично центральной части района характеризовались нейтральной и слабощелочной реакцией среды.
Работа выполнена по государственному заданию ИПА СО РАН при финансовой поддержке Министерства науки и высшего образования Российской Федерации (гос. регистрация № 121031700316-9).
Ключевые слова: предикторы, климат, рельеф, черноземы, серые лесные почвы, SAGA GIS, WorldClim, Западная Сибирь
Дистанционное зондирование растительных и почвенных покровов