Войти на сайт
МЕЖДУНАРОДНЫЕ ЕЖЕГОДНЫЕ КОНФЕРЕНЦИИ
"СОВРЕМЕННЫЕ ПРОБЛЕМЫ ДИСТАНЦИОННОГО
ЗОНДИРОВАНИЯ ЗЕМЛИ ИЗ КОСМОСА"
(Физические основы, методы и технологии мониторинга окружающей среды, природных и антропогенных объектов)

Двадцать третья международная конференция "СОВРЕМЕННЫЕ ПРОБЛЕМЫ ДИСТАНЦИОННОГО ЗОНДИРОВАНИЯ ЗЕМЛИ ИЗ КОСМОСА"

XXIII.F.382

Сравнительная оценка эффективности методов отбора предикторов при картографировании кислотности почв алгоритмом машинного обучения Random Forest

Гопп Н.В. (1)
(1) Институт почвоведения и агрохимии СО РАН, Новосибирск, Россия
Почвенная кислотность (реакция среды, рН) оказывает значительное влияние на рост растений и микроорганизмов, химические и биогеохимические процессы, круговорот питательных веществ и общие экосистемные услуги. По картам кислотности можно определить географическое расположение ареалов почв, в которых целесообразно проведение химической мелиорации, позволяющей повысить эффективность землепользования.
Карты рН водной суспензии почв построены с использованием алгоритма машинного обучения Random Forest (Brieman, 2001), реализованном на онлайн платформе Google Earth Engine (Gorelick et al., 2017). В настоящей работе представлены результаты сравнительной оценки эффективности 2-х методов отбора предикторов для картографирования рН водной суспензии почв: 1) Борута (Boruta); 2) рекурсивное устранение признаков (Recursive Feature Elimination, RFE). Согласно литературным данным, метод Борута впервые был представлен в 2010 году (Kursa, Rudnicki, 2010), а RFE в 2002 (Guyon, 2002). Эти методы являются универсальными для любых моделей, использующих оценку важности предикторов. С использованием этих методов отобраны по 10 наиболее важных предикторов из 92-х имеющихся. Использованные в работе 92 предиктора, характеризуют факторы почвообразования (климат, рельеф, растительность, пространственное положение, почвенные свойства). Все растровые карты предикторов приведены к разрешению 30×30 м. Обучающий набор данных (ОНД) содержал сведения по рН водной суспензии почв в 0–30 см слое почв для 612 почвенных разрезов, а валидационный (ВНД) – для 110. Эти наборы данных для территории Предсалаирья (Тогучинский район, Новосибирская область) были созданы по архивным данным ЗапсибНИИгипрозем (1983–1994 гг.).
Результаты сравнительной оценки показали, что значения коэффициентов детерминации для обучающего набора данных у моделей равны 0,81 при использовании обоих методов отбора предикторов (Борута и RFE), что демонстрирует высокую объясняющую способность моделей. Однако значения коэффициентов детерминации для валидационного набора данных равны 0,24 (при выборе предикторов методом Борута) и 0,26 (при выборе предикторов методом RFE), что указывает на их ограниченную обобщающую способность при использовании новых данных, т.е. модели объясняли вариацию значений рН немного лучше, чем среднее значение. Низкие значения коэффициентов детерминации, рассчитанные по валидационному набору данных, свидетельствуют об ограниченной возможности экстраполяции на территории, не охваченные полевыми наблюдениями, также это может свидетельствовать о переобучении модели, т.е. когда модель учитывает особенности конкретной обучающей выборки, а не общие закономерности. Сравнительный анализ показал, что у модели с предикторами, отобранными с использованием метода RFE, лучшие показатели эффективности моделирования: R2(ОНД)=0,81; R2(ВНД)=0,26; корень из среднеквадратической ошибки RMSE(ВНД)=0,45; средняя абсолютная процентная ошибка MAPE(ВНД)=4,9; средняя абсолютная ошибка MAE(ВНД)=0,29. Значение MAPE(ВНД)<10% показывает, что точность картографирования высокая. Метод RFE позволил выявить наиболее важные предикторы для картографирования рН, к их числу относились: NO – отрицательная открытость (замкнутость ландшафта); CND – расстояние до водотоков (дренажной сети); BIO15 – сезонность осадков (коэффициент вариации); RSP – относительное положение на склоне; BIO3 – изотермичность; BIO2 – среднесуточная разность; AgPot – агроэкологический потенциал; BIO19 – количество осадков в самом холодном квартале; BIO5 – максимальная температура самого теплого месяца; BIO1 – среднегодовая температура. Состав предикторов, выбранных методом Борута, был следующим: CND – расстояние до водотоков (дренажной сети); NO – отрицательная открытость (замкнутость ландшафта); BIO15 – сезонность осадков (коэффициент вариации); AgPot – агроэкологический потенциал; BIO2 – среднесуточная разность; BIO7 – годовой диапазон температур; BIO1 – среднегодовая температура; BIO3 – изотермичность; BIO5 – максимальная температура самого теплого месяца; RSP – относительное положение на склоне. Представленные выше предикторы относятся к таким факторам почвообразования, как рельеф и климат, которые оказывают опосредованное влияние на рН через регулирование параметров окружающей среды. Использование таких предикторов также может приводить к получению низких значений коэффициентов детерминации, рассчитываемых по валидационному набору данных.
Согласно составленной карте, изучаемые почвы характеризовались сильнокислой (5,0–6,0), слабокислой (6,0–6,5), нейтральной (6,5–7,5) и слабощелочной (7,5–8,5) реакцией среды. Сильнокислые и слабокислые почвы выявлены в почвах северной, западной и южной частях Тогучинского района, а почвы восточной и частично центральной части района характеризовались нейтральной и слабощелочной реакцией среды.

Работа выполнена по государственному заданию ИПА СО РАН при финансовой поддержке Министерства науки и высшего образования Российской Федерации (гос. регистрация № 121031700316-9).

Ключевые слова: предикторы, климат, рельеф, черноземы, серые лесные почвы, SAGA GIS, WorldClim, Западная Сибирь
Литература:
  1. Литература:
  2. Brieman L. Random Forests // Mach. Learn. 2001. V. 45. Р. 5–32. DOI: 10.1023/A:1010933404324
  3. Gorelick N., Hancher M., Dixon M., Ilyushchenko S., Thau D., Moore R. Google Earth Engine: Planetary-scale geospatial analysis for everyone // Remote Sensing of Environ. 2017. V. 202. P. 18–27. DOI: 10.1016/j.rse.2017.06.031
  4. Guyon I., Weston J., Barnhill S., Vapnik V. Gene Selection for Cancer Classification using Support Vector Machines. Machine Learning. 2002. 46. P. 389–422. DOI: 10.1023/A:1012487302797
  5. Kursa M.B., Rudnicki W.R. Feature Selection with the Boruta Package. Journal of Statistical Software. 2010. 36(11). P. 1–13. DOI: 10.18637/jss.v036.i11

Презентация доклада

Дистанционное зондирование растительных и почвенных покровов

357