Двадцать третья международная конференция "СОВРЕМЕННЫЕ ПРОБЛЕМЫ ДИСТАНЦИОННОГО ЗОНДИРОВАНИЯ ЗЕМЛИ ИЗ КОСМОСА"
XXIII.B.492
Большие и малые геодатасеты машинного обучения открытого доступа для линейных объектов инфраструктуры
Подольская Е. С. (1)
(1) Центр по проблемам экологии и продуктивности лесов РАН, Москва, Россия
Набор данных со структурой и категориями данных с выполненной предварительной обработкой принято называть датасетом. Наряду с технологиями (развитием и доступностью платформ и инструментов, которые позволяют использовать искусственный интеллект в производственных процессах), датасеты продолжают быть важной частью проектов по машинному обучению.
Количество и качество записей об объектах в датасете определенно влияет на качество результатов проектов машинного обучения, но создание объемного качественного датасета является време- и трудозатратным процессом. На современном уровне развития технологий машинного обучения большой размер датасета перестает быть определяющим фактором результативного проекта по машинному обучению. В работе представлен анализ актуальных представлений о больших и малых наборах данных с выделением особенностей геодатасетов по объектам инфраструктуры линейного протяжения. Мировой опыт представлен анализом датасетов открытого доступа по дорожной сети на территорию ряда стран (Великобритания, Япония, Индия, Чехия, Норвегия, США, Китай), опубликованным на разных платформах в 2021-2025 гг. и доступным по лицензии CC BY 4.0 (Подольская, 2025).
Отмечена явная нехватка в открытом доступе наборов инфраструктурных данных по объектам линейного протяжения для проектов машинного обучения на территорию России. Как правило, такие датасеты создаются как ведомственные или коммерческие продукты на основе материалов аэрофото- и космической съемки, недоступны для исследовательских и образовательных целей. Приведен пример набора данных по дорогам, полученный при помощи съемки с БПЛА в отдельных частях регионов России и требующий получения дополнительных разрешений на использование в современном правовом поле страны.
Показаны возможности и опыт самостоятельного создания и использования датасетов по лесным просекам (Бахрамхан и др., 2025) и сезонным зимним дорогам (Синицина, Подольская, 2025) для проектов лесотранспортного моделирования Красноярского края на примере сбора и обработки данных ряда источников (космические снимки Open Source, карты и схемы региональных организаций, табличные данные в открытом доступе в сети Интернет).
Работа выполнена в рамках государственного задания ЦЭПЛ РАН по теме "Биоразнообразие и экосистемные функции лесов" (Регистрационный номер НИОКТР 124013000750-1).
Ключевые слова: машинное обучение, большие датасеты, малые датасеты, геодатасет, линейные объекты инфраструктуры, дороги, просеки, открытый доступ.
Литература:
- Бахрамхан Я. О., Ермаков Д. М., Подольская Е. С. Автоматическое детектирование просек под линиями электропередач на снимках Sentinel-2 с помощью методов машинного обучения и компьютерного зрения // Современные проблемы дистанционного зондирования Земли из космоса. 2025. Т. 22. № 4. С. 11–26. http://jr.rse.cosmos.ru/article.aspx?id=3045
- Подольская Е. С. Датасеты машинного обучения для распознавания дорог // Региональные проблемы дистанционного зондирования Земли: материалы XII Международной научной конференции. Красноярск, 09–12 сентября 2025 г. / Сиб. федер. ун-т, Ин-т космич. и информ. технологий; Красноярск: СФУ, 2025. https://rprs.sfu-kras.ru/sites/default/files/sbornik_2025.pdf
- Синицина А. Н., Подольская Е. С. Опыт создания датасета зимников для лесного хозяйства и инфраструктурных проектов Красноярского края // Пространственные данные (28-29 мая 2025 г.), Москва, Россия. М.: МИИГАиК, 2025. https://miigaik.ru/scidata/section2/
Технологии и методы использования спутниковых данных в системах мониторинга