XXIII.B.170
Виртуальный ассистент для геоинформационных сервисов на базе аудиовизуальных технологий
искусственного интеллекта
Григорьев А. Н. (1), Коршунов Д.С. (1), Дементьев Д.С. (1)
(1) Военно-космическая академия имени А.Ф. Можайского, Санкт-Петербург, Россия
Развитие современных геоинформационных систем, в том числе в области дистанционного зондирования Земли, сопровождается ростом требований к удобству, скорости и точности взаимодействия с пространственными данными, программными инструментами обработки и анализа. Традиционные методы управления геоинформационной системой, основанные на использовании клавиатуры, мыши и стандартных интерфейсов, во многих случаях оказываются недостаточно эффективными, особенно при решении комплексных и ресурсозатратных задач или в ситуациях, где требуется высокая скорость принятия решений. В этой связи возрастает актуальность разработки мультимодальных систем управления, объединяющих голосовые и жестовые интерфейсы и обеспечивающих более естественное взаимодействие с пользователем.
В представленной работе рассматривается опыт проектирования и реализации интерактивного ассистента для геоинформационных систем с использованием платформы QGIS. Предлагаемое решение объединяет технологии офлайн-распознавания речи и компьютерного зрения для анализа жестов, что позволяет существенно расширить возможности пользователя при работе с пространственными данными. Голосовой ввод реализован на основе библиотеки Vosk, использующей акустические и языковые модели, построенные на нейросетевых архитектурах.
Компонент распознавания жестов реализован на базе библиотеки MediaPipe. Для обнаружения ладоней используется модель BlazePalm, основанная на архитектуре одношагового детектора объектов – SSD. Определение требуемых ключевых точек кисти выполняется регрессионными алгоритмами, а анализ временных последовательностей координат осуществляется с использованием рекуррентных нейронных сетей и их усовершенствованных модификаций LSTM. Такой подход обеспечивает устойчивое распознавание жестов в режиме реального времени и позволяет интерпретировать движения рук как команды для управления картой.
Разработанный модуль интегрирован в QGIS и предоставляет широкий спектр функций: масштабирование и перемещение карты, включение и отключение слоёв, поиск объектов в локальной базе данных PostgreSQL, выполнение пространственных запросов и построение аналитических операций. При этом обеспечена автономная работа системы в офлайн-режиме, что делает её особенно востребованной для задач, связанных с исследованием удалённых территорий, работой в условиях отсутствия интернет-соединения, а также при выполнении специализированных задач.
Отдельное внимание уделено модульной архитектуре разработанного решения, включающей компоненты обработки голоса, анализа жестов и взаимодействия с QGIS через API PyQGIS. Такая структура обеспечивает масштабируемость и возможность расширения функционала без значительных изменений базовой системы. Например, в модуль могут добавляться новые жесты или интеграция с внешними сервисами геокодирования.
Результаты проведённого исследования показывают, что использование мультимодального ассистента позволяет существенно снизить когнитивную нагрузку на пользователя, повысить скорость выполнения операций и сделать процесс работы с пространственными данными более интуитивным. Наиболее значимый эффект достигается в условиях ограниченного интерфейса и высокой динамики работы, где применение голосовых и жестовых технологий обеспечивает бесконтактное и эффективное взаимодействие.
Таким образом, разработанный ассистент демонстрирует перспективность применения нейросетевых технологий и мультимодальных интерфейсов для совершенствования систем управления геоинформационной системой. Полученные результаты могут быть использованы в научных исследованиях, градостроительстве, инфраструктурных проектах, задачах экологического мониторинга и в образовательной деятельности. В дальнейшем развитие данного направления предполагает расширение набора жестов и команд, внедрение алгоритмов адаптивного обучения и интеграцию с интеллектуальными системами анализа больших пространственных данных.
Ключевые слова: геоинформационные системы, голосовое управление, распознавание жестов, Vosk, MediaPipe, QGIS, мультимодальный интерфейс.Презентация доклада
Ссылка для цитирования: Григорьев А.Н., Коршунов Д.С., Дементьев Д.С. Виртуальный ассистент для геоинформационных сервисов на базе аудиовизуальных технологий
искусственного интеллекта // Материалы 23-й Международной конференции «Современные проблемы дистанционного зондирования Земли из космоса». Москва: ИКИ РАН, 2025. C. 80. DOI 10.21046/23DZZconf-2025aТехнологии и методы использования спутниковых данных в системах мониторинга
80