Двадцать третья международная конференция "СОВРЕМЕННЫЕ ПРОБЛЕМЫ ДИСТАНЦИОННОГО ЗОНДИРОВАНИЯ ЗЕМЛИ ИЗ КОСМОСА"
XXIII.B.170
Виртуальный ассистент для геоинформационных сервисов на базе аудиовизуальных технологий
искусственного интеллекта
Григорьев А. Н. (1), Коршунов Д.С. (1), Дементьев Д.С. (1)
(1) Военно-космическая академия имени А.Ф. Можайского, Санкт-Петербург, Россия
Развитие современных геоинформационных систем, в том числе в области дистанционного зондирования Земли, сопровождается ростом требований к удобству, скорости и точности взаимодействия с пространственными данными, программными инструментами обработки и анализа. Традиционные методы управления геоинформационной системой, основанные на использовании клавиатуры, мыши и стандартных интерфейсов, во многих случаях оказываются недостаточно эффективными, особенно при решении комплексных и ресурсозатратных задач или в ситуациях, где требуется высокая скорость принятия решений. В этой связи возрастает актуальность разработки мультимодальных систем управления, объединяющих голосовые и жестовые интерфейсы и обеспечивающих более естественное взаимодействие с пользователем.
В представленной работе рассматривается опыт проектирования и реализации интерактивного ассистента для геоинформационных систем с использованием платформы QGIS. Предлагаемое решение объединяет технологии офлайн-распознавания речи и компьютерного зрения для анализа жестов, что позволяет существенно расширить возможности пользователя при работе с пространственными данными. Голосовой ввод реализован на основе библиотеки Vosk, использующей акустические и языковые модели, построенные на нейросетевых архитектурах.
Компонент распознавания жестов реализован на базе библиотеки MediaPipe. Для обнаружения ладоней используется модель BlazePalm, основанная на архитектуре одношагового детектора объектов – SSD. Определение требуемых ключевых точек кисти выполняется регрессионными алгоритмами, а анализ временных последовательностей координат осуществляется с использованием рекуррентных нейронных сетей и их усовершенствованных модификаций LSTM. Такой подход обеспечивает устойчивое распознавание жестов в режиме реального времени и позволяет интерпретировать движения рук как команды для управления картой.
Разработанный модуль интегрирован в QGIS и предоставляет широкий спектр функций: масштабирование и перемещение карты, включение и отключение слоёв, поиск объектов в локальной базе данных PostgreSQL, выполнение пространственных запросов и построение аналитических операций. При этом обеспечена автономная работа системы в офлайн-режиме, что делает её особенно востребованной для задач, связанных с исследованием удалённых территорий, работой в условиях отсутствия интернет-соединения, а также при выполнении специализированных задач.
Отдельное внимание уделено модульной архитектуре разработанного решения, включающей компоненты обработки голоса, анализа жестов и взаимодействия с QGIS через API PyQGIS. Такая структура обеспечивает масштабируемость и возможность расширения функционала без значительных изменений базовой системы. Например, в модуль могут добавляться новые жесты или интеграция с внешними сервисами геокодирования.
Результаты проведённого исследования показывают, что использование мультимодального ассистента позволяет существенно снизить когнитивную нагрузку на пользователя, повысить скорость выполнения операций и сделать процесс работы с пространственными данными более интуитивным. Наиболее значимый эффект достигается в условиях ограниченного интерфейса и высокой динамики работы, где применение голосовых и жестовых технологий обеспечивает бесконтактное и эффективное взаимодействие.
Таким образом, разработанный ассистент демонстрирует перспективность применения нейросетевых технологий и мультимодальных интерфейсов для совершенствования систем управления геоинформационной системой. Полученные результаты могут быть использованы в научных исследованиях, градостроительстве, инфраструктурных проектах, задачах экологического мониторинга и в образовательной деятельности. В дальнейшем развитие данного направления предполагает расширение набора жестов и команд, внедрение алгоритмов адаптивного обучения и интеграцию с интеллектуальными системами анализа больших пространственных данных.
Ключевые слова: геоинформационные системы, голосовое управление, распознавание жестов, Vosk, MediaPipe, QGIS, мультимодальный интерфейс.
Презентация доклада
Технологии и методы использования спутниковых данных в системах мониторинга
80