Двадцать первая международная конференция "СОВРЕМЕННЫЕ ПРОБЛЕМЫ ДИСТАНЦИОННОГО ЗОНДИРОВАНИЯ ЗЕМЛИ ИЗ КОСМОСА"
XXI.A.270
Анализ особенностей нейросетевых алгоритмов с позиций теории обнаружения и распознавания сигналов
Достовалов М.Ю. (1)
(1) НИИ "АЭРОКОСМОС", Москва, РФ
Сегмент нейросетевых приложений в настоящее время переживает взрывной рост, что проявляется в быстром расширении перечня задач, решаемых с применением нейросетей (НС). Одновременно при этом складывается понимание, что для ряда задач применение существующих нейросетевых алгоритмов не обеспечивает эффективного решения. Для оценки причин подобной ситуации целесообразно провести анализ функционирования нейросетевых алгоритмов с позиций теории обнаружения сигналов.
Результаты анализа показывают, что обработка данных в отдельном слое НС реализует алгоритм оптимального обнаружения (АО) сигналов на фоне шума или помех, свойства которого хорошо изучены в задачах радиофизики и оптики.
Эффективность АО определяется дисперсией распределений пересекающихся классов и количеством накапливаемых отсчетов сигналов. Для нормальных распределений уменьшение СКО определяется постоянным соотношением σ/√N.
В процессе обучения НС комбинация АО различных слоев реализует фильтр Винера, минимизирующий ошибку распознавания классов на базе обучающей выборки.
НС как правило обрабатывают данные отдельными фрагментами. Соответственно можно явно выделить источники снижения эффективности НС: а) малые размеры объекта (в сравнении с размерами фрагмента), б) низкое отношение сигнал/помеха, в) присутствие «похожих» объектов других классов.
Типичная задача, где НС не показывают высоких результатов – обнаружение линейных объектов (ЛО). В отрезке линии мало отсчетов, она может занимать много разных положений. С увеличением размера фрагмента число отсчетов фона растет быстрее, чем число отсчетов линии. В результате отношение сигнал/помеха остается низким, а вероятность ошибки – высокой.
Существует много алгоритмов выделения ЛО, часть из них использует НС (например, на основе U-net). Также существуют наборы данных сцен с ЛО для обучения НС. В целом подобные наборы данных позволяют решать задачи типа «выделить на снимке линии разных типов и ориентаций при высоких отношениях сигнал/помеха».
Однако, для типовых задачи дешифрирования снимков ДЗЗ (например обнаружить тропинку в поле, или просеку в лесу) результаты оценок параметров распределений показали, что отношение сигнал/помеха в данных случаях весьма низкое. А поскольку сами объекты (линии) включают небольшое число отсчетов, а окружающие участки фрагмента, могут по яркости сильно различаться, снизить дисперсию сигналов объектов и фона за счет накопления сложно.
Тогда за счет чего с подобной задачей справляется человек оператор? Эксперименты, проведенные еще в 1960-х годах показали, что при анализе сцены глаз человека совершает постоянные линейные прыжки – «саккады».
Механизм «саккад» достаточно сложен, однако следует отметить его ключевую особенность - комбинацию линейных сканирований по участкам перепадов яркостей на изображении. В результате обработка проводится в области вытянутого прямоугольного окна, что позволяет значительно поднять отношение сигнал/помеха в области линейного объекта.
Можно предположить, что выходным результатом механизма «саккад» является контурное описание наблюдаемых предметов. Это позволяет формировать представление сложных сцен на основе небольшого набора простых "базовых" объектов (линия, окружность, узел разветвления) и значительно уменьшить объем «базы данных» образов объектов, формируемой в человеческом сознании.
С учетом необходимости повышения отношения сигнал/помеха можно предложить следующую обобщенную структуру системы распознавания объектов на изображениях на основе выделения линейных структур:
а) строится поле контрастов по локальным областям на изображении;
б) ищутся точки (области) «максимальной концентрации контрастов»; ближайшие соседи соединяются друг с другом;
в) вдоль линий соединения областей проводится сканирование детектором выделения линий (просмотр вытянутым прямоугольным окном серии направлений, близких к направлению основной линии);
г) выделяются линейные сегменты, точки разветвления и т.п.;
д) выделенные последовательности линейных сегментов анализируются НС на предмет наличия устойчивых сочетаний, характерных для различных классов объектов (по аналогии с выделением токенов при распознавании текста или фонем при распознавании речи);
е) по результатам выделения устойчивых сочетаний делаются предварительные прогнозы о наличии объекта.
ж) на основе прогнозов проводится дополнительный поиск информативных признаков объектов, для чего может потребоваться повторное выполнение этапов в)-е).
Приведенная структура системы является весьма упрощенной. Каждый из этапов требует углубленной проработки как в алгоритмической, так и в программной реализации. В то же время представляется, что основные идеи системы:
- предварительное выделение областей концентрации контрастов и выбор направлений линий;
- повышение отношения сигнал/помеха за счет обработки вытянутым прямоугольным окном;
- обработка НС предварительно выделенных сегментов линий,
являются достаточно перспективными и могут обеспечить существенное повышение эффективности дешифрирования реальных изображений ДЗЗ.
Ключевые слова: обнаружение распознавание объектов, нейросети, линейные объекты
Презентация доклада
Методы и алгоритмы обработки спутниковых данных
21