20 окт 2023 2 290

Исследователи рассказали о том, как нейросети воспринимают действительность

Наши сенсорные системы очень хорошо распознают объекты, которые мы видим, или слова, которые слышим, даже если объекты перевернуты или речь произнесена неизвестным нам голосом. Вычислительные модели, такие как глубокие нейронные сети, могут быть обучены делать то же самое, например, правильно определяя изображение собаки, независимо от цвета ее шерсти, или распознавая речь, независимо от тембра голоса говорящего.

Тем не менее новое исследование нейробиологов из Массачусетского технологического института показало, что нейронные сети часто дают точно такой же ответ при обработке изображений или речи, которые не имеют никакого сходства с поставленными в задаче примерами.

Слева — изображение медведя, полученное естественным путём и переданное нейросети.
Справа — пример того, что модель определила как «медведь»

Считается, что человеческая сенсорная система учится игнорировать элементы, которые не имеют отношения к существенным признакам объекта. Человек способен создать инвариантное представление о классе объекта независимо от незначительных факторов, таких как уровень освещения или угол обзора.

Традиционно считается, что сенсорные системы создают инварианты ко всем содержащимся в экземплярах одного объекта вариациям. Наш организм обязан установить, что мы наблюдаем или слышим одно и тоже, несмотря на незначительные различия.

—Джанелл Фезер, доктор философии Института Флэтайрон.

Исследователи задались вопросом, могут ли глубокие нейронные сети, обученные выполнять задачи классификации, развивать собственные инварианты? Чтобы попытаться ответить на этот вопрос, они использовали вычислительные модели для создания стимулов, производящих тот же тип ответа в модели, как и от стимулов, предоставленных исследователями.

Разница в восприятии

Было обнаружено, что большинство изображений и звуков, созданных таким образом, выглядели и звучали совершенно не так, как примеры, которые модели получали изначально. Часть изображений была мешаниной случайно расположенных пикселей, а звуки напоминали неразборчивый шум.

Результаты работы нейронных сетей вообще не узнаваемы для людей. Они не выглядят и не звучат естественно, и у них нет интерпретируемых характеристик, которые человек мог бы использовать для классификации объекта или слова.

—Джанелл Фезер.

Результаты исследования показывают, что модели каким-то образом разработали свои собственные инварианты. Это заставляет модели воспринимать пары стимулов как одинаковые, несмотря на их радикальные отличия для людей. Проблема может лежать в разнице между архитектурой глубоких нейронных сетей и человеческого мозга.

Мы думаем, что это интересное и полезное направление для дальнейших исследований. Двигаясь дальше мы сможем понять, какие аспекты нашего восприятия и обучения уникальны для нас как людей и что делает нас такими, как мы есть.

—Джош Макдермотт, доцент кафедры мозга и когнитивных наук Массачусетского технологического института.