Различные звуки голоса человека представлены изображениями, похожими на данные тепловизора или карты медицинской диагностики. Это сформированные в красном и зеленом цветах объемные диаграммы. Александр Рассадин, один из разработчиков, пояснил, что краснота цвета показывает количество энергии и громкость, соответственно.
Нейронной сети дали «прослушать» 1000 аудиофайлов, где 24 человека, являющиеся носителями английского языка, с разной эмоциональной экспрессией произносили фразы. Пока программа научилась успешно различать спокойные и нейтральные интонации, хуже она распознает удивление и счастье: часто удивление она путает с отвращением, а счастье — с печалью и страхом.
Как предполагают ученые, программу распознавания эмоций в речи можно будет применять в робототехнике, работе различных колл-центров и в медицине. Также система поможет решить некоторые проблемы с созданием «умного дома».
0 комментариев