ГлавнаяНовостиНейросеть теперь умеет распознавать человеческую речь по вдохам между словами

Нейросеть теперь умеет распознавать человеческую речь по вдохам между словами

Технологии распознавания речи постоянно развиваются и активно применяются в современных смартфонах и прочих «умных устройствах». Недавно ученые задумались о том, что можно было бы распознавать личность говорящего по звукам вдохов. Для этого они применили методику, котороая основана на супервекторах признаков и используется в большинстве систем распознавания голоса.
Исследованием занялась группа ученых под руководством Риты Сингх (Rita Singh) из Университета Карнеги. Для проведения эксперимента они использовали набор данных из почти сотни часов с записями новостных передач на английском языке, которые были зарегистрированы в 1997-1998 годах. На основе этого набора данных они натренировали систему распознавания речи и впоследствии сегментировали на фонемы. Далее они выделили из этого набора данных только промежутки между словами, получив вдохи между словами.

Ученые установили, что эффективность распознавания личности говорящего на базе метода с супервекторами оказалась на уровне 72-74%. Нейросеть в этом же эксперименте достигла точности идентификации на уровне 91,3%.

Поделиться:

12.12.2017