Нова техника на Google може да пресъздава почти съвършено човешка реч

Ивайло Красимиров
7 октомври 2017 г. в 11:12 Последна промяна:
7 октомври 2017 г. в 11:12

През миналата година фирмата DeepMind, разработваща технологии с изкуствен интелект, обяви проекта си WaveNet – дълбока невронна мрежа, използвана за синтезиране на реалистична човешка реч. Сега те показват една подобрена версия на технологията, която вече може да се използва с приложението Google Assistant.

Обикновено системата за синтезиране на човешка реч, позната като text-to-speech (TTS), използва една от двете техники. Контеативната TTS включва сглобяването на парчета от предварително записан глас на актьор. Основният проблем с тази техника възниква тогава, когато речниковият фонд се обогатява и осъвременява, целият набор от предварително записани звуци трябва да бъде презаписан. Другата техника, така наречената параметрична TTS използва мрежа от компютърни параметри за да генерира човешка реч. Понякога тази реч обаче, може да звучи прекалено изкуствено или като реч на робот.

Сега създадената WaveNet, произвежда вълни от нулата въз основа на система, разработена с помощта на конволюционна невронна мрежа. Като начало многобройни образци на говор са използвани за да обучат платформата която синтезира гласове, като се взима предвид кои звукови вълни звучат реалистично за човешкото ухо. Това е позволило на речевия синтезатор да създаде естествено звучаща интонация, като е способен дори да пресъздаде такива детайли като примляскването с устни. В зависимост от образците с които е захранена, WaveNet може да създаде уникални акценти при говора, което означава, че ако е захранена с достатъчно образци, може да синтезира многобройни, звучащи съвършено различно гласове.

Новата и подобрена от DeepMind система за синтезиране на човешки говор вече позволява да се синтезира човешки говор от 1 секунда за само 50 милисекунди или 1000 пъти по-бързо от възможностите на първоначалната версия. Нещо повече, резолюцията на всеки образец от синтезираната реч е увеличена от първоначалните 8 бита на 16 бита. Това е повишило значително резултата на тестовете за разбиране на синтетичния глас, правени с хора – слушатели. Това означава предстоящо успешно интегриране на тази система в приложението Google Assistant.

В момента WaveNet се използва за генерирането на синтетични гласове говорещи на английски и на японски при всички платформи на Google Assistant. Сега на базата на усъвършенстваната система, от Google ще са способни да доразвият и добавят използването на много други езици и дори диалекти.

Гласовият интерфейс става все по-популярен при многобройни компютърни програми, като подобрената технология разработена от DeepMind ще направи гласа който чуваме много по-реалистичен и приятен.