Google працює над реалістичним синтезатором людської мови
Компанія DeepMind, заснована 2010 року та викуплена компанією Google у 2014, орієнтується на створення штучного інтелекту і вже досягала успіху у своїй справі. Цього разу розробники взялись за роботу над створенням програми дієвої генерації людської мови.
Зараз розробники DeepMind використовують два основні методи для створення програм генерації людської мови. Один базується на використання величезної колекції слів і фрагментів мови, сказаних однією людиною, через що складно маніпулювати зі звуками й інтонаціями голосу. Інший формує слова електронно, в залежності від того, як вони повинні звучати – інтонації тут ставити простіше, але результат звучить набагато менш природно.
Щоб створити синтезатор, що звучить близько до людської мови, команда в якості вхідних даних передала нейронній мережі аудіозаписи реальних людей. WaveNet навчається відповідності тексту певним формам коливань хвилі і потім, на підставі цієї бази знань, формує з текстових уривків окремі звукові хвилі.
Люди, що брали участь в тестуванні, оцінювали новий метод в порівнянні з іншими алгоритмами на слух. Перевагу було віддано WaveNet. Результати цієї програми звучали найбільш близько до людської мови з усіх представлених. DeepMind заявляє, що їхній метод скорочує дистанцію між найкращими синтезаторами мови та справжньою людською мовою більш ніж удвічі.
В експерименті брали участь тексти англійською та китайською мовами. Команда, втім, відзначає, що поки WaveNet не може застосовуватися в інтернет-додатках.