fbpx
Basic Group

GOOGLE ЗУМІЛА МАКСИМАЛЬНО ТОЧНО СИНТЕЗУВАТИ ЛЮДСЬКИЙ ГОЛОС

38

Компанія Google завершила розробку технології Tacotron другого покоління, що дозволяє перетворювати текст в мову. Пошуковий гігант вже багато років працює над вдосконаленням машинної мови для своїх сервісів на зразок Google Assistant, «Перекладач», «Карти» та інші. Інженерам Google вдалося домогтися такого результату, що тепер синтетичну мова складно відрізнити від людської.
 
Нова технологія враховує пунктуацію, правильно розставляє наголоси, а слова, що починаються з великої літери, будь то імена, назви міст або ще щось, виділяються, адже вони є важливою частиною речення. Для досягнення такого результату використовуються дві нейронні мережі. Перша перетворює звичайний текст в спектрограму – візуальне уявлення звукових частот. Отриманий результат відправляється у другу мережу під назвою WaveNet, розроблену британською компанією DeepMind, яка займається вивченням штучного інтелекту. Вона і виконує всі наступні операції.
 
WaveNet вже використовується в англійській і японській версіях Google Assistant, а незабаром буде застосована і в інших мовах. Основною перевагою WaveNet над аналогами є можливість працювати в повністю автономному режимі. Їй не потрібен доступ до великої бази даних попередньо записаних звуків. Замість цього мережа генерує власні звуки, засновані на спектрограмах, що надаються їй першою нейронною мережею.