Anatoly Levenchuk (ailev) wrote,
Anatoly Levenchuk
ailev

Вокалоиды 2017 года: ждём аудиошопов.

Жизнь опять изменилась: нейронные сетки меняют технологию вокалоидов. Послушайте сами: http://www.dtic.upf.edu/%7Emblaauw/IS2017_NPSS/, статья https://arxiv.org/abs/1704.03809, постер http://www.dtic.upf.edu/%7Emblaauw/IS2017_NPSS/files/poster.pdf. Слушать нужно, конечно, самый последний образец на странице по первой ссылке -- там высота тона и время для переключения фонетики тоже сгенерировано, а не только сгенерирован голос (а именно, сгенерирован тембр голоса). Этот пример не описан в статье, в статье брали информацию о высоте тона и переключении фонем из живого исполнения, что не так интересно. Интересно использовать методы типа https://magenta.tensorflow.org/performance-rnn -- когда музыкальная выразительность тоже генерируется.

Голос уже более-менее уверенно синтезировать начали, например, см. https://deepmind.com/blog/wavenet-generative-model-raw-audio/ (там тоже можно послушать) или https://google.github.io/tacotron/

Осталось соединить нейросетку вокодера, генерирующего голос и какой-нибудь вариант нейросетки для генерации музыкального, немеханического исполнения. Похоже, авторы статьи именно этим сейчас и занимаются. А кто авторы и причём здесь вокалоиды?

Я писал про вокалоиды в древнем 2003 году -- http://ailev.livejournal.com/125874.html, забавно это почитать. Прошло всего-то 14 лет. Вот апдейт 2008 года -- http://ailev.livejournal.com/586754.html.

И вот 2017 год, и основатели фирмы-производителя испаноязычных вокалоидов из барселонской Voctro labs (http://www.voctro-vocaloid.com/en/) демонстрируют переход на deep learning -- вот у них в фейсбуке запись об этом: https://www.facebook.com/VoctroLabs/posts/2900038046718094. Интересно, что нейронную сетку они учили, похоже, на записях своего же вокалоида Maika! Очень удобно! Сравните, например, с подходом, который пыталась сделать фирма Melodis с этими вокалоидами в 2009, когда вокалоиды использовались для создания записей-шаблонов сервиса распознавания мелодий -- http://ailev.livejournal.com/653970.html

Итого: статью по синтезу пения уже опубликовали, теперь ждём продукта. Ибо наука наукой, а бизнес бизнесом. Очередное поколение вокалоидов не за горами.
* * *
В качестве бонуса: вот так сейчас умеют разделять треки инструментов в живых записях -- http://sisec17.audiolabs-erlangen.de/#/. Там не только треки инструментов разделяют, поглядите вот тут внизу страницы -- https://sisec.inria.fr/

Дальше простой пайплайн для создания аудиошопа: взять песню, выделить голос знаменитого певца/певицы, пересинтезировать в ваш с сохранением высоты тона и ритма, хотя можно и с новыми словами (петь вам не нужно, просто наговорить немножко текста в микрофон -- нейросетки за вас вполне споют), затем положить на место в первоначальный микс. Не думаю, что инструмента для создания таких аудиошопов придётся ждать очень долго. Все компоненты уже в наличии, осталось собрать это воедино в продукт.
Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

  • 11 comments