Голос уже более-менее уверенно синтезировать начали, например, см. https://deepmind.com/blog/wavenet-generative-model-raw-audio/ (там тоже можно послушать) или https://google.github.io/tacotron/
Осталось соединить нейросетку вокодера, генерирующего голос и какой-нибудь вариант нейросетки для генерации музыкального, немеханического исполнения. Похоже, авторы статьи именно этим сейчас и занимаются. А кто авторы и причём здесь вокалоиды?
Я писал про вокалоиды в древнем 2003 году -- http://ailev.livejournal.com/125874.html, забавно это почитать. Прошло всего-то 14 лет. Вот апдейт 2008 года -- http://ailev.livejournal.com/586754.html.
И вот 2017 год, и основатели фирмы-производителя испаноязычных вокалоидов из барселонской Voctro labs (http://www.voctro-vocaloid.com/en/) демонстрируют переход на deep learning -- вот у них в фейсбуке запись об этом: https://www.facebook.com/VoctroLabs/posts/2900038046718094. Интересно, что нейронную сетку они учили, похоже, на записях своего же вокалоида Maika! Очень удобно! Сравните, например, с подходом, который пыталась сделать фирма Melodis с этими вокалоидами в 2009, когда вокалоиды использовались для создания записей-шаблонов сервиса распознавания мелодий -- http://ailev.livejournal.com/653970.html
Итого: статью по синтезу пения уже опубликовали, теперь ждём продукта. Ибо наука наукой, а бизнес бизнесом. Очередное поколение вокалоидов не за горами.
* * *
В качестве бонуса: вот так сейчас умеют разделять треки инструментов в живых записях -- http://sisec17.audiolabs-erlangen.de/#/. Там не только треки инструментов разделяют, поглядите вот тут внизу страницы -- https://sisec.inria.fr/
Дальше простой пайплайн для создания аудиошопа: взять песню, выделить голос знаменитого певца/певицы, пересинтезировать в ваш с сохранением высоты тона и ритма, хотя можно и с новыми словами (петь вам не нужно, просто наговорить немножко текста в микрофон -- нейросетки за вас вполне споют), затем положить на место в первоначальный микс. Не думаю, что инструмента для создания таких аудиошопов придётся ждать очень долго. Все компоненты уже в наличии, осталось собрать это воедино в продукт.