.

La semana pasada hablaba de un sintetizador neuronal paramétrico de canto y ahora me topo con NSynth, un proyecto de síntesis de audio utilizando Magenta con un modelo basado en WaveNet:

Uno de los objetivos de Magenta es aplicar aprendizaje automático al desarrollo de nuevas formas de expresión humana. Así que hoy estamos orgullosos de anunciar NSynth (Neural Synthesizer), una aproximación novedosa a la síntesis de música diseñada para asistir en el proceso creativo.

A diferencia de sintetizadores tradicionales que generan audio a partir de componentes hechos a mano, como osciladores y tables de ondas, NSynth utiliza redes neuronales profundas para generar sonidos al nivel de muestras individuales. Aprendiendo directamente de los datos, NSynth ofrece a los artistas un control intuitivo sobre el timbre y la dinámica, y la habilidad de explorar nuevos sonidos que sería difícil o imposible de producir con un sintetizador afinado a mano.

Las cualidades acústicas del instrumento aprendido dependen tanto del modelo usado como los datos de entrenamiento disponibles, así que estamos encantados de publicar mejoras de ambos:

Un descripción completa del conjunto de datos y el algoritmo se puede encontrar en nuestra publicación en arXiv.

Visión general del autocodificador WaveNet de NSynth

Aunque no he tenido oportunidad de cacharrear con TensorFlow no es la primera vez que aparece Magenta por aquí: hace unos meses mencionaba unos experimentos musicales con inteligencia artificial que me tentaban a echar un ojo a las herramientas de aprendizaje automático que utilizan. De momento me lo apunto como otra referencia.

.

Al igual que me pasó con los contenidos del lunes, llego vía Hacker News a otro texto bastante curioso, A Neural Parametric Singing Synthesizer:

Avances recientes en modelos generativos para síntesis de voz a partir de texto (en inglés, Text-to-Speech Synthesis o TTS) usando redes neuronales profundas using (en inglés, Deep Neural Networks o DNNs), en particular el modelo WaveNet (van den Oord et al., 2016a), han mostrado que aproximaciones basadas en modelos pueden conseguir una calidad de sonido igual o superior a la de sistemas concatenativos. La capacidad de este modelo para generar con precisión formas de onda de habla demuestra claramente que el sobre-suavizado no es un problema. Aunque modelar directamente la señal de la forma de onda es muy interesante, creemos que para la voz cantada la aproximación más tradicional de usar un vocoder paramétrico es más adecuada.

Visión general de la arquitectura de red propuesta por Merlijn Blaauw y Jordi Bonada.

Los resultados son, por lo menos, curiosos.