.

Echando la vista atrás, hace tres años hice una primera mención por estos lares al modelo WaveNet de van den Oord et al.. Ahora me vuelvo con el trabajo de este integrante de Google DeepMind en Jukebox, una red neuronal que genera música, incluyendo canto rudimentario, como audio crudo en distintos géneros y estilos de artistas. [Además, han publicado] los pesos y el código del modelo, junto a una herramienta para explorar las muestras generadas.

Esquema del entrenamiento de tres VQ-VAE con resoluciones temporales diferentes. En cada nivel, el audio de entrada es segmentado y codificado en vectores latentes ht, que son cuantificados a los vectores del libro de códigos ezt más cercados. El código zt es una representación discreta del audio sobre la que posteriormente se entrena la previa. El descodificador toma la secuencia de vectores del libro de códigos y reconstruye el audio. El nivel superior aprende el grado más alto de abstracción, dado que está condificando audio más largo por token mientras el tamaño del libro de códigos se mantiene igual. El audio se puede reconstruir utilizando los códigos de cualquiera de los niveles de abstracción, donde los codigos de los niveles inferiores y menos abstractos producen el audio de mayor calidad.
Fuente: Jukebox: A Generative Model for Music

Recientemente vi una mención a modelos generativos VAE para síntesis de música leyendo sobre la I.A. que produce un ritmo a la batería a partir de cualquiera secuencia MIDI de entrada, pero sigo siendo bastante ignorante en lo que se refiere a todas estas tecnologías. Eso no quita (o quizás ayuda a) que me sigan pareciendo muy interesantes.