Visualizando música con GANs

Recuerdo un apunte de hace un par de años donde hablaba de un intento de generar sonido a partir de imágenes de músicos tocando, usando GANs. No sé si, en el tiempo transcurrido desde entonces, habrá habido avances en este propósito pero me ha venido a la cabeza leyendo los comentarios en Hacker News sobre un twit de Xander Steenbrugge de algo que ha querido llamar Neural Synesthesia, un intento de explorar nuevas aproximaciones a la experiencia audiovisual basándose en Inteligencia Artificial. Describe su flujo de trabajo de la siguiente manera:

Reuno un conjunto de imágenes que definen el estilo/tema visual que el algoritmo de IA tiene que aprender.

Después entreno al modelo de IA para imitar y replicar este estilo visual (esto se hace utilizando una gran capacidad de computación en la nube y puede llevar varios días). Tras el entrenamiento, el modelo es capaz de producir salidas visuales similares al conjunto de datos de entrenamento pero que son completamente nuevas y únicas.

A continuación, elijo el audio y lo proceso a través de una cadena de extracción de características hecha a medida en Python.

Por último, dejo que la IA cree la salida visual usando las características del audio como entrada. Entonces comienzo el bucle de realimentación final, en el que edito, selecciono y reordeno manualmente estos elementos visuales en la obra final.

Es interesante ver el resultado en movimiento especialmente cuando es más difícil ver el tipo de material que ha usado para enterar el modelo, cuando las imagenes sugieren más que revelan cuál es su origen.

Fotograma de «When the painting comes to life… (Variation)» [02m25s].

Con todo, creo que mi caso de uso favorito de aprendizaje automático en el contexto de vídeos musicales sigue siendo el vídeo de «Jean-Pierre», de Hardcore Anal Hydrogen. Sé que es una aproximación totalmente distinta, tanto en metodología como en objetivo, pero el resultado final me resulta tan fascinante como la primera vez que lo vi.