.

Hace no tanto mencionaba un proyecto de emisión continua de música generada por redes neuronales y ahora me topo en Metal Injection con el complemento perfecto, @ai_metal_bot, una cuenta de Twitter que publica contenidos con el epígrafe This Band Isn’t Real. De muestra, esto es lo que ha publicado los últimos tres días:

La descripción de la cuenta dice que se trata de grupos / discos de metal generados con I.A., textos generados con gpt-2-simple, portadas de discos generadas con big-sleep. He visto bastante ejemplos de usos de GPT-2 pero reconozco que big-sleep no me sonaba de nada, así que me puse a buscar un poco y encontré en reddit un enlace a una publicación en Twitter de mediados de enero de un cuaderno de notas para generar imágenes usando CLIP para guiar a BigGAN, con el título The Big Sleep.

Los resultados son muy interesantes. Me han recordado al vídeo de «Jean-Pierre» de Hardcore Anal Hydrogen, aunque para ese utilizaron Deep Dream, que es una CNN.

.

No me explico cómo, en los casi tres lustros que llevo dejando apuntes por aquí, no he encontrado una excusa para mencionar Firefly o Serenity, ni siquiera cuando he hablado de Dr. Horrible’s Sing-Along Blog, otra de las creaciones de Joss Whedon. Dice que más vale tarde que nunca, así que sea un testamento a lo impresionante que me resultó la película en su momento el hecho de que fuera lo que me viniera a la cabeza cuando vi el resumen de este trabajo de Dengpan Ye, Shunzhi Jiang, Jiaqin Huang:

La estenografía de audio es una colección de técnicas para ocultar la existencia de información mediante su infiltración en audio no secreto, al que se conoce como portador. […] Proponemos un algoritmo de estenografía que es generado automáticamente con entrenamiento antagónico.

El por qué me lo reservo, para no fastidiarle a nadie el placer de ver la película después de ver la serie. Para los que la recuerden sólo diré una frase: это курам на смех.

Esquema de codificador, decodificador y estegoanalizador.

Me pregunto si se podría utilizar algo similar para «asaltar» dispositivos que siempre están a la escucha, reproduciendo audio que tuviera una señal infiltrada (que no secreta) que afectara a esos equipos. A fin de cuentas, parecen ser suficientemente receptivos como para obedecer ordenes de fuentes aleatorias. Supongo que a eso se debe la pronunciación tan rara del comando de voz en los anuncios de alguno de esos cacharros.

Es curioso ver las distintas aplicaciones que se buscan para estos modelos, como la visualización de música usando GANs que veía el otro día. Si tuviera tiempo sería muy interesante profundizar en esta materia.

.

Recuerdo un apunte de hace un par de años donde hablaba de un intento de generar sonido a partir de imágenes de músicos tocando, usando GANs. No sé si, en el tiempo transcurrido desde entonces, habrá habido avances en este propósito pero me ha venido a la cabeza leyendo los comentarios en Hacker News sobre un twit de Xander Steenbrugge de algo que ha querido llamar Neural Synesthesia, un intento de explorar nuevas aproximaciones a la experiencia audiovisual basándose en Inteligencia Artificial. Describe su flujo de trabajo de la siguiente manera:

  1. Reuno un conjunto de imágenes que definen el estilo/tema visual que el algoritmo de IA tiene que aprender.
  2. Después entreno al modelo de IA para imitar y replicar este estilo visual (esto se hace utilizando una gran capacidad de computación en la nube y puede llevar varios días). Tras el entrenamiento, el modelo es capaz de producir salidas visuales similares al conjunto de datos de entrenamento pero que son completamente nuevas y únicas.
  3. A continuación, elijo el audio y lo proceso a través de una cadena de extracción de características hecha a medida en Python.
  4. Por último, dejo que la IA cree la salida visual usando las características del audio como entrada. Entonces comienzo el bucle de realimentación final, en el que edito, selecciono y reordeno manualmente estos elementos visuales en la obra final.

Es interesante ver el resultado en movimiento especialmente cuando es más difícil ver el tipo de material que ha usado para enterar el modelo, cuando las imagenes sugieren más que revelan cuál es su origen.

Fotograma de «When the painting comes to life… (Variation)» [02m25s].

Con todo, creo que mi caso de uso favorito de aprendizaje automático en el contexto de vídeos musicales sigue siendo el vídeo de «Jean-Pierre», de Hardcore Anal Hydrogen. Sé que es una aproximación totalmente distinta, tanto en metodología como en objetivo, pero el resultado final me resulta tan fascinante como la primera vez que lo vi.

.

Reconozco que la electrónica no es mi fuerte. A nivel teórico siempre me ha costado la parte matemática y en la práctica se nota mi falta de experiencia. De hecho, a estas alturas muchos de los términos que a cualquier ingeniero eléctrico le parecerán básicos y que en su momento tuve que estudiar probablemente sean más conceptos vagamente familiares que recursos que pudiera aplicar.

Eso no quita que me siga resultando interesante textos como el publicado por Ken Shirriff a finales del mes pasado, Reverse engineering the 76477 «Space Invaders» sound effect chip from die photos:

¿Os acordáis del antiguo vídeojuego Space Invaders? Algunos de sus efectos de sonido se generaban con un chip llamado 76477 Complex Sound Generation chip. Aunque los efectos de sonido generados por este chip de 1978 parecen primitivos hoy en día, se utilizó en muchos vídeojuegos [y] máquinas de pinball. Pero, ¿qué es lo que hay dentro de este chip y cómo funciona internamente? Mediante la ingeniería inversa de fotos de la pastilla lo podemos averiguar. (Fotos cortesía de Sean Riddle). En este artículo explico cómo funcionan los circuitos analógicos de este circuito y muestro como los cientos de transistores en la pastilla silicio componen los circuitos de este complejo chip.

Bloques funcionales dentro del chip de sonido 76477, marcados sobre su pastilla por Ken Shirriff. Foto de la pastilla cortesía de Sean Riddle.

Intentando leerlo con algo de calma me he sentido tentado de volver a sacar el Malik o el Franco pero rápidamente he catalogado esa idea bajo «cosas que hacer cuando tenga más tiempo y fuerzas» y he seguido ojeando Hacker News, que es donde encontré la reseña al artículo.

Lo curioso es que me topé con la reseña a un trabajo basado en reconocimiento visual, aunque en este caso hecho por algoritmos: Deep Cross-Modal Audio-Visual Generation. Aunque sólo son nueve páginas reconozco que no he llegado a leerlo entero pero me ha hecho gracia la idea de intentar utilizar redes generativas antagónicas, o GANs, para generar sonido a partir de imágenes de músicos tocando.

Resultados producidos por los modelos de generación inter-modal auudiovisual de Lele Chen, Sudhanshu Srivastava, Zhiyao Duan y Chenliang Xu. Las tres filas superiores son imágenes generadas por las redes sonido-a-imagen a partir de grabaciones de sonido, mientras que la fila inferior contiene los espectrogramas log-mel del audio generado por la red imagen-a-sonido. Cada columna representa un tipo de instrumento.

Por alguna razón me recordó a algo que ya había mencionado por aquí hace unos años, el micrófono visual, aunque hasta donde yo sé dicho trabajo estaba más avanzado y tenía resultados más efectivos.