.

Continuando con algo relacionado con la música clásica me encuentro, otra vez en Hacker News, con una noticia de julio en VentureBeat sobre un sistema desarrollado por Florian Henkel, Rainer Kelz y Gerhard Widmer que puede predecir la posición más probable dentro de una partitura correspondiente a una grabación sonora, dando un rendimiento destacadamente superior a los seguidores de partitular más modernos basados en imagen, en términos de precisión de alineamiento. Para los más interesados, están disponibles tanto el texto académico como el código correspondiente pero el artículo ofrece un resumen de algunos de los puntos clave del proyecto:

El equipo modelo el seguimiento de la partitura como una tarea de segmentación de imagen. Basándose en una interpretación musical hasta un determinado punto en el tiempo, su sistema predice una máscara de segmentación —una pequeña «pieza» de imagen— para la partitura que se corresponde con la música que está siendo reproducida en ese momento. Mientras que los sistemas de seguimiento que se apoyan sólo en entrada de audio de tamaño fijo no son capaces de distinguir notas repetidas si exceden un determinado contexto, el sistema propuesto no tiene problemas en partituras que aabarcan periodos de tiempo más largos en el audio, según declaran los investigadores.

En el transcurso de los experimentos, los investigadores obtuvieron muestras polifónicas de piano del Multi-model Sheet Music Dataset (MSMD), que abarca temas de varios compositores incluyendo Bach, Mozart y Beethoven. Tras identificar y corregir manualmente los errores de alineamiento, entrenaron su sistema con 353 pares de partituras e información MIDI.

Arquitectura de red en U condicionada por audio. Cada bloque (A—I) está compuesto de dos capas convolucionales con activación ELU y normalización de capa. La capa FiLM se coloca antes de la última función de activación. La codificación del espectrograma […] se pasa a una capa recurrente. El estado oculto de esta capa recurrente es utilizado después para el condicionamiento en la capa FiLM. Cada bloque simétrico tiene el mismo número de filtros, empezando por 8 en el bloque A y aumentando con la profundidaz hasta 128 en el bloque E. Fuente: arXiv.org

Sin apenas tiempo de indagar en el emuladores WaveNet de equipo de guitarra, voy a tener que poner orden y establecer prioridades entre todas las cosas que quiero curiosear.

.

Tengo ganas de atacar este maravilloso libro que contiene Una mirada a la oscuridad. Es lo primero que me ha venido a la cabeza después de ver el vídeo de Hardcore Anal Hydrogen titulado «Jean-Pierre» [05m36s] que mencionan en GeekTyrant, cuyo proceso de creación describe el propio grupo en su página web.

Inspirados por el tratamiento de imágenes con Deep Dream, un programa de visión artificial que utiliza una red neuronal convolucional (abreviado, en inglés, CNN) para encontrar y realzar patrones en imágenes a través de una pareidolia algorítmica, empezaron a experimentar con la transferencia de estilos artísticos con CNNs y la aplicación de estos procesos a imágenes en movimiento. El resultado, en una captura estática, tiene este aspecto:

Fotograma de «Jean-Pierre» de Hardcore Anal Hydrogen.

Quizás sea el único pero a mí me ha recordado al «traje mezclador» de A Scanner Darkly. Ahora sólo me queda buscar un rato de calma y disfrutar de la lectura del libro.