.

Una red neuronal recurrente, o RNN (Recurrent Neural Network) es una clase de red de neuronas artificial en las que las conexiones entre unidades forman un ciclo dirigido. Si no lo he entendido mal, esto quiere decir que la secuencia cíclica de vértices (o nodos) y aristas en un camino es determinada completamente por el conjunto de aristas que usa: sólo se puede recorrer en una dirección. Esto crea un estado interno de la red que le permite exhibir un comportamiento temporal dinámico y procesar secuencias arbitrarias de entradas. También se puede entender como una red neuronal recursiva, igualmente abreviada como RNN, con una estructura en cadena.

Todo esto viene a colación una serie de relativamente breves pero interesantísimos textos de Bob L. Sturm titulados “Deep learning for assisting the process of music composition”, partes 1, 2, 3 y 4. En ellos deja constancia de algunas reflexiones sobre un proyecto veraniego realizado en colaboración con João Felipe Santos denominado The Infinite Irish Trad Session:

So João grabbed all the tunes he could from The Session, I parsed and editted the text file to produce a 13 MB file of 23,962 tunes, and João set to using it to train an RNN with 3 hidden layers having 512 units each. Once finished, João had the system generate a 21 MB text file of new ABC tunes, which I am parsing into its 72,000+ tunes. I convert each ABC tune to MIDI, process it in python (with python-midi) to give a more human-like performance (including some musicians who lack good timing, and a sometimes over-active bodhran player who loves to have the last notes :), and then synthesize the parts with timidity, and finally mix it all together and add effects with sox. Each successful synthesis is then served to my home directory, and a cronjob generates a new playlist every five minutes from the 22000+ tunes already synthesized (that is 18,964,140 kilobytes, which at 128 kbps is a 41 hour trad session!).

Hope you have some craic!

El resultado son composiciones como esta:

Parte del trabajo se apoya en el trabajo de Andrej Karpathy sobre redes LSTM, cuyo artículo “The Unreasonable Effectiveness of Recurrent Neural Networks” explica con algo más de detalle qué son las RNN y sus virtudes.

Todo esto me llegó vía Hacker News, igual que el artículo sobre composición algorítmica de hace unos meses.

.

No lo digo yo. Lo dicen muchos abuelos y el estudio realizado por un equipo liderado por el especialista en inteligencia artificial Joan Serrà, del Consejo Superior de Investigaciones Científicas de España. La ¿noticia? tiene cinco meses pero últimamente me entero de las cosas con «un poco» de retraso. El resumen y las conclusiones del estudio están disponibles para quien tenga interés. En la nota de prensa del CSIC está aún más abreviado:

Las canciones compuestas en las décadas más recientes tienden a parecerse más entre ellas que las antiguas, según revela una investigación liderada por el Consejo Superior de Investigaciones Científicas (CSIC). El trabajo, que ha analizado 464.411 canciones, ha sido publicado en el último número de la revista Scientific Reports.

Según los parámetros analizados, las transiciones entre los grupos de notas han disminuido de forma continua durante los últimos 55 años. El investigador del Instituto de Investigación en Inteligencia Artificial del CSIC Joan Serrà, que ha dirigido el trabajo, explica: “Estos parámetros musicales en las canciones son como las palabras de un texto y hemos observado que cada vez hay menos palabras diferentes”. Dada una nota musical, es relativamente más fácil predecir cuál será la siguiente en una canción actual.

Del mismo modo, las composiciones musicales más recientes también presentan una menor diversidad de timbres y tienden a interpretarse con los mismos instrumentos. Joan Serrà opina que “en la década de los 60, por ejemplo, grupos como Pink Floyd experimentaban mucho más con la sonoridad que ahora”. […]

Otra conclusión a la que llegan es algo bastante conocido desde hace tiempo:

Otra de las tendencias es el aumento paulatino del volumen intrínseco al que se graban las canciones. Este volumen es independiente del que cada usuario puede seleccionar para reproducirlas posteriormente.

Si hace seis años decía que La música ya no es lo que era ahora parece que hay datos para apoyarlo.


Timbre distributions: (a) Examples of the density values and fits taking z as the random variable. (b) Fitted exponents β. (c) Spearman’s rank correlation coefficients for all possible year pairs.

.

Kirk Hamilton ha publicado en Kotaku un breve artículo que empieza con la siguiente aseveración:

[…] despite many developers’ cinematic aspirations, video games have more in common with music than they do with film.

En él refuerza su postura con varios artículos, entre los que se encuentra Music To My Thumbs: Transcribing Braid, de donde sale la imagen anterior y donde Julian Benson desdibuja la separación entre música y vídeojuego, utilizando la notación musical como notación para el propio manejo de los juegos. Si tenéis un rato podéis echarle un ojo, a ver qué os parece.