.

Unos meses atrás le echaba un ojo a un proyecto recreación de un modelo de emulación de amplificadores de guitarra en tiempo real usando aprendizaje automático y ahora me topo en Hacker News con un par de proyectos que también usan aprendizaje automático para recrear sonido de equipo musical. En concreto, lo que veía apuntado era un enlace a SmartGuitarAmp en GitHub:

Plugin de guitarra hecho con JUCE que utiliza […] un modelo WaveNet para recrear el sonido de de hardware real. La versión actual modela un amplificador de válvulas pequeño, con la capacidad de añadir más opciones en un futuro. Hay un canal limpio/distorsionado, que es equivalente a las configuraciones limpia y de saturación máxima del amplificador. Los controles de ganancia y EQ se añadieron para modular el sonido modelado.

El mismo desarrollador señala otro software complementario, SmartGuitarPedal, también en GitHub, que tiene una finalidad similar pero enfocada a la emulación de pedales como el TS9 Tubescreamer o el Blues Jr. Se utilizan ganancia y nivel como formas sencillas de controlar el sonido. El modelo WaveNet es efectivo en la emulación de efectos de tipo distorsión o amplificadores de tubo.

Hay un par de demostraciones en el canal de YouTube de GuitarML, para los que tengan curiosidad. Cada vez que menciono WaveNet me quedo con las ganas de profundizar más en el tema. Debe resultar muy interesante.

.

Sin salirme de la temática, del blog expirado del otro día paso a un contenido que el incombustible Fer, al que espero parecerme algún día, me pasaba el lunes pasado. Se trata de un enlace a la página de Teddy Koker explicando brevemente su trabajo, disponible en GitHub, de recreación de un modelo de emulación de amplificadores de guitarra en tiempo real, publicado por Alec Wright et al. en MDPI.

El trabajo del señor Koker se centra en la réplica del sonido de un pedal analógico de efectos de guitarra, en particular de un Ibanez Tube Screamer TS-9:

Recogemos los datos conectando el pedal a una interfaz de audio y grabando la salida de una muestra de grabaciones de guitarra. La muestra IDMTSMT-Guitar contiene grabaciones sin comprimir de diferentes guitarras eléctricas, con frases monofónicas y polifónicas en distintos géneros y técnicas. Usaremos un subconjunto de 5 minutos de estos datos y almacenaremos tanto el audio original como la salida del pedal cuando el audio lo atraviesa. Para mantener la reproducibilidad, ponemos todas las perillas tanto en el pedal como en la interfaz de audio a las 12 en punto:

Aunque concluye diciendo que el modelo es suficientemente pequeño y eficiente para ser usado en tiempo real no he tenido tiempo de comprobar de primera mano qué tal funciona. Me pregunto si podría ensayarlo con una Raspberry Pi, como lo que veía hace poco del proyecto de procesador de efectos para guitarra.

.

Tengo ganas de atacar este maravilloso libro que contiene Una mirada a la oscuridad. Es lo primero que me ha venido a la cabeza después de ver el vídeo de Hardcore Anal Hydrogen titulado «Jean-Pierre» [05m36s] que mencionan en GeekTyrant, cuyo proceso de creación describe el propio grupo en su página web.

Inspirados por el tratamiento de imágenes con Deep Dream, un programa de visión artificial que utiliza una red neuronal convolucional (abreviado, en inglés, CNN) para encontrar y realzar patrones en imágenes a través de una pareidolia algorítmica, empezaron a experimentar con la transferencia de estilos artísticos con CNNs y la aplicación de estos procesos a imágenes en movimiento. El resultado, en una captura estática, tiene este aspecto:

Fotograma de «Jean-Pierre» de Hardcore Anal Hydrogen.

Quizás sea el único pero a mí me ha recordado al «traje mezclador» de A Scanner Darkly. Ahora sólo me queda buscar un rato de calma y disfrutar de la lectura del libro.

.

Al igual que me pasó con los contenidos del lunes, llego vía Hacker News a otro texto bastante curioso, A Neural Parametric Singing Synthesizer:

Avances recientes en modelos generativos para síntesis de voz a partir de texto (en inglés, Text-to-Speech Synthesis o TTS) usando redes neuronales profundas using (en inglés, Deep Neural Networks o DNNs), en particular el modelo WaveNet (van den Oord et al., 2016a), han mostrado que aproximaciones basadas en modelos pueden conseguir una calidad de sonido igual o superior a la de sistemas concatenativos. La capacidad de este modelo para generar con precisión formas de onda de habla demuestra claramente que el sobre-suavizado no es un problema. Aunque modelar directamente la señal de la forma de onda es muy interesante, creemos que para la voz cantada la aproximación más tradicional de usar un vocoder paramétrico es más adecuada.

Visión general de la arquitectura de red propuesta por Merlijn Blaauw y Jordi Bonada.

Los resultados son, por lo menos, curiosos.