.

Sin salirme de la temática, del blog expirado del otro día paso a un contenido que el incombustible Fer, al que espero parecerme algún día, me pasaba el lunes pasado. Se trata de un enlace a la página de Teddy Koker explicando brevemente su trabajo, disponible en GitHub, de recreación de un modelo de emulación de amplificadores de guitarra en tiempo real, publicado por Alec Wright et al. en MDPI.

El trabajo del señor Koker se centra en la réplica del sonido de un pedal analógico de efectos de guitarra, en particular de un Ibanez Tube Screamer TS-9:

Recogemos los datos conectando el pedal a una interfaz de audio y grabando la salida de una muestra de grabaciones de guitarra. La muestra IDMTSMT-Guitar contiene grabaciones sin comprimir de diferentes guitarras eléctricas, con frases monofónicas y polifónicas en distintos géneros y técnicas. Usaremos un subconjunto de 5 minutos de estos datos y almacenaremos tanto el audio original como la salida del pedal cuando el audio lo atraviesa. Para mantener la reproducibilidad, ponemos todas las perillas tanto en el pedal como en la interfaz de audio a las 12 en punto:

Aunque concluye diciendo que el modelo es suficientemente pequeño y eficiente para ser usado en tiempo real no he tenido tiempo de comprobar de primera mano qué tal funciona. Me pregunto si podría ensayarlo con una Raspberry Pi, como lo que veía hace poco del proyecto de procesador de efectos para guitarra.

.

Tengo ganas de atacar este maravilloso libro que contiene Una mirada a la oscuridad. Es lo primero que me ha venido a la cabeza después de ver el vídeo de Hardcore Anal Hydrogen titulado «Jean-Pierre» [05m36s] que mencionan en GeekTyrant, cuyo proceso de creación describe el propio grupo en su página web.

Inspirados por el tratamiento de imágenes con Deep Dream, un programa de visión artificial que utiliza una red neuronal convolucional (abreviado, en inglés, CNN) para encontrar y realzar patrones en imágenes a través de una pareidolia algorítmica, empezaron a experimentar con la transferencia de estilos artísticos con CNNs y la aplicación de estos procesos a imágenes en movimiento. El resultado, en una captura estática, tiene este aspecto:

Fotograma de «Jean-Pierre» de Hardcore Anal Hydrogen.

Quizás sea el único pero a mí me ha recordado al «traje mezclador» de A Scanner Darkly. Ahora sólo me queda buscar un rato de calma y disfrutar de la lectura del libro.

.

Al igual que me pasó con los contenidos del lunes, llego vía Hacker News a otro texto bastante curioso, A Neural Parametric Singing Synthesizer:

Avances recientes en modelos generativos para síntesis de voz a partir de texto (en inglés, Text-to-Speech Synthesis o TTS) usando redes neuronales profundas using (en inglés, Deep Neural Networks o DNNs), en particular el modelo WaveNet (van den Oord et al., 2016a), han mostrado que aproximaciones basadas en modelos pueden conseguir una calidad de sonido igual o superior a la de sistemas concatenativos. La capacidad de este modelo para generar con precisión formas de onda de habla demuestra claramente que el sobre-suavizado no es un problema. Aunque modelar directamente la señal de la forma de onda es muy interesante, creemos que para la voz cantada la aproximación más tradicional de usar un vocoder paramétrico es más adecuada.

Visión general de la arquitectura de red propuesta por Merlijn Blaauw y Jordi Bonada.

Los resultados son, por lo menos, curiosos.