.
Mutoid Man - "Kiss Of Death" (Official Video) [00:03:35]

.

Al igual que me pasó con los contenidos del lunes, llego vía Hacker News a otro texto bastante curioso, A Neural Parametric Singing Synthesizer:

Avances recientes en modelos generativos para síntesis de voz a partir de texto (en inglés, Text-to-Speech Synthesis o TTS) usando redes neuronales profundas using (en inglés, Deep Neural Networks o DNNs), en particular el modelo WaveNet (van den Oord et al., 2016a), han mostrado que aproximaciones basadas en modelos pueden conseguir una calidad de sonido igual o superior a la de sistemas concatenativos. La capacidad de este modelo para generar con precisión formas de onda de habla demuestra claramente que el sobre-suavizado no es un problema. Aunque modelar directamente la señal de la forma de onda es muy interesante, creemos que para la voz cantada la aproximación más tradicional de usar un vocoder paramétrico es más adecuada.

Visión general de la arquitectura de red propuesta por Merlijn Blaauw y Jordi Bonada.

Los resultados son, por lo menos, curiosos.

.

Viendo «La La Land» me pareció reconocer un Seaboard en una de las escenas. No tengo intención de volver a ver esa película y, afortunadamente, los fabricantes del instrumento me lo han ahorrado confirmando mi sospecha en su web.

En cualquier caso, el otro día me topé en GearGods con algo mucho más interesante involucrando este controlador que mencioné hace un par de años en una entrada sobre teclados poco comunes:

Marco Parisi plays Jimi Hendrix's "Little Wing" on the Seaboard RISE at Musikmesse 2016 [00:02:27]

Curioso, ¿verdad?

.

Reconozco que la electrónica no es mi fuerte. A nivel teórico siempre me ha costado la parte matemática y en la práctica se nota mi falta de experiencia. De hecho, a estas alturas muchos de los términos que a cualquier ingeniero eléctrico le parecerán básicos y que en su momento tuve que estudiar probablemente sean más conceptos vagamente familiares que recursos que pudiera aplicar.

Eso no quita que me siga resultando interesante textos como el publicado por Ken Shirriff a finales del mes pasado, Reverse engineering the 76477 “Space Invaders” sound effect chip from die photos:

¿Os acordáis del antiguo vídeojuego Space Invaders? Algunos de sus efectos de sonido se generaban con un chip llamado 76477 Complex Sound Generation chip. Aunque los efectos de sonido generados por este chip de 1978 parecen primitivos hoy en día, se utilizó en muchos vídeojuegos [y] máquinas de pinball. Pero, ¿qué es lo que hay dentro de este chip y cómo funciona internamente? Mediante la ingeniería inversa de fotos de la pastilla lo podemos averiguar. (Fotos cortesía de Sean Riddle). En este artículo explico cómo funcionan los circuitos analógicos de este circuito y muestro como los cientos de transistores en la pastilla silicio componen los circuitos de este complejo chip.

Bloques funcionales dentro del chip de sonido 76477, marcados sobre su pastilla por Ken Shirriff. Foto de la pastilla cortesía de Sean Riddle.

Intentando leerlo con algo de calma me he sentido tentado de volver a sacar el Malik o el Franco pero rápidamente he catalogado esa idea bajo “cosas que hacer cuando tenga más tiempo y fuerzas” y he seguido ojeando Hacker News, que es donde encontré la reseña al artículo.

Lo curioso es que me topé con la reseña a un trabajo basado en reconocimiento visual, aunque en este caso hecho por algoritmos: Deep Cross-Modal Audio-Visual Generation. Aunque sólo son nueve páginas reconozco que no he llegado a leerlo entero pero me ha hecho gracia la idea de intentar utilizar redes adversarias generativas, o GANs, para generar sonido a partir de imágenes de músicos tocando.

Resultados producidos por los modelos de generación inter-modal auudiovisual de Lele Chen, Sudhanshu Srivastava, Zhiyao Duan y Chenliang Xu. Las tres filas superiores son imágenes generadas por las redes sonido-a-imagen a partir de grabaciones de sonido, mientras que la fila inferior contiene los espectrogramas log-mel del audio generado por la red imagen-a-sonido. Cada columna representa un tipo de instrumento.

Por alguna razón me recordó a algo que ya había mencionado por aquí hace unos años, el micrófono visual, aunque hasta donde yo sé dicho trabajo estaba más avanzado y tenía resultados más efectivos.

.
Liquid Tension Experiment - Kindred Spirits (Live) [00:07:43]