.

Reconozco que la electrónica no es mi fuerte. A nivel teórico siempre me ha costado la parte matemática y en la práctica se nota mi falta de experiencia. De hecho, a estas alturas muchos de los términos que a cualquier ingeniero eléctrico le parecerán básicos y que en su momento tuve que estudiar probablemente sean más conceptos vagamente familiares que recursos que pudiera aplicar.

Eso no quita que me siga resultando interesante textos como el publicado por Ken Shirriff a finales del mes pasado, Reverse engineering the 76477 «Space Invaders» sound effect chip from die photos:

¿Os acordáis del antiguo vídeojuego Space Invaders? Algunos de sus efectos de sonido se generaban con un chip llamado 76477 Complex Sound Generation chip. Aunque los efectos de sonido generados por este chip de 1978 parecen primitivos hoy en día, se utilizó en muchos vídeojuegos [y] máquinas de pinball. Pero, ¿qué es lo que hay dentro de este chip y cómo funciona internamente? Mediante la ingeniería inversa de fotos de la pastilla lo podemos averiguar. (Fotos cortesía de Sean Riddle). En este artículo explico cómo funcionan los circuitos analógicos de este circuito y muestro como los cientos de transistores en la pastilla silicio componen los circuitos de este complejo chip.

Bloques funcionales dentro del chip de sonido 76477, marcados sobre su pastilla por Ken Shirriff. Foto de la pastilla cortesía de Sean Riddle.

Intentando leerlo con algo de calma me he sentido tentado de volver a sacar el Malik o el Franco pero rápidamente he catalogado esa idea bajo «cosas que hacer cuando tenga más tiempo y fuerzas» y he seguido ojeando Hacker News, que es donde encontré la reseña al artículo.

Lo curioso es que me topé con la reseña a un trabajo basado en reconocimiento visual, aunque en este caso hecho por algoritmos: Deep Cross-Modal Audio-Visual Generation. Aunque sólo son nueve páginas reconozco que no he llegado a leerlo entero pero me ha hecho gracia la idea de intentar utilizar redes generativas antagónicas, o GANs, para generar sonido a partir de imágenes de músicos tocando.

Resultados producidos por los modelos de generación inter-modal auudiovisual de Lele Chen, Sudhanshu Srivastava, Zhiyao Duan y Chenliang Xu. Las tres filas superiores son imágenes generadas por las redes sonido-a-imagen a partir de grabaciones de sonido, mientras que la fila inferior contiene los espectrogramas log-mel del audio generado por la red imagen-a-sonido. Cada columna representa un tipo de instrumento.

Por alguna razón me recordó a algo que ya había mencionado por aquí hace unos años, el micrófono visual, aunque hasta donde yo sé dicho trabajo estaba más avanzado y tenía resultados más efectivos.