La descripción de la cuenta dice que se trata de grupos / discos de metal generados con I.A., textos generados con gpt-2-simple, portadas de discos generadas con big-sleep. He visto bastante ejemplos de usos de GPT-2 pero reconozco que big-sleep no me sonaba de nada, así que me puse a buscar un poco y encontré en reddit un enlace a una publicación en Twitter de mediados de enero de un cuaderno de notas para generar imágenes usando CLIP para guiar a BigGAN, con el título The Big Sleep.
La estenografía de audio es una colección de técnicas para ocultar la existencia de información mediante su infiltración en audio no secreto, al que se conoce como portador. […] Proponemos un algoritmo de estenografía que es generado automáticamente con entrenamiento antagónico.
El por qué me lo reservo, para no fastidiarle a nadie el placer de ver la película después de ver la serie. Para los que la recuerden sólo diré una frase: это курам на смех.
Me pregunto si se podría utilizar algo similar para «asaltar» dispositivos que siempre están a la escucha, reproduciendo audio que tuviera una señal infiltrada (que no secreta) que afectara a esos equipos. A fin de cuentas, parecen ser suficientemente receptivos como para obedecer ordenes de fuentes aleatorias. Supongo que a eso se debe la pronunciación tan rara del comando de voz en los anuncios de alguno de esos cacharros.
Es curioso ver las distintas aplicaciones que se buscan para estos modelos, como la visualización de música usando GANs que veía el otro día. Si tuviera tiempo sería muy interesante profundizar en esta materia.
Reuno un conjunto de imágenes que definen el estilo/tema visual que el algoritmo de IA tiene que aprender.
Después entreno al modelo de IA para imitar y replicar este estilo visual (esto se hace utilizando una gran capacidad de computación en la nube y puede llevar varios días). Tras el entrenamiento, el modelo es capaz de producir salidas visuales similares al conjunto de datos de entrenamento pero que son completamente nuevas y únicas.
A continuación, elijo el audio y lo proceso a través de una cadena de extracción de características hecha a medida en Python.
Por último, dejo que la IA cree la salida visual usando las características del audio como entrada. Entonces comienzo el bucle de realimentación final, en el que edito, selecciono y reordeno manualmente estos elementos visuales en la obra final.
Es interesante ver el resultado en movimiento especialmente cuando es más difícil ver el tipo de material que ha usado para enterar el modelo, cuando las imagenes sugieren más que revelan cuál es su origen.
Con todo, creo que mi caso de uso favorito de aprendizaje automático en el contexto de vídeos musicales sigue siendo el vídeo de «Jean-Pierre», de Hardcore Anal Hydrogen. Sé que es una aproximación totalmente distinta, tanto en metodología como en objetivo, pero el resultado final me resulta tan fascinante como la primera vez que lo vi.
Reconozco que la electrónica no es mi fuerte. A nivel teórico siempre me ha costado la parte matemática y en la práctica se nota mi falta de experiencia. De hecho, a estas alturas muchos de los términos que a cualquier ingeniero eléctrico le parecerán básicos y que en su momento tuve que estudiar probablemente sean más conceptos vagamente familiares que recursos que pudiera aplicar.
¿Os acordáis del antiguo vídeojuego Space Invaders? Algunos de sus efectos de sonido se generaban con un chip llamado 76477 Complex Sound Generation chip. Aunque los efectos de sonido generados por este chip de 1978 parecen primitivos hoy en día, se utilizó en muchos vídeojuegos [y] máquinas de pinball. Pero, ¿qué es lo que hay dentro de este chip y cómo funciona internamente? Mediante la ingeniería inversa de fotos de la pastilla lo podemos averiguar. (Fotos cortesía de Sean Riddle). En este artículo explico cómo funcionan los circuitos analógicos de este circuito y muestro como los cientos de transistores en la pastilla silicio componen los circuitos de este complejo chip.
Intentando leerlo con algo de calma me he sentido tentado de volver a sacar el Malik o el Franco pero rápidamente he catalogado esa idea bajo «cosas que hacer cuando tenga más tiempo y fuerzas» y he seguido ojeando Hacker News, que es donde encontré la reseña al artículo.
Lo curioso es que me topé con la reseña a un trabajo basado en reconocimiento visual, aunque en este caso hecho por algoritmos: Deep Cross-Modal Audio-Visual Generation. Aunque sólo son nueve páginas reconozco que no he llegado a leerlo entero pero me ha hecho gracia la idea de intentar utilizar redes generativas antagónicas, o GANs, para generar sonido a partir de imágenes de músicos tocando.
Por alguna razón me recordó a algo que ya había mencionado por aquí hace unos años, el micrófono visual, aunque hasta donde yo sé dicho trabajo estaba más avanzado y tenía resultados más efectivos.