.

Veo con casi un año de retraso en io9 una reseña a lo que en agosto de 2014 era noticia en el MIT:

Investigadores en el MIT, Microsoft y Adobe han desarrollado un algoritmo que puede reconstruir una señal de audio mediante el análisis de vibraciones minúsculas de objetos en un vídeo. En uno conjunto de experimentos lograron recuperar diálogo inteligible a partir de las bibraciones de una bolsa de patatas fritas fotografiada a 4.5 metros de distancia tras un cristal a prueba de sonido.

[…]

Reconstruir audio a partir de vídeo requiere que la frecuencia de las muestras de vídeo —el número de fotogramas de vídeo capturados por segundo— sea mayor que la frecuencia de la señal de audio. En algunos de sus experimentos, los investigadores utilizaron una cámara de alta velocidad que capturaba de 2000 a 6000 fotogramas por segundo. Eso es mucho más rápido que los 60 fotogramas por segundo que se consiguen con algunos móviles, pero muy por debajo de las frecuencias de las mejores cámaras de alta velocidad comerciales, que pueden llegar a alcanzar los 100000 fotogramas por segundo.

Sin embargo, en otros experimentos utilizaron una cámara digital común. Gracias a una peculiridad en el diseño de los sensores de la mayoría de las cámaras, los investigadores pudieron inferir información sobre vibraciones de alta frecuencia incluso de vídeo grabado a los 60 fotogramas por segundo estándares.

[…]

Algunos bordes de una imagen son más borrosos que el ancho de un píxel. Así que los investigadores utilizaron una técnica de un trabajo anterior sobre algoritmos que amplifican variaciones minúsculas en vídeo, haciendo visibles movimientos previamente indetectables: la respiración de un bebé en el ala infantil de un hospital o el pulso en la muñeca de un sujeto.

Todo el trabajo me parece fascinante y alguna cosa hasta me resulta familiar, aunque sólo sea de oídas: la peculiaridad en los sensores de las cámaras de la que hablan es el efecto de rolling shutter que ya comenté una vez y que aprovechan de forma muy ingeniosa.


Figure 1: Recovering sound from video. Left: when sound hits an object (in this case, an empty bag of chips) it causes extremely small surface vibrations in that object. We are able to extract these small vibrations from high speed video and reconstruct the sound that produced them – using the object as a visual microphone from a distance. Right: an instrumental recording of ”Mary Had a Little Lamb” (top row) is played through a loudspeaker, then recovered from video of different objects: a bag of chips (middle row), and the leaves of a potted plant (bottom row). For the source and each recovered sound we show the waveform and spectrogram (the magnitude of the signal across different frequencies over time, shown in linear scale with darker colors representing higher energy). The input and recovered sounds for all of the experiments in the paper can be found on the project web page

0 comentarios.

Añadir un comentario