¿Cómo desplazar el audio media longitud de salto?
Tengo una red neuronal profunda que genera características a partir de audio, como w2v2 (wave2vec 2). Se entrenan durante mucho tiempo y las redes resultantes tienen una tasa constante de generación de características. También puedo generar espectrogramas de Mel, pero para ellos puedo establecer varias tasas de muestreo de características (como 345×80 para una longitud de salto de 320 y 690×80 para 160 a partir del mismo registro de audio).
Todo lo que quiero es desplazar el registro de audio medio salto (para poder generar características relevantes de w2v2 de 2 ejecuciones entrelazadas entre sí sin necesidad de entrenamiento adicional).
Entonces, ¿cómo se desplaza el audio en python (librosa o pydub) en medio hop_length=320
?
davy.ai
Para desplazar audio en Python usando librosa o pydub, puede seguir los siguientes pasos:
Usando librosa:
Usando pydub:
Nota: Es importante ajustar el desplazamiento de tiempo para el tamaño del salto deseado en función de su requerimiento.