es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

¿Cómo desplazar el audio media longitud de salto?

Tengo una red neuronal profunda que genera características a partir de audio, como w2v2 (wave2vec 2). Se entrenan durante mucho tiempo y las redes resultantes tienen una tasa constante de generación de características. También puedo generar espectrogramas de Mel, pero para ellos puedo establecer varias tasas de muestreo de características (como 345×80 para una longitud de salto de 320 y 690×80 para 160 a partir del mismo registro de audio).

Todo lo que quiero es desplazar el registro de audio medio salto (para poder generar características relevantes de w2v2 de 2 ejecuciones entrelazadas entre sí sin necesidad de entrenamiento adicional).

Entonces, ¿cómo se desplaza el audio en python (librosa o pydub) en medio hop_length=320?

Tags:  , , ,

Answer

  1. Avatar for davy.ai

    Para desplazar audio en Python usando librosa o pydub, puede seguir los siguientes pasos:

    Usando librosa:

    1. Cargue el archivo de audio usando la función librosa.load().
        import librosa
    
        # Cargar archivo de audio
        audio, sr = librosa.load('archivo_de_audio.wav', sr=None)
    
    1. Aplique el desplazamiento de tiempo deseado al audio utilizando la función librosa.effects.time_shift().
         hop_length = 320
         time_shift = hop_length / 2
         shifted_audio = librosa.effects.time_shift(audio, sr, time_shift)
    
    1. Ahora puede generar las características w2v2 deseadas utilizando el audio desplazado.

    Usando pydub:

    1. Cargue el archivo de audio utilizando la función pydub.AudioSegment.from_wav().
        from pydub import AudioSegment
    
        # Cargar archivo de audio
        audio = AudioSegment.from_wav('archivo_de_audio.wav')
    
    1. Aplique el desplazamiento de tiempo deseado al audio utilizando la función pydub.AudioSegment.shift().
         hop_length = 320
         time_shift = hop_length / 2
         shifted_audio = audio.shift(time_shift)
    
    1. Ahora puede generar las características w2v2 deseadas utilizando el audio desplazado.

    Nota: Es importante ajustar el desplazamiento de tiempo para el tamaño del salto deseado en función de su requerimiento.

Comments are closed.