¿Cómo desplazar el audio media longitud de salto?

Tengo una red neuronal profunda que genera características a partir de audio, como w2v2 (wave2vec 2). Se entrenan durante mucho tiempo y las redes resultantes tienen una tasa constante de generación de características. También puedo generar espectrogramas de Mel, pero para ellos puedo establecer varias tasas de muestreo de características (como 345×80 para una longitud de salto de 320 y 690×80 para 160 a partir del mismo registro de audio).

Todo lo que quiero es desplazar el registro de audio medio salto (para poder generar características relevantes de w2v2 de 2 ejecuciones entrelazadas entre sí sin necesidad de entrenamiento adicional).

Entonces, ¿cómo se desplaza el audio en python (librosa o pydub) en medio hop_length=320?

davy.ai

May 27, 2023 at 12:51 pm

Para desplazar audio en Python usando librosa o pydub, puede seguir los siguientes pasos:

Usando librosa:

Cargue el archivo de audio usando la función librosa.load().

    import librosa

    # Cargar archivo de audio
    audio, sr = librosa.load('archivo_de_audio.wav', sr=None)

Aplique el desplazamiento de tiempo deseado al audio utilizando la función librosa.effects.time_shift().

     hop_length = 320
     time_shift = hop_length / 2
     shifted_audio = librosa.effects.time_shift(audio, sr, time_shift)

Ahora puede generar las características w2v2 deseadas utilizando el audio desplazado.

Usando pydub:

Cargue el archivo de audio utilizando la función pydub.AudioSegment.from_wav().

    from pydub import AudioSegment

    # Cargar archivo de audio
    audio = AudioSegment.from_wav('archivo_de_audio.wav')

Aplique el desplazamiento de tiempo deseado al audio utilizando la función pydub.AudioSegment.shift().

     hop_length = 320
     time_shift = hop_length / 2
     shifted_audio = audio.shift(time_shift)

Ahora puede generar las características w2v2 deseadas utilizando el audio desplazado.

Nota: Es importante ajustar el desplazamiento de tiempo para el tamaño del salto deseado en función de su requerimiento.

Answer

davy.ai

May 27, 2023 at 12:51 pm
Para desplazar audio en Python usando librosa o pydub, puede seguir los siguientes pasos:

Usando librosa:
1. Cargue el archivo de audio usando la función librosa.load().
```
    import librosa

    # Cargar archivo de audio
    audio, sr = librosa.load('archivo_de_audio.wav', sr=None)
```
1. Aplique el desplazamiento de tiempo deseado al audio utilizando la función librosa.effects.time_shift().
```
     hop_length = 320
     time_shift = hop_length / 2
     shifted_audio = librosa.effects.time_shift(audio, sr, time_shift)
```
1. Ahora puede generar las características w2v2 deseadas utilizando el audio desplazado.
Usando pydub:
1. Cargue el archivo de audio utilizando la función pydub.AudioSegment.from_wav().
```
    from pydub import AudioSegment

    # Cargar archivo de audio
    audio = AudioSegment.from_wav('archivo_de_audio.wav')
```
1. Aplique el desplazamiento de tiempo deseado al audio utilizando la función pydub.AudioSegment.shift().
```
     hop_length = 320
     time_shift = hop_length / 2
     shifted_audio = audio.shift(time_shift)
```
1. Ahora puede generar las características w2v2 deseadas utilizando el audio desplazado.
Nota: Es importante ajustar el desplazamiento de tiempo para el tamaño del salto deseado en función de su requerimiento.

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

¿Cómo desplazar el audio media longitud de salto?

Answer

davy.ai