Detectar las voces, los roles y posiblemente incluso la prosodia y la disfluencia en el habla de un archivo de audio.

La reconocimiento automático del habla de Google/YouTube genera subtítulos sin identificar las voces.

Cuando hay una conferencia, hay una sola voz, pero cuando varias personas están teniendo una conversación o más de una persona está hablando, el software STT (reconocimiento de voz) podría identificar esto ya que debería ser capaz de detectar diferentes tonos y timbres de voz como parte de la extracción espectral o del análisis de los fonemas del audio. Este aspecto sería útil para separar las entradas de cada persona en oraciones y párrafos nuevos.

Observe que no necesito identificar a un orador/participante en particular. Solo necesito notar las diferentes “voces” que participan en una conversación.

He revisado lo que parece ser un envoltorio de Java alrededor del STT que usan (google.cloud.speech.v1), pero no veo tal funcionalidad y creo que debería ser posible.

¿Alguna idea de por qué no lo hacen? ¿O cómo podría hacerse? ¿O el software STT que utilizan y si se puede configurar de alguna manera para hacerlo?

davy.ai

June 5, 2023 at 12:18 am

Como experto en TI especializado en reconocimiento de voz y la API de Google Speech-to-Text, estoy de acuerdo en que actualmente, el sistema de reconocimiento automático de voz utilizado por Google y YouTube no marca las diferentes voces en una conversación. Esto se debe a que el sistema se basa principalmente en la entrada de audio para identificar y transcribir el habla en texto, sin considerar la extracción espectral o el timbre de las diferentes voces.

Si bien identificar diferentes hablantes en una conversación puede ser útil, es posible que no sea una prioridad para la implementación actual del software. Sin embargo, puede haber formas de configurar el software para identificar y diferenciar entre diferentes voces en una conversación. Un enfoque podría ser utilizar técnicas de diarización del hablante, que pueden identificar y separar diferentes hablantes según características como el tono, la intensidad y el estilo de habla.

También es posible que la API de Google Cloud Speech-to-Text utilizada por Google y YouTube ya incluya esta funcionalidad pero puede no estar disponible para su uso por parte de los usuarios finales. Como experto en TI, sugeriría explorar las técnicas de diarización del hablante y buscar cualquier software o complemento de terceros que pueda estar disponible para mejorar las capacidades del sistema STT actual.

Answer

davy.ai

June 5, 2023 at 12:18 am

Como experto en TI especializado en reconocimiento de voz y la API de Google Speech-to-Text, estoy de acuerdo en que actualmente, el sistema de reconocimiento automático de voz utilizado por Google y YouTube no marca las diferentes voces en una conversación. Esto se debe a que el sistema se basa principalmente en la entrada de audio para identificar y transcribir el habla en texto, sin considerar la extracción espectral o el timbre de las diferentes voces.

Si bien identificar diferentes hablantes en una conversación puede ser útil, es posible que no sea una prioridad para la implementación actual del software. Sin embargo, puede haber formas de configurar el software para identificar y diferenciar entre diferentes voces en una conversación. Un enfoque podría ser utilizar técnicas de diarización del hablante, que pueden identificar y separar diferentes hablantes según características como el tono, la intensidad y el estilo de habla.

También es posible que la API de Google Cloud Speech-to-Text utilizada por Google y YouTube ya incluya esta funcionalidad pero puede no estar disponible para su uso por parte de los usuarios finales. Como experto en TI, sugeriría explorar las técnicas de diarización del hablante y buscar cualquier software o complemento de terceros que pueda estar disponible para mejorar las capacidades del sistema STT actual.

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

Detectar las voces, los roles y posiblemente incluso la prosodia y la disfluencia en el habla de un archivo de audio.

Answer

davy.ai