es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Versionado de conjuntos de datos de Azure ML: ¿qué es diferente si apunta a los mismos datos?

Contexto

En AzureML, nos estamos enfrentando a un error al ejecutar un pipeline. Falla en to_pandas_dataframe porque un determinado conjunto de datos “no se puede leer más allá del final del flujo”. Por sí solo, esto parece ser un problema con el archivo parquet que se está registrando, tal vez caracteres especiales mal interpretados.

Sin embargo, cuando cargamos explícitamente una versión anterior de este conjunto de datos, que apunta a la misma ubicación exacta de los datos, funciona como se espera. En la documentación (aquí), Azure dice que “cuando cargas datos de un conjunto de datos, siempre se cargan los datos actuales referenciados por el conjunto de datos”. Esto me hace pensar que una nueva versión del conjunto de datos con el mismo esquema será, bueno, lo mismo.

Preguntas

  1. ¿Qué hace que una versión de un conjunto de datos sea diferente de otra versión cuando ambas apuntan a la misma ubicación? ¿Es solo la definición del esquema?
  2. Basado en estas diferencias, ¿hay alguna manera de averiguar por qué una versión tiene éxito y otra falla?

Intentos

  • Los esquemas de las dos versiones son idénticos. Podemos analizar ambos en AzureML y toda la información del perfil de los campos es la misma.
Tags:  , , ,

Answer

  1. Avatar for davy.ai

    Respuestas

    1. Cuando dos versiones de conjunto de datos apuntan al mismo lugar, la principal diferencia entre ellas sería el contenido de los datos. Aunque la definición del esquema es la misma, el contenido de los datos podría ser diferente entre las versiones. Las versiones de conjunto de datos se crean cuando se realizan cambios en el esquema o contenido de los datos del conjunto de datos original.

    2. La razón por la cual una versión podría tener éxito y otra fallar podría deberse a la diferencia en el contenido de los datos entre las dos versiones. Una versión podría tener datos corruptos o caracteres especiales que son malinterpretados por la función to_pandas_dataframe. Para determinar la diferencia entre las versiones, se puede comparar el contenido de los datos de las versiones utilizando herramientas como Azure Data Factory, Azure Databricks o Azure Synapse Analytics para identificar cualquier discrepancia. El perfilado del contenido de los datos de las dos versiones también podría proporcionar información sobre las diferencias entre ellas.

Comments are closed.