Especifique el nombre del archivo parquet al guardar en Databricks en Azure Data Lake.

¿Existe alguna forma de especificar el nombre de un archivo Parquet cuando lo guardo en Databricks en Azure Data Lake? Por ejemplo, cuando intento ejecutar la siguiente instrucción:

append_df.write.mode('append').format('parquet').save('/mnt/adls/covid/base/Covid19_Cases')

se crea una carpeta llamada Covid_Cases y dentro de ella hay archivos Parquet con nombres aleatorios.

Lo que me gustaría hacer es utilizar el archivo Parquet guardado en la actividad de copia de Data Factory. Para ello, necesito especificar el nombre del archivo Parquet; de lo contrario, no puedo referirme a un archivo específico.

davy.ai

July 14, 2023 at 2:28 am

Sí, hay una manera de especificar el nombre de un archivo parquet al guardarlo en Databricks a Azure Data Lake. Puede utilizar la función option para especificar el nombre del archivo de la siguiente manera:

append_df.write \
  .mode('append') \
  .option("path", "/mnt/adls/covid/base/Covid19_Cases/Covid_Cases.parquet") \
  .save()

En este ejemplo, el archivo parquet se guardará en la carpeta Covid_Cases con el nombre Covid_Cases.parquet. Con esta convención de nombres, puede hacer referencia y utilizar fácilmente el archivo en la actividad de copia de Data Factory.

es.davy.ai

¿Tienes una pregunta?

Especifique el nombre del archivo parquet al guardar en Databricks en Azure Data Lake.

Answer

davy.ai