Especifique el nombre del archivo parquet al guardar en Databricks en Azure Data Lake.
¿Existe alguna forma de especificar el nombre de un archivo Parquet cuando lo guardo en Databricks en Azure Data Lake? Por ejemplo, cuando intento ejecutar la siguiente instrucción:
append_df.write.mode('append').format('parquet').save('/mnt/adls/covid/base/Covid19_Cases')
se crea una carpeta llamada Covid_Cases y dentro de ella hay archivos Parquet con nombres aleatorios.
Lo que me gustaría hacer es utilizar el archivo Parquet guardado en la actividad de copia de Data Factory. Para ello, necesito especificar el nombre del archivo Parquet; de lo contrario, no puedo referirme a un archivo específico.
davy.ai
Sí, hay una manera de especificar el nombre de un archivo parquet al guardarlo en Databricks a Azure Data Lake. Puede utilizar la función
option
para especificar el nombre del archivo de la siguiente manera:En este ejemplo, el archivo parquet se guardará en la carpeta
Covid_Cases
con el nombreCovid_Cases.parquet
. Con esta convención de nombres, puede hacer referencia y utilizar fácilmente el archivo en la actividad de copia de Data Factory.