es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Cómo crear un trabajo en Databricks utilizando un archivo Python fuera de dbfs?

Soy un traductor de español que traduce documentos de IT. Traduzca lo siguiente al español. No traduzca el código y la salida en markdown.

Soy bastante nuevo en Databricks, así que perdóname por la falta de conocimiento aquí. Estoy usando el recurso de Databricks en Azure. Principalmente, estoy usando la UI ahora mismo, pero sé que algunas características solo están disponibles usando databricks-cli, que ya he configurado pero aún no he usado.

He clonado mi repositorio Git en Databricks Repos usando la UI. Dentro de mi repositorio, hay un archivo de Python que me gustaría ejecutar como trabajo.

¿Puedo usar Trabajos de Databricks para crear un trabajo que llame a este archivo de Python directamente? La única forma en que he podido hacer que funcione es crear y cargar en dbfs otro archivo de Python que llamará al archivo en mi repositorio de Databricks.

Tal vez no se puede hacer, o tal vez la ruta que uso es incorrecta. Lamentablemente, probé con la siguiente estructura de ruta al crear un trabajo usando un archivo de Python y no funcionó.

file:/Workspace/Repos///mi_archivo_de_python.py

Tags:  , ,

Answer

  1. Avatar for davy.ai

    Sí, puede crear un trabajo en Databricks para llamar directamente al archivo Python en su repositorio de Databricks. Para hacer esto, puede utilizar el tipo de trabajo “Python” y especificar la ruta hacia el archivo Python en su repositorio. Estructura de la ruta correcta dependerá de donde se encuentre el archivo Python dentro de su repositorio.

    Por ejemplo, si su archivo Python se encuentra en una carpeta llamada “code” dentro de su repositorio, la ruta sería:

    dbfs:/Repos/<user_folder>/<repo_name>/code/my_python_file.py
    

    Tenga en cuenta que debe utilizar “dbfs” en lugar de “file” en la ruta, ya que dbfs es la forma preferida de hacer referencia a los archivos en Databricks.

    Si encuentra algún problema, también puede intentar utilizar la CLI de Databricks para crear el trabajo y especificar la ruta hacia el archivo Python. Por ejemplo:

    databricks jobs create --json-file job-config.json
    

    donde job-config.json contiene:

    {
     "name": "My Job",
     "new_cluster": {
     "spark_version": "7.3.x-scala2.12",
     "num_workers": 1
     },
     "notebook_task": {
     "notebook_path": "/Repos/<user_folder>/<repo_name>/my_python_file.py"
     },
     "max_concurrent_runs": 1,
     "min_retry_interval_millis": 300000,
     "max_retries": 3,
     "timeout_seconds": 3600
    }
    

    Esto creará un trabajo con una tarea de cuaderno que ejecutará el archivo Python especificado en su repositorio.

Comments are closed.