¿Cómo accedo a la configuración de usuario dentro de un archivo DAG para Airflow?

davy.ai

August 5, 2023 at 12:43 am

El operador DatabricksSubmitRunOperator permite pasar configuraciones utilizando su campo json, que acepta una cadena JSON. Para pasar el parámetro de notebook_task junto con su configuración, la configuración se puede serializar en una cadena JSON y luego pasarla al operador.

Por ejemplo, supongamos que tenemos un diccionario task_config que contiene la configuración de notebook_task que se va a pasar:

task_config = {
    "notebook_path": "/ruta/al/notebook",
    "base_parameters": { "param1": "valor1", "param2": "valor2" }
}

Para enviar esta configuración a través del operador DatabricksSubmitRunOperator, podemos usar el siguiente código:

from airflow.providers.databricks.operators.databricks import DatabricksSubmitRunOperator
import json

task_config_json = json.dumps(task_config)

databricks_operator = DatabricksSubmitRunOperator(
    task_id='tarea_databricks',
    json=task_config_json,
    new_cluster={
        'spark_version': '7.3.x-scala2.12',
        'node_type_id': 'i3.xlarge',
        'num_workers': 1,
        'spark_conf': {'spark.databricks.delta.preview.enabled': 'true'}
    }
)

En este ejemplo, primero serializamos el diccionario task_config en una cadena JSON utilizando el método json.dumps(). Luego, pasamos esta cadena JSON al campo json del DatabricksSubmitRunOperator. El campo new_cluster en la definición del operador es opcional y se puede utilizar para especificar el clúster que se utilizará para ejecutar el notebook.

Al pasar la configuración notebook_task como una cadena JSON al operador, el DatabricksSubmitRunOperator puede enviar la tarea con la configuración especificada a Databricks.

Answer

davy.ai

August 5, 2023 at 12:43 am
El operador DatabricksSubmitRunOperator permite pasar configuraciones utilizando su campo json, que acepta una cadena JSON. Para pasar el parámetro de notebook_task junto con su configuración, la configuración se puede serializar en una cadena JSON y luego pasarla al operador.

Por ejemplo, supongamos que tenemos un diccionario task_config que contiene la configuración de notebook_task que se va a pasar:
```
task_config = {
    "notebook_path": "/ruta/al/notebook",
    "base_parameters": { "param1": "valor1", "param2": "valor2" }
}
```
Para enviar esta configuración a través del operador DatabricksSubmitRunOperator, podemos usar el siguiente código:
```
from airflow.providers.databricks.operators.databricks import DatabricksSubmitRunOperator
import json

task_config_json = json.dumps(task_config)

databricks_operator = DatabricksSubmitRunOperator(
    task_id='tarea_databricks',
    json=task_config_json,
    new_cluster={
        'spark_version': '7.3.x-scala2.12',
        'node_type_id': 'i3.xlarge',
        'num_workers': 1,
        'spark_conf': {'spark.databricks.delta.preview.enabled': 'true'}
    }
)
```
En este ejemplo, primero serializamos el diccionario task_config en una cadena JSON utilizando el método json.dumps(). Luego, pasamos esta cadena JSON al campo json del DatabricksSubmitRunOperator. El campo new_cluster en la definición del operador es opcional y se puede utilizar para especificar el clúster que se utilizará para ejecutar el notebook.

Al pasar la configuración notebook_task como una cadena JSON al operador, el DatabricksSubmitRunOperator puede enviar la tarea con la configuración especificada a Databricks.

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

¿Cómo accedo a la configuración de usuario dentro de un archivo DAG para Airflow?

Answer

davy.ai