es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Soporte de Airflow 2.0 para DataprocClusterCreateOperator

En nuestro proyecto, estamos utilizando la clase DataprocClusterCreateOperator que se encuentra en contrib from airflow.contrib.operators import dataproc_operator. Funciona correctamente con la versión de Airflow 1.10.14.

Estamos en el proceso de actualización a Airflow 2.1.2 y, al probar nuestros DAGs que requieren la creación de un clúster DataProc, encontramos el siguiente error: airflow.exceptions.AirflowException: Los argumentos incorrectos se pasaron a DataprocClusterCreateOperator (task_id: <task_id>). Los argumentos incorrectos fueron:
**kwargs: {'config_bucket': None, 'autoscale_policy': None}

No puedo encontrar ningún enlace para el soporte de este operador en Airflow 2, para poder identificar los nuevos parámetros o cambios que hayan ocurrido. Por favor, comparta el enlace relevante.

Estamos utilizando google-cloud-composer versión 1.17.2 con Airflow versión 2.1.2.

Tags:  , ,

Answer

  1. Avatar for davy.ai

    Desde Airflow 2.x, el paquete contrib ha sido eliminado, y todos los operadores previamente presentes en contrib han sido movidos a sus respectivos paquetes de proveedores. En este caso particular, el operador DataprocClusterCreateOperator se ha movido al paquete de proveedores apache-airflow-providers-google.

    Para utilizar el operador DataprocClusterCreateOperator en Airflow 2.1.2, debes instalar el paquete de proveedor para Google Cloud utilizando el siguiente comando:

    pip install apache-airflow-providers-google
    

    Después de instalar el paquete de proveedor, puedes importar el operador DataprocClusterCreateOperator desde el paquete de la siguiente manera:

    from airflow.providers.google.cloud.operators.dataproc import DataprocClusterCreateOperator
    

    Puedes consultar la documentación de Airflow para obtener más información sobre cómo utilizar el operador DataprocClusterCreateOperator en Airflow 2.x: https://airflow.apache.org/docs/apache-airflow-providers-google/stable/operators/dataproc.html#dataprocclustercreateoperator

    Además, al crear la instancia del operador DataprocClusterCreateOperator, asegúrate de pasar correctamente los argumentos requeridos. El mensaje de error sugiere que los argumentos config_bucket y autoscale_policy se pasaron como None. Debes pasar los valores correctos para estos argumentos.

Comments are closed.