Mi PySpark calcula un DataFrame que quiero insertar en una tabla de BigQuery (desde un clúster de dataproc). En el lado de BigQuery, el campo de partición es OBLIGATORIO. En el lado del DataFrame, el campo de partición inferido no es OBLIGATORIO, por eso creo un esquema que define este . . . Read more
Estoy utilizando la versión de Airflow: 2.1.4+composer y tengo un DAG donde he definido el DataprocClusterCreateOperator de la siguiente manera: create_dataproc = dataproc_operator.DataprocClusterCreateOperator( task_id=’create_dataproc’, cluster_name=’dataproc-cluster-demo-{{ ds_nodash }}’, num_workers=2, region=’us-east4′, zone=’us-east4-a’, subnetwork_uri=’projects/example’, internal_ip_only=True, tags=[‘allow-iap-ssh’], init_actions_uris=[‘gs://goog-dataproc-initialization-actions-us-east4/connectors/connectors.sh’], metadata=[(‘spark-bigquery-connector-url’,’gs://spark-lib/bigquery/spark-2.4-bigquery-0.23.1-preview.jar’)], labels=dict(equipo=’dm’, ambiente=’dev’, etapa=’datapreparation’, producto=’x’, modelo=’x’), master_machine_type=’n1-standard-1′, worker_machine_type=’n1-standard-1′, image_version=’1.5-debian10′ ) He pasado los metadatos como una . . . Read more
Estoy tratando de ejecutar un trabajo a través de un archivo YAML de plantilla de flujo de trabajo de dataproc. Estoy ejecutando el siguiente comando en la nube: gcloud dataproc workflow-templates instantiate-from-file –file=’gs://mybucket/template.yaml’ –region=us-central1 Estoy obteniendo el siguiente error: ERROR: (gcloud.dataproc.workflow-templates.instantiate-from-file) No se pudo leer el archivo [gs://mybucket/template.yaml]: [Errno 2] . . . Read more
Tengo un clúster GCP Dataproc y estoy tratando de implementar un trabajo pyspark que produce a un tema usando SSL. Los archivos pem están almacenados en el bucket gs://dataprockafkacode/code, y estoy accediendo a los archivos pem en el código que se muestra a continuación. Sin embargo, el código no puede . . . Read more
He creado un clúster de 7 nodos en dataproc (1 máster y 6 ejecutores, 3 ejecutores primarios y 3 ejecutores secundarios preemptibles). Puedo ver en la consola que el clúster está creado correctamente. Tengo las 6 direcciones IP y nombres de VM. Estoy intentando probar el clúster, pero parece que . . . Read more