Tag: GOOGLE-CLOUD-DATAFLOW
Tenemos una tabla FACT1 del proyecto1 ubicada en la región de EE.UU. y una tabla FACT2 del proyecto2 ubicada en la región de Asia. Deseamos hacer una unión/join entre estas dos tablas y persistir los resultados en una tabla del proyecto2. Sin embargo, GCP no permite realizar consultas entre tablas . . . Read more
Tenemos un flujo de datos que lee mensajes json desde la suscripción Pub/Sub, transforma los mensajes json a tablas y mutaciones de forma separada, y finalmente los escribe en BigQuery y Spanner después de algunas validaciones. Pero recibimos una advertencia "Se detectó una clave caliente en el paso'ReadMessageFromPubsubSubscription/PubsubUnboundedSource' " dentro . . . Read more
Intento procesar datos provenientes de BigQuery. Creé un pipeline con Apache Beam de la siguiente manera: nlp = fr_core_news_lg.load() class CleanText(beam.DoFn): def process(self, row): row[‘descriptioncleaned’] = ‘ ‘.join(unidecode.unidecode(str(row[‘description’])).lower().translate(str.maketrans(string.punctuation, ‘ ‘*len(string.punctuation))).split()) yield row class LemmaText(beam.DoFn): def process(self, row): doc = nlp(row[‘descriptioncleaned’], disable=[“tagger”, “parser”, “attribute_ruler”, “ner”, “textcat”]) row[‘descriptionlemmatized’] = ‘ ‘.join(list(set([token.lemma_ for . . . Read more
Intenté ejecutar un simple pipeline de Java de Apache Beam en Cloud Dataflow, pero seguía encontrando el siguiente mensaje de error. El gráfico de trabajo se muestra en la consola en la nube, pero no avanza y el error aparece en la pestaña de diagnóstico. Error sincronizando la vaina ccd0b94434fa6d8bd27fa1a35c7bbaa1 . . . Read more
Soy nuevo en Apache Beam y estoy investigando cómo usar sideinput para uno de nuestros casos de uso. A continuación se muestra el código. PipelineOptions options = PipelineOptionsFactory.fromArgs().as(PipelineOptions.class); Pipeline pipeline = Pipeline.create(options); final List<string> sideInput = Arrays.asList(“1”, “2”, “3”, “4”); final List<string> input = Arrays.asList(“a”, “b”, “c”, “d”); PCollectionView<><string>> sideinput . . . Read more