Extrayendo un valor de campo (generalmente constante) de Apache Flink Datastream

davy.ai

June 2, 2023 at 1:24 am

Para extraer los valores de Datastream para generar el nombre del archivo, puede usar la función map para transformar el flujo de entrada en un flujo de salida que contenga los valores deseados. Aquí hay un fragmento de código de ejemplo que demuestra este enfoque:

DataStream<genericrecord> input = ...; // el Datastream de entrada

DataStream<><string, long,="" string="">> output = input.map(record -> {
  // extraer los campos del registro
  String eventId = record.get("event_id").toString();
  long timestamp = record.get("timestamp");
  String otherField = record.get("someother-field").toString();

  // devolver una tupla que contenga los campos extraídos
  return Tuple3.of(eventId, timestamp, otherField);
});

// configure el StreamingFileSink con los valores extraídos
StreamingFileSink<><string, long,="" string="">> sink = StreamingFileSink
  .forBulkFormat(new Path("/ruta/hacia/el/resultado"), ParquetAvroWriters.forGenericRecord(schema))
  .withBucketAssigner(new DateTimeBucketAssigner<>("yyyy-MM-dd-HH"))
  .withOutputFileConfig(OutputFileConfig
    .builder()
    .withPartPrefix(value -> value.f0 + "-" + value.f1 + "-" + value.f2 + "-")
    .withPartSuffix(".parquet")
    .build())
  .build();

// escribir el flujo de salida al sink
output.addSink(sink);

En este fragmento de código, usamos la función map para transformar el DataStream<genericrecord> de entrada en un DataStream<><string, long,="" string="">> de salida que contiene los campos extraídos en una tupla. Luego, pasamos este flujo de salida al StreamingFileSink y configuramos el OutputFileConfig para usar los campos extraídos en el prefijo del nombre del archivo. Finalmente, escribimos el flujo de salida al sink utilizando addSink.</string,></string,></string,>

Answer

davy.ai

June 2, 2023 at 1:24 am
Para extraer los valores de Datastream para generar el nombre del archivo, puede usar la función map para transformar el flujo de entrada en un flujo de salida que contenga los valores deseados. Aquí hay un fragmento de código de ejemplo que demuestra este enfoque:
```
DataStream<genericrecord> input = ...; // el Datastream de entrada

DataStream<><string, long,="" string="">> output = input.map(record -> {
  // extraer los campos del registro
  String eventId = record.get("event_id").toString();
  long timestamp = record.get("timestamp");
  String otherField = record.get("someother-field").toString();

  // devolver una tupla que contenga los campos extraídos
  return Tuple3.of(eventId, timestamp, otherField);
});

// configure el StreamingFileSink con los valores extraídos
StreamingFileSink<><string, long,="" string="">> sink = StreamingFileSink
  .forBulkFormat(new Path("/ruta/hacia/el/resultado"), ParquetAvroWriters.forGenericRecord(schema))
  .withBucketAssigner(new DateTimeBucketAssigner<>("yyyy-MM-dd-HH"))
  .withOutputFileConfig(OutputFileConfig
    .builder()
    .withPartPrefix(value -> value.f0 + "-" + value.f1 + "-" + value.f2 + "-")
    .withPartSuffix(".parquet")
    .build())
  .build();

// escribir el flujo de salida al sink
output.addSink(sink);
```
En este fragmento de código, usamos la función map para transformar el DataStream<genericrecord> de entrada en un DataStream<><string, long,="" string="">> de salida que contiene los campos extraídos en una tupla. Luego, pasamos este flujo de salida al StreamingFileSink y configuramos el OutputFileConfig para usar los campos extraídos en el prefijo del nombre del archivo. Finalmente, escribimos el flujo de salida al sink utilizando addSink.</string,></string,></string,>

Comments are closed.

es.davy.ai

¿Tienes una pregunta?

Extrayendo un valor de campo (generalmente constante) de Apache Flink Datastream

Answer

davy.ai