es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Tag: ELASTICSEARCH-HADOOP

Leer datos de s3 utilizando la máquina local – pyspark

from pyspark.sql import SparkSession import boto3 import os import pandas as pd spark = SparkSession.builder.getOrCreate() hadoop_conf = spark.sparkContext.jsc.hadoopConfiguration() hadoop_conf.set(“fs.s3.impl”, “org.apache.hadoop.fs.s3a.S3AFileSystem”) hadoop_conf.set(“fs.s3a.access.key”, “myaccesskey”) hadoop_conf.set(“fs.s3a.secret.key”, “mysecretkey”) hadoop_conf.set(“fs.s3a.endpoint”, “s3.amazonaws.com”) hadoop_conf.set(“fs.s3a.aws.credentials.provider”, “org.apache.hadoop.fs.s3a.BasicAWSCredentialsProvider”) hadoop_conf.set(“fs.s3a.connection.ssl.enabled”, “true”) conn = boto3.resource(“s3″, region_name=”us-east-1”) df = spark.read.csv(“s3a://mani-test-1206/test/test.csv”, header=True) df.show() spark.stop() Al ejecutar el código anterior, tuve el siguiente error: java.io.IOException: . . . Read more

Secuencias de escape no se están poblado la ruta de HDFS y el prefijo del archivo.

En mi flujo de Flume, quiero tener una ruta de HDFS personalizada pero no se está poblado ningún dato en los interceptores. Datos de ejemplo: 188 17 2016-06-01 00:31:10 6200.041736 0 Configuración agent2.sources.source2.interceptors = i2 i3 i4 agent2.sources.source2.interceptors.i2.type = regex_extractor agent2.sources.source2.interceptors.i3.type = regex_extractor agent2.sources.source2.interceptors.i4.type = regex_extractor # regex para obtener . . . Read more

Lea el archivo Avro Parquet desde dentro del archivo JAR.

Estoy intentando leer un archivo Parquet incluido como recurso dentro de un JAR, preferiblemente como un flujo. ¿Alguien tiene un ejemplo que funcione y que no implique escribir primero el recurso como un archivo temporal? Aquí está el código que estoy usando para leer los archivos, que funciona bien en . . . Read more