Reducir filas a una estructura de mapa en hsql
Nuevo en hadoop/hive y necesito reducir un conjunto de filas a un tipo de dato de mapa de la siguiente manera; De Col1 Col2 Jeff Smith Steve Brown A Col1 Col2 1 {“Jeff”:”Smith”}, {“Steve”:”Brown”}
Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.
Nuevo en hadoop/hive y necesito reducir un conjunto de filas a un tipo de dato de mapa de la siguiente manera; De Col1 Col2 Jeff Smith Steve Brown A Col1 Col2 1 {“Jeff”:”Smith”}, {“Steve”:”Brown”}
from pyspark.sql import SparkSession import boto3 import os import pandas as pd spark = SparkSession.builder.getOrCreate() hadoop_conf = spark.sparkContext.jsc.hadoopConfiguration() hadoop_conf.set(“fs.s3.impl”, “org.apache.hadoop.fs.s3a.S3AFileSystem”) hadoop_conf.set(“fs.s3a.access.key”, “myaccesskey”) hadoop_conf.set(“fs.s3a.secret.key”, “mysecretkey”) hadoop_conf.set(“fs.s3a.endpoint”, “s3.amazonaws.com”) hadoop_conf.set(“fs.s3a.aws.credentials.provider”, “org.apache.hadoop.fs.s3a.BasicAWSCredentialsProvider”) hadoop_conf.set(“fs.s3a.connection.ssl.enabled”, “true”) conn = boto3.resource(“s3″, region_name=”us-east-1”) df = spark.read.csv(“s3a://mani-test-1206/test/test.csv”, header=True) df.show() spark.stop() Al ejecutar el código anterior, tuve el siguiente error: java.io.IOException: . . . Read more
En mi flujo de Flume, quiero tener una ruta de HDFS personalizada pero no se está poblado ningún dato en los interceptores. Datos de ejemplo: 188 17 2016-06-01 00:31:10 6200.041736 0 Configuración agent2.sources.source2.interceptors = i2 i3 i4 agent2.sources.source2.interceptors.i2.type = regex_extractor agent2.sources.source2.interceptors.i3.type = regex_extractor agent2.sources.source2.interceptors.i4.type = regex_extractor # regex para obtener . . . Read more
Estoy intentando descomprimir cientos de archivos en HDFS y moverlos individualmente a otra carpeta para que puedan cargarse en una tabla externa en Hive. Intenté el siguiente comando, pero solo dio como resultado 1 archivo unido sin nombre en el directorio de destino. !hdfs dfs -cat /user/[somedir1]/* | hadoop fs . . . Read more
Estoy intentando leer un archivo Parquet incluido como recurso dentro de un JAR, preferiblemente como un flujo. ¿Alguien tiene un ejemplo que funcione y que no implique escribir primero el recurso como un archivo temporal? Aquí está el código que estoy usando para leer los archivos, que funciona bien en . . . Read more