Tag: ARCHIVE

Contar el número de veces que ocurre un patrón de regex en Hive

29 May, 2023 Programación 0

Tengo una variable de cadena almacenada en hive de la siguiente manera: stringvar AA1,BB3,CD4 AA12,XJ5 Me gustaría contar (y filtrar) cuántas veces ocurre el patrón regex \w\w\d. En el ejemplo, en la primera fila hay obviamente tres ejemplos de ello. ¿Cómo puedo hacerlo sin recurrir a vistas laterales y explosiones . . . Read more

Script de shell para obtener el recuento de filas de todas las tablas de Hive en múltiples bases de datos de Hive.

28 May, 2023 Programación 0

Estoy tratando de crear un script de shell que extraiga la cantidad de filas en todas las tablas de varias bases de datos. Todas las bases de datos siguen la misma convención de nombres “the_same_databasename_<%>”, excepto la capa final en el nombre, que varía. Estoy intentando ejecutar lo siguiente: use . . . Read more

Cómo buscar celdas basadas en datos únicos variables, Google Sheets.

28 May, 2023 Programación 0

FECHA NOMBRE CX# DATOS 11/7/2021 Alex CX55 1.34 11/7/2021 Linda CX43 22.9 11/7/2021 Loki CX109 3.43 11/8/2021 Alex CX 12 23 11/8/2021 Linda CX 113 2.49 Lo que estoy tratando de hacer es pegar en una hoja maestra de datos para una semana, que se divide por fecha y por . . . Read more

Obtener el último valor emparejado después de la barra invertida en Hive.

27 May, 2023 Programación 0

Quiero extraer la última parte del camino. Por ejemplo, si mi camino es: \abc.ksiw.com\POP-K-DRIVE\project-app\cname\554789A Quiero 554789A como salida. Intenté con regexp_extract(col, '[\\w+]+$',0) pero eso no funciona. ¿Hay una mejor forma de hacer esto?

PySpark: ¿Cómo leer de vuelta una tabla particionada escrita en un Bucket de S3?

26 May, 2023 Programación 0

Estoy tratando de trabajar con bucketing en PySpark, usando estos ejemplos generales: https://gist.github.com/luminousmen/8dffa01a02bb58946b1299a621e44897 https://towardsdatascience.com/best-practices-for-bucketing-in-spark-sql-ea9f23f7dd53 Escribo la tabla con bucketing en S3 de la siguiente manera: spark = SparkSession.builder.appName(“bucketing test”).enableHiveSupport().config( “spark.sql.sources.bucketing.enabled”, “true”).getOrCreate() spark.conf.set(“spark.sql.autoBroadcastJoinThreshold”, -1) Crear el DF df = spark.range(1, 16000, 1, 16).select( F.col(“id”).alias(“key”), F.rand(12).alias(“value”) ) Escribir el DF al disco . . . Read more

1 … 21 22 23 24

es.davy.ai

¿Tienes una pregunta?