Tag: ARCHIVE
Tengo una variable de cadena almacenada en hive de la siguiente manera: stringvar AA1,BB3,CD4 AA12,XJ5 Me gustaría contar (y filtrar) cuántas veces ocurre el patrón regex \w\w\d. En el ejemplo, en la primera fila hay obviamente tres ejemplos de ello. ¿Cómo puedo hacerlo sin recurrir a vistas laterales y explosiones . . . Read more
Estoy tratando de crear un script de shell que extraiga la cantidad de filas en todas las tablas de varias bases de datos. Todas las bases de datos siguen la misma convención de nombres “the_same_databasename_<%>”, excepto la capa final en el nombre, que varía. Estoy intentando ejecutar lo siguiente: use . . . Read more
FECHA NOMBRE CX# DATOS 11/7/2021 Alex CX55 1.34 11/7/2021 Linda CX43 22.9 11/7/2021 Loki CX109 3.43 11/8/2021 Alex CX 12 23 11/8/2021 Linda CX 113 2.49 Lo que estoy tratando de hacer es pegar en una hoja maestra de datos para una semana, que se divide por fecha y por . . . Read more
Quiero extraer la última parte del camino. Por ejemplo, si mi camino es: \abc.ksiw.com\POP-K-DRIVE\project-app\cname\554789A Quiero 554789A como salida. Intenté con regexp_extract(col, '[\\w+]+$',0) pero eso no funciona. ¿Hay una mejor forma de hacer esto?
Estoy tratando de trabajar con bucketing en PySpark, usando estos ejemplos generales: https://gist.github.com/luminousmen/8dffa01a02bb58946b1299a621e44897 https://towardsdatascience.com/best-practices-for-bucketing-in-spark-sql-ea9f23f7dd53 Escribo la tabla con bucketing en S3 de la siguiente manera: spark = SparkSession.builder.appName(“bucketing test”).enableHiveSupport().config( “spark.sql.sources.bucketing.enabled”, “true”).getOrCreate() spark.conf.set(“spark.sql.autoBroadcastJoinThreshold”, -1) Crear el DF df = spark.range(1, 16000, 1, 16).select( F.col(“id”).alias(“key”), F.rand(12).alias(“value”) ) Escribir el DF al disco . . . Read more