Tengo un problema muy simple con Spark, pero hay muy poca información en la web. Me he encontrado con este problema utilizando tanto pyspark como scala. El problema es que lleva mucho tiempo guardar el archivo csv/hive. Aquí hay un código muy simple que tengo. spark = SparkSession. sql = . . . Read more
Necesito extraer el valor del atributo donde el espacio de nombres es GLOBALID en el siguiente formato JSON, por ejemplo, en este ejemplo necesito extraer “123456”: [{ “namespace”: “GLOBALID”, “key”: “ID”, “value”: “123456” }, { “namespace”: “RPS”, “key”: “ID”, “value”: “12xt12” } ] Sin embargo, cuando uso select get_json_object(json_column, ‘$.GLOBALID.value’), . . . Read more
Tengo 4 tablas. La tabla 1 tiene como clave primaria la columna ID y la tabla 2 tiene como clave foránea la misma columna ID. Las tablas 3 y 4 son esencialmente archivos de las tablas 1 y 2, respectivamente, y tienen la misma clave primaria y foránea, así como . . . Read more
En el proceso de ejecutar mi script hql, tengo que almacenar datos en una tabla temporal antes de insertarlos en la tabla principal. En ese escenario, he intentado crear una tabla temporal con un guión bajo al inicio. Nota: con comillas el nombre de la tabla con guión bajo no . . . Read more
Mis datos se parecen a esto: ID acno fecha tranym AA 12345 20170505 201705 BB 67890 20180604 201806 Quiero cambiarlo así: col1 col2 ID AA acno 12345 fecha 20170505 tranym 201705 ID BB acno 67890 fecha 20180604 tranym 201806 Realmente aprecio una explicación detallada de la solución.