Tag: APACHE-SPARK-SQL
import os for file in os.listdir(“/content/drive/MyDrive/BigData2021/Lecture23/datasets”): if file.endswith(“.csv”): print(os.path.join(file)) cities.csv airports.csv data_scientist_salaries.csv Quiero leer este archivo CSV con spark que comience con una consonante sin especificar el nombre del archivo CSV. ¿Cómo se hace eso?
Tengo un dataframe con el siguiente esquema utilizando pyspark: |– suborders: array (nullable = true) | |– element: struct (containsNull = true) | | |– trackingStatusHistory: array (nullable = true) | | | |– element: struct (containsNull = true) | | | | |– trackingStatusUpdatedAt: string (nullable = true) | . . . Read more
Tengo 2 formatos de fecha (MM/dd/yy HH:mm y yyyy-mm-dd HH:mm:ss) en la hora de inicio que necesitan convertirse al formato yyyy-mm-dd HH:mm. ¿Cómo puedo manejar ambos formatos de datos en una sola declaración SELECT a continuación para convertirlos al formato deseado? df1 = spark.sql("""select from_unixtime(unix_timestamp(strt_tm,'MM/dd/yy HH:mm'),'yyyy-mm-dd HH:mm) as starttime from . . . Read more
Una de mis tablas contiene columnas de fecha con el formato yyyy-MM-ddTHH:mm:ss.SSSZ y necesito convertir esto al formato yyyy-MM-dd HH:mm:ss. Puedo hacer esto en Hive, pero cuando intento hacerlo en Spark, arroja un error. Hive: sql select order.admit_date, from_unixtime(unix_timestamp(order.ADMIT_DATE, ‘yyyy-MM-dd\’T\’HH:mm:ss.SSS\’Z\”), ‘yyyy-MM-dd HH:mm:ss’) as ADMIT_DATE from daily_orders order; “`lang-text admit<em>date admit</em>date . . . Read more
Estoy escribiendo un trabajo de aws glue (código pyspark) utilizando la Transformación SQL. Estoy obteniendo un error con scala.MatchError: list#5252 [] (de la clase org.apache.spark.sql.catalyst.expressions.ListQuery). Hay una tabla llamada tbl1 y cuando excluyo esta tabla de la consulta, funciona correctamente, pero tan pronto como se utiliza tbl1, se arroja el . . . Read more