Tag: APACHE-SPARK-SQL

Cómo leer todos los archivos CSV que comienzan con una consonante?

06 Aug, 2023 Programación 0

import os for file in os.listdir(“/content/drive/MyDrive/BigData2021/Lecture23/datasets”): if file.endswith(“.csv”): print(os.path.join(file)) cities.csv airports.csv data_scientist_salaries.csv Quiero leer este archivo CSV con spark que comience con una consonante sin especificar el nombre del archivo CSV. ¿Cómo se hace eso?

Añadir un nuevo elemento a un array anidado de estructuras en Pyspark.

05 Aug, 2023 Programación 0

Tengo un dataframe con el siguiente esquema utilizando pyspark: |– suborders: array (nullable = true) | |– element: struct (containsNull = true) | | |– trackingStatusHistory: array (nullable = true) | | | |– element: struct (containsNull = true) | | | | |– trackingStatusUpdatedAt: string (nullable = true) | . . . Read more

En PySpark SQL, convierta el formato de fecha de mm/dd/yy hh:mm o yyyy-mm-dd hh:mm:ss a yyyy-mm-dd hh:mm.

05 Aug, 2023 Programación 0

Tengo 2 formatos de fecha (MM/dd/yy HH:mm y yyyy-mm-dd HH:mm:ss) en la hora de inicio que necesitan convertirse al formato yyyy-mm-dd HH:mm. ¿Cómo puedo manejar ambos formatos de datos en una sola declaración SELECT a continuación para convertirlos al formato deseado? df1 = spark.sql("""select from_unixtime(unix_timestamp(strt_tm,'MM/dd/yy HH:mm'),'yyyy-mm-dd HH:mm) as starttime from . . . Read more

Cómo convertir una marca de tiempo de Unix en Hive a una marca de tiempo de Unix en Spark en el formato “yyyy-MM-ddTHH:mm:ss.SSSZ”.

05 Aug, 2023 Programación 0

Una de mis tablas contiene columnas de fecha con el formato yyyy-MM-ddTHH:mm:ss.SSSZ y necesito convertir esto al formato yyyy-MM-dd HH:mm:ss. Puedo hacer esto en Hive, pero cuando intento hacerlo en Spark, arroja un error. Hive: sql select order.admit_date, from_unixtime(unix_timestamp(order.ADMIT_DATE, ‘yyyy-MM-dd\’T\’HH:mm:ss.SSS\’Z\”), ‘yyyy-MM-dd HH:mm:ss’) as ADMIT_DATE from daily_orders order; “`lang-text admit<em>date admit</em>date . . . Read more

El código de pyspark falla con el error “Ocurrió un error al llamar a z:com.amazonaws.services.glue.DynamicFrame.apply. list#5451 []”.

05 Aug, 2023 Programación 0

Estoy escribiendo un trabajo de aws glue (código pyspark) utilizando la Transformación SQL. Estoy obteniendo un error con scala.MatchError: list#5252 [] (de la clase org.apache.spark.sql.catalyst.expressions.ListQuery). Hay una tabla llamada tbl1 y cuando excluyo esta tabla de la consulta, funciona correctamente, pero tan pronto como se utiliza tbl1, se arroja el . . . Read more

1 2 3 … 48

es.davy.ai

¿Tienes una pregunta?

Tag: APACHE-SPARK-SQL

Cómo leer todos los archivos CSV que comienzan con una consonante?

Añadir un nuevo elemento a un array anidado de estructuras en Pyspark.

En PySpark SQL, convierta el formato de fecha de mm/dd/yy hh:mm o yyyy-mm-dd hh:mm:ss a yyyy-mm-dd hh:mm.

Cómo convertir una marca de tiempo de Unix en Hive a una marca de tiempo de Unix en Spark en el formato “yyyy-MM-ddTHH:mm:ss.SSSZ”.

El código de pyspark falla con el error “Ocurrió un error al llamar a z:com.amazonaws.services.glue.DynamicFrame.apply. list#5451 []”.