Tag: APACHE-SPARK

Marco de datos anidado de PySpark.

26 May, 2023 Programación 0

Necesito ayuda en Python Pyspark. Tengo un objeto de origen que se ve así: Edit: Ambas listas son matrices numpy de tipos de datos numpy obj = [(“cosa1”, ([1,2,3], [0.1,0.2,0.3]), (“cosa2”, ([1,2,3], [0.1,0.2,0.3]), (“cosa3”, ([1,2,3], [0.1,0.2,0.3]), (“cosa4”, ([1,2,3], [0.1,0.2,0.3]), …] ¿Hay alguna manera de crear un dataframe de chispa para . . . Read more

Rellenar recursivamente una columna en Pyspark.

26 May, 2023 Programación 0

Tengo un Dataframe de Pyspark con las siguientes columnas: CD CDPRE OBJID 123 null 1 456 123 2 789 456 3 098 null 1 765 null 1 432 765 2 Lo que necesito hacer es comprobar si el valor en la columna “CDPRE” está en la columna “CD” hasta llegar . . . Read more

Spark: Cómo utilizar una tabla temporal para filtrar los resultados al usar sqlContext.sql y particionar por columnas.

26 May, 2023 Programación 0

Tengo el siguiente código: DataFrame idDF = sparkHelper.loadIds(); List<String> idList = idDF.javaRDD().map(row -> { Integer id = row.getAs(“id”); return Integer.toString(id); }).collect(); String ids = String.join(“,”, idList); String sql = “(SELECT a.* from TableA a where a.id in (” + ids + “)) as tl”; Map<String,String> props = getDbConnectionProps(); // Configuración . . . Read more

Pyspark: Reemplazando valor en una columna buscando en un diccionario con valores de .

26 May, 2023 Programación 0

Tengo una situación en la que tengo un diccionario de elementos en PySpark como este: swap={‘A’: 0.07677341668184234, : 0.1497896460766734, ‘B’: 0.07186667210628232} Tengan en cuenta el objeto “pandas.NA” definido como una de las claves. También tengo una tabla de pandas configurada con varios valores que pueden estar o no en el . . . Read more

El modo de sobrescritura no funciona en spark-sql mientras se agrega datos en db2.

26 May, 2023 Programación 0

Soy nuevo en Spark y DB2. Tengo un marco de datos conmigo generado a partir de varias fuentes y lo estoy almacenando en una tabla DB2. Estoy utilizando el modo ‘Sobrescribir’ para hacer esto, ya que quiero que el registro existente se elimine automáticamente sin ninguna condición. Al ejecutar este . . . Read more

1 … 100 101 102 … 105

es.davy.ai

¿Tienes una pregunta?

Tag: APACHE-SPARK

Marco de datos anidado de PySpark.

Rellenar recursivamente una columna en Pyspark.

Spark: Cómo utilizar una tabla temporal para filtrar los resultados al usar sqlContext.sql y particionar por columnas.

Pyspark: Reemplazando valor en una columna buscando en un diccionario con valores de .

El modo de sobrescritura no funciona en spark-sql mientras se agrega datos en db2.