Necesito ayuda en Python Pyspark. Tengo un objeto de origen que se ve así: Edit: Ambas listas son matrices numpy de tipos de datos numpy obj = [(“cosa1”, ([1,2,3], [0.1,0.2,0.3]), (“cosa2”, ([1,2,3], [0.1,0.2,0.3]), (“cosa3”, ([1,2,3], [0.1,0.2,0.3]), (“cosa4”, ([1,2,3], [0.1,0.2,0.3]), …] ¿Hay alguna manera de crear un dataframe de chispa para . . . Read more
Tengo un Dataframe de Pyspark con las siguientes columnas: CD CDPRE OBJID 123 null 1 456 123 2 789 456 3 098 null 1 765 null 1 432 765 2 Lo que necesito hacer es comprobar si el valor en la columna “CDPRE” está en la columna “CD” hasta llegar . . . Read more
Tengo el siguiente código: DataFrame idDF = sparkHelper.loadIds(); List<String> idList = idDF.javaRDD().map(row -> { Integer id = row.getAs(“id”); return Integer.toString(id); }).collect(); String ids = String.join(“,”, idList); String sql = “(SELECT a.* from TableA a where a.id in (” + ids + “)) as tl”; Map<String,String> props = getDbConnectionProps(); // Configuración . . . Read more
Tengo una situación en la que tengo un diccionario de elementos en PySpark como este: swap={‘A’: 0.07677341668184234, : 0.1497896460766734, ‘B’: 0.07186667210628232} Tengan en cuenta el objeto “pandas.NA” definido como una de las claves. También tengo una tabla de pandas configurada con varios valores que pueden estar o no en el . . . Read more
Soy nuevo en Spark y DB2. Tengo un marco de datos conmigo generado a partir de varias fuentes y lo estoy almacenando en una tabla DB2. Estoy utilizando el modo ‘Sobrescribir’ para hacer esto, ya que quiero que el registro existente se elimine automáticamente sin ninguna condición. Al ejecutar este . . . Read more