es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Tag: APACHE-SPARK

Marco de datos anidado de PySpark.

Necesito ayuda en Python Pyspark. Tengo un objeto de origen que se ve así: Edit: Ambas listas son matrices numpy de tipos de datos numpy obj = [(“cosa1”, ([1,2,3], [0.1,0.2,0.3]), (“cosa2”, ([1,2,3], [0.1,0.2,0.3]), (“cosa3”, ([1,2,3], [0.1,0.2,0.3]), (“cosa4”, ([1,2,3], [0.1,0.2,0.3]), …] ¿Hay alguna manera de crear un dataframe de chispa para . . . Read more

Spark: Cómo utilizar una tabla temporal para filtrar los resultados al usar sqlContext.sql y particionar por columnas.

Tengo el siguiente código: DataFrame idDF = sparkHelper.loadIds(); List<String> idList = idDF.javaRDD().map(row -> { Integer id = row.getAs(“id”); return Integer.toString(id); }).collect(); String ids = String.join(“,”, idList); String sql = “(SELECT a.* from TableA a where a.id in (” + ids + “)) as tl”; Map<String,String> props = getDbConnectionProps(); // Configuración . . . Read more