Comparación entre mapPartitions de Apache Spark y UDF
¿Se puede considerar que el método mapPartitions de Apache Spark es una sustitución mucho más eficiente de las UDF de Spark con una funcionalidad prácticamente idéntica?
Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.
¿Se puede considerar que el método mapPartitions de Apache Spark es una sustitución mucho más eficiente de las UDF de Spark con una funcionalidad prácticamente idéntica?
Esto podría ser una pregunta de nicho, pero imagina que tienes una udf definida de esta manera: import pyspark.sql.functions as sf import pyspark.sql.types as st @sf.udf(returnType=st.ArrayType(st.StringType())) def some_function(text: str) -> List[str]: return text.split(' ') Esto devuelve una udf, de la cual necesito conocer su returnType. ¿Hay alguna manera de obtener . . . Read more
He estado enfrentando un problema durante las últimas horas. En teoría, cuando dividimos los datos para entrenamiento y pruebas, debemos estandarizar los datos de entrenamiento de forma independiente, para no introducir sesgos, y luego de haber entrenado el modelo estandarizamos el conjunto de pruebas usando los mismos valores “parámetros” que . . . Read more
Si tenemos una tabla grande. Creé un DataFrame a partir de ella. En otra sesión de Spark, necesito la misma tabla. ¿Existe alguna manera de utilizar la misma tabla para crear DataFrames en dos sesiones de Spark diferentes?
Ya tengo un conjunto de datos normalizado: df = spark.createDataFrame([('manzana roja', 'plátano maduro', 0.3), ('manzana roja', 'chile picante', 0.4), ('manzana roja','kiwi dulce', 0.5), ('plátano maduro','chile picante', 0.6), ('plátano maduro','kiwi dulce', 0.7), ('chile picante','kiwi dulce', 0.8)], ["frase1", "frase2", 'porcentaje_común']) df.show() +————–+—————-+———————-+—————-+ | frase1| frase2|porcentaje_común| +————–+—————-+———————-+—————-+ | manzana roja| plátano maduro| 0.3| . . . Read more