Tag: APACHE-SPARK

Comparación entre mapPartitions de Apache Spark y UDF

27 May, 2023 Programación 0

¿Se puede considerar que el método mapPartitions de Apache Spark es una sustitución mucho más eficiente de las UDF de Spark con una funcionalidad prácticamente idéntica?

¿Existe alguna manera de obtener el tipo de datos (dtype) de una pyspark.sql.column.Column sin llamar primero a una pyspark.sql.DataFrame?

27 May, 2023 Programación 0

Esto podría ser una pregunta de nicho, pero imagina que tienes una udf definida de esta manera: import pyspark.sql.functions as sf import pyspark.sql.types as st @sf.udf(returnType=st.ArrayType(st.StringType())) def some_function(text: str) -> List[str]: return text.split(' ') Esto devuelve una udf, de la cual necesito conocer su returnType. ¿Hay alguna manera de obtener . . . Read more

Datos de entrenamiento/prueba con SparkML en Scala.

27 May, 2023 Programación 0

He estado enfrentando un problema durante las últimas horas. En teoría, cuando dividimos los datos para entrenamiento y pruebas, debemos estandarizar los datos de entrenamiento de forma independiente, para no introducir sesgos, y luego de haber entrenado el modelo estandarizamos el conjunto de pruebas usando los mismos valores “parámetros” que . . . Read more

¿Cómo utilizar la misma tabla en dos sesiones diferentes de Spark?

27 May, 2023 Programación 0

Si tenemos una tabla grande. Creé un DataFrame a partir de ella. En otra sesión de Spark, necesito la misma tabla. ¿Existe alguna manera de utilizar la misma tabla para crear DataFrames en dos sesiones de Spark diferentes?

Transforma filas y columnas y crea un dataframe de similitud utilizando Pyspark.

27 May, 2023 Programación 0

Ya tengo un conjunto de datos normalizado: df = spark.createDataFrame([('manzana roja', 'plátano maduro', 0.3), ('manzana roja', 'chile picante', 0.4), ('manzana roja','kiwi dulce', 0.5), ('plátano maduro','chile picante', 0.6), ('plátano maduro','kiwi dulce', 0.7), ('chile picante','kiwi dulce', 0.8)], ["frase1", "frase2", 'porcentaje_común']) df.show() +————–+—————-+———————-+—————-+ | frase1| frase2|porcentaje_común| +————–+—————-+———————-+—————-+ | manzana roja| plátano maduro| 0.3| . . . Read more

1 … 98 99 100 … 105

es.davy.ai

¿Tienes una pregunta?

Tag: APACHE-SPARK

Comparación entre mapPartitions de Apache Spark y UDF

¿Existe alguna manera de obtener el tipo de datos (dtype) de una pyspark.sql.column.Column sin llamar primero a una pyspark.sql.DataFrame?

Datos de entrenamiento/prueba con SparkML en Scala.

¿Cómo utilizar la misma tabla en dos sesiones diferentes de Spark?

Transforma filas y columnas y crea un dataframe de similitud utilizando Pyspark.