es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Tag: APACHE-SPARK

¿Existe alguna manera de obtener el tipo de datos (dtype) de una pyspark.sql.column.Column sin llamar primero a una pyspark.sql.DataFrame?

Esto podría ser una pregunta de nicho, pero imagina que tienes una udf definida de esta manera: import pyspark.sql.functions as sf import pyspark.sql.types as st @sf.udf(returnType=st.ArrayType(st.StringType())) def some_function(text: str) -> List[str]: return text.split(' ') Esto devuelve una udf, de la cual necesito conocer su returnType. ¿Hay alguna manera de obtener . . . Read more

Datos de entrenamiento/prueba con SparkML en Scala.

He estado enfrentando un problema durante las últimas horas. En teoría, cuando dividimos los datos para entrenamiento y pruebas, debemos estandarizar los datos de entrenamiento de forma independiente, para no introducir sesgos, y luego de haber entrenado el modelo estandarizamos el conjunto de pruebas usando los mismos valores “parámetros” que . . . Read more

Transforma filas y columnas y crea un dataframe de similitud utilizando Pyspark.

Ya tengo un conjunto de datos normalizado: df = spark.createDataFrame([('manzana roja', 'plátano maduro', 0.3), ('manzana roja', 'chile picante', 0.4), ('manzana roja','kiwi dulce', 0.5), ('plátano maduro','chile picante', 0.6), ('plátano maduro','kiwi dulce', 0.7), ('chile picante','kiwi dulce', 0.8)], ["frase1", "frase2", 'porcentaje_común']) df.show() +————–+—————-+———————-+—————-+ | frase1| frase2|porcentaje_común| +————–+—————-+———————-+—————-+ | manzana roja| plátano maduro| 0.3| . . . Read more