Tag: APACHE-SPARK-MLLIB
Nuevo en Pyspark, me gustaría eliminar algunas palabras vacías en francés de una columna de Pyspark. Debido a algunas restricciones, no puedo usar NLTK/Spacy, la única opción que tengo es utilizar el StopWordsRemover. A continuación, se muestra lo que he intentado hasta ahora sin éxito. from pyspark.ml import * from . . . Read more
El objetivo es realizar una regresión lineal para cada usuario de manera escalable en PySpark. Características: x1 y x2. Resultado: y Ecución de regresión (intercepto cero): y = m(x1) + n(x2) Ejemplo: pdf = pd.DataFrame( { "user": [1, 1, 1, 2, 2, 2], "x1": [1, 2, 3, 1, 2, 3], . . . Read more
¿Cómo convertiría el siguiente DataFrame en un Array de vectores densos? val df = Seq( (5.0, 1.0, 1.0, 3.0, 7.0), (2.0, 0.0, 3.0, 4.0, 5.0), (4.0, 0.0, 0.0, 6.0, 7.0)).toDF(“m1”, “m2”, “m3”, “m4”, “m5”) //df: res166: org.apache.spark.sql.DataFrame = [m1: int, m2: int … 3 more fields] a un Array de . . . Read more
Estoy agregando metadatos personalizados en el esquema de los DataFrames en mi aplicación PySpark usando el campo de metadatos de StructField (disponible en https://issues.apache.org/jira/browse/SPARK-3569). Funcionó correctamente cuando escribí archivos parquet directamente en s3. Los metadatos personalizados estaban disponibles cuando se leían estos archivos parquet, como era de esperar. Pero no . . . Read more
He estado enfrentando un problema durante las últimas horas. En teoría, cuando dividimos los datos para entrenamiento y pruebas, debemos estandarizar los datos de entrenamiento de forma independiente, para no introducir sesgos, y luego de haber entrenado el modelo estandarizamos el conjunto de pruebas usando los mismos valores “parámetros” que . . . Read more