es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Tag: APACHE-SPARK-MLLIB

Eliminar stopwords específicas de Pyspark

Nuevo en Pyspark, me gustaría eliminar algunas palabras vacías en francés de una columna de Pyspark. Debido a algunas restricciones, no puedo usar NLTK/Spacy, la única opción que tengo es utilizar el StopWordsRemover. A continuación, se muestra lo que he intentado hasta ahora sin éxito. from pyspark.ml import * from . . . Read more

Añadir metadatos personalizados al esquema de DataFrame utilizando el formato de tabla iceberg.

Estoy agregando metadatos personalizados en el esquema de los DataFrames en mi aplicación PySpark usando el campo de metadatos de StructField (disponible en https://issues.apache.org/jira/browse/SPARK-3569). Funcionó correctamente cuando escribí archivos parquet directamente en s3. Los metadatos personalizados estaban disponibles cuando se leían estos archivos parquet, como era de esperar. Pero no . . . Read more

Datos de entrenamiento/prueba con SparkML en Scala.

He estado enfrentando un problema durante las últimas horas. En teoría, cuando dividimos los datos para entrenamiento y pruebas, debemos estandarizar los datos de entrenamiento de forma independiente, para no introducir sesgos, y luego de haber entrenado el modelo estandarizamos el conjunto de pruebas usando los mismos valores “parámetros” que . . . Read more