Tag: APACHE-SPARK

¿Qué sucede cuando se carga datos en Scala Spark y ocurre un desbordamiento de entero?

06 Aug, 2023 Programación 0

¿Cómo manejará Scala/Spark la carga de datos que sean más grandes que el tipo asignado en un esquema? Es decir, si defino una columna con el tipo de dato IntegerType pero cargo un número de un conjunto de datos externo que sea más grande que el int de Scala, ¿el . . . Read more

Eliminar stopwords específicas de Pyspark

06 Aug, 2023 Programación 0

Nuevo en Pyspark, me gustaría eliminar algunas palabras vacías en francés de una columna de Pyspark. Debido a algunas restricciones, no puedo usar NLTK/Spacy, la única opción que tengo es utilizar el StopWordsRemover. A continuación, se muestra lo que he intentado hasta ahora sin éxito. from pyspark.ml import * from . . . Read more

Cómo modificar una columna anidada de tipo struct en un dataframe de pyspark

06 Aug, 2023 Programación 0

Estoy tratando de anonimizar/hash una columna anidada, pero no he tenido éxito. El esquema se ve algo así: — abc: struct (nullable = true) | |– xyz: struct (nullable = true) | | |– abc123: string (nullable = true) | | |– services: struct (nullable = true) | | | . . . Read more

El compilador de Spark Scala no se queja de la diferencia entre el doble y triple igual en este caso.

06 Aug, 2023 Programación 0

Obtengo un error del compilador si intento esto. Olvidando que necesito un triple igual en Spark. Sin embargo, si hago esto, obtengo la respuesta incorrecta pero sin errores. ¿Alguien puede explicar por qué las verificaciones en tiempo de compilación me ayudan en el primer caso pero no en el segundo?

¿Cómo poner un HashMap en una variable de tipo BroadCast?

06 Aug, 2023 Programación 0

Estoy tratando de colocar HashMap en la variable Broadcast, pero obtengo el siguiente error: El método broadcast(T, ClassTag<t>) en el tipo SparkContext no es aplicable para los argumentos (Map<string,string>, ClassTag<hashmap>) en el siguiente fragmento de código: Broadcast<><string, string=””>> br = ss.sparkContext().broadcast(mp, classTag(HashMap.class)); Código completo: private static <t> ClassTag<t> classTag(Class<t> clazz) . . . Read more

1 2 … 105

es.davy.ai

¿Tienes una pregunta?

Tag: APACHE-SPARK

¿Qué sucede cuando se carga datos en Scala Spark y ocurre un desbordamiento de entero?

Eliminar stopwords específicas de Pyspark

Cómo modificar una columna anidada de tipo struct en un dataframe de pyspark

El compilador de Spark Scala no se queja de la diferencia entre el doble y triple igual en este caso.

¿Cómo poner un HashMap en una variable de tipo BroadCast?