Tag: APACHE-SPARK
¿Cómo manejará Scala/Spark la carga de datos que sean más grandes que el tipo asignado en un esquema? Es decir, si defino una columna con el tipo de dato IntegerType pero cargo un número de un conjunto de datos externo que sea más grande que el int de Scala, ¿el . . . Read more
Nuevo en Pyspark, me gustaría eliminar algunas palabras vacías en francés de una columna de Pyspark. Debido a algunas restricciones, no puedo usar NLTK/Spacy, la única opción que tengo es utilizar el StopWordsRemover. A continuación, se muestra lo que he intentado hasta ahora sin éxito. from pyspark.ml import * from . . . Read more
Estoy tratando de anonimizar/hash una columna anidada, pero no he tenido éxito. El esquema se ve algo así: — abc: struct (nullable = true) | |– xyz: struct (nullable = true) | | |– abc123: string (nullable = true) | | |– services: struct (nullable = true) | | | . . . Read more
Obtengo un error del compilador si intento esto. Olvidando que necesito un triple igual en Spark. Sin embargo, si hago esto, obtengo la respuesta incorrecta pero sin errores. ¿Alguien puede explicar por qué las verificaciones en tiempo de compilación me ayudan en el primer caso pero no en el segundo?
Estoy tratando de colocar HashMap en la variable Broadcast, pero obtengo el siguiente error: El método broadcast(T, ClassTag<t>) en el tipo SparkContext no es aplicable para los argumentos (Map<string,string>, ClassTag<hashmap>) en el siguiente fragmento de código: Broadcast<><string, string=””>> br = ss.sparkContext().broadcast(mp, classTag(HashMap.class)); Código completo: private static <t> ClassTag<t> classTag(Class<t> clazz) . . . Read more