es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Tag: APACHE-SPARK

Spark – deduplicación iterativa

Tengo una situación en la que estoy atrapado tratando de plantear el problema en Spark SQL. A continuación se muestra la descripción. Entrada Supongamos que hay 3 columnas en un dataframe de Spark. (ida , idb, score_val ). A continuación se muestra un ejemplo de datos: |ida | idb | . . . Read more

Spark solo ejecuta mi aplicación con una tarea única.

He escrito una aplicación Spark simple en AWS EMR 6.4.0 que básicamente hace esto: SparkConf sparkConf = new SparkConf().setAppName(“MyAppName”).setMaster(“local”); JavaSparkContext javaSparkContext = new JavaSparkContext(sparkConf); JavaRDD<string> dataSet = javaSparkContext.parallelize(alistwith100elements); // aquí también intenté forzar 100 divisiones con .parallelize(alistwith100elements, 100) long count = dataSet.flatMap(….) .flatMap(…) .map(somethingthatoutputs0or1) .reduce(Integer::sum); javaSparkContext.stop(); Estoy ejecutando la aplicación . . . Read more

Java – escribe en Kafka desde Spark

Soy nuevo en Kafka y Spark, así que desde ya pido disculpas si la pregunta se considera estúpida :). Estoy tratando de entender cómo se procesan exactamente los datos y se almacenan en caché (desde Spark) antes de ser escritos en Kafka. Digamos que tenemos el siguiente código que maneja . . . Read more

Múltiples Evaluadores en CrossValidator – Spark ML

¿Es posible tener más de un evaluador en un CrossValidator para obtener R2 y RMSE al mismo tiempo? En lugar de tener dos CrossValidator diferentes: val lr_evaluator_rmse = new RegressionEvaluator() .setLabelCol(“ArrDelay”) .setPredictionCol(“predictionLR”) .setMetricName(“rmse”) val lr_evaluator_r2 = new RegressionEvaluator() .setLabelCol(“ArrDelay”) .setPredictionCol(“predictionLR”) .setMetricName(“r2”) val lr_cv_rmse = new CrossValidator() .setEstimator(lr_pipeline) .setEvaluator(lr_evaluator_rmse) .setEstimatorParamMaps(lr_paramGrid) .setNumFolds(3) . . . Read more