Tag: APACHE-SPARK
Tengo una situación en la que estoy atrapado tratando de plantear el problema en Spark SQL. A continuación se muestra la descripción. Entrada Supongamos que hay 3 columnas en un dataframe de Spark. (ida , idb, score_val ). A continuación se muestra un ejemplo de datos: |ida | idb | . . . Read more
En un PipelineModel de SparkNLP, todas las etapas deben ser del tipo AnnotatorModel. Pero ¿qué pasa si uno de esos AnnotatorModels requiere una determinada columna en el conjunto de datos como entrada y esta columna de entrada es la salida de un AnnotatorApproach? Por ejemplo, tengo un modelo entrenado para . . . Read more
He escrito una aplicación Spark simple en AWS EMR 6.4.0 que básicamente hace esto: SparkConf sparkConf = new SparkConf().setAppName(“MyAppName”).setMaster(“local”); JavaSparkContext javaSparkContext = new JavaSparkContext(sparkConf); JavaRDD<string> dataSet = javaSparkContext.parallelize(alistwith100elements); // aquí también intenté forzar 100 divisiones con .parallelize(alistwith100elements, 100) long count = dataSet.flatMap(….) .flatMap(…) .map(somethingthatoutputs0or1) .reduce(Integer::sum); javaSparkContext.stop(); Estoy ejecutando la aplicación . . . Read more
Soy nuevo en Kafka y Spark, así que desde ya pido disculpas si la pregunta se considera estúpida :). Estoy tratando de entender cómo se procesan exactamente los datos y se almacenan en caché (desde Spark) antes de ser escritos en Kafka. Digamos que tenemos el siguiente código que maneja . . . Read more
¿Es posible tener más de un evaluador en un CrossValidator para obtener R2 y RMSE al mismo tiempo? En lugar de tener dos CrossValidator diferentes: val lr_evaluator_rmse = new RegressionEvaluator() .setLabelCol(“ArrDelay”) .setPredictionCol(“predictionLR”) .setMetricName(“rmse”) val lr_evaluator_r2 = new RegressionEvaluator() .setLabelCol(“ArrDelay”) .setPredictionCol(“predictionLR”) .setMetricName(“r2”) val lr_cv_rmse = new CrossValidator() .setEstimator(lr_pipeline) .setEvaluator(lr_evaluator_rmse) .setEstimatorParamMaps(lr_paramGrid) .setNumFolds(3) . . . Read more