es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Tag: CATALYST-OPTIMIZER

¿Es posible evitar un segundo intercambio cuando Spark une dos conjuntos de datos utilizando joinWith?

Para el siguiente fragmento de código: case class SomeRow(key: String, value: String) spark.conf.set(“spark.sql.autoBroadcastJoinThreshold”, -1) val ds1 = Seq(SomeRow(“A”, “1”)).toDS().repartition(col(“key”)) val ds2 = Seq(SomeRow(“A”, “1”), SomeRow(“B”,”2″)).toDS().repartition(col(“key”)) val dataSetJoined = ds1.joinWith(ds2, ds1(“key”)===ds2(“key”), “left”) val dataFrameJoined = ds1.join(ds2, ds1(“key”)===ds2(“key”), “left”) dataSetJoined.explain(true) dataFrameJoined.explain(true) Spark genera el siguiente plan para el dataSet: == Physical Plan . . . Read more