es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Tag: APACHE-SPARK

Crear una nueva columna con withColumn si no existe.

Tengo un dataframe con algunas columnas, digamos que se llaman |Estado|Color|Conteo Quiero comprobar si una columna existe o no en ese dataframe para saber si tengo que crearla o no. Sé que para este pequeño ejemplo es bastante inútil hacerlo porque sólo tengo 3 columnas y podría hacerlo manualmente, pero . . . Read more

Clasifique cada instancia de un RDD | Apache Spark Scala

Estoy comenzando a trabajar con RDD y tengo algunas dudas. En mi caso, tengo un RDD y quiero clasificar sus datos. Mi RDD contiene lo siguiente: Array[(String, String)] = Array((data: BD=bd_users,BD_classified,contains_people, rbd: BD=bd_users,BD_classified,contains_people), (data: BD=bd_users,BD_classified,contains_people,contains_users, user: id=8282bd, BD_USERS,bdd), (data: BD=bd_experts,BD_exp,contains_exp,contains_adm, rbd: BD=bd_experts,BD_ea,contains_exp,contains_adm), (data: BD=bd_test,BD_test,contains_acc,contains_tst, rbd: BD=bd_test,BD_test,contains_tst,contains_t)) Como puedes ver, el . . . Read more

Unir conjunto de datos con clase de caso spark scala.

Estoy convirtiendo un dataframe en un dataset usando case class que tiene una secuencia de otra case class. case class IdMonitor(id: String, ipLocation: Seq[IpLocation]) case class IpLocation( ip: String, ipVersion: Byte, ipType: String, city: String, state: String, country: String) Ahora tengo otro dataset de strings que solo tiene IPs. Mi . . . Read more

PySpark: ¿Cómo leer de vuelta una tabla particionada escrita en un Bucket de S3?

Estoy tratando de trabajar con bucketing en PySpark, usando estos ejemplos generales: https://gist.github.com/luminousmen/8dffa01a02bb58946b1299a621e44897 https://towardsdatascience.com/best-practices-for-bucketing-in-spark-sql-ea9f23f7dd53 Escribo la tabla con bucketing en S3 de la siguiente manera: spark = SparkSession.builder.appName(“bucketing test”).enableHiveSupport().config( “spark.sql.sources.bucketing.enabled”, “true”).getOrCreate() spark.conf.set(“spark.sql.autoBroadcastJoinThreshold”, -1) Crear el DF df = spark.range(1, 16000, 1, 16).select( F.col(“id”).alias(“key”), F.rand(12).alias(“value”) ) Escribir el DF al disco . . . Read more