Tengo un dataframe con algunas columnas, digamos que se llaman |Estado|Color|Conteo Quiero comprobar si una columna existe o no en ese dataframe para saber si tengo que crearla o no. Sé que para este pequeño ejemplo es bastante inútil hacerlo porque sólo tengo 3 columnas y podría hacerlo manualmente, pero . . . Read more
Estoy comenzando a trabajar con RDD y tengo algunas dudas. En mi caso, tengo un RDD y quiero clasificar sus datos. Mi RDD contiene lo siguiente: Array[(String, String)] = Array((data: BD=bd_users,BD_classified,contains_people, rbd: BD=bd_users,BD_classified,contains_people), (data: BD=bd_users,BD_classified,contains_people,contains_users, user: id=8282bd, BD_USERS,bdd), (data: BD=bd_experts,BD_exp,contains_exp,contains_adm, rbd: BD=bd_experts,BD_ea,contains_exp,contains_adm), (data: BD=bd_test,BD_test,contains_acc,contains_tst, rbd: BD=bd_test,BD_test,contains_tst,contains_t)) Como puedes ver, el . . . Read more
Estoy convirtiendo un dataframe en un dataset usando case class que tiene una secuencia de otra case class. case class IdMonitor(id: String, ipLocation: Seq[IpLocation]) case class IpLocation( ip: String, ipVersion: Byte, ipType: String, city: String, state: String, country: String) Ahora tengo otro dataset de strings que solo tiene IPs. Mi . . . Read more
Estoy tratando de trabajar con bucketing en PySpark, usando estos ejemplos generales: https://gist.github.com/luminousmen/8dffa01a02bb58946b1299a621e44897 https://towardsdatascience.com/best-practices-for-bucketing-in-spark-sql-ea9f23f7dd53 Escribo la tabla con bucketing en S3 de la siguiente manera: spark = SparkSession.builder.appName(“bucketing test”).enableHiveSupport().config( “spark.sql.sources.bucketing.enabled”, “true”).getOrCreate() spark.conf.set(“spark.sql.autoBroadcastJoinThreshold”, -1) Crear el DF df = spark.range(1, 16000, 1, 16).select( F.col(“id”).alias(“key”), F.rand(12).alias(“value”) ) Escribir el DF al disco . . . Read more
Cuando creé una tabla hive, los datos son los siguientes: Archivo de datos: abc 1 1234 abcdef 2 12345 abcdef 2 12345 1234156321 abcdef 2 12345 … ¿Puedo crear una tabla de inmediato sin convertir el archivo?