Tag: APACHE-SPARK

Crear una nueva columna con withColumn si no existe.

26 May, 2023 Programación 0

Tengo un dataframe con algunas columnas, digamos que se llaman |Estado|Color|Conteo Quiero comprobar si una columna existe o no en ese dataframe para saber si tengo que crearla o no. Sé que para este pequeño ejemplo es bastante inútil hacerlo porque sólo tengo 3 columnas y podría hacerlo manualmente, pero . . . Read more

Clasifique cada instancia de un RDD | Apache Spark Scala

26 May, 2023 Programación 0

Estoy comenzando a trabajar con RDD y tengo algunas dudas. En mi caso, tengo un RDD y quiero clasificar sus datos. Mi RDD contiene lo siguiente: Array[(String, String)] = Array((data: BD=bd_users,BD_classified,contains_people, rbd: BD=bd_users,BD_classified,contains_people), (data: BD=bd_users,BD_classified,contains_people,contains_users, user: id=8282bd, BD_USERS,bdd), (data: BD=bd_experts,BD_exp,contains_exp,contains_adm, rbd: BD=bd_experts,BD_ea,contains_exp,contains_adm), (data: BD=bd_test,BD_test,contains_acc,contains_tst, rbd: BD=bd_test,BD_test,contains_tst,contains_t)) Como puedes ver, el . . . Read more

Unir conjunto de datos con clase de caso spark scala.

26 May, 2023 Programación 0

Estoy convirtiendo un dataframe en un dataset usando case class que tiene una secuencia de otra case class. case class IdMonitor(id: String, ipLocation: Seq[IpLocation]) case class IpLocation( ip: String, ipVersion: Byte, ipType: String, city: String, state: String, country: String) Ahora tengo otro dataset de strings que solo tiene IPs. Mi . . . Read more

PySpark: ¿Cómo leer de vuelta una tabla particionada escrita en un Bucket de S3?

26 May, 2023 Programación 0

Estoy tratando de trabajar con bucketing en PySpark, usando estos ejemplos generales: https://gist.github.com/luminousmen/8dffa01a02bb58946b1299a621e44897 https://towardsdatascience.com/best-practices-for-bucketing-in-spark-sql-ea9f23f7dd53 Escribo la tabla con bucketing en S3 de la siguiente manera: spark = SparkSession.builder.appName(“bucketing test”).enableHiveSupport().config( “spark.sql.sources.bucketing.enabled”, “true”).getOrCreate() spark.conf.set(“spark.sql.autoBroadcastJoinThreshold”, -1) Crear el DF df = spark.range(1, 16000, 1, 16).select( F.col(“id”).alias(“key”), F.rand(12).alias(“value”) ) Escribir el DF al disco . . . Read more

Expresión regular para cadenas con múltiples delimitadores en la creación de una tabla Hive:

26 May, 2023 Programación 0

Cuando creé una tabla hive, los datos son los siguientes: Archivo de datos: abc 1 1234 abcdef 2 12345 abcdef 2 12345 1234156321 abcdef 2 12345 … ¿Puedo crear una tabla de inmediato sin convertir el archivo?

1 … 99 100 101 … 105

es.davy.ai

¿Tienes una pregunta?

Tag: APACHE-SPARK

Crear una nueva columna con withColumn si no existe.

Clasifique cada instancia de un RDD | Apache Spark Scala

Unir conjunto de datos con clase de caso spark scala.

PySpark: ¿Cómo leer de vuelta una tabla particionada escrita en un Bucket de S3?

Expresión regular para cadenas con múltiples delimitadores en la creación de una tabla Hive: