Tag: APACHE-SPARK-SQL
Soy nuevo en Snowflake y muy ingenuo en cuanto a Spark. ¿Existe alguna referencia o buen ejemplo de cómo se escribe datos desde un dataframe de Spark a una etapa con nombre en Snowflake? ¡Agradezco tu ayuda!
Tengo un mapa de tipo Map[String, String] que quiero agregar dentro de otro mapa2 de tipo Map[String, Any]. Más tarde, este mapa2 se añadirá como una columna en un dataframe. Cuando intento agregar map2 como una columna usando spark.sql.functions.typedLit, falla con el siguiente error: Tipo de literal no admitido class . . . Read more
Estoy trabajando con un dataframe de PySpark que tiene una columna de tipo struct como se muestra a continuación: df.printSchema() <h1>root</h1> <h1>|– timeframe: struct (nullable = false)</h1> <h1>| |– start: timestamp (nullable = true)</h1> <h1>| |– end: timestamp (nullable = true)</h1> <p>“`</p> Entonces intenté usar <code>collect()</code> y pasar los timestamps/ventanas . . . Read more
Tengo configurado un clúster de Spark 3. Tengo algunos datos en SQL Server y su tamaño es de aproximadamente 100 GB. Tengo que realizar diferentes consultas en estos datos desde el clúster de Spark. Me he conectado a SQL Server desde Spark a través de JDBC y he ejecutado una . . . Read more
En un clúster de Spark con 6 ejecutores, tenemos 48GB de RAM y 6 núcleos por ejecutor. Como parte de una optimización de un join entre 2 tablas, ¿cuál debería ser el tamaño óptimo de la tabla pequeña que se debe utilizar como parte de un broadcast join? ¿Existe una . . . Read more