Tag: PALANTIR-FOUNDRY
He realizado lo siguiente en los Repositorios de Código. @transform<em>df( Output(test</em>dataset<em>path), df=Input(og</em>dataset<em>path) ) def compute(ctx, df): ctx.spark</em>session.sql(f”’ CREATE TABLE <code>test_dataset_path</code> AS SELECT * FROM <code>og_dataset_path</code> ”’) <pre><code>return ctx.spark_session.sql(f''' SELECT * FROM `og_dataset_path` ''') </code></pre> <code> y se está generando un error en el código: </code>python ctx.spark<em>session.sql(f”’ CREATE TABLE <code>test_dataset_path</code> AS . . . Read more
Tengo una tarea muy sencilla de actualizar el contenido de un archivo de control en Palantir Foundry. Necesito leer el contenido del archivo, realizar una verificación y luego escribirlo nuevamente en el mismo archivo. Sin embargo, si proporciono el mismo archivo como entrada y salida en la transformación, obtengo el . . . Read more
Mi transformación de Foundry está produciendo una cantidad diferente de datos en cada ejecución, pero quiero tener un número similar de filas en cada archivo. Puedo usar DataFrame.count() y luego utilizar coalesce/repartition, pero esto requiere calcular el conjunto de datos completo y luego almacenarlo en caché o calcularlo nuevamente. ¿Existe . . . Read more
Escucho este término bastante a menudo, algo sobre un error de memoria (OOMing) o quedarse sin memoria; ¿qué significa eso? Hablo desde el contexto de ejecutar una creación de conjunto de datos en Transforms Python o Transforms SQL.
Mi necesidad es leer otros formatos: JSON, binario, XML e inferir el esquema dinámicamente dentro de una transformación en Repositorios de Código y utilizando la API de Spark de origen de datos. Ejemplo: val df = spark.read.json(<hadoop_path>) Para eso, necesito un acceso al sistema de archivos de Foundry, que es . . . Read more