Tag: PYSPARK

Rellenar recursivamente una columna en Pyspark.

26 May, 2023 Programación 0

Tengo un Dataframe de Pyspark con las siguientes columnas: CD CDPRE OBJID 123 null 1 456 123 2 789 456 3 098 null 1 765 null 1 432 765 2 Lo que necesito hacer es comprobar si el valor en la columna “CDPRE” está en la columna “CD” hasta llegar . . . Read more

Pyspark: Reemplazando valor en una columna buscando en un diccionario con valores de .

26 May, 2023 Programación 0

Tengo una situación en la que tengo un diccionario de elementos en PySpark como este: swap={‘A’: 0.07677341668184234, : 0.1497896460766734, ‘B’: 0.07186667210628232} Tengan en cuenta el objeto “pandas.NA” definido como una de las claves. También tengo una tabla de pandas configurada con varios valores que pueden estar o no en el . . . Read more

Descomprimir JSON en PysparkSQL

23 May, 2023 Programación 0

Estoy buscando explotar un json anidado a un archivo CSV. Buscando analizar el json anidado en filas y columnas. from pyspark.sql import SparkSession from pyspark.sql import SQLContext from pyspark.sql.types import * from pyspark.sql import functions as F from pyspark.sql import Row df=spark.read.option(“multiline”,”true”).json(“sample1.json”) df.printSchema() root |– pid: struct (nullable = true) . . . Read more

No se puede consultar vistas de AWS Glue/Athena en Databricks Runtime [‘java.lang.IllegalArgumentException: No se puede crear una ruta a partir de una cadena vacía;’]

23 May, 2023 Programación 0

Intentando leer una vista que fue creada en AWS Athena (basada en una tabla de Glue que apunta a un archivo parquet de S3) usando pyspark en un clúster de Databricks, se produce el siguiente error por una razón desconocida: java.lang.IllegalArgumentException: No se puede crear una ruta desde una cadena . . . Read more

Manipulación de Dataframe en Spark

23 May, 2023 Programación 0

Dataframe de entrada: caseid indicador 1 STP 1 no-STP 2 STP 3 STP 3 no-STP Dataframe de salida: caseid indicador 1 no-STP 2 STP 3 no-STP Hola a todos, estaría muy agradecido si alguien pudiera ayudarme con el dataframe anterior. En el dataframe de salida, solo quiero mantener los casos . . . Read more

1 … 97 98 99 … 101

es.davy.ai

¿Tienes una pregunta?

Tag: PYSPARK

Rellenar recursivamente una columna en Pyspark.

Pyspark: Reemplazando valor en una columna buscando en un diccionario con valores de .

Descomprimir JSON en PysparkSQL

No se puede consultar vistas de AWS Glue/Athena en Databricks Runtime [‘java.lang.IllegalArgumentException: No se puede crear una ruta a partir de una cadena vacía;’]

Manipulación de Dataframe en Spark