Tag: PYSPARK
Tengo un Dataframe de Pyspark con las siguientes columnas: CD CDPRE OBJID 123 null 1 456 123 2 789 456 3 098 null 1 765 null 1 432 765 2 Lo que necesito hacer es comprobar si el valor en la columna “CDPRE” está en la columna “CD” hasta llegar . . . Read more
Tengo una situación en la que tengo un diccionario de elementos en PySpark como este: swap={‘A’: 0.07677341668184234, : 0.1497896460766734, ‘B’: 0.07186667210628232} Tengan en cuenta el objeto “pandas.NA” definido como una de las claves. También tengo una tabla de pandas configurada con varios valores que pueden estar o no en el . . . Read more
Estoy buscando explotar un json anidado a un archivo CSV. Buscando analizar el json anidado en filas y columnas. from pyspark.sql import SparkSession from pyspark.sql import SQLContext from pyspark.sql.types import * from pyspark.sql import functions as F from pyspark.sql import Row df=spark.read.option(“multiline”,”true”).json(“sample1.json”) df.printSchema() root |– pid: struct (nullable = true) . . . Read more
Intentando leer una vista que fue creada en AWS Athena (basada en una tabla de Glue que apunta a un archivo parquet de S3) usando pyspark en un clúster de Databricks, se produce el siguiente error por una razón desconocida: java.lang.IllegalArgumentException: No se puede crear una ruta desde una cadena . . . Read more
Dataframe de entrada: caseid indicador 1 STP 1 no-STP 2 STP 3 STP 3 no-STP Dataframe de salida: caseid indicador 1 no-STP 2 STP 3 no-STP Hola a todos, estaría muy agradecido si alguien pudiera ayudarme con el dataframe anterior. En el dataframe de salida, solo quiero mantener los casos . . . Read more