Estoy intentando instalar un nuevo paquete en AWS EMR Notebook y me estoy encontrando con el error “AttributeError: el objeto ‘SparkContext’ no tiene el atributo ‘list_packages’”. Sin embargo, esto parece ser el enfoque oficial. Agradezco su ayuda para encontrar lo que me falta. Código from pyspark.sql import SparkSession, Window from . . . Read more
Soy un traductor de documentos de IT y traduzco al español. Traduzca lo siguiente al español. No traduzca el código y la salida en markdown. Soy nuevo en el mundo de AWS Glue. Estoy intentando escribir un archivo avro en S3. Los datos se escriben en la carpeta de S3, . . . Read more
Si tenemos una tabla grande. Creé un DataFrame a partir de ella. En otra sesión de Spark, necesito la misma tabla. ¿Existe alguna manera de utilizar la misma tabla para crear DataFrames en dos sesiones de Spark diferentes?
Intento crear un esquema para la conversión de un pandas df a un pyspark df. ¿Podría explicarme por favor qué estoy haciendo mal? Creando mySchema dtype_l, name_l, true_l = [],[],[] for col in df.columns: name_l.append(col) true_l.append(True) if df.y.dtype == ‘int64’: dtype_l.append(“IntegerType()”) if df.y.dtype == ‘float64’: dtype_l.append(“FloatType()”) l = list(zip(name_l, dtype_l, . . . Read more
Ya tengo un conjunto de datos normalizado: df = spark.createDataFrame([('manzana roja', 'plátano maduro', 0.3), ('manzana roja', 'chile picante', 0.4), ('manzana roja','kiwi dulce', 0.5), ('plátano maduro','chile picante', 0.6), ('plátano maduro','kiwi dulce', 0.7), ('chile picante','kiwi dulce', 0.8)], ["frase1", "frase2", 'porcentaje_común']) df.show() +————–+—————-+———————-+—————-+ | frase1| frase2|porcentaje_común| +————–+—————-+———————-+—————-+ | manzana roja| plátano maduro| 0.3| . . . Read more