Tag: APACHE-SPARK
Tengo una función UDF que toma la “clave” y devuelve el correspondiente “valor” del “name_dict”. from pyspark.sql import * from pyspark.sql.functions import udf, when, col name_dict = {‘James’: “manager”, ‘Robert’: ‘director’} func = udf(lambda name: name_dict[name]) El dataframe original: “James” y “Robert” están en el diccionario, pero “Michael” no lo . . . Read more
import os for file in os.listdir(“/content/drive/MyDrive/BigData2021/Lecture23/datasets”): if file.endswith(“.csv”): print(os.path.join(file)) cities.csv airports.csv data_scientist_salaries.csv Quiero leer este archivo CSV con spark que comience con una consonante sin especificar el nombre del archivo CSV. ¿Cómo se hace eso?
Tengo un trabajo Spark que se ve así def run(): spark_session = helper_class.create_spark_session() // realizar alguna lógica spark_session.stop() ahora quiero escribir algunas pruebas de integración para el trabajo y obtener <br><code>java.lang.IllegalStateException: SparkContext ha sido apagado</code><be> en dos casos <br> 1. Tengo dos casos de prueba que ejecutan el mismo trabajo . . . Read more
He configurado un servicio de mlflow en una máquina virtual y puedo servir el modelo usando el comando mlflow serve. ¿Quería saber si podemos alojar varios modelos en una sola máquina virtual? Estoy usando el siguiente comando para servir un modelo usando mlflow en una máquina virtual. comando: /mlflow models . . . Read more
Estoy intentando añadir una etiqueta al servicio Spark driver en Kubernetes. He visto en la documentación de Spark (https://spark.apache.org/docs/latest/running-on-kubernetes.html#configuration) que existe un parámetro de configuración para añadir una anotación al servicio. ¿Existe alguna forma de añadir una etiqueta? Gracias.