import os for file in os.listdir(“/content/drive/MyDrive/BigData2021/Lecture23/datasets”): if file.endswith(“.csv”): print(os.path.join(file)) cities.csv airports.csv data_scientist_salaries.csv Quiero leer este archivo CSV con spark que comience con una consonante sin especificar el nombre del archivo CSV. ¿Cómo se hace eso?
Tengo un trabajo Spark que se ve así def run(): spark_session = helper_class.create_spark_session() // realizar alguna lógica spark_session.stop() ahora quiero escribir algunas pruebas de integración para el trabajo y obtener <br><code>java.lang.IllegalStateException: SparkContext ha sido apagado</code><be> en dos casos <br> 1. Tengo dos casos de prueba que ejecutan el mismo trabajo . . . Read more
Nuevo en pyspark, me gustaría reemplazar una cadena de columna basada en un diccionario. A continuación se muestra una lista de ejemplo con caracteres especiales (la real contiene nombres) lists = [‘.’, ‘,’, ‘*’, ‘+’, ‘-‘, ‘_’, ‘(‘, ‘)’, ‘{‘, ‘}’, ‘[‘, ‘]’, ‘;’, ‘:’, ‘/’, ‘|’, ‘<‘, ‘>’, ‘^’, . . . Read more
Sé que hay información que equivale a 10 páginas de Google sobre esto, pero todas me dicen que simplemente coloque –master yarn en el comando spark-submit. Pero, en modo de clúster, ¿cómo puede mi computadora local saber lo que eso significa? Digamos que tengo mi computadora portátil y un clúster . . . Read more
Estoy utilizando Dataproc para ejecutar mis trabajos de pyspark. A continuación se presentan las tres formas en las que puedo enviar mis trabajos: Comando dataproc submit Utilidad spark-submit proporcionada por spark Para experimentos pequeños también puedo usar spark-shell Ahora, tengo que modificar algunas variables de entorno. Por ejemplo, SPARK_HOME. Para . . . Read more