Tag: AZURE-DATABRICKS
Sé que hay muchas preguntas aquí sobre cómo manejar las citas en las variables de entorno. Esta pregunta tiene un enfoque diferente, por favor continue leyendo: Antes de la semana pasada, configuramos nuestras variables de entorno en nuestro clúster de databricks (7.3 LTS, incluye Apache Spark 3.0.1, Scala 2.12) de . . . Read more
¿Cómo puedo obtener una lista de todos los cuadernos en mi espacio de trabajo y almacenar sus nombres junto con la ruta completa en un archivo csv? He intentado usar la opción Databricks CLI, pero parece que no tiene una operación recursiva. databricks workspace list
Cómo convertir YYYY-MM-DD en YYYYMMDD en Spark SQL. Ejemplo 2021-11-25 debería ser 20211121. En SQL SERVER es fácil con la ayuda de convert () o Format (). ¿Cómo hacerlo en SPARK SQL? No quiero convertir esto en DataFrame o DF. Buscando una respuesta usando spark sql. ¡Esta no es una . . . Read more
Logré conectarme a Databricks desde Python utilizando el siguiente fragmento de código: from databricks import sql <p>connection = sql.connect( server<em>hostname='<server-hostname>’, http</em>path='<http-path>’, access_token='<personal-access-token>’)</p> <p>cursor = connection.cursor()</p> <p>cursor.execute(‘SELECT * FROM <database-name>.<table-name> LIMIT 2’)</p> <p>result = cursor.fetchall()</p> <p>for row in result: print(row)</p> <p>cursor.close() Este fragmento proviene de la documentación oficial (enlace a la . . . Read more
Estoy utilizando PySpark en Azure Databricks. Tengo un pipeline con StringIndexers, OneHotEncoders, un VectorAssembler y un LinearSVC: pipeline = Pipeline(stages=["stringvar1_indexer", "stringvar2_indexer", "stringvar2_encoder", "assembler", "svc"]) Para encontrar los parámetros óptimos para el SVC, utilizo un paramGrid para iterar en el parámetro de regularización y las iteraciones máximas: paramGrid = ParamGridBuilder() \ . . . Read more