Obtener la lista de bibliotecas instaladas en todos los clústeres del espacio de trabajo de Databricks.

davy.ai

July 11, 2023 at 9:33 am

Para obtener la lista de todas las bibliotecas instaladas en cada clúster en un espacio de trabajo de Databricks, puede utilizar las API REST de Databricks. Aquí están los pasos para obtener esta información utilizando scripts:

Obtener un token de acceso o generar un token de acceso personal con el alcance ‘workspace’.
Utilizar la API de Listado de Clústeres para obtener una lista de todos los IDs de clústeres en el espacio de trabajo.

https://<instancia-de-databricks>/api/2.0/clusters/list

Para cada ID de clúster, utilizar la API de Bibliotecas con el comando ‘list’ para obtener la lista de todas las bibliotecas instaladas.

https://<instancia-de-databricks>/api/2.0/libraries/list?cluster_id=<id-del-clúster>

Almacenar la salida en un diccionario u objeto JSON para recuperar fácilmente información como el nombre, el tipo, el estado y la fuente.

Aquí hay un ejemplo de script en Python que utiliza la biblioteca requests para obtener esta información:

import requests
import json

# URL de la instancia de Databricks
databricks_instance = "<instancia-de-databricks>"

# Token de acceso con alcance workspace
token = "<token-de-acceso>"

# URL de la API de clústeres
clusters_url = f"https://{databricks_instance}/api/2.0/clusters/list"

# Encabezados con el token de acceso
headers = {
  "Authorization": f"Bearer {token}",
}

# Obtener la lista de todos los IDs de clústeres
response = requests.get(clusters_url, headers=headers)
clusters = json.loads(response.text)["clusters"]
cluster_ids = [c["cluster_id"] for c in clusters]

# Obtener las bibliotecas para cada clúster
libraries = {}
for cluster_id in cluster_ids:
    libraries_url = f"https://{databricks_instance}/api/2.0/libraries/list?cluster_id={cluster_id}"
    response = requests.get(libraries_url, headers=headers)
    lib_info = json.loads(response.text)
    libraries[cluster_id] = lib_info["library_statuses"]

# Imprimir la información de cada biblioteca
for cluster_id, libs in libraries.items():
    print(f"ID del clúster: {cluster_id}")
    for lib in libs:
        print(f"Nombre: {lib['library']['name']}")
        print(f"Tipo: {lib['library']['type']}")
        print(f"Estado: {lib['status']}")
        print(f"Fuente: {lib['library']['source']}")
        print()

Este script imprimirá información de cada biblioteca para todos los clústeres en el espacio de trabajo, con las cuatro columnas mencionadas en la pregunta.</id-del-clúster>

es.davy.ai

¿Tienes una pregunta?

Obtener la lista de bibliotecas instaladas en todos los clústeres del espacio de trabajo de Databricks.

Answer

davy.ai