Tag: SLURM
Estoy ejecutando múltiples trabajos de matriz utilizando slurm. Para un determinado ID de trabajo de matriz, digamos 885881, quiero enumerar el número de trabajos fallidos y completados. Algo como esto: Entrada: <algún-comando> -j 885881 Salida: Supongamos que tenemos 200 trabajos en la matriz. count | estado 120 | fallidos 80 . . . Read more
Soy nuevo en slurm y tengo dos nodos en estado IDLE, pero mis trabajos solo se ejecutan en uno de ellos, el nodo maestro (node01), mientras que no entiendo por qué el segundo (node02) no ejecuta trabajos. Creé un bucle while para enviar 500 trabajos while read f1 f2; do . . . Read more
Los comandos de slurm proporcionan una opción de salida en formato JSON, por ejemplo: “–json Volcar la información del trabajo en formato JSON. Se ignorarán todos los demás argumentos de formato y filtrado.” Fuente: https://slurm.schedmd.com/squeue.html#OPT_json En Ubuntu 20.04 con slurm 19.05, esta opción no es reconocida. “squeue: opción no reconocida . . . Read more
Estoy ejecutando trabajos de aprendizaje automático (ML) que usan muy poca memoria de GPU. Por lo tanto, podría ejecutar varios trabajos de ML en una sola GPU. Para lograr esto, me gustaría agregar varias líneas en el archivo gres.conf que especifiquen el mismo dispositivo. Sin embargo, parece que el demonio . . . Read more
Estoy tratando de escribir un cron que ejecutará el comando sacct de slurm para fechas específicas y lo guardará en un archivo. Como no tengo mucha experiencia con scripts de shell, no estoy seguro de cómo hacerlo. Hice lo siguiente: Cree un script de shell con el siguiente código (sacct_data.sh): . . . Read more