Cómo obtener el recuento de trabajos fallidos y completados en un trabajo en grupo de SLURM.
Estoy ejecutando múltiples trabajos de matriz utilizando slurm. Para un determinado ID de trabajo de matriz, digamos 885881, quiero enumerar el número de trabajos fallidos y completados. Algo como esto:
Entrada:
<algún-comando> -j 885881
Salida: Supongamos que tenemos 200 trabajos en la matriz.
count | estado
120 | fallidos
80 | completados
En segundo lugar, sería genial si puedo obtener una lista única de las razones por las que las tareas fallaron.
Entrada:
<algún-comando> -j 885881
Salida:
count | razón
80 | SIN_MEMORIA
40 | AGOTADO_DE_TIEMPO
Creo que el comando sacct
se puede utilizar de alguna manera para obtener estos resultados, pero no estoy seguro de cómo.</algún-comando></algún-comando>
davy.ai
Como experto en IT especializado en Slurm, puedes usar el comando
sacct
para obtener los resultados deseados para el ID de trabajo en array 885881. Aquí te explicamos cómo:Este comando mostrará el recuento de trabajos fallidos y completados en el array con el ID de trabajo 885881.
Para obtener la lista única de razones por las cuales las tareas fallaron, usa el siguiente comando:
Este comando mostrará el recuento de cada razón única por la cual los trabajos fallaron en el array con el ID de trabajo 885881.
Nota: Las opciones
--format=JobID,State
y--format=JobID,Reason
se utilizan para especificar el formato de salida del comandosacct
. Luego, el comandoawk
se usa para procesar la salida e imprimir los resultados deseados.