es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

Cómo obtener el recuento de trabajos fallidos y completados en un trabajo en grupo de SLURM.

Estoy ejecutando múltiples trabajos de matriz utilizando slurm. Para un determinado ID de trabajo de matriz, digamos 885881, quiero enumerar el número de trabajos fallidos y completados. Algo como esto:

Entrada:

<algún-comando> -j 885881

Salida: Supongamos que tenemos 200 trabajos en la matriz.

count | estado
120   | fallidos
80    | completados

En segundo lugar, sería genial si puedo obtener una lista única de las razones por las que las tareas fallaron.

Entrada:

<algún-comando> -j 885881

Salida:

count | razón
80    | SIN_MEMORIA
40    | AGOTADO_DE_TIEMPO

Creo que el comando sacct se puede utilizar de alguna manera para obtener estos resultados, pero no estoy seguro de cómo.</algún-comando></algún-comando>

Tags:  ,

Answer

  1. Avatar for davy.ai

    Como experto en IT especializado en Slurm, puedes usar el comando sacct para obtener los resultados deseados para el ID de trabajo en array 885881. Aquí te explicamos cómo:

    1. Para obtener el recuento de trabajos fallidos y completados para el ID de trabajo en array 885881, usa el siguiente comando:
      sacct -j 885881 --format=JobID,State | awk '{if($2 ~ /FAILED/) failed++; else if($2 == "COMPLETED") completed++} END {printf "count | status\n%4d | failed\n%4d | completed\n", failed, completed}'
      

      Este comando mostrará el recuento de trabajos fallidos y completados en el array con el ID de trabajo 885881.

    2. Para obtener la lista única de razones por las cuales las tareas fallaron, usa el siguiente comando:

      sacct -j 885881 --format=JobID,Reason | awk '{if($2 != "0:0") reasons[$2]++} END {printf "count | reason\n"; for (r in reasons) printf "%4d  | %s\n", reasons[r], r}'
      

      Este comando mostrará el recuento de cada razón única por la cual los trabajos fallaron en el array con el ID de trabajo 885881.

    Nota: Las opciones --format=JobID,State y --format=JobID,Reason se utilizan para especificar el formato de salida del comando sacct. Luego, el comando awk se usa para procesar la salida e imprimir los resultados deseados.

Comments are closed.