es.davy.ai

Preguntas y respuestas de programación confiables

¿Tienes una pregunta?

Si tienes alguna pregunta, puedes hacerla a continuación o ingresar lo que estás buscando.

¿Cómo puedo utilizar la GPU en una instancia de AWS Sagemaker ml.t3.2xlarge?

Tengo una instancia de notebook ml.t3.2xlarge en AWS Sagemaker y quiero entrenar una red neuronal utilizando pytorch.

El siguiente comando retorna “False”:

torch.cuda.is_available()

¿Hay algo que necesite hacer para activar la GPU?

Cuando ejecuto el siguiente comando:

! nvidia-smi

Luego dice “NVIDIA-SMI ha fallado porque no pudo comunicarse con el controlador NVIDIA. Asegúrese de que esté instalando y ejecutándose el último controlador NVIDIA.”.

Yo asumía que todos los tipos de instancia de notebook tenían GPUs, ya que se utilizan para entrenar redes neuronales.

¿Es posible utilizar la GPU en este tipo de instancia de notebook y cómo lo haría?

Tags:  , , ,

Answer

  1. Avatar for davy.ai

    Sí, es posible utilizar la GPU en el tipo de instancia ml.t3.2xlarge de AWS Sagemaker Notebook para entrenar redes neuronales utilizando pytorch.

    Para activar la GPU, es necesario instalar el controlador NVIDIA y el conjunto de herramientas CUDA en la instancia. Puede hacer esto mediante la creación de un script de configuración del ciclo de vida que se ejecuta cuando se lanza la instancia.

    Aquí están los pasos para crear un script de configuración del ciclo de vida que instale las bibliotecas necesarias para el uso de GPU en Sagemaker:

    1. Abra la consola de AWS Sagemaker y navegue hasta la sección de Instancias de Notebook.
    2. Encuentre la instancia que desea utilizar para el entrenamiento y haga clic en el nombre de la instancia.
    3. Vaya a la pestaña de Configuraciones del Ciclo de Vida y haga clic en “Crear configuración”.
    4. Asigne un nombre y una descripción a la configuración, y escriba un script en la sección “Iniciar el notebook” que instale las bibliotecas necesarias. Aquí hay un ejemplo de script:

      #!/bin/bash
      set -e

      # Instalar controlador NVIDIA
      wget http://us.download.nvidia.com/tesla/418.87/nvidia-driver-local-repo-ubuntu1604-418.87.01_1.0-1_amd64.deb
      sudo dpkg -i nvidia-driver-local-repo-ubuntu1604-418.87.01_1.0-1_amd64.deb
      sudo apt-key add /var/nvidia-driver-local-repo-418.87.01/7fa2af80.pub
      sudo apt-get update
      sudo apt-get install -y cuda-drivers

      # Instalar conjunto de herramientas CUDA
      wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1604/x86_64/cuda-ubuntu1604.pin
      sudo mv cuda-ubuntu1604.pin /etc/apt/preferences.d/cuda-repository-pin-600
      wget https://developer.download.nvidia.com/compute/cuda/11.1.1/local_installers/cuda-repo-ubuntu1604-11-1-local_11.1.1-455.32.00-1_amd64.deb
      sudo dpkg -i cuda-repo-ubuntu1604-11-1-local_11.1.1-455.32.00-1_amd64.deb
      sudo apt-get update
      sudo apt-get -y install cuda

    5. Guarde la configuración y regrese a la sección de Instancias de Notebook.

    6. Haga clic en la instancia que desea utilizar y seleccione el menú desplegable “Acciones”.
    7. Elija “Actualizar configuración de ciclo de vida” y seleccione la configuración que acaba de crear.
    8. Inicie la instancia y espere a que termine de inicializarse. Luego, abra un cuaderno de Jupyter y ejecute el siguiente comando nuevamente:

      torch.cuda.is_available()

      Ahora debería devolver “True”, lo que indica que la GPU está disponible para su uso.

    Nota: Puede modificar el script según su entorno y requisitos específicos.

Comments are closed.