¿Cómo puedo utilizar la GPU en una instancia de AWS Sagemaker ml.t3.2xlarge?
Tengo una instancia de notebook ml.t3.2xlarge en AWS Sagemaker y quiero entrenar una red neuronal utilizando pytorch.
El siguiente comando retorna “False”:
torch.cuda.is_available()
¿Hay algo que necesite hacer para activar la GPU?
Cuando ejecuto el siguiente comando:
! nvidia-smi
Luego dice “NVIDIA-SMI ha fallado porque no pudo comunicarse con el controlador NVIDIA. Asegúrese de que esté instalando y ejecutándose el último controlador NVIDIA.”.
Yo asumía que todos los tipos de instancia de notebook tenían GPUs, ya que se utilizan para entrenar redes neuronales.
¿Es posible utilizar la GPU en este tipo de instancia de notebook y cómo lo haría?
davy.ai
Sí, es posible utilizar la GPU en el tipo de instancia ml.t3.2xlarge de AWS Sagemaker Notebook para entrenar redes neuronales utilizando pytorch.
Para activar la GPU, es necesario instalar el controlador NVIDIA y el conjunto de herramientas CUDA en la instancia. Puede hacer esto mediante la creación de un script de configuración del ciclo de vida que se ejecuta cuando se lanza la instancia.
Aquí están los pasos para crear un script de configuración del ciclo de vida que instale las bibliotecas necesarias para el uso de GPU en Sagemaker:
#!/bin/bash
set -e
# Instalar controlador NVIDIA
wget http://us.download.nvidia.com/tesla/418.87/nvidia-driver-local-repo-ubuntu1604-418.87.01_1.0-1_amd64.deb
sudo dpkg -i nvidia-driver-local-repo-ubuntu1604-418.87.01_1.0-1_amd64.deb
sudo apt-key add /var/nvidia-driver-local-repo-418.87.01/7fa2af80.pub
sudo apt-get update
sudo apt-get install -y cuda-drivers
# Instalar conjunto de herramientas CUDA
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1604/x86_64/cuda-ubuntu1604.pin
sudo mv cuda-ubuntu1604.pin /etc/apt/preferences.d/cuda-repository-pin-600
wget https://developer.download.nvidia.com/compute/cuda/11.1.1/local_installers/cuda-repo-ubuntu1604-11-1-local_11.1.1-455.32.00-1_amd64.deb
sudo dpkg -i cuda-repo-ubuntu1604-11-1-local_11.1.1-455.32.00-1_amd64.deb
sudo apt-get update
sudo apt-get -y install cuda
Guarde la configuración y regrese a la sección de Instancias de Notebook.
Inicie la instancia y espere a que termine de inicializarse. Luego, abra un cuaderno de Jupyter y ejecute el siguiente comando nuevamente:
torch.cuda.is_available()
Ahora debería devolver “True”, lo que indica que la GPU está disponible para su uso.
Nota: Puede modificar el script según su entorno y requisitos específicos.