안경잡이개발자

728x90
반응형

  최근에 PyTorch를 이용하여 딥러닝 소스 코드를 실행하려고 하는데, 다음과 같이 NVIDIA driver 관련 오류가 출력되었다. 아래 오류는 기본적으로 자신이 설치한 PyTorch의 버전이 NVIDIA driver의 버전과 호환되지 않기 때문에 오류가 발생한다. 이 경우 ① NVIDIA driver를 업데이트하여 PyTorch 버전과 맞추거나 ② PyTorch를 재설치하여 NVIDIA driver의 버전을 맞추는 방법이 있다.

 

  전체 오류 메시지는 일반적으로 다음과 같이 출력된다.

 

 

  가장 먼저, 다음과 같은 명령어를 이용해 자신의 GPU 노드에 설치되어 있는 CUDA 버전을 확인하자.

 

cat /usr/local/cuda/version.txt

 

  실행 결과 다음과 같이 CUDA 버전이 출력된다. 필자의 GPU 노드의 CUDA 버전은 10.1.168이다.

 

 

  필자는 CUDA 버전을 업데이트하는 것이 번거로운 상황이라서 기존의 torch 및 torchvision을 제거했다.

 

pip3 uninstall torch torchvision


  이후에 CUDA 버전에 맞는 torch와 torchvision으로 다시 설치했다. CUDA 버전이 10.1이기 때문에, 이와 같이 CUDA 10.1을 위한 torch와 torchvision을 사용하면 되는 것이다. 현재 시점으로 PyTorch로 작성된 상당수의 딥러닝 소스 코드는 PyTorch 1.7.0 버전으로 실행할 수 있기 때문에, 필자는 이 버전으로 설치했다.

pip3 install torch==1.7.0+cu101 torchvision==0.8.1+cu101 -f https://download.pytorch.org/whl/torch_stable.html

 

  참고로 너무 예전 버전의 torch와 torchvision을 쓰게 되면 최신 코드를 실행하지 못하는 경우가 있으므로, 최대한 최신 버전의 PyTorch부터 설치해 보고 실행해 보는 방식으로 문제를 해결할 수 있다. 필자 또한 문제를 해결하는 과정에서 여러 번 torch와 torchvision을 설치하고 삭제하는 과정을 반복했다.

728x90
반응형

Comment +0