DeepLearning

默认Base虚拟环境,支持软件列表如下:

名称版本
操作系统Ubuntu18.04
显卡驱动520.56.06
CudaToolkit10.2
Mpi4py3.1.4
Tensorflow(仅支持CPU版本)2.8.2
Pytorch1.10.1+cu102

一、使用镜像开机

1.选择“提交作业”

a.行业选择“人工智能”,选择“CudaToolkit/Mpi4py/Pytorch/TensorFlow-CPU/Miniconda“应用

2.开启机器

进入开机界面,根据需求选择CPU或者GPU类型机器,选择[GPU]类型机器,点击[开始计算]

二、初始化环境

1.配置cuda

a.cuda只需要配置一次,新用户初次登录的时候需要配置以下内容,编辑.bashrc文件

   # 编辑bashrc文件
   vim ~/.bashrc
   # 在文件末尾追加以下内容
   export CUDA_HOME=/usr/local/cuda-10.2
   export PATH="$PATH:/usr/local/cuda-10.2/bin"
   export   LD_LIBRARY_PATH="$LD_LIBRARY_PATH:/usr/local/cuda-10.2/lib64/"
   export LIBRARY_PATH="$LIBRARY_PATH:/usr/local/cuda-10.2/lib64"
   # 保存文件,并重新加载信息
   source ~/.bashrc
   # 查看显卡驱动版本
   nvidia-smi
   # 查看cuda版本
   nvcc -V
1
2
3
4
5
6
7
8
9
10
11
12
13

2.配置conda a.conda和cuda一样,只需要配置一次,新用户初次登录的时候需要执行以下命令

   # 初始化conda配置
   conda init
   # 重新加载配置信息
   source ~/.bashrc
   # 查看所有的虚拟环境
   conda info --envs
1
2
3
4
5
6

三、测试GPU是否正常工作

1.配置好cuda环境conda环境后,就可以使用GPU来做加速运算了

   # 打开python界面
   python
   # 导入torch模块
   import torch
   # 验证GPU是否可用
   print(torch.cuda.is_available())
1
2
3
4
5
6

四、如何安装其他版本的CUDA

1.安装cuda-toolkit

  a.可以在线安装其他版本cudaToolkit,需要提前开通外网(可以联系速石工作人员)

  b.打开“Terminal”终端,使用apt-get安装

  # 例如安装11.3版本的cuda-toolkit
  sudo apt-get install -y    cuda-toolkit-11-3
1
2

cudaToolkit版本:https://developer.nvidia.cn/cuda-toolkit-archive

pytorch支持的cuda版本请参考这里:https://pytorch.org/get-started/previous-versions/

2.切换cuda-toolkit版本

  a.cudaToolkit版本可以多版本并存,但是只能使用一个版本,切换版本需要修改.bashrc文件

  # 编辑bashrc文件
  vim ~/.bashrc
  # 将内容替换成以下内容
  export CUDA_HOME=/usr/local/cuda-11.3
  export PATH="$PATH:/usr/local/cuda-11.3/bin"
  export   LD_LIBRARY_PATH="$LD_LIBRARY_PATH:/usr/local/cuda-11.3/lib64/"
  export LIBRARY_PATH="$LIBRARY_PATH:/usr/local/cuda-11.3/lib64"
  # 保存文件,并重新加载信息
  source ~/.bashrc
  # 验证cuda版本是否切换成功
  nvcc -V
1
2
3
4
5
6
7
8
9
10
11

五、如何迁移应用至云上

1.本地导出

本地项目导出环境信息,conda命令如下

  # 导出时需要添加no-build参数,去除编译信息,防止导入失败
  conda env export --no-build >environment.yaml
1
2

2.上传文件

将文件及environment.yaml文件上传至云端

选择[数据管理]下的[文件列表],在右侧选择[上传],可选择上传文件或者文件夹.

备注: 为了方便传输,建议将整个项目进行打包上传,windows导出的environment.yaml文件会报错,需要将报错的包删掉后再进行导入

3.云上导入

为方便环境管理,建议使用镜像自带的conda进行环境管理

导入环境前请修改environment.yaml文件中的prefix,将路径修改成自己的家目录下的任意地址

如:/fastone/users/u11012013088/conda3/envs.然后创建虚拟环境

  # 创建虚拟环境
  conda env create -f environment.yaml
1
2

六、常见的问题

1.torch.cuda.is_available显示false?

  a.检查机器是否是GPU类型机器,运行nvidia-smi命令

  b.检查是否安装cudaToolkit

  c.检查pytorch是否有cudatoolkit驱动

  d.检查两个驱动版本是否一致

2.如何切换环境?

使用以下命令可切换环境变量

  conda activate YOUR_ENV_NAME
1

3.是否支持CUDNN?

默认没有安装cudnn,请前往以下地址下载cudnn:https://developer.nvidia.cn/rdp/cudnn-archive

备注: 默认镜像中不带cudnn,安装后需要保存成新的镜像,下次使用新的镜像开机即可