DeepLearning
默认Base虚拟环境,支持软件列表如下:
名称 | 版本 |
---|---|
操作系统 | Ubuntu18.04 |
显卡驱动 | 520.56.06 |
CudaToolkit | 10.2 |
Mpi4py | 3.1.4 |
Tensorflow(仅支持CPU版本) | 2.8.2 |
Pytorch | 1.10.1+cu102 |
一、使用镜像开机
1.选择“提交作业”
a.行业选择“人工智能”,选择“CudaToolkit/Mpi4py/Pytorch/TensorFlow-CPU/Miniconda“应用
2.开启机器
进入开机界面,根据需求选择CPU或者GPU类型机器,选择[GPU]类型机器,点击[开始计算]
二、初始化环境
1.配置cuda
a.cuda只需要配置一次,新用户初次登录的时候需要配置以下内容,编辑.bashrc文件
# 编辑bashrc文件
vim ~/.bashrc
# 在文件末尾追加以下内容
export CUDA_HOME=/usr/local/cuda-10.2
export PATH="$PATH:/usr/local/cuda-10.2/bin"
export LD_LIBRARY_PATH="$LD_LIBRARY_PATH:/usr/local/cuda-10.2/lib64/"
export LIBRARY_PATH="$LIBRARY_PATH:/usr/local/cuda-10.2/lib64"
# 保存文件,并重新加载信息
source ~/.bashrc
# 查看显卡驱动版本
nvidia-smi
# 查看cuda版本
nvcc -V
2
3
4
5
6
7
8
9
10
11
12
13
2.配置conda a.conda和cuda一样,只需要配置一次,新用户初次登录的时候需要执行以下命令
# 初始化conda配置
conda init
# 重新加载配置信息
source ~/.bashrc
# 查看所有的虚拟环境
conda info --envs
2
3
4
5
6
三、测试GPU是否正常工作
1.配置好cuda环境和conda环境后,就可以使用GPU来做加速运算了
# 打开python界面
python
# 导入torch模块
import torch
# 验证GPU是否可用
print(torch.cuda.is_available())
2
3
4
5
6
四、如何安装其他版本的CUDA
1.安装cuda-toolkit
a.可以在线安装其他版本cudaToolkit,需要提前开通外网(可以联系速石工作人员)
b.打开“Terminal”终端,使用apt-get安装
# 例如安装11.3版本的cuda-toolkit
sudo apt-get install -y cuda-toolkit-11-3
2
cudaToolkit版本:https://developer.nvidia.cn/cuda-toolkit-archive
pytorch支持的cuda版本请参考这里:https://pytorch.org/get-started/previous-versions/
2.切换cuda-toolkit版本
a.cudaToolkit版本可以多版本并存,但是只能使用一个版本,切换版本需要修改.bashrc文件
# 编辑bashrc文件
vim ~/.bashrc
# 将内容替换成以下内容
export CUDA_HOME=/usr/local/cuda-11.3
export PATH="$PATH:/usr/local/cuda-11.3/bin"
export LD_LIBRARY_PATH="$LD_LIBRARY_PATH:/usr/local/cuda-11.3/lib64/"
export LIBRARY_PATH="$LIBRARY_PATH:/usr/local/cuda-11.3/lib64"
# 保存文件,并重新加载信息
source ~/.bashrc
# 验证cuda版本是否切换成功
nvcc -V
2
3
4
5
6
7
8
9
10
11
五、如何迁移应用至云上
1.本地导出
本地项目导出环境信息,conda命令如下
# 导出时需要添加no-build参数,去除编译信息,防止导入失败
conda env export --no-build >environment.yaml
2
2.上传文件
将文件及environment.yaml文件上传至云端
选择[数据管理]下的[文件列表],在右侧选择[上传],可选择上传文件或者文件夹.
备注: 为了方便传输,建议将整个项目进行打包上传,windows导出的environment.yaml文件会报错,需要将报错的包删掉后再进行导入
3.云上导入
为方便环境管理,建议使用镜像自带的conda进行环境管理
导入环境前请修改environment.yaml文件中的prefix,将路径修改成自己的家目录下的任意地址
如:/fastone/users/u11012013088/conda3/envs.然后创建虚拟环境
# 创建虚拟环境
conda env create -f environment.yaml
2
六、常见的问题
1.torch.cuda.is_available显示false?
a.检查机器是否是GPU类型机器,运行nvidia-smi命令
b.检查是否安装cudaToolkit
c.检查pytorch是否有cudatoolkit驱动
d.检查两个驱动版本是否一致
2.如何切换环境?
使用以下命令可切换环境变量
conda activate YOUR_ENV_NAME
3.是否支持CUDNN?
默认没有安装cudnn,请前往以下地址下载cudnn:https://developer.nvidia.cn/rdp/cudnn-archive
备注: 默认镜像中不带cudnn,安装后需要保存成新的镜像,下次使用新的镜像开机即可