PyTorch
PyTorch是一个基于Python的可续计算包,具有强大的GPU加速的张量计算(如NumPy),并给用户提供最大灵活性和速度的深度学习研究平台
用图形桌面模式如何提交任务
方法一:使用图形桌面
1. 提交作业
选择【提交作业】,选择【Linux】应用
2. 开启机器
进入开机界面,根据需求选择CPU或者GPU类型机器
操作系统请选择Centos7.5或者Ubuntu18.04操作系统,推荐使用ubuntu18.04
Pytorch既支持CPU也支持GPU
这里选择【GPU】类型机器,点击【开始计算】
3. 初始化环境
3.1 使用module配置conda
- cuda只需要配置一次,新用户初次登录的时候需要配置以下内容
使用module引入conda
# 查看module支持软件列表
module av
# 载入conda软件
module load fastone/modulefiles/miniconda3/py37/23.1.0
# 查看conda的版本信息
conda --version
# 正常输出conda版本信息
2
3
4
5
6
7
3.2 配置conda
conda只需要配置一次,新用户初次登录的时候需要执行以下命令
# 初始化conda配置
conda init
# 查看所有的虚拟环境
conda info --envs
2
3
4
3.3 使用conda创建自己的虚拟环境
备注:由于创建下载资源需要访问公网,请提前跟速石的工作人员申请公网的访问权限
- 创建一个名称叫mypytorch的虚拟环境使用python版本3.10
# 创建虚拟环境使用python3.10
conda create --name mypytorch python=3.10
# 激活虚拟环境
conda activate mypytorch
# 查看GPU显卡信息(仅支持GPU进行,cpu无此命令)
nvidia-smi
# 搜索cudatoolkit程序包
conda search cudatoolkit
# 安装cudatoolkit
conda install cudatoolkit=11.8.0
# 安装
conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia
2
3
4
5
6
7
8
9
10
11
12
更多版本的安装命令请参考https://pytorch.org/get-started/previous-versions/
3.4 测试GPU是否正常工作
- 配置好cuda环境和conda环境后,就可以使用GPU来做加速运算了
# 打开python
python
# 导入torch模块
import torch
# 验证GPU是否可用,输出True表示可用,(CPU机型会报false)
print(torch.cuda.is_available())
2
3
4
5
6
4. 如何安装其他版本的CUDA
4.1 安装cuda-toolkit
可以在线安装其他版本cudaToolkit,需要提前开通外网.
打开【Terminal】终端,使用apt-get安装
# 例如安装11.3版本的cuda-toolkit
conda install cudatoolkit=11.3.1
2
cudaToolkit版本:https://developer.nvidia.cn/cuda-toolkit-archive
pytorch支持的cuda版本请参考这里:https://pytorch.org/get-started/previous-versions/
5. 如何迁移应用至云上
5.1 本地导出
- 本地项目导出环境信息,conda命令如下
# 导出时需要添加no-build参数,去除编译信息,防止导入失败
conda env export --no-build >environment.yaml
2
5.2 上传文件
将文件及environment.yaml文件上传至云端
选择[数据管理]下的[文件列表],在右侧选择[上传],可选择上传文件或者文件夹
备注: 为了方便传输,建议将整个项目进行打包上传,windows导出的environment.yaml文件会报错,需要将报错的包删掉后再进行导入.
5.3 云上导入
6. 常见的问题
6.1 torch.cuda.is_available显示false
检查是否安装cudaToolkit
检查pytorch是否有cudatoolkit驱动
6.2 如何切换环境
使用以下命令可切换环境变量
# 激活环境变量
conda activate YOUR_ENV_NAME
# 取消conda环境
conda deactivate YOUR_ENV_NAME
2
3
4
6.3 是否支持CUDNN?
- 可以使用conda来安装cudnn
# 搜索cudnn
conda search *cudnn*
# 安装cudnn
conda install cudnn=8.2.1
2
3
4
6.4 NCCL源码安装及conda配置
NCCL源码安装_conda nccl_牛andmore牛的博客-CSDN博客
方法二:使用社区镜像
一. 提交流程
登录 Fastone 平台控制台;
数据管理上传计算文件;
在首页,点击【提交作业】-点击【PyTorch】应用-选择图形桌面模式-选择机器配置,进行启用机器;
上传计算文件,设置资源参数;
二、单机模式
Step 1:首页选择【提交作业】,如图:
Step 2:选择【PyTorch】应用,根据所需计算文件大小设置机器配置
Step 3:在图形界面,选择创建的图形桌面,点击【VNC】
Step 4:进入图形桌面,打开Terminal,如图:
Step 5:在家目录下创建目录,如pytorch-1.10,在目录中放入需要执行的脚本,如test.py, pytorch-1.10中另外放入输入文件input.tar.gz
Step 6:执行测试脚本
Pytorch-1.10
/opt/fastone/softwares/pytorch-1.10/run_pytorch-1.10.sh -inputtar
/opt/fastone/softwares/pytorch-1.10/input.tar.gz -command "python test.py"
2