PyTorch

PyTorch是一个基于Python的可续计算包,具有强大的GPU加速的张量计算(如NumPy),并给用户提供最大灵活性和速度的深度学习研究平台

用图形桌面模式如何提交任务

方法一:使用图形桌面

1. 提交作业

选择【提交作业】,选择【Linux】应用

2. 开启机器

  • 进入开机界面,根据需求选择CPU或者GPU类型机器

  • 操作系统请选择Centos7.5或者Ubuntu18.04操作系统,推荐使用ubuntu18.04

  • Pytorch既支持CPU也支持GPU

这里选择【GPU】类型机器,点击【开始计算】

3. 初始化环境

3.1 使用module配置conda

  • cuda只需要配置一次,新用户初次登录的时候需要配置以下内容

使用module引入conda

  # 查看module支持软件列表
  module av
  # 载入conda软件
  module load fastone/modulefiles/miniconda3/py37/23.1.0
  # 查看conda的版本信息 
  conda --version
  # 正常输出conda版本信息
1
2
3
4
5
6
7

3.2 配置conda

conda只需要配置一次,新用户初次登录的时候需要执行以下命令

  # 初始化conda配置
  conda init
  # 查看所有的虚拟环境
  conda info --envs
1
2
3
4

3.3 使用conda创建自己的虚拟环境

备注:由于创建下载资源需要访问公网,请提前跟速石的工作人员申请公网的访问权限

  • 创建一个名称叫mypytorch的虚拟环境使用python版本3.10
  # 创建虚拟环境使用python3.10
  conda create --name mypytorch python=3.10
  # 激活虚拟环境
  conda activate mypytorch
  # 查看GPU显卡信息(仅支持GPU进行,cpu无此命令)
  nvidia-smi
  # 搜索cudatoolkit程序包
  conda search cudatoolkit
  # 安装cudatoolkit
  conda install cudatoolkit=11.8.0
  # 安装
  conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c   nvidia
1
2
3
4
5
6
7
8
9
10
11
12

更多版本的安装命令请参考https://pytorch.org/get-started/previous-versions/在新窗口打开

3.4 测试GPU是否正常工作

  • 配置好cuda环境和conda环境后,就可以使用GPU来做加速运算了
  # 打开python
   python
   # 导入torch模块
   import torch
   # 验证GPU是否可用,输出True表示可用,(CPU机型会报false)
   print(torch.cuda.is_available())
1
2
3
4
5
6

4. 如何安装其他版本的CUDA

4.1 安装cuda-toolkit

  • 可以在线安装其他版本cudaToolkit,需要提前开通外网.

  • 打开【Terminal】终端,使用apt-get安装

  # 例如安装11.3版本的cuda-toolkit
  conda install cudatoolkit=11.3.1
1
2

cudaToolkit版本:https://developer.nvidia.cn/cuda-toolkit-archive在新窗口打开

pytorch支持的cuda版本请参考这里:https://pytorch.org/get-started/previous-versions/在新窗口打开

5. 如何迁移应用至云上

5.1 本地导出

  • 本地项目导出环境信息,conda命令如下
  # 导出时需要添加no-build参数,去除编译信息,防止导入失败
  conda env export --no-build >environment.yaml
1
2

5.2 上传文件

  • 将文件及environment.yaml文件上传至云端

  • 选择[数据管理]下的[文件列表],在右侧选择[上传],可选择上传文件或者文件夹

备注: 为了方便传输,建议将整个项目进行打包上传,windows导出的environment.yaml文件会报错,需要将报错的包删掉后再进行导入.

5.3 云上导入

6. 常见的问题

6.1 torch.cuda.is_available显示false

  • 检查是否安装cudaToolkit

  • 检查pytorch是否有cudatoolkit驱动

6.2 如何切换环境

使用以下命令可切换环境变量

  # 激活环境变量
  conda activate YOUR_ENV_NAME
  # 取消conda环境
  conda deactivate YOUR_ENV_NAME
1
2
3
4

6.3 是否支持CUDNN?

  • 可以使用conda来安装cudnn
  # 搜索cudnn
  conda search *cudnn*
  # 安装cudnn
  conda install cudnn=8.2.1
1
2
3
4

6.4 NCCL源码安装及conda配置

NCCL源码安装_conda nccl_牛andmore牛的博客-CSDN博客在新窗口打开

方法二:使用社区镜像

一. 提交流程

  1. 登录 Fastone 平台控制台;

  2. 数据管理上传计算文件;

  3. 在首页,点击【提交作业】-点击【PyTorch】应用-选择图形桌面模式-选择机器配置,进行启用机器;

  4. 上传计算文件,设置资源参数;

二、单机模式

Step 1:首页选择【提交作业】,如图:

Step 2:选择【PyTorch】应用,根据所需计算文件大小设置机器配置

Step 3:在图形界面,选择创建的图形桌面,点击【VNC】

Step 4:进入图形桌面,打开Terminal,如图:

Step 5:在家目录下创建目录,如pytorch-1.10,在目录中放入需要执行的脚本,如test.py, pytorch-1.10中另外放入输入文件input.tar.gz

Step 6:执行测试脚本

Pytorch-1.10

/opt/fastone/softwares/pytorch-1.10/run_pytorch-1.10.sh -inputtar 
/opt/fastone/softwares/pytorch-1.10/input.tar.gz -command  "python test.py"
1
2