TensorFlow

TensorFlow 是一个端到端开源机器学习平台。它用于各种感知和语言理解任务的机器学习,可助力研究人员推动先进机器学习技术的发展,并使开发者能够轻松地构建和部署由机器学习提供支持的应用。

用图形桌面模式如何提交任务

方法一:使用图形桌面

1. 提交作业

选择【提交作业】,选择【Linux】应用

2. 开启机器

  • 进入开机界面,根据需求选择CPU或者GPU类型机器

  • 操作系统请选择Centos7.5或者Ubuntu18.04操作系统,推荐使用ubuntu18.04

  • TensorFlow既支持CPU也支持GPU

这里选择【GPU】类型机器,点击【开始计算】

3. 初始化环境

3.1 使用module配置conda

  • cuda只需要配置一次,新用户初次登录的时候需要配置以下内容

使用module引入conda

  # 查看module支持软件列表
  module av
  # 载入conda软件
  module load fastone/modulefiles/miniconda3/py37/23.1.0
  # 查看conda的版本信息 
  conda --version
  # 正常输出conda版本信息
1
2
3
4
5
6
7

3.2 配置conda

conda只需要配置一次,新用户初次登录的时候需要执行以下命令

  # 初始化conda配置
  conda init
  # 查看所有的虚拟环境
  conda info --envs
1
2
3
4

3.3 使用conda创建自己的虚拟环境

备注:由于创建下载资源需要访问公网,请提前跟速石的工作人员申请公网的访问权限

  • 创建一个名称叫mytensorflow的虚拟环境使用python版本3.10
  # 创建虚拟环境使用python3.10
  conda create --name mytensorflow python=3.10
  # 激活虚拟环境
  conda activate mytensorflow
  # 查看GPU显卡信息(仅支持GPU进行,cpu无此命令)
  nvidia-smi
  # 搜索cudatoolkit程序包
  conda search cudatoolkit
  # 安装cudatoolkit
  conda install cudatoolkit=11.3.1
  # 安装
  conda install tensorflow-gpu=2.6.0
1
2
3
4
5
6
7
8
9
10
11
12

更多版本的安装命令请参考https://tensorflow.google.cn/install/source?hl=zh-cn#gpu

3.4 测试GPU是否正常工作

  • 配置好cuda环境和conda环境后,就可以使用GPU来做加速运算了
  # 打开python
  python
  # 导入torch模块
  import tensorflow as tf
  # 验证GPU是否可用,输出True表示可用,(CPU机型会报false)
  print(tf.test.is_gpu_available())
1
2
3
4
5
6

4. 如何安装其他版本的CUDA

4.1 安装cuda-toolkit

  • 可以在线安装其他版本cudaToolkit,需要提前开通外网

  • 打开【Terminal】终端,使用apt-get安装

  # 例如安装11.3版本的cuda-toolkit
   conda install cudatoolkit=11.3.1
1
2

cudaToolkit版本: https://developer.nvidia.cn/cuda-toolkit-archive在新窗口打开

5. 如何迁移应用至云上

5.1 本地导出

  • 本地项目导出环境信息,conda命令如下
  # 导出时需要添加no-build参数,去除编译信息,防止导入失败
  conda env export --no-build >environment.yaml
1
2

5.2 上传文件

  • 将文件及environment.yaml文件上传至云端

  • 选择 [数据管理] 下的 [文件列表],在右侧选择 [上传],可选择上传文件或者文件夹

备注: 为了方便传输,建议将整个项目进行打包上传,windows导出的environment.yaml文件会报错,需要将报错的包删掉后再进行导入

6. 常见的问题

6.1 tf.test.is_gpu_available显示false

  • 检查计算是否有GPU显卡

  • 检查环境中是否有cudatoolkit

  • 检查tensorflow版本是否支持当前的cudatoolkit版本

6.2 如何切换环境

使用以下命令可切换环境变量

更多conda的使用命令请参考:

http://www.360doc.com/content/23/0319/23/37289152_1072737405.shtml在新窗口打开

  # 激活环境变量
  conda activate YOUR_ENV_NAME
  # 取消conda环境
  conda deactivate YOUR_ENV_NAME
  # conda 搜索安装包
  conda search *PACKAGE_NAME*
1
2
3
4
5
6

6.3 是否支持CUDNN?

  • 可以使用conda来安装cudnn
  # 搜索cudnn
  conda search *cudnn*
  # 安装cudnn
  conda install cudnn=8.2.1
1
2
3
4

6.4 NCCL源码安装及conda配置

https://blog.csdn.net/u011119817/article/details/124961425在新窗口打开

方法二:使用社区镜像

一、提交流程

  1. 登录 Fastone 平台控制台;

  2. 数据管理上传计算文件;

  3. 在首页,点击【提交作业】-点击【TensorFlow】应用-选择图形桌面模式-选择机器配置,进行启用机器;

  4. 上传计算文件,设置资源参数;

二、单机模式

Step 1:首页选择【提交作业】,如图:

Step 2:选择【TensorFlow】应用,根据所需计算文件大小设置机器配置

Step 3:在图形界面,选择创建的图形桌面,点击【VNC】进行远程连接

Step 4:进入图形桌面,打开Terminal,如图:

Step 5:在家目录下创建目录,如pytorch-1.10, tensorflow-2.7.1, tensorflow-2.7.1-gpu 在目录中放入需要执行的脚本,如test.py, pytorch-1.10中另外放入输入文件input.tar.gz

Step 6:执行测试脚本

Tensorflow-2.7.1

/opt/fastone/softwares/tensorflow-2.7.1/run_tensorflow-2.7.1.sh "python test.py"
1

Tensorflow-2.7.1-gpu

注意:Tensorflow-2.7.1-gpu需要开启GPU机器

/opt/fastone/softwares/tensorflow-2.7.1-gpu/run_tensorflow-2.7.1-gpu.sh "python test.py"
1