TensorFlow
TensorFlow 是一个端到端开源机器学习平台。它用于各种感知和语言理解任务的机器学习,可助力研究人员推动先进机器学习技术的发展,并使开发者能够轻松地构建和部署由机器学习提供支持的应用。
用图形桌面模式如何提交任务
方法一:使用图形桌面
1. 提交作业
选择【提交作业】,选择【Linux】应用
2. 开启机器
进入开机界面,根据需求选择CPU或者GPU类型机器
操作系统请选择Centos7.5或者Ubuntu18.04操作系统,推荐使用ubuntu18.04
TensorFlow既支持CPU也支持GPU
这里选择【GPU】类型机器,点击【开始计算】
3. 初始化环境
3.1 使用module配置conda
- cuda只需要配置一次,新用户初次登录的时候需要配置以下内容
使用module引入conda
# 查看module支持软件列表
module av
# 载入conda软件
module load fastone/modulefiles/miniconda3/py37/23.1.0
# 查看conda的版本信息
conda --version
# 正常输出conda版本信息
2
3
4
5
6
7
3.2 配置conda
conda只需要配置一次,新用户初次登录的时候需要执行以下命令
# 初始化conda配置
conda init
# 查看所有的虚拟环境
conda info --envs
2
3
4
3.3 使用conda创建自己的虚拟环境
备注:由于创建下载资源需要访问公网,请提前跟速石的工作人员申请公网的访问权限
- 创建一个名称叫mytensorflow的虚拟环境使用python版本3.10
# 创建虚拟环境使用python3.10
conda create --name mytensorflow python=3.10
# 激活虚拟环境
conda activate mytensorflow
# 查看GPU显卡信息(仅支持GPU进行,cpu无此命令)
nvidia-smi
# 搜索cudatoolkit程序包
conda search cudatoolkit
# 安装cudatoolkit
conda install cudatoolkit=11.3.1
# 安装
conda install tensorflow-gpu=2.6.0
2
3
4
5
6
7
8
9
10
11
12
更多版本的安装命令请参考https://tensorflow.google.cn/install/source?hl=zh-cn#gpu
3.4 测试GPU是否正常工作
- 配置好cuda环境和conda环境后,就可以使用GPU来做加速运算了
# 打开python
python
# 导入torch模块
import tensorflow as tf
# 验证GPU是否可用,输出True表示可用,(CPU机型会报false)
print(tf.test.is_gpu_available())
2
3
4
5
6
4. 如何安装其他版本的CUDA
4.1 安装cuda-toolkit
可以在线安装其他版本cudaToolkit,需要提前开通外网
打开【Terminal】终端,使用apt-get安装
# 例如安装11.3版本的cuda-toolkit
conda install cudatoolkit=11.3.1
2
cudaToolkit版本: https://developer.nvidia.cn/cuda-toolkit-archive
5. 如何迁移应用至云上
5.1 本地导出
- 本地项目导出环境信息,conda命令如下
# 导出时需要添加no-build参数,去除编译信息,防止导入失败
conda env export --no-build >environment.yaml
2
5.2 上传文件
将文件及environment.yaml文件上传至云端
选择 [数据管理] 下的 [文件列表],在右侧选择 [上传],可选择上传文件或者文件夹
备注: 为了方便传输,建议将整个项目进行打包上传,windows导出的environment.yaml文件会报错,需要将报错的包删掉后再进行导入
6. 常见的问题
6.1 tf.test.is_gpu_available显示false
检查计算是否有GPU显卡
检查环境中是否有cudatoolkit
检查tensorflow版本是否支持当前的cudatoolkit版本
6.2 如何切换环境
使用以下命令可切换环境变量
更多conda的使用命令请参考:
http://www.360doc.com/content/23/0319/23/37289152_1072737405.shtml
# 激活环境变量
conda activate YOUR_ENV_NAME
# 取消conda环境
conda deactivate YOUR_ENV_NAME
# conda 搜索安装包
conda search *PACKAGE_NAME*
2
3
4
5
6
6.3 是否支持CUDNN?
- 可以使用conda来安装cudnn
# 搜索cudnn
conda search *cudnn*
# 安装cudnn
conda install cudnn=8.2.1
2
3
4
6.4 NCCL源码安装及conda配置
https://blog.csdn.net/u011119817/article/details/124961425
方法二:使用社区镜像
一、提交流程
登录 Fastone 平台控制台;
数据管理上传计算文件;
在首页,点击【提交作业】-点击【TensorFlow】应用-选择图形桌面模式-选择机器配置,进行启用机器;
上传计算文件,设置资源参数;
二、单机模式
Step 1:首页选择【提交作业】,如图:
Step 2:选择【TensorFlow】应用,根据所需计算文件大小设置机器配置
Step 3:在图形界面,选择创建的图形桌面,点击【VNC】进行远程连接
Step 4:进入图形桌面,打开Terminal,如图:
Step 5:在家目录下创建目录,如pytorch-1.10, tensorflow-2.7.1, tensorflow-2.7.1-gpu 在目录中放入需要执行的脚本,如test.py, pytorch-1.10中另外放入输入文件input.tar.gz
Step 6:执行测试脚本
Tensorflow-2.7.1
/opt/fastone/softwares/tensorflow-2.7.1/run_tensorflow-2.7.1.sh "python test.py"
Tensorflow-2.7.1-gpu
注意:Tensorflow-2.7.1-gpu需要开启GPU机器
/opt/fastone/softwares/tensorflow-2.7.1-gpu/run_tensorflow-2.7.1-gpu.sh "python test.py"