编辑: 人间点评 2019-07-01
资源管理软件 TORQUE 与作业调度软件 Maui 的 安装、设置及使用 李会民(hmli@ustc.

edu.cn) 中国科学技术大学网络信息中心

2008 年1月目目目录 录录1资资资源 源 源管 管 管理 理 理软 软 软件 件件TORQUE 的的的安 安 安装 装 装与 与 与设 设 设置 置置21.1 服务节点安装 TORQUE

2 1.2 服务节点初始化并设置 TORQUE

2 1.3 计算节点上安装 TORQUE

4 1.4 计算节点配置 TORQUE

4 2 安安安装 装 装与 与 与配 配 配置 置 置作 作 作业 业 业调 调 调度 度 度软 软 软件 件件: : :Maui

5 2.1 服务节点上安装 Maui

5 2.2 服务节点上配置 Maui

5 3 作作作业 业 业运 运 运行 行行63.1 串行作业

7 3.2 并行作业

8 3.3 常用作业管理命令

8 3.3.1 查看队列中的作业状态:qstat

9 3.3.2 挂起作业:qhold

10 3.3.3 取消挂起:qrls

10 1 3.3.4 终止作业:qdel 和canceljob

10 3.3.5 查看作业状态:checkjob

11 3.3.6 交换两个作业的排队顺序:qorder

12 3.3.7 选择符合特定条件的作业的作业号:qselect

12 3.3.8 显示队列中作业的信息:showq

13 3.3.9 显示节点信息:pbsnodes 和qnodes

13 2

1 资资资源 源 源管 管 管理 理 理软 软 软件 件件TORQUE 的的的安 安 安装 装 装与 与 与设 设 设置 置置TORQUE 和Maui 可以从 http://www.clusterresources.com 上下载.以下仅 是粗略配置,详细配置请参考相关手册: ? TORQUE:http://www.clusterresources.com/torquedocs21/ ? Maui:http://www.clusterresources.com/products/maui/docs/ mauiusers.shtml 1.1 服服服务 务 务节 节 节点 点 点安 安 安装 装装TORQUE 这里假设服务节点的机子名为 kd50,其中一个计算节点的名字为 node0101. root@kd50# tar zxvf torque-2.2.1.tar.gz root@kd50# cd torque-2.2.1 root@kd50# ./con?gure Cpre?x=/opt/torque-2.2.1 Cwith-rcp=rcp 上面 Cwith-rcp=rcp 设置为利用 rsh 协议在节点间传输文件,也可设置为 Cwith- rcp=scp 以利用 scp 协议进行传输.利用 rcp 或者 scp 传输需要配置节点间无须密码 访问,具体请参看相关文档. root@kd50# make root@kd50# make install 1.2 服服服务 务 务节 节 节点 点 点初 初 初始 始 始化 化 化并 并 并设 设 设置 置置TORQUE 将TORQUE 的可执行文件所在的目录放入系统的路径中,修改 /etc/pro?le: § TORQUE=/opt/torque?2.2.1 MAUI=/opt/maui?3.2.6p20 if [ `id ?u` ?eq

0 ];

then PATH= /usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin: PATH=$PATH:$TORQUE/bin:$TORQUE/sbin:$MAUI/bin:$MAUI/sbin else PATH= /usr/local/bin:/usr/bin:/bin:/usr/games:$TORQUE/bin:$MAUI/bin PATH=$PATH:$TORQUE/bin:$MAUI/bin ? ? ? 上面将同时设置 Maui 的路径,如在这里已经设置了,并且 Maui 安装路径为上 面的话,后面就无需再设置 Maui 的路径.

3 修改后使设置的环境变量生效: source /etc/pro?le 将root 设置为 TORQUE 的管理帐户: root@kd50# ./torque setup root 在/var/spool/torque/server priv/nodes 中添加计算节点的机器名,类似: § kd50 node0101 ? ? 如果服务节点不参与计算的话,需要将服务节点的机器名去掉.如果 node0101 上 有两个处理单元,就设置为 node0101 np=2. 如果 /var/spool/torque 下的目录 spool 和undelivered 的权限不是 drwxrwxrwt 的话,需要 chmod

1777 spool undelivered. 创建作业队列: root@kd50# pbs server -t create root@kd50# qmgr 输入下面 Qmgr: 后的内容,将设置一个默认队列 dque: § Qmgr: create queue dque queue type=execution Qmgr: set server default queue=dque Qmgr: set queue dque started=true Qmgr: set queue dque enabled=true Qmgr: set server scheduling=true ? ? 可以通过下面的代码来检查 pbs server 是否正常运行,若pbs server 没有运行, 则首先运行该程序,然后执行下面的代码: § # shutdown server qterm ?t quick # start server pbs server # verify all queues are properly con?gured qstat ?q # view additional server con?guration qmgr ?c '

下载(注:源文件不在本站服务器,都将跳转到源网站下载)
备用下载
发帖评论
相关话题
发布一个新话题