编辑: 旋风 2015-08-07
华东师范大学超算中心 作业调度系统策略配置和使用情况说明 华东师大超算中心作业调度系统策略配置情况说明 曙光为华东师范大学超算中心提供的作业调度系统 Gridview 之DPBS, 源于 PBS 系统,集成于 Gridview,带有自己的功能强大的调度器.

兼容 OpenPBS 2.3 的所有语法. Gridview 集成的 DPBS 曙光内部版本是 2.0;

调度器版本为 2.0. 1. 作业队列 目前整个系统共计

63 台计算节点 (node1-63 每个节点

8 CPU CORE 和16GB 内存),1 台登录节点(node64,配置 8CPU CORE,16 GB 内存)1 台管理节点 (node65, 配置

8 CPU CORE, 16GB 内存) ;

1 台I/O 节点 (node65, 配置

8 CPU CORE,16 GB 内存). 作业调度系统的管理节点是 node64 和node65,在这两个节点上用管理员帐 户root 都可以管理(删除或者取消)普通用户提交的作业. 共设定四个队列,high,parallel,debug, serial. 其中 high(具有特权的 用户使用) 为高优先级抢占队列, 可以抢占其它队列的作业. parallel, debug,serial 为低优先级队列, 其作业可以被 high 队列中的作业所抢占.默认队列为 parallel, 所有用户的作业长度不受限制,但其优先级也最低,优先级值越大,优先级也越 高. Queue CPU-Time Limit No. of Jobs in Parallel Priority high unlimited unlimited

11000 debug

2 小时

4 6000 parallel

30 天89000 serial

30 天64

6000 资源分区,利用 Reservation 的方法实现资源分区概念: 分为串行作业计算 节点区 (node1-8) 、 作业编译调试区 (node61-63) 和并行作业运行区 (node9-60) . 目前所有计算队列基本未加更进一步的限制, 任何用户可以提交任意数目的 长短作业.

2 调度策略 四个队列中,high(业务系统)为高优先级抢占队列,可以抢占其它队列的 作业. debug,parallel 和serial 为低优先级队列,其作业可以被 high 队列中的 作业所抢占. 默认队列为 parallel,所有用户的作业长度在主机试运行期间不受 限制;

优先级值越大,优先级也越高. 普通节点区未加限制,任何用户可以提交任意数目的长短作业.

3 作业调度系统使用举例 3.1 Job Arrays Job Arrays 是一种将相关工作分组的机制,允许使用者提交,查询,修改以 及显示一个集合的工作. 这个新的功能对于一些必须提交以及管理大量相关工作 的user 来说是相当实用的. 测试算例为: 测试脚本为: dolphin# cat helloworld.cc #include #include int main() { std::cout cat test.c #include "stdio.h" int main( int argc, char *argv[] ) { int i;

for (i=0;

i gcc test.c -o test #PBS -c enabled,periodic,shutdown,interval=1,dir=/public/users/dolphin/work/cr 表示开启 Checkpoint 功能(enabled);

periodic 表明进行周期性 Checkpoint;

shutdown 表明当 PBS Server 宕机时进行 Checkpoint;

interval=1 表明进行 Checkpoint 的最小 CPU 时间间隔为

1 分钟(单位为分钟);

dir=/public/users/dolphin/work/cr 表明 chekpoint 文件的保存目录为 /public/users/dolphin/work/cr. dolphin@CLOUD@ECNU:~/work/cr> cat test.job #!/bin/bash #PBS -N my.cr.job #PBS -j oe #PBS -l walltime=00:10:00 #PBS -c enabled,periodic,shutdown,interval=1,dir=/public/users/dolphin/work/cr #PBS -q serial cd $PBS_O_WORKDIR ./test dolphin@CLOUD@ECNU:~/work/cr> dolphin@CLOUD@ECNU:~/work/cr> qsub test.job 1363.node65 dolphin@CLOUD@ECNU:~/work/cr> qstat Job id Name User Time Use S Queue 1363.node65 my.cr.job dolphin

0 R serial dolphin@CLOUD@ECNU:~/work/cr> qpeek

1363 i =

0 i =

下载(注:源文件不在本站服务器,都将跳转到源网站下载)
备用下载
发帖评论
相关话题
发布一个新话题