LSF系统介绍 张焕杰 中国科学技术大学网络信息中心 james@ustc.edu.cn http://202.38.64.40/~james/nms Tel: 3601897(O)
参考资料: 参考资料: Running Jobs with Platform LSF
LSF简介 LSF(Load Sharing Facility)是分布资源管理的工具,用来调度、监视、分析联网计算机的负载。 目的 通过集中监控和调度,充分共享计算机的CPU、内存、磁盘、License等资源 一组安装了LSF软件的计算机组成一个Cluster Cluster内的资源统一监控和调度
LSF Cluster的组成
LSF 术语 Cluster 命令 一组运行LSF软件的计算机(当然是用TCP/IP网络互连的),跟计算Cluster术语无关 bhosts 列出cluster中的机器 lsid 显示cluster名字 lsclusters 显示cluster状态和规模
LSF 术语 Server Host Client Host 在科大的Cluster中,node1-node32是ServerHost Cluster内提交和执行Job的计算机 Client Host Cluster内仅仅提交Job的计算机 在科大的Cluster中,node1-node32是ServerHost
LSF 术语 Job 命令 提交给LSF 的命令 LSF负责调度、控制、跟踪job bjobs 查看系统的Job bsub 提交作业 bhist 查看作业历史 bkill kill一个作业
环境介绍 用户登录/认证 所有用户在202.38.64.90 上开户,用户可以通过 其它机器通过NIS来获得用户的信息 telnet 202.38.64.91来登录系统 登录到其他节点使用 rsh node1 其它机器通过NIS来获得用户的信息 /home目录在所有机器上共享