机群性能分析软件 Paramon & Paratune 北京并行科技有限公司
产品简介 Paramon –大规模机群及应用运行状态实时监控工具 Paratune – 基于Paramon性能数据的机群及应用精细化性能分析工具 北京并行科技有限公司自主研发设计
Paramon –大规模机群及应用运行状态实时监控工具
Paramon应用场景 监控机群整体运行状态,提供机群异常报警 监控机群节点详细硬件部件运行状态 监控机群中应用实时运行性能 ……
Paratune多服务器应用性能分析
Paratune应用场景 快速捕获机群应用的异常状态 快速识别机群中硬件部件的故障 了解机群硬件工作情况,快速识别应用性能瓶颈 结合应用指导服务器机群的硬件选型 ……
Paramon简介 Paramon应用运行特征收集器(Application Runtime Characterization Collector),通过实时监控机群管理/登录节点、计算节点、IO节点等服务器的处理器、内存、网络和存储性能数据,提供机群系统中应用软件随时间变化的运行特征。 HPC机群用户在采购新系统时需要专业的方案设计支持,需要Paramon这样能够准确描述用户应用在计算机硬件上运行特征的描述语言和分析工具。 HPC机群用户关注自身应用的运行情况,希望应用可以高效运行,需要Paramon这样信息全面、响应速度快的机群应用监控系统,以辅助了解当前系统各种软硬件的使用情况。 Paramon可以实时分析应用程序的运行性能瓶颈,通过对各种行业应用特征的捕捉和专家系统设定,Paramon可以在行业应用运行发生性能问题时及时发出报警,并给出优化建议辅助用户优化软硬件系统以提高整体系统的利用率。 Paramon在监控整体机群系统性能状态的同时,将性能数据保存为para应用性能特征文件,实时保存应用运行现场,供离线性能分析使用。
产品线划分 Paramon的产品线针对客户的不同需求划分为两款产品,分别是: Paramon机群版 - Paramon Cluster Edition Paramon专业版 - Paramon Professional Edition Paramon机群版和Paramon专业版面向高性能计算机群的用户,用于对各种HPC行业应用软件进行运行特征的监控和实时数据采集,也可用于对机群的软件硬件进行监控,提供各种机群运行异常的事件报警。Paramon机群版提供系统级数据和Gflops、内存带宽信息,Paramon专业版在Paramon机群版的基础上提供了更多的高级微架构级数据。
Paramon产品工作原理介绍 Paramon机群版和专业版均为分布式架构,分为前台系统和后台系统,后台系统又分为服务器端程序和客户端程序。Paramon具有非常强的扩展性,可部署在上千节点的超大规模机群环境中。 Paramon前台系统可以部署在任意节点的不同操作系统环境中,包括各种Linux发行版本和Windows。后台系统服务器端程序只支持Linux操作系统环境,通常部署在管理节点上,当节点为Linux操作系统环境时,前台系统和后台系统服务器端程序可以合并。Paramon软件后台客户端程序支持Linux和Windows操作系统环境,通常部署在所有要采集数据的节点上。
工作模式
Paramon可采集的应用运行特征
Paramon可采集的应用运行特征
Paramon可采集的应用运行特征
软件发展历程 Paramon/Paratune软件5年的不断发展和进步 中国HPC Top100装机率超过30% 安装使用服务器节点上万台 2012.09 2012.03 V3.0.0 2011.09 V2.3.0 2011.03 V2.0.0 2010.06 V1.2.3 2009.12 程序有很大的性能提升空间(硬件不变提升数倍以上性能) V1.2.0 2009.04 V1.1.0 2008.05 V1.0.0 2008.02 V0.1.0 单机版
在命令行运行“paramon”命令即可启动Paramon前台窗口界面
配置和使用Paramon Paramon前台窗口启动后需要“连接”到相应的nodelist机群配置文分两种情况: Ⅰ若是首次连接至某个“nodelist”机群配置文件,特别是此“nodelist”为用户手动编写后首次连接,应点击“文件”,选择“加载机群配置”,之后选择目标机群配置文件即可。 Ⅱ若先前已经加载过此“nodelist”机群配置文件,可以点击“文件”,选择“连接”(快捷键Alt+C)
配置和使用Paramon
配置和使用Paramon
在前台“连接”成功后就可以看到整个机群中所有应用的运行特征和节点状态,下图为IBM-A机群含有80节点的实时运行状态
单体窗口介绍 Paramon机群版和专业版的窗口界面中包括很多的“单体窗口”,每一个单体窗口对应一台服务器。这些单体窗口的界面,均显示对应服务器的CPU使用率、内存使用率、磁盘读写速率、网络收发速率等系统级数据信息和CPU微架构数据信息。 单体窗口分“实时窗口”和“历史数据窗口”两种显示方式,Paramon中默认显示方式为“实时窗口”。
实时单体窗口
“实时单体窗口”中的各项指标
各项指标的详细说明 这些指标中有的是百分率,有的是绝对数值,下面是对这些指标的说明: 内存使用率:内存使用的百分比,上限为100% 内存读速率和内存写速率:统称“内存带宽”,上限为40GB/s SWAP使用速率:SWAP分区的实时使用百分比,上限为100% SWAP使用率:SWAP分区使用的百分比,上限为100% CPU ALL使用率:CPU总利用率所占的百分比,上限为100% CPU SYWA使用率:内核态占CPU时间百分比+等待IO 请求占CPU时间百分比,上限为100% CPU有效计算比例:Gflops占峰值的比例,上限为100% GPU使用率:GPU使用百分比,上限为100% 磁盘读/写速率:读写磁盘的速率,上限为100MB/s 网络文件系统(NFS)接收/发送速率:网络文件系统的读写速度,上限为100MB/s 网络接收/发送速率:网络的收发速度,上限为100MB/s IB接收/发送速率:InfiniBand网络的收发速度,上限为200MB/s
在实时单体窗口中使用快捷键P/p可以查看单个节点的作业信息显示每个CPU核心运行的进程ID和用户ID,格式:进程ID@用户ID
“实时单体窗口”通过颜色块的面积显示监测数据的瞬时值,若想观察一段时间内的历史数据,可以按下“W/w”快捷键,转换“实时单体窗口”为“历史数据单体窗口”。 历史数据单体窗口右侧记录了一段时间内各项指标随时间变化的波动曲线,默认显示6项指标(CPU使用率、内存使用率、网络发送速率、网络接收速率、磁盘读速率、磁盘写速率),历史数据单体窗口左侧显示CPU使用率的瞬时值。
历史数据单体窗口
“历史数据单体窗口”各项指标
当启动Paramon前台并且“连接”到某个节点列表之后,会看到缺省的Paramon界面(实时单体窗口)
切换到“历史数据窗口”的Paramon界面(快捷键W/w)
常用功能
Paramon前台窗口支持鼠标右键菜单,在每个单体窗口行点击鼠标右键会出现六个选项。
Ⅰ“登录”会登陆到这个节点并且打开一个xterm终端(双击窗口也可以直接打开),用户可以在这个终端里对该节点进行操作。 注意:使用本功能请在前台先安装后xterm终端,并且设置好节点的ssh信任连接。
Ⅱ“清空swap”允许用户手动清空swap分区。 Ⅲ“系统信息”将会显示该节点的核心硬件信息,包括操作系统版本,内核版本,cpu信息和核数,内存信息等等 其中“Nx”代表设备的数量,比如cpu一行出现“8x”说明总共有8个cpu核,以太网卡那行出现“2x”表示有2个网卡设备。
剩下3个选项“重启”、“关机”、“并行命令”为执行并行命令选项。在Paramon主窗口可以通过鼠标左键拉框选择要执行的节点,也可以按下ctrl点击左键选择,被选择的会有蓝色网格表示。
Ⅳ点击“重启”选项会在Command出入窗口显示“reboot”命令 Ⅴ点击“关机”选项会在Command出入窗口显示“poweroff”命令 Ⅵ点击“并行命令”选项会在Command出入窗口显示空,在“并行命令”窗口中可以进一步选择执行命令的节点和修改要执行的命令
“汇总信息窗口”选项控制是否显示机群性能汇总信息窗口,却省为不显示。当打开这个选项时,汇总信息窗口将会出现在Paramon主窗口上方,这些汇总信息包括,机群功耗、总cpu利用率、总内存利用率、机群实时Gflops、总GPU利用率等等
保存文件(文件>>保存Parafile)
鼠标放到单个窗体上面时,会根据放大倍数将小窗体放大,并显示详细信息。 快捷键V/v:可显示/隐藏详细信息
Ⅰ如果某节点发生异常(例如死机、失对去响应或者网络中断),其对应的单体窗口将以黄色边框来报警, Ⅱ如果该节点状态异常超过10秒钟,黄色边框将变为红色边框。 节点发生异常后,单体窗口下方会显示异常状态出现的时长(小时:分钟)
自定义配置paramon
熟悉前台窗口界面 一、“文件”菜单
“文件”菜单详细说明 Ⅰ“新建集群配置”目前主要用于在Windows版前台自动安装Paramon后台使用。 Ⅱ“连接”选项用呀Paramon前台连接至已有的“nodelist”机群配置文件,在连接到节点列表之后会变成不可用状态。 若想删除某个“nodelist”,只需要在此配置文件按钮处单击鼠标右键即可出现“Delete Nodelist”菜单。如右图
“文件”菜单详细说明 Ⅲ“加载机群配置”首次连接至某个nodelist机群配置文件,特别是此“nodelist”为用户手动编写后首次连接。 Ⅳ“save Parafile”选项会弹出一个子窗口,用于修改本次保存para文件的设定,如右图。
“文件”菜单详细说明 Ⅴ“保存截图”选项将会把当前Paramon窗口一个屏幕截图,包村为“png”格式的图像文件,该图像默认存放到运行Paramon时用户所在目录 Ⅵ“退出”选项用于退出Paramon前台界面,结束运行。
熟悉前台窗口界面 二、“选项”菜单
Ⅰ“实时报警扫描”可以让用户实时扫描各种故障报警事件,扫描时会弹出一个子窗口,如图 “选项”菜单详细说明 Ⅰ“实时报警扫描”可以让用户实时扫描各种故障报警事件,扫描时会弹出一个子窗口,如图
“选项”菜单详细说明 Ⅱ“报警面板”会打开故障报警时间配置窗口,其中有“报警设置”、“短信报警设置”、“邮件报警设置”三个标签页
“选项”菜单详细说明
Ⅲ“单体窗口设置”用于设置Paramon各个单体窗口的两项属性:背景颜色和GPU显示信息。 “选项”菜单详细说明 Ⅲ“单体窗口设置”用于设置Paramon各个单体窗口的两项属性:背景颜色和GPU显示信息。
“选项”菜单详细说明 Ⅳ“偏好设置”允许用户进行四项设置,会弹出一个子窗口,分别是保存文件相关设置、性能报警的相关设置、界面显示效果的相关设置,和配置文件的相关设置。
“选项”菜单详细说明 “设置选项卡”可以调节各项指标的显示阈值
“选项”菜单详细说明 Paramon主窗口中的图形和文字的显示效果依赖与底层硬件,可根据前台计算机的硬件配置在“图像质量”做出适当选择以获取最优的显示效果。 如果机群的显卡比较低端,并且在“图像质量”中选择“高”会导致Paramon窗口响应速度变慢,如果机群节点数量很多,Paramon窗口甚至会失去相应。
鼠标放到单个窗体上面时,会根据放大倍数将小窗体放大,并显示详细信息。 快捷键V/v:可显示/隐藏详细信息
熟悉前台窗口界面 三、“查看”菜单
“查看”菜单详细说明 Ⅰ“汇总信息窗口”选项控制是否显示机群性能汇总信息窗口,却省为不显示。当打开这个选项时,汇总信息窗口将会出现在Paramon主窗口上方,这些汇总信息包括,机群功耗、总cpu利用率、总内存利用率、机群实时Gflops、总GPU利用率等等
“查看”菜单详细说明 Ⅱ“事件窗口”选项控制是否显示报警信息窗口,缺省为不显示。当打开这个选项时,报警信息窗口将会出现在Paramon主窗口下方,所有的报警时间将会被记录在这个窗口里。
“查看”菜单详细说明 Ⅲ作业信息选项用于控制是否显示作业信息窗口,缺省为不现实,该选项也可通过快捷键“Alt+J/j”来切换显示与否 在“显示设置”部分有3个选项: 1.“颜色”:修改无作业运行节点或与选中作业无关的节点的蒙层颜色 2.“透明度”:修改无作业运行节点或与选中作业无关的节点的蒙层透明度 3.“隐藏无关节点”:在Paramon主窗口中切换显示无作业运行节点或与选中作业无关的节点
Ⅳ“图例”选项用于控制是否在Paramon主窗口底部显示图例,缺省为显示,该选项也可以通过快捷键“L/l”来实现
熟悉前台窗口界面 四、“窗口”菜单
Ⅰ“设置显示界面布局”用于调整Paramon窗口界面的布局
Ⅱ“全屏”将把Paramon窗口切换到全屏幕显示,也可以通过快捷键“F11”来实现。 Ⅲ “语言”用于选择Paramon菜单界面语言,用户可以选择英语或者简体中文。
熟悉前台窗口界面 五、“帮助”菜单 Ⅰ“注册...”注册Paramon软件证书选项 Ⅱ“检查更新”点击后会在浏览器中打开下载页面,及时更新软件有助于您获得更好使用效果。 Ⅲ“关于”显示Paramon的版本信息
谢谢 http://www.paratera.com