Download presentation
Presentation is loading. Please wait.
1
StoRM+Lustre 压力测试 Yan Tian v2
2
本周新增内容 100MB 写,测试了 2000 并发,成功率 54%
100MB 读,修改 timeout 设定后,并发能到 1500,且都不低于 0.9 M/s 1GB 写,100并发时,所有进程速度小于 0.44 M/s 重新测试并更新了所外站点带宽(凌晨测试,数据准确)
3
Outline 测试平台与测试方法 Lustre 直接读写速度测试 StoRM+Lustre 并发写测试 (100MB 文件)
所外站点
4
PART I 测试平台与测试方法
5
测试平台 DIRAC Client gridftp Lustre /gridfs mount StoRM SE HBA 24x4TB 盘阵
10Gbps LAN
6
测试方法 写入 StoRM+Lustre 观测记录:
客户端使用 dirac-dms-add-file 工具,并发写文件到 IHEP-STORM 文件大小:1M、100M、1G 并发数:从100起,每次增加100,直到 1000 观测记录: Lustre:network、load、CPU StoRM:network、load、CPU、gridftp连接数、frontend连接数 客户端: network、load、CPU、总连接数、成功率、报错信息、
7
Lustre 性能参照对象:BES3FS boss50
load: 80~150 CPU: 20~30% Network: 700~850 M/s 两个盘阵
8
Lustre cp 读写速度 峰值约 400 MB/s (18块盘,平均每块盘 22 MB/s)
测试方法:100 个 2GB 文件并发读写 (cp
9
PART I Storm+lustre 并发写测试 100MB
10
TCP 连接数 GridFTP 连接数线性增长;每作业对应 4 个。 FrontEnd初期处理完请求就退出; 并发作业数
11
服务器 Load 值 客户端忙;但只在开始处理作业的一分钟内。 Lustre 在 40~75 之间,正常 StoRM 在 32 以下
12
服务器 CPU % 客户端忙;但只在开始处理作业的一分钟内。 Lustre 在 20 左右 StoRM 在 45~50
13
峰值网络流量 Lustre 最大写入速度在 300M/s 左右 StoRM 进出都可以到 350 M/s
14
慢速作业分析 0.2 M/s 是应该被 timeout 的作业。100MB / (500s timeout) = 0.2 M/s
15
长尾问题 约半数的作业,会以较低的速度,跑很长时间。 Lustre 方面能否优化?
对某个文件的写速度,一开始就定好了?不能根据负载情况自动调整?
16
100MB 并发写测试 结论 StoRM 的负载能力支撑 1500 并发写作业没有问题,CPU 和 Load 都只用了一半。
目前瓶颈在于 Lustre 单盘阵只有 400M/s 的速度,并发量大后,平均到每个作业的速度就小了。 如果 Lustre 加一个盘阵,到 800M/s 速度,则单台 StoRM 的网卡能力将会是瓶颈。
17
PART II Storm+lustre 并发读测试 100MB
18
TCP 连接数 和写类似,但要少一些
19
Load 值 客户端很低 <1 Lustre 比写文件时要低 <32
StoRM 的 Load 很高,但作业并没有失败。这些 load 应该来自于等待 IO 的进程
20
CPU 客户端、Lustre 都比较低。 StoRM 的 CPU 使用率高,并且其中主要是 IO wait。
21
峰值网络流量 网络峰值流量,比写的时候要高,一般在 400 上下。
22
慢速作业 比写的时候要快; dirac 代码里,读100M文件的 timeout 最低速度为 MB/s. 到 1500 并发都没有问题。
23
ganglia 里的 StoRM 负载 依次为 900, 1000, 1500, 800 并发作业数的测试图
24
1500 并发读的负载截图 load 750+, GridFTP 3000+, 网速降为 200 M/s
25
100MB 并发读测试 总结 1. 可以支持 1500 作业并发读。且在 dirac timeout 限制之内。 2. 读的时候,StoRM 的 io wait 和 load 高,这个应该是大量并发时的主要瓶颈 3. 读的速度快于写
26
PART X Storm+lustre 并发写(500MB)
27
慢速作业比率图(dirac成功率) 500MB 写只支持80 并发!再多就会 timeout
28
速度分布图(100作业) 少数作业高;大部分作业低 平均速度 M/s;总和95.3M/s,Lustre峰值 M/s
29
速度分布图(50作业) 少数作业高;大部分作业低 平均速度 M/s;总和80.6M/s,Lustre峰值 417 M/s
30
各并发作业数下速度分布对比
31
各并发作业数下速度分布对比2 为何都是有一般的速度比另一半快一倍?
32
Lustre 并发 cp 的速度分布图 100 50 200 平均速度到不了 2~4M/s
33
PART VI 所外站点网络情况
34
所外站点带宽 单位:bit/s 四个千兆站点 图中总带宽 3035 Mbps 约 380 MB/s NCEPU 100M IHEP BUAA
SJTU 50M PKU 100M USTC WHU UMN SDU 828M 853M 120M/node 914M 240M+
Similar presentations