大纲高能所的数据密集型科学计算 Lustre在高能所的部署经验问题和需求.

Slides:

Advertisements

Similar presentations

迪士尼公主裙衫变化记. 《白雪公主和七个小孩人》《白雪公主和七个小矮人》，是世界电影史上第一部长动画片，也是迪士尼的第一部。《白雪公主》不仅为迪斯尼带来了第一尊奥斯卡小人，更是拯救迪斯尼于水火的贵人 —— 在经济大萧条的 1937 年的美国，《白雪公主》为迪斯尼赚到了 850 万美元，这约等于现在的数亿美元！

Advertisements

定格入格破格 —— 新诗仿写复习训练仿照下列句子，再把 “ 人生 ” 比喻成 “ 大海 ”“ 天空 ” ，造两个句子。如果说人生是一首优美的乐曲，那么痛苦则是其中一个不可或缺的音符。参考答案： 1 、如果说人生是一望无际的大海，那么挫折则是其中一个骤然翻起的浪花。 2 、如果说人生是一片湛蓝的天空，那么失意则.

国家税务总局关于修改企业所得税年度纳税申报表（ A 类， 2014 年版）部分申报表的公告（国家税务总局公告 2016 年第 3 号）一、对《企业基础信息表》（ A ）及填报说明修改如下：（一） “107 从事国家非限制和禁止行业 ” 修改为 “107 从事国家限制或禁止行业 ”

2014 年 12 月企业所得税年度纳税申报表 (A 类， 2014 版 ) 辅导材料（二） A 企业基础信息 A 主表.

联想 LeoStor 分布式存储系统李秀峰解决方案产品经理联想大客户企业级产品营销 Mail ：

大教育家孔子年 1 月 11 日，一座总高为 9.5 米的孔子青铜雕像在国家博物馆北广场落成。 2011 年 1 月 11 日，一座总高为 9.5 米的孔子青铜雕像在国家博物馆北广场落成。

世界读书日 4月23日.

古诗鉴赏（常用答题方法）.

靜坐時身體的反應反應一：兩腿發麻會隨著靜坐的工夫而消失甚至覺得舒服血管被壓迫神經被刺激一般的常識是認為其實不盡然

景观水池渗漏的研究年级专业：12级土木工程指导教师： ××× 教学点： ××××教学点新疆工程学院继续教育学院 20 年月日

《大学语文》期末复习指导.

600年前，鄭和率領世界上最強大的艦隊，浩浩蕩蕩的駛入印度洋，展開一場「文化帝國」的海上大秀。

云计算系统测试技术与实践中国软件评测中心陈渌萍 2017年3月3日.

时间与我们的世界 Pb 段心蕊.

工程定额与计价方法教材名称：工程建设定额原理与实务

梦想的力量博湖一小赵秀珍. 梦想的力量博湖一小赵秀珍读课文，你有什么感受和体会，相互交流一下。还可以把自己想到的写下来。瑞恩的梦想是什么？他是怎样实现自己的梦想的？梦想的力量是什么？读课文，你有什么感受和体会，相互交流一下。还可以把自己想到的写下来。

建设工程施工管理模拟卷一、单项选择题 1.下列选项中，除（）以外都属于施工机械使用费。 A.购置费 B.安拆费及场外运费 C.折旧费 D.修理费.

北京中医药大学东直门医院把握“癌”的命脉祁烁血液肿瘤科.

2、加一笔成新字一 →二二 →三、干、工十 →土、士口 →日、中日 →目、白、田月 →用目 →自木 →禾、本大 →天、太、犬人 →大、个了 →子.

阳光工程引导性培训宁夏自治区盐池县农广校

常州市戚墅堰实验中学虞超群执教《诗经》选读卫风·氓.

作文训练：突出中心.

珠海市夏湾中学曾雪静引言：清朝是中国最后一个封建王朝，共有12位皇帝。他们各有个的故事，有的开创了“盛世”有的则把清朝推向灭亡。下面，请看清朝列位皇帝简介清朝皇帝史.

愛情直播不NG －破解戀愛迷思嘉南藥理科技大學學生輔導中心.

《毛泽东思想和中国特色社会主义体系概论》第一章马克思主义中国化两大理论成果

四组制作：许顺楠、姬少丽、李澎、刘伏、徐娅丽、李頔

2010年春季开学学校食堂食品安全知识培训徐汇区食品药品监督所

贴近教学服务师生方便老师.

进出口食品检验监管基础讲课内容我国进出口食品安全管理体系介绍法律法规进口食品的检验检疫出口食品的检验检疫.

授课班级安全技术管理0605班第 5 次课授课时间 2008年3月10日星期一授课地点科技楼401多媒体教室课题内容：

內容 1. 前言 2. 重要政策 3. 重要措施 4. 結語.

2015版《中国地震动参数区划图》对我市城乡建设的影响

總務處營繕組簡報 1.業務職掌 2.九十四年度工作績效 3.工程一覽 4.歷年工作成果 5.未來展望 6.困難及建議.

2014年企业所得税汇算清缴相关税收政策新华区地方税务局卿继红

第十章季节施工 ——冬期施工准备.

危险废物环境管理情况河南省固体废物管理中心　韩晓晗 2007年6月6日.

HADOOP的高能物理分析平台孙功星高能物理研究所/计算中心

义务教育课程标准实验教科书二年级下册玲玲的画山东滨州市无棣县棣丰街道中心小学　曹雪敏. 生活中有些事真有意思!要是肯动脑筋，坏事也能变成好事；要是肯动脑筋，看来不可能办成的事也能办成。碰到问题，我们要认真想想，找到解决问题的办法，做个善于思考的孩子。

第8章机床操作主讲：臧红彬博士.

歌咏对象是谁？ 1）志洁行廉，爱国忠君真气节；辞微旨远，经天纬地大诗篇。 2）翁去八百载，醉乡犹在；山行六七里，亭影不孤。 3）刚直不阿，留得正气冲霄汉；幽愁发愤，著成信史照尘寰。 4）世上疮痍，诗中圣哲；人间疾苦，笔底波澜。屈原欧阳修司马迁杜甫.

项羽之死司马迁.

第三章古代汉语语法 3—1古汉语语法及其研究一、《马氏文通》以前的《古汉语研究》

食品添加剂生产许可审查通则起草说明.

概述检索图书的检索工具检索期刊的检索工具检索特种文献的检索工具

餐饮服务从业人员食品安全知识培训孔莉朔州市食品药品监督管理局.

首次数据采集填报说明内蒙古自治区校车信息管理系统靳丽内蒙古自治区教育信息中心 2013年5月

第一章神话.

权力的行使：需要监督北京市京源学校冯悦.

防空地下室审批要点主讲人：陈玉亭.

治超新政相关文件解读厅执法局江涛二零一六年九月.

科技服务业统计报表填报说明江苏省科技统计中心 2008年12月镇江.

关于加强城市排水防涝有关政策解读吉林省住房和城乡建设厅臧锐.

珍惜时间提高效率初二1班

2006年10月面向数据处理的高端系统胡雷钧浪潮公司.

存储器的层次结构 512KB~8MB 400GB/S 1~8GB 12GB/S CPU Cache RAM 500GB DISK

淘宝核心系统数据库组余锋利用新硬件提升数据库性能淘宝核心系统数据库组余锋

信息存储与管理国家天文台（科技处）信息与计算中心.

同学们，你们做过梦吗？你们都梦到过什么呢？.

宝剑锋从磨砺出, 梅花香自苦寒来.

一九九四年九月五日.

第13课东汉的兴亡第三单元秦汉时期：统一多民族国家的建立和巩固授课人：李静南京三中文昌初级中学

香港傳統的農村生活.

知识点六草原资源保护法及渔业资源保护法.

GPU based online noise filtering algorithm in LHASSO-WCDA

電腦相關新技術規格

闭上眼睛就可以做梦，深夜里的清梦，大白天的美梦。阿德做梦了，他梦见了很多，你做过什么样的梦？

雲端運算的技術趨勢與影響資管四A 謝宗儒 A.

Presentation transcript:

大纲高能所的数据密集型科学计算 Lustre在高能所的部署经验问题和需求

应用背景：高能物理实验北京正负电子对撞机上的北京谱仪（BESIII）实验羊八井宇宙线实验大型强子对撞机LHC上的ATLAS,CMS实验大亚湾中微子实验重建模拟实验采集原始数据重建数据分析实验结果磁带磁盘盘

高能所计算存储环境 Document Management 7000 多个CPU内核约5PB的磁带存储 Web Content Management 集群、网格计算环境 Lustre磁盘存储登录节点，监控，调度磁带库 7000 多个CPU内核约5PB的磁带存储近2 PB Lustre磁盘存储登录，监控，调度等服务

I/O特征数据密集型，高吞吐率(high throughput)计算大文件，写一次，读多次读带宽: [ 0.5,6 ] MB/s 没有热点文件大块读写，跳读

Lustre在高能所的部署 2008.8 开始在生产系统部署Lustre，1.6.5 2010.1 升级到1.8.1.1 2011.7 升级到1.8.5 30个OSS, 300多个OST 近2PB的存储空间，1亿个文件，理论聚合带宽24GB/s

Lustre在高能所的部署版本数量网络连接存储连接服务器 2.6.18-194.17.1.el5_lustre.1.8.5, 64位 30 万兆以太网 4Gb（双口）直连盘阵客户端 1.8.5 32位和64位 800 千兆 Computing Cluster 10Gb Ethernet OSS 1 OST OST SATA Disk Array RAID 6（Main） SATA Disk Array RAID 6（extended） MDS OSS N MDT (SAS+RAID10)

Read throughput of single OSS 实际性能单个OSS 连接 4 个盘阵, 8 个OSTs 每个盘阵大约服务 50个读写进程读性能, 225 MB/s/disk array 乘以服务器数量，系统的理论聚合带宽>24 GB/s 20% Read throughput of single OSS IOwait on single OSS 900MB/s 60%

系统管理文件分布模式 fsck 用户管理基于目录的quota 磁盘池，区分不同的应用 Stripe=1，针对高吞吐率计算每年检修一次错误数据，删除，从备份中恢复用户管理 crontab脚本，同步用户数据库基于目录的quota 脚本，每天检查一次

监控 Lustre 底层信息监控 /proc 主机信息监控 ganglia iostat 服务器日志汇总，过滤 syslog-ng

故障报警磁盘水位报警 : lfs df 服务器连接报警: lctl ping 客户端可用性报警: 写文件到多个OST

已解决的问题 32位服务器OSS频繁死机双网卡登录节点频繁死机 timeout值太小，造成客户端不稳定 MDS 的可靠性改成64位操作系统双网卡登录节点频繁死机对lnet模块网卡绑定 timeout值太小，造成客户端不稳定 lctl set_param timeout MDS 的可靠性 LVM 快照+定期备份计划实施DRBD Lustre 客户端内存使用控制 lctl set_param max_cache_mb

已解决的问题（2） 1.8.1.1版本的服务器内存使用控制服务器死机故障分析 echo 0>/proc/fs/lustre/obdfileter/OSTXXX/read_ahead_cache_enable 服务器死机故障分析 crashdump + kernel-lustre-debuginfo 1.8.1.1,客户端死机后，服务器的CPU出现soft stuck，直到死机的客户端重启后，才能恢复正常。升级至1.8.5 以后故障不再重现个别客户端ptlrpc-recov进程占用CPU 100%，无法杀掉，无法正常重启

存在的问题 1.8.5 版本存在的bug HP G6服务器无法产生crash dump输出 32位客户端节点频繁死机导致服务器在读写频繁时会自动重启 HP G6服务器无法产生crash dump输出可能与1.8.5版本中的cciss硬件驱动有关 G7 服务器上没有 32位客户端节点频繁死机 du, ls –lr 等操作会消耗大量的客户端Normal memory 临时措施，禁用du 操作等待客户端完全升级至64位

问题和需求文件副本 OST 自动均衡元数据服务器的可扩展性方便统一的监控界面高效的数据备份策略

Discussion