赵忠尧奖学金申请报告 颜田 中国科学院高能物理研究所 2015.5.22
个人简历 博士后,2014.3, 高能所 博士,2013 ,武汉大学 本科,2005,武汉大学 研究领域:高能物理实验的分布式计算系统 合作导师:李卫东研究员 博士,2013 ,武汉大学 专业:理论物理 研究领域:非线性数学物理 本科,2005,武汉大学 专业:物理学基地班 2/14
分布式计算介绍 分布式计算旨在 系统架构(如右图) 意义: 整合合作单位分散的、异构的计算资源 提供类似集群的用户界面 用于 MC 数据产生和分析 系统架构(如右图) 意义: 本地计算资源的重要补充 有效利用闲置资源 分摊计算成本 加强国内、国际合作 3/14
主要工作成绩 对 BESIII 实验的支持 对 CEPC、JUNO 实验的支持 实现了对模拟+重建+分析任务链的支持 系统由测试状态转为生产状态(7个用户,19.8万作业,7.4TB数据) 对 CEPC、JUNO 实验的支持 将原来的分布式计算系统扩展为支持多个实验的平台 实现了对 CEPC 模拟+重建作业,JUNO 模拟+刻度+重建作业的支持 CEPC 方面进入生产状态(1个用户,16.3万作业,72.9TB数据) JUNO 方面完成了规模作业测试 4/14
IHEPUSTC&WHU@10TB/day 支持 BESIII 实验:完成的工作 IHEPUSTC&WHU@10TB/day 建立 Storage Element (SE) 网络 研究 StoRM SE 并在 IHEP, USTC, INFN-Torino, WHU 站点部署 StoRM SE 其他站点 SE 的联调 Random trigger data 的部署 完善传输系统(与林韬合作) 将 21TB random trigger data 传输到各 SE 并注册 FileCatalog 前端系统 gangaBOSS 的完善(与赵祥虎合作) 从仅支持模拟到支持模拟+重建+分析 支持用户自定义产生子和分析包 5/14
支持 BESIII 实验:用户作业 2014.12~2015.5,7个用户,完成 19.8 万作业,7.4TB 数据 6/14
支持 CEPC 实验 :完成的工作 分布式计算系统对多个实验的支持 整合网格与本地存储系统(StoRM+Lustre) 配置 VOMS, DIRAC, StoRM 等服务器以支持 multi-VO 建立高能所自己的 CVMFS 软件发布平台 整合网格与本地存储系统(StoRM+Lustre) 避免了 Lustre 与 SE 之间的上传、下载;远程站点可读写 /cefs 提高了 SE 的容量上限(100TB量级PB量级) CEPC 镜像数据库部署 CEPC 作业拆分提交系统开发 card 风格界面,操作简便,修改少量参数就可以提交上万个作业 自动处理作业拆分、提交、运行查错、数据注册与传输 7/14
支持 CEPC 实验 :用户作业 2015.1~2015.5, 1个用户,完成 16.3 万作业,72.9 TB 数据 8/14
支持 JUNO 实验 :完成的工作 软件通过所内 CVMFS 服务器发布 前端系统原型开发(与索兵、林韬合作) 已发布 SL5/6 上的 J14v1r1, J14v1r2_MCC15A_b4 版本 所有合作单位均可挂载上使用 (比如 INFN-Padovana 云站点) 前端系统原型开发(与索兵、林韬合作) 支持 by event 拆分作业 StoRM+Lustre 的使用 作业能直接将输出数据写回 Lustre 支持 INFN-CNAF 的研究人员通过 srm 协议访问 /junofs 上的数据 9/14
支持 JUNO 实验 :作业测试 测试情况: 测试结论: 模拟+刻度+重建 1k 和 5k 事例数作业各 3000 个 由前端系统自动拆分提交 4个站点参与测试 运行 36 小时,成功率100% 生成数据 434GB,写回 Lustre 测试结论: 本系统能支持 JUNO 作业 10/14
其他工作 IHEP 分布式计算系统的运行维护 用户支持 Belle2-DIRAC 分布式计算北航站点维护 中心服务器维护 生产站点故障调试 新用户培训 解决用户遇到的问题,根据用户反馈改进系统 Belle2-DIRAC 分布式计算北航站点维护 11/14
学术报告与论文 2014.6.4 BESIII 合作组会(@IHEP),大会报告 Status of BESIII distributed computing 2014.9.12 CEPC-SPPC 研究组会(@SJTU),大会报告 Distributed computing for CEPC 2015.4.13 CHEP-2015 会议(@Japan),分会报告 (oral) Multi-VO support in IHEP’s distributed computing environment (poster) BESIII production system with distributed computing 论文: 两篇 CHEP 会议论文,即将发表于 J. Phys.: Conf. Series 12/14
未来工作计划 完善对 CEPC 实验的支持 完善对 JUNO 实验的支持 StoRM+Lustre 存储系统、MySQL 数据库性能优化 解决测试站点的问题,将可用 CPU 核数从 500 增加到 1000 研究对分析作业的支持,让更多用户能使用分布式计算 完善对 JUNO 实验的支持 大规模作业测试与物理验证 改进前端系统 StoRM+Lustre 存储系统、MySQL 数据库性能优化 监控系统的设计与实现 13/14
谢谢 谢谢大家! Q & A 14/14