35th Weekly Operation Report on DIRAC Distributed Computing

Slides:



Advertisements
Similar presentations
環境游離輻射 ( 六 ) 輻射與核能發電. 媽!這是我上班的 地方-核電廠。 地方好寬闊喔! 聽說日本原子彈爆炸死好幾 萬人,阿榮啊!你在這裡上 班,安全嗎?
Advertisements

《小狗包弟 》之 从阅读到写作 学校:和风中学 年级:高一 参赛者:彭龙英. 预习检测一 思考:同学们读完作者与包弟 的故事后,说一说作者所表达的情 感是什么?
CEPC 摄影准直测量预研进展 一、测量模型研究:根据加速器设备布局范围大、控制点间距 大、单相机视场宽度不够的特点,我们研究设计了四相机测量模 型如下:
云计算辅助教学风云录 黎加厚 上海师范大学教育技术系 2010年8月9日.
網路智慧新臺灣政策白皮書 構面三:智慧生活 衛福部、教育部、文化部、經濟部 經濟部彙整 104年4月23日.
虹膜识别健康养老服务智能系统项目.
均衡教育計劃簡介 (小學) 均衡教育 All-Round Education.
探究活动课:互联网+历史素材阅读与研讨 古代中国的选官制度 黄天庆  探究活动课:互联网+历史素材阅读与研讨 古代中国的选官制度 黄天庆 
職校、五專群科簡介.
中公教育湖南分校 地址:长沙市建湘南路154号惟楚国际6楼 电话:
江苏省工程造价管理协会 工作报告 2015年4月21日 扬州.
做好就业与自主创业的准备.
101年8月份 嘉義市道路交通安全聯席會報 酒駕行為與肇事現況分析 主講人:內政部警政署交通組科長張夢麟 1.
高校邦在线学习平台 学生学习手册 北京高校邦科技有限公司.
在线学习系统操作指南.
一张图读懂 创新现状 互联网+电影产业商业模式.
HADOOP的高能物理分析平台 孙功星 高能物理研究所/计算中心
Oracle WebLogic 数据库连接原理及案例探讨
William Stallings 计算机组成与结构(第8版)
提升课堂质量 助推教师成长 促进教学改革 “一师一优课,一课一名师”活动总结 河南省实验小学.
一小时系列讲座 工具书使用方法之一: 《康熙字典》检字方法
江苏筱诺企业服务有限公司 江苏筱诺企业服务有限公司是集企业管理服务,企业管理咨询,国内劳务派遣,国内货运代理等服务于一体的综合型服务贸易有限公司。本公司立足于苏州工业园区,以为企业服务为己任。一贯注重“以人为本,客户至上”的发展理念。在工作实践中不断积累经验,改进服务质量,得到了所服务企业的交口称赞。在公司的发展中培养出了一支高素质、专业化,年轻化的队伍。公司规模不断扩大,业务蒸蒸日上。公司逐步形成了多元化发展的格局,并使公司增强了参与竞争、抵御风险的能力。联系方式:
臺北市立松山家商 103學年度第1學期 學校日 教學說明 簡報
103學年度第1階段 志願選填試探後輔導作為 成效檢討與精進建議
活动主题:佛山智造 中国骄傲 随着互联网、云计算、大数据以及移动互联网的快速发展,技术不仅仅是一种工具,正加速重构着品牌的新格局。
第一部分 系统概述 第二部分 技术背景 目录 第三部分 维修流程描述 成功案例 第四部分. 第一部分 系统概述 第二部分 技术背景 目录 第三部分 维修流程描述 成功案例 第四部分.
Chaoping Li, Zhejiang University
四川省卫生监督移动 执法终端介绍 发言人:陈成身 四川省卫生执法监督总队.
獎補助經預計支用報告 105年.
YARN & MapReduce 2.0 Boyu Diao
軟體原型 (Software Prototyping)
Dr. Baokun Li 经济实验教学中心 商务数据挖掘中心
Working with Databases (II) 靜宜大學資管系 楊子青
第五讲 数据的分组、合并与转换.
WEB挖掘算法介绍.
第十章 应用程序测试.
Chapter7 全球資訊網與瀏覽器介紹 網路應用入門(一) Chapter7 全球資訊網與瀏覽器介紹
邹佳恒 第十八届全国科学计算与信息化会议 • 威海,
华东理工大学 关于新校园卡功能启用的相关说明 2018年09月07日.
Science and technology report service systemUsage method
Hot Issue 2013 Policy Address 熱點事件 – 醫療美容事件 回到通識教育科網上資源平台 瀏覽內容.
股票代碼:2545 皇翔建設股份有限公司.
SOA – Experiment 2: Query Classification Web Service
成品检查报告 Inspection Report
SAP Query 建立User Group (SQ03) 建立Infoset (SQ02)
INVENTEC Resell Web Site 第一次登入
ANNUAL REPORT WE WILL DO A GREAT JOB !.
高考应试作文写作训练 5. 正反观点对比.
NASA雜談+電腦網路簡介 Prof. Michael Tsai 2015/03/02.
新媒体环保公益广告现状调查及发展潜力研究
102學年度下學期 班親會 五年仁班 楊曉逸老師.
TinyDB資料庫 靜宜大學資管系 楊子青.
28th Weekly Operation Report on DIRAC Distributed Computing
第二階段「校園徒步區建置」 執行成果報告.
1753: Need for Speed ★★☆☆☆ 題組:Problem Set Archive with Online Judge
学 生 端 操 作 指 南
云计算在高能物理实验 分布式计算的结合应用
赵忠尧奖学金申请报告 颜田 中国科学院高能物理研究所
Operating System Software School of SCU
無悔今生.
106學年度竹苗區 免試入學報名及志願選填系統 操作說明
第6章 Android客户端模块实现 QQ群(App开发案例教程--清华) :
学 生 端 操 作 指 南
SEWM 2008中文Web检索评测报告 木棉队 魏本洁 何章鸿 毛志科 黄翀民 李浩 文胜 华南理工大学广东省计算机网络重点实验室.
建筑信息化引领者 联系方式 营销类 V8.5 功能方案书 建筑施工项目管理系统&OA系统.
為民服務白皮書 台灣電力公司彰化區營業處  彰化區營業處 為民服務白皮書 誠信 關懷 服務 成長 1.
实验课程学习手册.
云控APP说明书 适用于云控平台配置.
云控APP说明书 适用于云控平台配置.
Presentation transcript:

35th Weekly Operation Report on DIRAC Distributed Computing YAN Tian From 2015-09-02 to 2015-09-16 由于9.7-11的云计算暑期学校太忙,两周合为一次报告

Weekly Running Jobs by User item value active users 3 max running jobs 922 average running jobs 410 total executed jobs 38.0k Notes: CEPC production user weiyq runns sim+rec. jobs. BES user zhanglei & zhus run sra jobs.

Final Status of Running Jobs Failed Reason percent upload failover 2.4% stalled 7.3% application error 35.9% other 0.73% USTC jobs stall CEPC input file problem WHUIHEP-STORM failover zhanglei testing

Output Data Generated and Transfered quality: good. WHUIHEP-STORM has some problems, need failover 16.6TB ~1.85TB/day

Running job by Site 8 sites in production: : OpenStack, OpenNebula WHU, USTC, UMN GRID.INFN-Torino, GRID.JINR CLOUD.TORINO.it

Job Final Status at each Site 1 (CEPC input file problem excuted) OpenStack, 2345 jobs 81.9% done 15.2% app err WHU, 2946 jobs 67.4% done 31.4% pengding request GRID.INFN-Torino, 9049 jobs 84.5% done 10.7% app err OpenNebula, 4511 jobs 83.0% done, 13.6% app err

Job Final Status at each Site 2 (CEPC input file problem excuted) UMN, 4044 jobs 51.1% done 48.9% app err JINR, 1356 jobs 95.5% done 3% stall CLOUD.Torino, 1666 jobs 90.5% done 4.9% killed 3.9% app err USTC, 2666 jobs 11.0% done, 88.7% stalled

Failed Types at Site: Description USTC has many job stalled. Under checking UMN didn’t run jobs since Sep.12. Under checking All other sites are good. Especially two sites in Torino. Both of them works well. Most of the app err is from zhanglei’s testing jobs. It’s not the site problem.

Cumulative User Jobs Total user jobs: 38.0 k weiyq 46.4% zhanglei 37.6% zhus 16.0%

本周运维日志1 9.4凌晨,阅兵期结束,WHU网络恢复。作业开始正常运行。 至9.9六天,CEPC作业运行正常。WHU有failover但不影响成功率。 9.10 起BES用户张磊、朱帅开始交作业。 9.10 CEPC weiyq提交新一批作业发现全部23#错误(表示事例数已跑完)。经查,他没有更新输入文件列表。将2万事例数的文件当做20万事例数的文件处理。 9.11 CEPC weiyq准备好输入文件列表,重交作业,但因为 cefs IO错误而中断。 9.11 张磊作业出错,教他如何获取log后,他自己调试解决。 9.12 CEPC weiyq再次重交作业,提交和运行都正常。 9.13 朱帅不知道我们更新了web界面地址,找不到新交的作业。告诉他地址后解决。在QQ群发了新服务器地址变更通知。 9.14 HyperNews发布新服务器URL变更通知

本周运维日志2 9.14 张磊作业数据集出现下载错误。经查,原因是数据集query不区分大小写,张磊的数据集中有些仅有 diy/DIY 这种evtType有大小写差别的,所以查询时连带以前的也包含进来。 9.14张磊 跨round03,04交作业,生成两个数据集,后一个r04直接采用前面r03的stream号,这会导致数据覆盖已存在的目录。而且存在数据丢失风险(r04不知道数据写到什么目录去了),以及其他不可预知错误。赵祥虎说,gangaBOSS目前只能保证单round运行正常。建议用户不要跨round交作业。 9.15 INFN 两个站点最近运行正常,完成不少作业。 9.15 USTC 大量作业 stall, 原因待查。 9.15 UMN 从9.11日起一直没有作业运行。原因待查。 9.15 CEPC作业来自WHU的 failover request failed 周期性出现。添加 StoRM SE TCP 优化参数,继续观察。CEPC目前每个作业下载350MB,上传540MB

运维日志附图 1 (ustc)

运维日志附图 2(ustc)