GPU based online noise filtering algorithm in LHASSO-WCDA

Slides:



Advertisements
Similar presentations
定 格 入 格 破 格 —— 新诗仿写复习训练 仿照下列句子,再把 “ 人生 ” 比喻成 “ 大海 ”“ 天空 ” , 造两个句子。 如果说人生是一首优美的乐曲,那么痛苦则 是其中一个不可或缺的音符。 参考答案: 1 、如果说人生是一望无际的大海,那么挫折则 是其中一个骤然翻起的浪花。 2 、如果说人生是一片湛蓝的天空,那么失意则.
Advertisements

1 1.2 信息的表示与存储  数据:数据是对客观事物的符号表示。 如,数值、文字、语言、图形、图像等都是不同形 式的数据。  信息:信息是既是对客观事物变化和特征的反映,又 是事物之间相互作用、相互联系的表征。 信息必须数字化编码,才能用计算机进行传送、存 储和处理。 信息具有针对性和时效性。
------课题(一) :PLC控制系统设计
婚姻與家庭 上課日期:
第 3 章 聽覺 每章扉頁 3.1 聽覺 3.2 人類耳朵的反應 3.3 聽覺缺陷.
从永磁体谈起.
好習慣是這樣養成的 夏欣 著 Shared by Leu C. D..
赵永华 中科院计算机网络信息中心 超级计算中心
时间与我们的世界 Pb 段心蕊.
教育局資安課程 戒慎恐懼-談公務上的資安認知.
門神 在傳統觀念中,門是居住環境中與外界相通的出入口,具有重要的屏障作用。門神顧名思義就是護宅守門的神仙,每逢過年,上至天子百官下至普通百姓,家家戶戶必在門上張貼門神,以保一家平安。 門神種類主要有宅第大門上將軍武門神、內室門戶上祈福文門神,還有童子門神、仙子門神等,形象豐富多樣,皇家貴戚還往往在畫上瀝粉貼金,十分吉祥喜慶。
LHAASO项目电磁粒子探测器实验研究进展
电磁铁.
第3讲 教学内容 1.3~ 微型计算机系统——硬件部分 计算机的产生发展 计算机系统组成(硬件结构) 计算机工作原理
5.5可行性分析 可行性分析的概念 策略可行性分析 操作可行性分析 回报可行性分析.
第三章 存储系统 现代计算机系统都以存储器为中心 在计算机运行过程中,存储器是各 种信息存储和交换的中心。
第二章 项目一:企业厂区与车间平面设计 1.
海量资源带来的困惑 基于知识挖掘的发现. 海量资源带来的困惑 基于知识挖掘的发现 海量资源带来的困惑 ——由一组数字说起.
软国重-图形与建模组 计算机图形学与几何建模组 负责老师:杨钦 主要研究方向 明年是否有指导本科毕设计划:是
第8章 机床操作 主讲:臧红彬 博士.
第四章 存储体系.
《计算机操作员》精品 课件 淮南市潘集职教中心
了解高中信息技术课 柯华菁.
主板整体维修思路 1、加电保护 现象:触发上电,风扇 转一下就停,同时能听见电源发出‘滋啦’一声异 响,再次触发,不上电。
第4章 需求分析 教学目的:了解需求分析的任务和步骤、评审标准和过 程,掌握基本技术,理解需求规格说明书的 作用与组成。
可编程序控制器原理及应用 宫淑贞 王东青 徐世许 编著 主要参考书 《可编程序控制器原理与程序设计》 《可编程序控制器原理 应用 网络》
IP路由器.
Computer <目录> 处理器 CPU 显卡 GPU 内存 MEROMRY 硬盘 HARD DISK DRIVER
3.1主板的组成 3.2主板分类 3.3主板的选购 3.4主流主板芯片组技术参数
MOSFET for VGA Card.
數位邏輯的基礎.
PMT 读出ASIC研究进展 严雄波 2/5/2013 核探测与核电子学国家重点实验室2013年会.
大纲 高能所的数据密集型科学计算 Lustre在高能所的部署经验 问题和需求.
GPU分散式演算法設計與單機系統模擬(第二季)
作業系統 第八章 記憶體管理.
大型高海拔宇宙线观测站 通用水电任务与工作进展
华南理工大学 陈虎 博士 CUDA编程模型 华南理工大学 陈虎 博士
胡維平 國立中正大學化學暨生物化學系 Aug. 30, 2017
2018年12月29日 单片机原理与应用 单片机概述.
PS3 and Xbox360 硬體解析 為您比較兩者的硬體效能差別 CPU GPU.
電腦系統表示資料的單位.
基于成形和模数变换的电荷测量前端模拟ASIC设计
羊八井大型水契伦科夫探测器中双增益大动态范围前放的研制
如何赢一个机械键盘
7.1.1 设备管理的功能(P95) 分配设备:按设备的不同类型和操作系统选用的算法分配。包括分配相应的通道、设备控制器以及对未分配到的任务或怍业进行排队等; 控制和实现真正的输入输出操作。包括通道程序控制、启动设备、及时响应及处理中断讯号等; 对输入输出缓冲区进行管理。例如逻辑名的管理,多个缓冲区的分时以及串并行操作,同类多个外部设备的均衡工作,避免“忙的忙”和“闲的闲”;
认识计算机 随着科技的发展计算机已经成为人们学习、工作、生活中不可缺少的一部分。但是在享受计算机带来方便的同时人们却经常被各种各样的软件、硬件问题所困扰。 那么你们究竟有多了解计算机呢? 今天我们就一起来认识计算机。
LHAASO-ED 安装工程设计 主要内容: 中科院高能物理研究所 1. 施工图设计 2. 安装工艺设计 3. 安装工序设计
易成 Institute of High Energy Physics
8051單晶片 蘇恆生 老師.
第一章.
交谷太阳能基金.
悠遊卡  工管四甲  4A  李鎮宇.
香港傳統的農村生活.
计算机系统结构(2012年春) ----存储层次: Cache基本概念
陈松战 中科院高能物理研究所 合作者:赵静、刘烨、Diane、何会海、张忠泉、侯超、李秀荣、王玲玉等
PMT 读出ASIC研究进展 严雄波 2/5/2013.
猜數字遊戲.
项目一 了解计算机 项目二 选配计算机硬件 项目三 组装计算机 项目四 设置BIOS和硬盘分区 项目五 安装操作系统和常用软件
第六章 記憶體.
LHAASO-WCDA事例重建工作进展 LHAASO 合作组会 王晓洁 2017/09/22.
科学与技术的关系 科技简史 第三讨论组.
2. MCS-51单片机的组成及结构分析 2.1 MCS-51单片机的内部结构及结构特点
中国科学院“核探测技术与核电子学”重点实验室
进程调度算法和作业调度算法。 (1) 先来先服务(FCFS)调度算法
汽车单片机应用技术 学习情景1: 汽车空调系统的单片机控制 主讲:向楠.
知识点4---向量的线性相关性 1. 线性相关与线性无关 线性相关性的性质 2..
李元金 计算机与信息工程学院 第 17 讲 设备管理(1) 李元金 计算机与信息工程学院 1/
由一个佯谬看涡旋电流的存在 PB 田鸿翔 指导老师 万树德.
DHash: A Cache-Friendly TCP Lookup Algorithm for Fast Network Processing 陈旻宇 PB 王超逸 PB
中国科学院云南天文台博士毕业答辩 射电天文数据实时计算的关键技术研究 答辩人:戴伟 指导老师:王锋 学科专业: 天文技术与方法.
Presentation transcript:

GPU based online noise filtering algorithm in LHASSO-WCDA 黄德智 2017/07/05

报告大纲 介绍LHAASO,LHAASO-WCDA 介绍WCDA的触发率,和数据量 介绍快速遍举法 介绍基于GPU的相关算法 总结

LHAASO WCDA: 3个水池; 3120个探测 单元; KM2A: 5195EDs; 1171MDs; WFCTA: 12台望远镜

LHAASO-WCDA WCDA: LHAASO-WCDA 3个水池; 3120个探测单元; 4米的有效水深; 每个单元用隔光帘分开; 总面积78,000平方米; 350,000吨的净化水。

WCDA触发率 LHAASO-WCDA触发率计算: 通过模拟直接计算得到的触发率约为60kHz; 另外一种方法就是通过跟踪Crab数据,对宇宙线背景中26 种粒子的有效面积分别进行计算,得到的触发率为: 62.6kHz.

WCDA的实验数据量 单路高本底噪声率,给LHAASO-WCDA实验带来了巨大 挑战。一方面造成了数据重建的难度,另一方面还造成了 数据传输和存储的瓶颈。 通过电子学输出得到hit的数据量大小为128bit/hit; 其中包括了hit的头信息,通道号,电荷,时间,标识符号等; 128bit ℎ𝑖𝑡 ×3120ℎ𝑖𝑡×35𝑘𝐻𝑧=14𝐺𝑏𝑝𝑠, 每年约55Pb的数据量; 经过分天区触发后考虑2000ns的触发窗口,平均噪声218个, 根据模拟来自簇射真实信号平均数为70个,由此得到: 128bit ℎ𝑖𝑡 × 218+70 ×63𝑘𝐻𝑧=2.3𝐺𝑏𝑝𝑠, 每年近10PB的数据量。

快速遍举法 LHAASO-WCDA数据处理的挑战: 经过分天区触发后,WCDA任然可以达到每年近10PB的数 据量。如果把这些数据全部存储下来,花费是非常巨大的 同时,要把这么大的数据从海子山的站点传输回北京的计 算中心其传输的通信线路的租金也超出了实验的预算。 同时考虑到LHAASO-WCDA很高的噪声率WCDA需要发 展一套技术方法来实现在线压缩数据量,同时减小高噪声 率对数据分析带来的影响。

快速遍举法 经过细致研究,WCDA发展了一套被称为快速遍举法 的全新方法,可以在线对原始实验数据进行预处理, 完成对大部分噪声信号的过滤。下面我们对快速遍举 法进行简单介绍。 WCDA快速遍举法: 可是天区分为很多等立体角的单元,每个单元代表一个特 定的方向; 对任意一个探测到的事例,对每个天区代表的方向进行遍 历,把着火探测器的位置和时间转换到垂直于此天区方向 为z轴的一个坐标系上;

快速遍举法 WCDA快速遍举法: 在此坐标系下计算着火时间排序后平台区域的宽度,此宽 度由时间基本保持不变的着火点的个数来衡量。 在此坐标系下计算着火时间排序后平台区域的宽度,此宽 度由时间基本保持不变的着火点的个数来衡量。 原则上越靠近准确簇射方向,平台区域就会越大。通过整 个天区的遍历我们就可以找到最可几的天区位置。 天区分区示意图

GPU的应用 WCDA快速遍举法: 进一步的需求: 通过对快速遍举法的调试我们发现程序运行的绝大部 分时间都用在了对每个天区时间信号的排序上,所以 要进一步优化程序最容易想到的就是对天区进行并行; 进一步的需求: 同时为了提高WCDA对瞬态源的监测能力,我们也需要进 一步提高程序的运行效率。 所以我们考虑到把最耗费时间的部分让GPU来承担,加快 程序的运行时间,同时减小在站集群的建设规模。

GPU排序算法的研究 排序算法选择: GPU快速排序: 在CPU运行的程序中,我们使用了root的Tmath sort,一 种基于快速排序的排序算法。 快速排序一直以低的时间复制度作为很多程序的首选,基 于Nvidia的CUDA技术的优化,快速排序得以在GPU上实 现。 GPU快速排序: 首先我们定义一个最大的递归深度为32,当超过这个深度 时数组已经被划分为很小的部分,为了提高效率当到达这 个深度或者需要排序的个数小于16个时采用简单的选择排 序完成最后的排序,而其他时候则像传统的快速排序,选 择一个值把比它大的与比它小的放在它两边,然后对分好 的两面继续调用快速排序。

GPU排序算法的研究 天区并行的实现: 结果分析: 首先我们在kernel上完成坐标的转换; 然后有多少个天区我们就分为多少个线程; 每个线程启用快速排序进行运算; 将结果传回CPU进行后续的数据的筛选。 结果分析: 天区的个数我们划分为数千个; 同时我们全阵列一共有3120个探测器单元; 加上数据传输的延迟,对数千个小数组的排序并不能 显示出GPU在处理数据方面的优势。

GPU排序算法的研究 算法的改进: I/O优化: 首先对I/O的优化; 其次对排序算法的优化。 如果我们所有的探测单元全部着火,则有3120个时 间信号需要排序; 对于48kb每个线程块的shared memory来说我们完 全可以把需要排序的时间信号放进shared memory中, 以减少内存访问的时间。

GPU排序算法的研究 排序算法: 优化后的方法: 在GPU上使用快排主要是针对很长的数组进行排序; 所以我们考虑首先排序简单话; 其次数组划分更细。 优化后的方法: 首先我们有多少个天区就启用多少的线程块; 把每个天区对应的时间序列放在线程块的shared memory中; 按照hits数/20把数组进一步细分,让线程块内部的 每个线程负责20个元素的排序; 由于20个元素是一个非常小的元素我们采用插入排 序完成最后的排序过程。

GPU排序算法的研究 结果对比: 经过初步测试,我们采用了i7 6700的CPU和Tesla K40c分 别测试了CPU和GPU的运行速率。 固定天区个数,不同探测器着火 固定hits数,采用不同天区划分

总结: 通过GPU的使用改善了快速遍举法中CPU运行最耗 时部分程序的效率; 通过后续工作希望能提高WCDA对瞬态源的检测 能力;

谢谢!!