中国科学院云南天文台博士毕业答辩 射电天文数据实时计算的关键技术研究 答辩人:戴伟 指导老师:王锋 学科专业: 天文技术与方法.

Slides:



Advertisements
Similar presentations
1 1.2 信息的表示与存储  数据:数据是对客观事物的符号表示。 如,数值、文字、语言、图形、图像等都是不同形 式的数据。  信息:信息是既是对客观事物变化和特征的反映,又 是事物之间相互作用、相互联系的表征。 信息必须数字化编码,才能用计算机进行传送、存 储和处理。 信息具有针对性和时效性。
Advertisements

第 3 章操作系统基础 3.1 操作系统概述 3.2 操作系统的功能模块 3.3 典型操作系统概述.
Welcome to the world of Computer Organization 计算机组成原理
第 2 章 中央處理單元.
《网络基础与Internet应用》.
開南大學 資訊管理學系 學分學程相關說明.
教育局資安課程 戒慎恐懼-談公務上的資安認知.
軍用電腦科技趨勢與產業應用 全科科技 陳以昌.
精品开放课程的 建设与应用 谢幼如 教授 广东省高校教育技术中心 华南师范大学教育信息技术学院
龙芯多媒体电脑教室培训 龙梦极域电子教室 江苏龙芯梦兰科技股份有限公司.
第3讲 教学内容 1.3~ 微型计算机系统——硬件部分 计算机的产生发展 计算机系统组成(硬件结构) 计算机工作原理
Chap4 電腦硬體基本單元 高中資訊科技概論 松崗圖書公司.
TS-251A / TS-451A Turbo NAS 2016 Global Seminar 按一下以編輯母片標題樣式 絕佳靈活性!
国家公共文化服务体系建设 专家委员会 委员 冯 守 仁
手巾比紙巾環保 但不衛生.
日新月异的信息技术.
SureSave 产品线简介
路由器的性能特点和工作原理 两种常用的内部网关协议(RIP和OSPF) 路由器的产品结构 局域网中使用路由器的方案
第1章 概述.
第一章 信息与信息技术 1.2 日新月异的信息技术.
信息技术及其影响.
第二章 计算机硬件基础 --微型计算机硬件的组成.
第2章 主机 李渊林 本章要点   CPU 主板 2.3   内存 2.4 机箱和电源.
思科统一计算 Cisco思科 UCS.
William Stallings 计算机组成与结构(第8版)
第1章 电脑组装基础知识 1.1 电脑的用途和配置 1.2 电脑的组成 1.3 了解几款台式机.
计算机与信息技术应用基础 徐东雨 计算机中心
第2课 CPU 本课要点 具体要求 本章导读.
IP路由器.
Computer <目录> 处理器 CPU 显卡 GPU 内存 MEROMRY 硬盘 HARD DISK DRIVER
3.1主板的组成 3.2主板分类 3.3主板的选购 3.4主流主板芯片组技术参数
Xbox one计算机系统介绍 刘一帆.
主讲教师:唐大仕 第5讲 计算机硬件 主讲教师:唐大仕
第一章 嵌入式系统开发基础 本章介绍了嵌入式系统开发的基础知识,从嵌入式计算机的历史由来、嵌入式系统的定义、嵌入式系统的基本特点、嵌入式系统的分类及应用、嵌入式系统软硬件各部分组成、嵌入式系统的开发流程、嵌入式技术的发展趋势等方面进行了介绍,涉及到嵌入式系统开发的基本内容,使读者系统地建立起的嵌入式系统整体概念。
電腦硬體基本介紹 國立高雄大學資訊工程學系 林士倫 2010/10/21.
異質計算教學課程內容 「異質計算」種子教師研習營 洪士灝 國立台灣大學資訊工程學系
HP ProLiant ML110G6 Product Overview
Windows XP 使用與設定 (進階班) 淡江大學資訊中心教學支援組 劉育辰.
實現雲端運算 Hadoop HDFS 磁碟及記憶體之即時分級服務
可编程片上系统设计 何宾
99(1)義守大學工讀職場技能精進訓練班 資訊工程系 林義隆 老師
基于压缩算法的tile64多核处理器性能研究
GPU分散式演算法設計與單機系統模擬(第二季)
HP Pro 2000 商用台式机 dx2310 HP Pro 2000 特性对比 机箱 芯片组 CPU 输入/输出插槽 内存 扩展仓 显卡
讲师:田家华 第1章 认识计算机 本章要点   计算机的发展 计算机的组成.
New Computer Hardware 二年19班 指導老師:徐必大 林純卉、游舒宇 製.
集成化天体物理研究平台
電腦的硬體架構.
计算机组装、维修及 实训教程 第15章 微机硬件的组装 2018年12月25日星期二.
2018年12月29日 单片机原理与应用 单片机概述.
電腦系統表示資料的單位.
校 園 雲端輸出管理系統 新印科技股份有限公司 聯絡人:伍宏一 電 話: /
中科院青年创新促进会贵州考察 SKA 科学数据处理与高性能计算研讨会 裴鑫 张海龙 ~
第01章 计算机网络概述 讲师:韩立刚 QQ: QQ教学群:
射电数据处理Gridding技术研究 国家天文台–天津大学 天文信息技术联合研究中心 罗琦、肖健、于策
微机原理与接口技术 ——第三章 80x86微处理器 西安邮电大学 计算机学院 范琳.
資訊基本概念 與 資訊與生涯及資訊的未來發展
智慧財產權與創用CC.
小米手机3介绍 为发烧而生.
猜數字遊戲.
GPU based online noise filtering algorithm in LHASSO-WCDA
架构师成长感悟 吴隆烽
ARM裸机第一部分-ARM那些你得知道的事
售后培训系列之V9系统中心安装 SecManage 网安事业部 广州售后-王长绪.
XXXX智慧校园设计方案 ——XXXX信息科技有限公司 XX年XX月.
信息及其特征.
参赛流程指引 (如何下载平台及报名参赛).
课程计划和要求 嵌入式系统概述 嵌入式系统发展趋势
中国移动南京分公司 活动时间:9月26日,9:00-16:00 活动地点:
2015年度中科院超级计算环境青岛分中心培训 中科院超算中心 中科院海洋所超算中心
Presentation transcript:

中国科学院云南天文台博士毕业答辩 射电天文数据实时计算的关键技术研究 答辩人:戴伟 指导老师:王锋 学科专业: 天文技术与方法

基于DPDK的无损高性能分布式数据采集技术 提纲 研究背景 研究内容 基于DPDK的无损高性能分布式数据采集技术 基于GPU的高性能实时数据处理 基于OPENCL的实时数据异构并行 基于DOCKER的敏捷封装与部署 工作总结

Big Data 研究背景 天文学是以数据驱动的科学,已经成为数据密集型的科 学。天文数据面临着采集、处理、存储、归档和检索等 问题。 高分辨率,高精度的射电望远镜投入使用,其数据获取 能力得到了空前的提升。海量的观测数据已成为当前大 型望远镜主要特征。天文的数据已经以一种实时、顺序、 海量和无限的趋势到达。 Big Data

云台40米相干消色散数字终端 研究背景 40米天线 S波段,C波段,双极化接收机 进行输入带宽512MHz、128通道、8bit采样和双极化输入(1024MHz)的多相滤波器基带数据采集。 采样频率是2048M, 8bit采样后2048M*8=16Gbps 180TB/天 解码为浮点数后,720TB/天

MUSER MUSER-I MUSER-II 研究背景 40×4.5m天线 0.4-2.0GHz,共64个通道 3ms一帧原始观测数据(100KBytes) 10小时产生1.125TB MUSER-I 60×2m天线 2.0-15.0GHz,共520个通道 3ms一帧原始观测数据(204.8KBytes) 10小时产生2.36TB MUSER-II 一帧数据对应16个通道,经过相应数据处理,需要成图16张

SKA SKA1-low SKA1-mid SKA射电望远镜数据率约300PB/year 研究背景 大约130000面天线 50-350MHz 澳大利亚 数据处理需求约4Tb/s SKA1-low 133×15m和64×13.5m,共197面天线 0.35-14GHz 南非及非洲南部 数据处理需求约12Tb/s SKA1-mid SKA射电望远镜数据率约300PB/year

专用集成电路ASIC 现场可编程门阵列 中央处理器CPU/集群 研究背景 传统的数据处理技术 新的发展趋势 专用集成电路ASIC 现场可编程门阵列 中央处理器CPU/集群 高速工业互联 异构计算CUDA/OpenCL 云计算/虚拟化 海量观测数据实时处理迫切需要数据采集、异构实时处理和分布式平台作为支撑

以云台40米脉冲星数字终端和MUSER 的需求为背景,围绕实时数据采集和处 理的关键技术展开研究。 研究背景 以云台40米脉冲星数字终端和MUSER 的需求为背景,围绕实时数据采集和处 理的关键技术展开研究。

1、基于DPDK的无损高性能数据采集技术

CASPER的典型架构: FGPA+10Gbe+GPU/CPU集群 数据传输普遍使用UDP协议;无丢包的高IO环境下的数据采集是一个关键瓶颈 1、基于DPDK的无损高性能数据采集技术/CASPER的需求 CASPER的典型架构: FGPA+10Gbe+GPU/CPU集群 数据传输普遍使用UDP协议;无丢包的高IO环境下的数据采集是一个关键瓶颈

采样频率是2048M, 8bit采样后2048M*8=16Gbps, 分4个万兆网卡输出,每路4Gbps数据量(不计开销) 1、基于DPDK的无损高性能数据采集技术/40米的需求 采样频率是2048M, 8bit采样后2048M*8=16Gbps, 分4个万兆网卡输出,每路4Gbps数据量(不计开销) 4Gb/s=512MB,1分钟30GB,1小时1.8T 丢帧引起的相位信息的缺失会严重影响脉冲星的周期预测和折叠

传统的UDP编程无法满足性能要求,表现为CPU占用高、中断频繁、容易丢包,通过内核网卡参数调优改善有限,非常不利于后期处理。 1、基于DPDK的无损高性能数据采集技术/传统socket 传统的UDP编程无法满足性能要求,表现为CPU占用高、中断频繁、容易丢包,通过内核网卡参数调优改善有限,非常不利于后期处理。 GUPPI_daq Psrdada Ynpulsar-udprecv(存盘4-6秒,接收后对离线文件校验)

1、基于DPDK的无损高性能数据采集技术/用户态技术 内核旁路 Kernel-bypass 零拷贝 Zero-Copy

1、基于DPDK的无损高性能数据采集技术/DPDK DPDK(Data Plane Development Kit)是Intel公司推出的开源技术,提供了高性能网络开发函数和驱动的支持,用于在通用计算平台上支持高速的网络数据传输处理。 零拷贝和内核旁路技术 多核架构下的线程调度 支持NUMA亲和性调度 巨页内存管理 无锁的环形队列 轮询模式 支持x86,POWER和ARM等平台 支持大多数主流网络适配器 基于BSD License开源

数据采集系统框架基于C/C++实现,包括主控线程、网络线程和输出线程。 1、基于DPDK的无损高性能数据采集技术/数据采集 数据采集系统框架基于C/C++实现,包括主控线程、网络线程和输出线程。 主控线程负责初始化运行环境、管理其他线程、与远程控制程序进行通讯、接收执行指令并响应; 网络线程负责从网络适配器接收以太网帧中的数据; 输出线程负责将内存中的数据写入到存储介质用于离线存储或者输出到环形队列中用于构建高速的数据处理流水线。 主控线程只有一个副本。 网络线程和输出线程可以有多个副本运行

1、基于DPDK的无损高性能数据采集技术/数据采集模式 单路数据单块网卡接收 单路数据流通过单个网络适配器,由1个网络线程负责接收,由1个输出线程负责数据的存储或者分发。 多路数据多块网卡接收 由单个计算节点通过不同的网络适配器接收不同的数据流分别进行处理。 多路数据单块网卡接收 由单个计算节点通过同一块网络适配器接收不同的数据流分别进行处理。这种模式适用于射电相关器或者射电频谱仪的数据传输。

1、基于DPDK的无损高性能数据采集技术/多线程启动管理 。

1、基于DPDK的无损高性能数据采集技术/NUMA优化 线程绑定CPU核心 依据NUMA拓扑优化

1、基于DPDK的无损高性能数据采集技术/轮询模式 传统的中断模式下,网络适配器每接收到一个帧都会产生一个中断来通知CPU,CPU切换上下文后进行处理,这种方式只适用于异步的、数据量少的通讯。按照每个以太网帧9000字节计算,在10Gb/s的速度下,每秒的中断次数为110万次。虽然可以通过ethtool工具配置网络适配器工作在interrupt coalescing模式下,累计多个数据帧再进行一次中断处理来提高吞吐量,缺点是增加了延迟。采用DPDK的轮询模式从网络适配器获取数据包,屏蔽了硬件发出的中断,可以最大限度的提供性能,每一个逻辑核可以分配一个发送和接收队列,将收到的数据包平均放在网络适配器的接收队列中,以此实现负载均衡。

1、基于DPDK的无损高性能数据采集技术/用户态的协议栈实现 绕开了内核对数据包的处理,只能工作在OSI七层模型的第二层上,没有提供第三层以上的网络协议支持 支持ARP协议、IP协议、ICMP协议、UDP协议的部分子集,直接在网络线程中实现高效的用户态的UDP/IP协议栈支持。 MK5B时间计时、丢帧检测,帧内序号检测、flag无效数据、 数据存盘

1、基于DPDK的无损高性能数据采集技术/40米数据格式 每个数据帧:以太网帧首部尾部18字节+IP首部20字节+UDP首部8字节+数据=8216字节 62500frames/s

1、基于DPDK的无损高性能数据采集技术/性能测试 源主机 CPU E5-2620 v3 @ 2.40GHz 64G Intel 82599ES 宿主机 CPU E5-2620 v3 @ 2.40GHz 64G Intel 82599ES 交换机 H3C S6300-42QT(XGE1/0/33 XGE1/0/37) 测试回放60秒的ROACH2的采集数据,发送端基于DPDK开发 数据大小=60s*62500p/s*(8216+8+20+18)Bytes/p≈240Gb 在10Gb/s的数据速率下的稳定性进行了测试,在2个小时持续的测试中,丢包数为0 数据速率Gb/s 1 2 3 4 5 6 7 8 9 10 基于socket数据采集系统丢包率 0.04 0.2 0.3 0.4 0.5 0.8 0.9 1.2 基于DPDK数据采集系统丢包率

小结 基于DPDK的数据采集框架 数据采集框架支持线速的10Gb/s数据的无丢失接收,解决了基于万兆网络数据接收的关键问题 可应用于基于FPGA + CPU/GPU的数据采集和处理系统,高吞吐低延迟的分布式文件系统,消息中间件等

2、基于GPU的高性能实时数据处理

2基于GPU的高性能实时数据处理/脉冲星观测 脉冲星是快速旋转的中子星,具有极强的磁场,其辐射束会周期性快速扫过地球,所以可以观测到一个个周期脉冲 。自1967年发现第一颗脉冲星以来射电脉冲星的研究是现代天文学的重要内容之一。 脉冲星观测,不仅能够研究脉冲星到达时间、辐射特性,还能对星际介质、银河系磁场、引力波等目标进行研究。脉冲星相关发现获得了两次诺贝尔物理学奖。 FAST、 QTT110m、上海65米、云南40米、LOFAR、SKA等均以观测脉冲星为科研目标之一。对脉冲星观测设备技术指标提出了新的要求, 如输入带宽、 观测模式、 采样比特、 消色散方式和数据处理能力等。

2基于GPU的高性能实时数据处理/脉冲星观测/消色散 由于受到星际介质的干扰, 不同频率的电磁波经过星际介质后产生的延迟不同, 会引起观测的脉冲星轮廓展宽。需要进行消色散处理。 消色散分为两种方式, 一种是相干消色散; 一种是非相干消色散。 PSR1641-45的观测结果

非相干消色散, 即通过选择一个时间/相位起点作为基准点, 将子通道(带宽)内的时 延计算出来, 并对齐到同一相位, 最后按周期折叠。 2基于GPU的高性能实时数据处理/非相干消色散 非相干消色散, 即通过选择一个时间/相位起点作为基准点, 将子通道(带宽)内的时 延计算出来, 并对齐到同一相位, 最后按周期折叠。

2基于GPU的高性能实时数据处理/相干消色散

2基于GPU的高性能实时数据处理/云台40米相干消色散需求 4个万兆网卡输出,每路4Gbps数据量(不计开销) 单节点 4Gb/s=512MB/s,30GB/m,1.8T/h 8比特采样,解码为浮点数后,2GB/s,120GB/m,7.2T/h 无法采用先存储再离线处理的方式,必须实时处理

2基于GPU的高性能实时数据处理/流水线设计 多CPU/GPU并行 基于GPU的解码和数据重组,消色散,综合滤波,偏振计算以及折叠 处理线程的并行优化,GPU卡的亲和绑定 重叠数据的预处理 DPDK巨页内存/CUDA锁页内存 CUDA流异步执行优化 CUFFT批模式

2基于GPU的高性能实时数据处理/解码 数据采集系统接收的数据是按照时间、频率和极化排列的多维采样数据。需要进行解码和数据重组的预处理。解码将nbit采样的基带采样的量化数据映射为对应的浮点数据。数据重组是为了便于后继的相干消色散处理,将数据按照频率和极化和时间的维度重新排列,保证每个频率和极化都是连续的时间序列。

2基于GPU的高性能实时数据处理/消色散 1) nDM读取n个基带数据采样;为了提高计算效率,n通常远远大于2nDM; 2)计算n个数据点的星际介质函数Chirp; 3)对1)中的n个采样傅里叶变换到频域,并且乘以步骤2)计算的星际介质函数消除色散; 4)对3)的计算结果进行反傅里叶变换到时域;5)对4)获得时间序列数据,去掉其头尾nDM/2的数据点,保留数据中间n-nDM的数据点作为输出; 6)保留1)序列中的最后nDM数据点,并后续时间的基带采样数据中获得n-nDM个数据点,组成新的nDM个数据点的时间序列,重复3)开始的数据处理步骤

2基于GPU的高性能实时数据处理/消色散/分通道 通过滤波器组将每个通道划分为若干子通道,可以提高频率分辨率。既有利于偏振校准,也有利于后期的窄带的射频干扰的移除。对基带采样数据进行合成滤波与消色散的计算可以一起完成,主要算法流程如下: 1)读取K个基带数据采样点序列;K=Nc×N', Nc是划分子通道的数量;N'是每个子通道傅里叶变换的长度; 2)对1)中的K个采样傅里叶变换到频域,将变换结果划分为Nc个通道,每个子通道的点数为N' 3)对2)中的每个子通道进行如下计算: a)乘以子通道的星际介质函数; b)执行逆傅里叶变换到时域; c)对于b获得的时间序列数据,丢弃头尾的nd'的数据点,保留数据中间的N' - nd'进行输出; 4)保留1)序列中的最后Nc × nd'数据点,并后续时间的基带采样数据中获得Nc × nd'个数据点,组成新的K个数据点的时间序列,重复2)开始的数据处理步骤。

2基于GPU的高性能实时数据处理/偏振检测 使用两个正交的极化观测时,使用消色散后的两个正交极化的复采样数据来计算信号的偏振。 支持线偏振和圆偏振

2基于GPU的高性能实时数据处理/折叠 脉冲星通常是非常微弱的射电源。需要对消色散后的时域信号按照周期进行积分,既折叠,提高信噪比,才能观察到清晰的脉冲轮廓。消色散后的时间序列,采样间隔为tsamp;将脉冲星积分轮廓均分为n个部分,每个部分称为一个bin。每个bin对应着脉冲的特定的相位phase,第i个bin对应的相位中心为(i-0.5)/nbins;计算每个采样所对应的相位;计算该相位所对应的bin,将该采样累计到bin中。目前系统使用脉冲星测时软件TEMPO2,依据观测目标和望远镜的地理位置坐标来生成一个多项式来近似脉冲星的时间模型P∅ (t),将每个信号映射到对应的bin中进行累加。

psrfits文件输出 折叠后的平均脉冲轮廓的多通道全极化的数据保存为PSRFITS格式。PSRFITS是脉冲星数据文件的标准格式。PSRFITS格式从广为使用的标准FITS格式扩展而来。观测望远镜的标识和坐标,接收参数,观测时间等信息保存在HDU中。各个子积分的积分数据保持在扩展HDU中。

离线文件测试 在单线程CPU调度单NVIDIA GeForce GTX TITAN X的GPU卡上使用8.2秒的时间处理了2GBytes大小数据文件,共163840000个采样(等同于4秒钟的实时数据)

离线文件测试 J0835-4510的轮廓图

2基于GPU的高性能实时数据处理/性能分析与比较 离线数据时长60秒,约30GB,32个通道,2种极化,采样长度为8比特, 放于内存文件系统 处理器: Intel E5-2630V3@2.40G 内存:256 GB GPU卡:K80(2*GK210, 24G显存,4992cores) OS: CentOS 7.4 ,内核版本3.10.0 脉冲星源 色散值( 𝑐𝑚 −3 ∙𝑝𝑐) 傅里叶变换次数 傅里叶变换点数 1*GK210 执行时间 (秒) 2*GK210 1136+1151 4.864 5000000 64 86 42 0332+5434 26.833 566038 512 90 45 1645-0317 35.727 265487 1024 93 46 0835-4510 67.990 131291 2048 96 48 0837-4135 147.290 66225 4096 97 49 1544-4559 478.800 16155 16384 113 57

2基于GPU的高性能实时数据处理/试观测结果 云南天文台40米射电望远镜,ROACH2前端,128MHz带宽,32通道,2极化、8bit复采样,数据输出速率为4Gbps 处理器:2*Intel E5-2698 v3 @ 2.30GHz(共64 cores) 内存:256 GB (DDR4-1866) 网卡:2*Intel 82599ES 10-Gigabit ports GPU卡:2*GeForce GTX TITAN X(12207M,24MP*128=3072core) OS:Ubuntu 16.04.5 LTS,内核版本4.10.0 脉冲星源 观测时长 总数据量 子积分长度 Bin个数 输出文件大小 丢包或丢弃数据次数 J1136+1551 30分钟 921.6GB 10秒 1024 177MB J1932+1059 15分钟 460.8GB 88MB J2022+5154

2基于GPU的高性能实时数据处理/脚本命令示例 #!/bin/bash export LD_LIBRARY_PATH=/usr/local/cuda-9.0/lib64/:/home/lzx/software/tempo2/lib/ export PATH=$PATH:/home/lzx/software/tempo2/bin export TEMPO2=/home/lzx/software/tempo2 ../build/DPDKrecv -l 32,33,34,35,36 -- --ulocalip=192.168.3.2 --uremoteip=192.168.3.16 --uport=8003 --second=1200 --freq=2320 --length=10 --ephem=./0332.par --cuda=2 –start=20181127131075

2基于GPU的高性能实时数据处理/试观测结果

2基于GPU的高性能实时数据处理/试观测结果

2基于GPU的高性能实时数据处理/试观测结果

2基于GPU的高性能实时数据处理/整体pipe设计 DAQ(CPU) DHS(GPU*m,CPU*n)

2基于GPU的高性能实时数据处理/射频干扰信号消除 40米射电望远镜配有S波段、C波段和X波段接收机。 由于该望远镜距离昆明市区较近,且随着城市建设不断发展,包括2G、3G、4G手机信号频段和WIFI频段的RFI越来越多,这些干扰信号严重影响了日常射电天文观测。 观测数据的好坏关系到科学成果的质量甚至结论的真伪,开展RFI抑制和消除方法研究对射电天文发展具有重要理论意义与实际应用价值。 脉冲星J0332+5434频域图

2基于GPU的高性能实时数据处理/射频干扰信号消除 将射电望远镜观测到的脉冲星信号看作观测信号,包含其中的各射频干扰和脉冲星信号视为原始信号。各射频干扰信号和脉冲星信号间统计上相互独立且各信号符合非高斯分布,满足独立成分分析的假设条件 无需人为选择或构造射频干扰结构特征,不存在阈值选择的困惑; 不存在训练或学习过程,因此无需考虑构建训练样本的成本 观测数据 RFI消除结果 差值信号

小结 基于C/C++/nvcc,实现多GPU并行数据处理管线 实现了脉冲星相干消色散的解码、消色散、偏振检测、折叠等算法的并行,满足云台40米实际数据处理需求 独立成分分析,分解出独立的RFI信号和脉冲星信号, 消除射频干扰

3、基于OpenCL的实时数据异构并行

3、基于OpenCL的实时数据异构并行 GPU+CUDA模式存在一定的局限性: 在系统实际的开发、测试和部署过程中,过度依赖于NVIDIA的GPU; 不利于系统的推广与应用 在高性能计算技术的背景下,能否实现一次编码,就能保证程序在各种多核设备(多核CPU、GPU、FPGA等)上并行执行

3、基于OpenCL的实时数据异构并行 成像原理:成像数据处理流程

3、基于OpenCL的实时数据异构并行 因此,需要进行退卷积操作 通过校准,权重,网格化过程尽可能得到较好质量的脏图 为进一步提高图像质量,需要移除脏图中的旁瓣(CLEAN): 脏图= 天空图像与脏束的卷积 因此,需要进行退卷积操作

3、基于OpenCL的实时数据异构并行 洁化算法并行化

3、基于OpenCL的实时数据异构并行/测试平台与数据 CPU 型号 Intel(R) Xeon(R) CPU E5-2620 v2 频率 2.10GHz 内存 64GB 逻辑核数 24个 物理CPU数 2个 GPU GeForce GTX TITAN X 1000MHz 显存 12GB 核心数 3072个 低频阵MUSER-I的观测数据,观测时间为2015年11月1日12时8分49秒354毫秒,uvfits文件名为20151101-120849_354161240.uvfits

3、基于OpenCL的实时数据异构并行/脏图与洁图

CPU环境和GPU环境下执行次数与执行时间 3、基于OpenCL的实时数据异构并行/实验结果 CPU环境和GPU环境下执行次数与执行时间

基于OpenCL实现的成像算法,算法执行效率与基于CUDA实现的成像算法执行效率大致相当; 基于OpenCL实现的成像算法,算法执行效率比CPU环境串行成像算法执行效率有较大提升。

4、基于Docker的敏捷封装与部署

Docker是一个新兴的轻量级虚拟化技术,也是目前使用最多的容器化软件,已成为容器技术事实上的标准。 基于GPU的高性能实时数据处理 Docker是一个新兴的轻量级虚拟化技术,也是目前使用最多的容器化软件,已成为容器技术事实上的标准。 针对天文软件的部署问题,需要有一种更为简单,更容易部署的技术,帮助他们轻松地部署像明安图射电频谱日像仪、云台40米脉冲星数据处理这样的软件系统,以便快速便捷地开展科学研究工作。

MUSER数据处理及存在的问题 环境部署成本较高 数据处理操作繁琐 计算性能要求较高 计算资源扩展需求

(2)软件系统需要较多的第三方软件支持,如psrchive,tempo, tempo2, psrcat等,增加了不少的工作量和难度; 云台40米数据处理及存在的问题 (1)由于用户的软硬件环境的差异,如Linux操作系统的不同发行版本CentOS,Ubuntu等,以及不同硬件的图形处理器驱动程序、不同版本的CUDA运行环境的搭建,DPDK环境等,增加了系统部署安装的复杂性; (2)软件系统需要较多的第三方软件支持,如psrchive,tempo, tempo2, psrcat等,增加了不少的工作量和难度; (3)软件系统在实际运行中还面临着软件版本和支持库的更新等问题,导致运行和维护成本较高。

4、基于Docker的敏捷封装与部署/MUSER软件 默认使用CPU CPU计算模式 直接启动基于CPU的镜像 不共享GPU GPU计算模式 使用GPU挂载方式启动镜像

4、基于Docker的敏捷封装与部署/MUSER软件

4、基于Docker的敏捷封装与部署/性能测试环境 硬件环境 32 G内存,硬盘容量800 GB GPU设备 NVIDIA Corporation GM200 [GeForce GTX TITAN X] 12 GB CPU设备 Intel(R) Xeon(R) CPU E5-2630 v2 @ 2.60 GHz 软件环境 MUSER 1.0.0-REL (r1), docker 17.03.1-ce CUDA版本 NVIDIA CUDA release 7.5, V7.5.17 OpenCL版本 OpenCL 1.2 LINUX KVM版本 qemu-kvm-1.5.3-141.el7_4.2

4、基于Docker的敏捷封装与部署/性能测试结果 OpenCL+CPU

4、基于Docker的敏捷封装与部署/性能测试结果 CUDA+CPU

4、基于Docker的敏捷封装与部署/性能测试结果 组名 平台 生成洁图像素/pixel 执行次数/次 两种模式下平均时间/s OpenCL + CPU CUDA + GPU 物理主机组 Physical Host 512 × 512 10 0.292 0.182 1 024 × 1 024 0.719 0.367 Docker 0.296 0.183 0.720 0.376 虚拟主机组 KVM 2.172 1.382 3.161 1.671 KVM+Docker   2.159 1.431 3.200 1.665

4、基于Docker的敏捷封装与部署/小结

5、工作总结 基于DPDK的数据采集不需要额外的内核和网络参数调优,在高带宽下性能稳定,能够满足当前长时间无丢包的射电观测数据采集。 研究了异构环境的计算资源,并行化数据处理算法,提高数据吞吐能力。 以云台40米脉冲星数据处理为研究对象,实现了解码、消色散、合成滤波、偏振计算、折叠在GPU上的并行,使用环形缓冲和任务调度实现了多节点和多GPU的负载均衡调度,获得线性的加速比,构建了可用的脉冲星相干消色散实时数据处理管线,单节点处理4Gb/s观测数据流,并有较大的提升空间 以射电干涉阵数据处理中的成像过程进行研究,采用OpenCL技术对射电干涉阵成像算法进行并行优化研究与实现,旨在保证算法执行效率的同时,提升算法对硬件平台的适应性,让系统的运行环境不再局限于NVIDIA的GPU,进一步利用了异构环境下计算资源。 研究了分布式计算在轻量级虚拟化环境下的应用、部署和运维。基于Docker技术,为实时分布式计算集群提供弹性的云服务,在保证数据处理性能不变的前提下,提高集群的业务部署和升级演进的效率。结合MUSER当前的数据处理软件包,研究了镜像构建、软件封装和部署,以及功能与性能的测试。

博士期间参与的工作 1.国家自然科学基金联合项目,U1631129,NVST观测调度系统关键技术研究,2017.01-2019.12,50万元,在研,参加; 2.国家自然科学基金青年项目,11403009,CCD 集群分布式采集控制虚拟化技术研究,2015.01-2017.12,26万元,已结题,参加; 3.国家自然科学基金地区项目,11263004,基于NoSQL的海量太阳观测数据分布式存储技术的研究,2013.01-2016.12,64万元,已结题,参加。 4.国家自然科学基金青年项目,11203011,面向天文选址的自主观测与数据传输技术研究,2013.01-2015.12,27万元,已结题,参加; 5.国家自然科学基金青年项目,11103005,基于云计算的虚拟天文台关键技术研究,2012.01-2014.12,24万元,已结题,主持;

博士期间发表的论文与研究成果 [1]戴伟,尚振宏,徐永华,等. 基于独立成分分析的射频干扰信号消除方法[J]. 天文研究与技术, 2019 [2]Wei D,Feng W. Study On Processing Performance Of A DPDK And GPU Combined Pulsar Data Reduction System [J]. International Journal of Mechatronics and Applied Mechanics, 2019 [3]余程嵘,王威,戴伟(*),邓辉,王锋,卫守林. 基于Docker的射电干涉阵软件系统敏捷封装与部署.天文研究与技术,2019.1.15,16(1): 123~130 [4]赖铖,梅盈,邓辉,王锋,戴伟. MUSER可见度数据积分方法与实现[J]. 天文研究与技术,2018,15(01):78-86. [5]冯勇,陈坤,邓辉,王锋,梅盈,卫守林,戴伟,杨秋萍,刘应波,吴静平. 基于OpenCL的MUSER CLEAN算法研究与实现[J]. 天文学报,2017,58(02):57-66.

参加的学术会议 1 A FastBit based high performance data archive system for NVST 2014.7 丽江 RTS2国际会议参会者 2 万兆网络环境下的实时数据处理 2015.8 NVST及丽江日冕仪数据处理研讨会参会者 3 云台40米射电脉冲星观测系统研究进展 2017.3 昆明 射电干涉成像数据处理研讨会会议参会者 4 云台40米射电脉冲星观测数据实时处理系统研究进展 2017.11 合肥 2017年射电天文前沿与技术研讨会参会者 5 大理 中国虚拟天文台与天文信息学2017年学术年会参会者

谢谢各位专家和老师的批评指导