高性能计算与天文技术联合实验室 智能与计算学部 天津大学

Slides:



Advertisements
Similar presentations
TOEFL Speaking ----Q1&Q2 坚果托福 秀文. 评分标准评分标准 Volume Grammar Fluency Logic / Organization Lexical ability Pronunciation.
Advertisements

FREE-TYPE POEM GENERATION QIXIN WANG, TIANYI LUO, DONG WANG, CHAO XING AAAI & IJCAI 2016.
可持續建築物 活動 1 介紹可持續建築物 活動 2 不要讓我受熱! 活動 3 探究學校和家居的能源效益 活動 4 為甚麼要興建可持續建築物?
A Force from Empty Space The Casimir Effect
2014年11月12日: 日程 中国学生的采访 Model 考试 复习:怎么提高文章水平? 大学面试:六个问题.
自衛消防編組任務職責 講 義 This template can be used as a starter file for presenting training materials in a group setting. Sections Right-click on a slide to add.
面向海量数据的 高效天文交叉证认的研究 答辩人:赵青 指导老师:孙济洲 教授 天津大学计算机学院
報告即將開始.
English Writing Lecture 9
-Artificial Neural Network- Hopfield Neural Network(HNN) 朝陽科技大學 資訊管理系 李麗華 教授.
Chapter 8 Liner Regression and Correlation 第八章 直线回归和相关
学籍异动学生选课辅导 学年第1学期.
Welcome Welcome to my class Welcome to my class!.
Leftmost Longest Regular Expression Matching in Reconfigurable Logic
Euler’s method of construction of the Exponential function
one Counting units 2 ones 3 ones.
What are the shirts made of?
What water is more suitable for nurturing the goldfish
Module 5.
Some Effective Techniques for Naive Bayes Text Classification
Thinking of Instrumentation Survivability Under Severe Accident
指導教授:許子衡 教授 報告學生:翁偉傑 Qiangyuan Yu , Geert Heijenk
Population proportion and sample proportion
模式识别 Pattern Recognition
Unit title: 买东西 - Shopping
Journal Citation Reports® 期刊引文分析報告的使用和檢索
2018/11/22 Developing a Visualization Tool for Spider Web-Building Algorithms 模擬蜘蛛結網之演算法設計及視覺化工具開發 指導教授:尹邦嚴 陳怡孜 陳瑩哲 沈扇綸 郭怡君 老師 各位來賓大家好,我們是國立暨南國際大學資訊管理學系,今天很榮幸能夠來這裡跟大家一起分享.
Flash数据管理 Zhou da
Decision Support System (靜宜資管楊子青)
HLA - Time Management 陳昱豪.
Unit 7 What’s the highest mountain in the world?
Outrigger Optimization for Super Tall Structures Under Multiple Constraints 多约束条件下超高结构伸臂系统优化.
Inventory System Changes and Limitations
Interval Estimation區間估計
參加2006 SAE年會-與會心得報告 臺灣大學機械工程系所 黃元茂教授
Formal Pivot to both Language and Intelligence in Science
塑膠材料的種類 塑膠在模具內的流動模式 流動性質的影響 溫度性質的影響
Lesson 44:Popular Sayings
2012清大電資院學士班 「頂尖企業暑期實習」 經驗分享心得報告 實習企業:工業技術研究院 電光所 實習學生:電資院學士班  呂軒豪.
如何上好读写课.
Decision Support System (靜宜資管楊子青)
大学思辨英语教程 精读1:语言与文化 (说课)
Area of interaction focus
Low Cost Materials for High Energy Sodium-ion Battery
A high payload data hiding scheme based on modified AMBTC technique
A SMALL TRUTH TO MAKE LIFE 100%
Version Control System Based DSNs
VIDEO COMPRESSION & MPEG
Mechanics Exercise Class Ⅰ
Research 裴澍炜 Shuwei Pei Tel:
Total Review of Data Structures
中国科学技术大学计算机系 陈香兰 2013Fall 第七讲 存储器管理 中国科学技术大学计算机系 陈香兰 2013Fall.
VRP工具or-tools调研 王羚宇
Representation Learning of Knowledge Graphs with Hierarchical Types
林一平 講座教授 資訊學院院長 新竹國立交通大學
2008 TIME USE SURVEY IN CHINA
Inter-band calibration for atmosphere
Course 10 削減與搜尋 Prune and Search
An Efficient MSB Prediction-based Method for High-capacity Reversible Data Hiding in Encrypted Images 基于有效MSB预测的加密图像大容量可逆数据隐藏方法。 本文目的: 做到既有较高的藏量(1bpp),
第10章 存储器接口 罗文坚 中国科大 计算机学院
Efficient Query Relaxation for Complex Relationship Search on Graph Data 李舒馨
磁共振原理的临床应用.
Mechanics Exercise Class Ⅱ
钱炘祺 一种面向实体浏览中属性融合的人机交互的设计与实现 Designing Human-Computer Interaction of Property Consolidation for Entity Browsing 钱炘祺
Principle and application of optical information technology
Experimental Analysis of Distributed Graph Systems
WiFi is a powerful sensing medium
Self-Attention huitr
Climbing a Rock Wall 攀岩 选自《多维阅读第10级》.
Presentation transcript:

高性能计算与天文技术联合实验室 智能与计算学部 天津大学 GpDL: A Spatially Aggregated Data Layout for Long-Term Astronomical Observation Archive 报告人:李镇 指导教师:于策 各位专家学者老师们,大家上午好。先自我介绍一下,我叫李镇,来自天津大学 智能与计算学部高性能计算与天文技术联合实验室,是一名研二的学生。这是我第一次参加chinavo年会, 感谢会一组给我这次机会来做报告。我们课题组是做南极天文ast3系统设计方面的工作, 我和几个学长现在主要是做节能存储的方向,今天介绍一篇今年发表的论文, 有关于长周期天文观测存档数据布局优化的研究,我们为这个存档系统设计了一个空间集聚的布局。 高性能计算与天文技术联合实验室 智能与计算学部 天津大学 China-VO 2018

Catalog Motivation Related Work GpDL Design Experiment and Results GpDL Optimizing Model GpDL Solution based on Graph Partition Experiment and Results Conclusion 我将从以下几个方面介绍一下我们在这篇论文里面的一些研究。分别是我们研究的动机,一些相关工作,主要的我们的GpDL设计,我们提出了GpDL最优化模型,同时给出了基于图划分的解决方案,另外就是我们的实验结果和结论。

Motivation Better solution: Astronomical observation data explosion Excellent academic achievements based on data archive Archive belongs to cold storage Unsuitability between original data layout and data requests Original temporally aggregated data layout Spatial locality of astronomers’ data requests 近些年来,随着我国多个大型天文观测设施的落成,天文观测产生的数据呈爆炸性增长。我们知道,大量杰出的科学研究成果是建立在以往的观测数据存档上的。因此一个长周期天文观测数据存档系统是十分必要的。 存档系统属于一种冷存储,数据只写入一次,大部分的数据很少被读到。所以在平时大部分的存储设备被设置成低能耗的状态,只有当使用到某块磁盘的时候才会将其设置为正常读取状态,然而这个状态的切换是十分消耗资源的。 在观测现场,原始的观测存储数据布局一般是这样的,在一段时间内拍摄的来自不同天区的数据被存储到同一个存储单元。然而天文学家,尤其是时域天文学家,关注的往往是同一个天区的数据去研究某个天体的变化,也就是说天文学家的数据请求具有很强的空间本地性。如果我们的存档系统仍然使用观测现场的数据布局,很多磁盘都将会进行状态切换,消耗大量资源。 所以更好的解决方案就是经过一个周期的观测以后,将这个周期的观测数据进行数据的重新布局,让来自临近天区的数据被存储到同一个存储单元。这就是我们工作的出发点。 Better solution: Data from neighboring sky areas are stored into one storage unit.

Temporally and Spatially aggregated Data Layouts Temporally aggregated data layout Spatially aggregated data layout 这张ppt展示了两种不同类型的数据布局,左边的是原始的时间聚集的数据布局。右边的是空间集聚的数据布局,不同颜色的区域的数据被存储到不同的磁盘里。对于两种布局来说,当有一个对于某个天区的请求时,右边的数据布局会打开更少的磁盘读取数据,从而减少了存档系统能源的消耗。

Challenge and Our Work Challenge: Our Work: How to aggregate observation data from nearby sky areas into one disk while keeping high disk capacity utilization. Our Work: We propose a spatially aggregated data layout based on HEALPix and graph partition for long-term astronomical observation archive, named GpDL. 因为在一个观测周期里,各个天区的观测次数不同,所以天球面上各部分的观测密度差异很大。同时存档系统要尽可能地节省存储资源。所以我们工作的主要挑战就是如何在保持较高的磁盘利用率的同时,将临近天区的观测数据聚合到一个存储单元里。针对这个问题,我们提出了一种基于HEALPix和图划分的空间聚集的数据布局,叫做GpDL。

Catalog Motivation Related Work GpDL Design Experiments and Results GpDL Optimizing Model GpDL Solution based on Graph Partition Experiments and Results Experiments Results Conclusion Next, I will introduce related work briefly.

Related Work on Data Layout Research based on universal data Copy data blocks into free space Hybrid storage hierarchy using SSD and HDD Some research on spatio-temporal data Different read-write characteristics Density of observation records 目前已经有很多关于存储系统数据布局的研究,不过大部分的研究是基于通常的数据的,有的研究尝试在磁盘的空闲区存储其他磁盘的数据来减少查询能耗,但是存档系统需要保持高磁盘利用率,几乎没有空闲的空间。 还有很多研究基于SSD和HDD的混合存储模型。也有一些研究是基于时空数据的,但是因为不同的读写特征等原因不能直接用于天文数据,而且还必须考虑到观测数据的分布问题。所以目前尚未存在一个合适的天文观测数据存档的数据布局。

Catalog Motivation Related Work GpDL Design Experiment and Results GpDL Optimizing Model GpDL Solution based on Graph Partition Experiment and Results Conclusion 下面,主要介绍GpDL的设计。

GpDL Optimizing Model Task: aggregate observation data from nearby sky areas into one disk and keep high disk capacity utilization based on distribution-known original temporally aggregated data layout. Essence: choose which disk to store for every record. 下面是我们的GpDL最优化模型,主要任务是将一个周期的观测数据重新布局存档,聚合临近天区的数据,并且保持存档系统的高磁盘利用率。 实质就是对于每一条观测记录,选择一个对应的磁盘去存储。

GpDL Optimizing Model Problem Description Input: RS Output: DS & Map relations RS -> DS 模型的输入就是观测记录的集合RS,每个元素R包含记录的时间信息和空间信息,也就是赤经赤纬。模型的输出是所需磁盘的集合DS以及RS到DS的映射关系,也就是每条记录都有一个磁盘存储它。

GpDL Optimizing Model Objective Every disk has a corresponding set of record stored in it denoted by Ωi. The distribution of records in every Ωi is aggregated on the celestial sphere surface. RS到DS的映射会产生一个对RS的划分,每个磁盘里存储的数据是整个RS的一个子集,我们要让每个子集内部尽量聚集,不同子集尽量分散。所以我们有了这个最优化目标,它的意思是最大化位于不同子集的记录之间距离的和。

GpDL Optimizing Model Constraint RC: one record storage size DC: disk capacity The numbers of records stored in different disks are as far as possible equal. As far as possible to fill every disk. where r is a coefficient, meaning that every disk has used at least r of disk capacity. 我们假设每个磁盘的规格都是一样的。为了均衡各个磁盘存储的数据量同时保持较高的磁盘利用率,我们必须尽量存满每一个磁盘,所以我们为磁盘利用率设定了一个下限r,就是说每个磁盘的数据量必须达到这个要求。这就是我们的GpDL最优化模型。

Catalog Motivation Related Work GpDL Design Experiment and Results GpDL Optimizing Model GpDL Solution based on Graph Partition Experiment and Results Conclusion 下面我将介绍我们基于图划分的gpdl解决方案。

GpDL Solution based on Graph Partition GpDL: typical partition problem, NP-hard. Graph partition problem is NP-complete. Graph partition tools: METIS, Chaco, PaToH, and so on. 我们定义的最优化模型是一个典型的划分问题,不幸的是大部分的划分问题是NP难的,也就是说我们无法在一个可接受的时间内求得最优解。所以只能退而求其次,求一个近似解。 图划分问题已经被研究了很久,已经有了很多工具包可以用来求图划分问题的近似解,所以我们可以借助图划分的方法来求GpDL的近似解。关键点就是如何根据一个周期的观测数据来生成一个图。 Key Point: How to generate a graph based on temporally aggregated data.

GpDL Solution based on Graph Partition Step 1: Spherical surface division. Divide the celestial sphere surface into equal-area small blocks using HEALPix. Count the number of observation records for each block. BlkRNo[BlockID]=RNo. Step 2: Preprocess blocks having singular records number. BlkRNo[BlockID]=BlkRNo[BlockID]mod RN. 下面我将介绍我们的求解方案。第一步,我们利用HEALPix将天球面分成细粒度的块,并且统计每个块上的数据量。第二步,预处理那些数据密度特别大的块。

GpDL Solution based on Graph Partition Step 3: Generating Graph G. V: blocks having BlkRNo[BlockID]>0, the weight is BlkRNo[BlockID]. E: (L-dis)2 , dis < L E(i,j)= none , dis ≥ L 第三步是最主要的步骤。生成图,让那些含有数据的块作为图的顶点,同时我们设置一个阈值,当两个块之间的距离大于这个阈值的时候,相应的两个顶点之间没有边,如果小于这个阈值,相应的两个顶点之间的边的权值为(L-dis)平方。

GpDL Solution based on Graph Partition Step 4: Graph Partition on G. Graph partition tool : METIS. Each partition has a corresponding disk. Obtain the map relation from records to disks from the partition results. 第四步就是在第三步生成的图上应用图划分算法,划分后的每一个子图对应一个子集,也对应着一块磁盘,每个子集包含若干个块,位于这些块上的数据被存到了对应的磁盘里。这样我们就确定了记录和磁盘之间的对应关系。

Catalog Motivation Related Work GpDL Design Experiment and Results GpDL Optimizing Model GpDL Solution based on Graph Partition Experiment and Results Conclusion Next, I will introduce the experiment and results.

Experiment and Results Comparison: GpDL, AmrDL, TaDL Data set: Antarctic Schmidt Telescope(AST3) 2016.03~2016.08 Simulate data requests on three data layouts 5000 requests for each scale(request range size) Disk capacity utilization Open disks number Energy cost 我们比较了三种数据布局,原始的时间集聚的布局TaDL,我们的设计的GpDL和另一种数据布局AmrDL。我们用的数据集是2016年的AST3的观测数据。在我们的实验中,我们仿真了在三种数据布局上的数据请求。

Experiment and Results Data layout visualization 首先,我们可视化了我们的GpDL数据布局。在这个图里,不同的颜色代表了不同的磁盘。我们可以看到,临近的区域有着相同的颜色,意味着临近的记录被存储到了同一个磁盘里。 Nearby area has the same color, meaning that neighboring records are stored in one disk.

Experiment and Results Disk capacity utilization. 我们比较了AmrDL和GpDL的磁盘空间利用率,很明显可以看出GpDL使用了更少的磁盘,也就意味着更高的磁盘利用率。 The distribution of data among disks is more uniform than AmrDL. The disk capacity utilization of GpDL is much larger than AmrDL.

Experiment and Results Open disks number and Overhead energy cost 频繁的磁盘开闭会损坏磁盘的寿命,所以我们记录了三种数据布局的打开磁盘的数目,可以明显看出,GpDL的优势很大,当查询范围达到20的时候,GpDL比AmrDL减少了25%的开启磁盘数目。 另外我们也统计了这请求过程中产生的能耗,我们可以从这张图中看出,平均下来,GpDL比AmrDL节约了15%的能源消耗。 When scale is 20, GpDL produces about 25% reduction in open disks number compared to AmrDL. On the average, 15.81% energy is saved in GpDL compared to AmrDL

Catalog Motivation Related Work GpDL Design Experiment and Results GpDL Optimizing Model GpDL Solution based on Graph Partition Experiment and Results Conclusion Next Conclusion.

Conclusion GpDL optimizing model GpDL solution based on HEALPix and graph partition GpDL performance High disk capacity utilization Fewer open disks number Less energy cost 在这片论文中,我们为长周期天文观测存档设计了一种空间集聚的数据布局GpDL,我们提出了GpDL的最优化模型同时给出了基于HEALPix和图划分的解决方案。经过仿真实验可以看到,GpDL实现了高磁盘利用率,更少的磁盘开启数目和更少的能耗。

Thank You 这就是我的报告的全部内容,感谢在座各位的支持。