Presentation is loading. Please wait.

Presentation is loading. Please wait.

高性能计算与天文技术联合实验室 智能与计算学部 天津大学

Similar presentations


Presentation on theme: "高性能计算与天文技术联合实验室 智能与计算学部 天津大学"— Presentation transcript:

1 高性能计算与天文技术联合实验室 智能与计算学部 天津大学
GpDL: A Spatially Aggregated Data Layout for Long-Term Astronomical Observation Archive 报告人:李镇 指导教师:于策 各位专家学者老师们,大家上午好。先自我介绍一下,我叫李镇,来自天津大学 智能与计算学部高性能计算与天文技术联合实验室,是一名研二的学生。这是我第一次参加chinavo年会, 感谢会一组给我这次机会来做报告。我们课题组是做南极天文ast3系统设计方面的工作, 我和几个学长现在主要是做节能存储的方向,今天介绍一篇今年发表的论文, 有关于长周期天文观测存档数据布局优化的研究,我们为这个存档系统设计了一个空间集聚的布局。 高性能计算与天文技术联合实验室 智能与计算学部 天津大学 China-VO 2018

2 Catalog Motivation Related Work GpDL Design Experiment and Results
GpDL Optimizing Model GpDL Solution based on Graph Partition Experiment and Results Conclusion 我将从以下几个方面介绍一下我们在这篇论文里面的一些研究。分别是我们研究的动机,一些相关工作,主要的我们的GpDL设计,我们提出了GpDL最优化模型,同时给出了基于图划分的解决方案,另外就是我们的实验结果和结论。

3 Motivation Better solution:
Astronomical observation data explosion Excellent academic achievements based on data archive Archive belongs to cold storage Unsuitability between original data layout and data requests Original temporally aggregated data layout Spatial locality of astronomers’ data requests 近些年来,随着我国多个大型天文观测设施的落成,天文观测产生的数据呈爆炸性增长。我们知道,大量杰出的科学研究成果是建立在以往的观测数据存档上的。因此一个长周期天文观测数据存档系统是十分必要的。 存档系统属于一种冷存储,数据只写入一次,大部分的数据很少被读到。所以在平时大部分的存储设备被设置成低能耗的状态,只有当使用到某块磁盘的时候才会将其设置为正常读取状态,然而这个状态的切换是十分消耗资源的。 在观测现场,原始的观测存储数据布局一般是这样的,在一段时间内拍摄的来自不同天区的数据被存储到同一个存储单元。然而天文学家,尤其是时域天文学家,关注的往往是同一个天区的数据去研究某个天体的变化,也就是说天文学家的数据请求具有很强的空间本地性。如果我们的存档系统仍然使用观测现场的数据布局,很多磁盘都将会进行状态切换,消耗大量资源。 所以更好的解决方案就是经过一个周期的观测以后,将这个周期的观测数据进行数据的重新布局,让来自临近天区的数据被存储到同一个存储单元。这就是我们工作的出发点。 Better solution: Data from neighboring sky areas are stored into one storage unit.

4 Temporally and Spatially aggregated Data Layouts
Temporally aggregated data layout Spatially aggregated data layout 这张ppt展示了两种不同类型的数据布局,左边的是原始的时间聚集的数据布局。右边的是空间集聚的数据布局,不同颜色的区域的数据被存储到不同的磁盘里。对于两种布局来说,当有一个对于某个天区的请求时,右边的数据布局会打开更少的磁盘读取数据,从而减少了存档系统能源的消耗。

5 Challenge and Our Work Challenge: Our Work:
How to aggregate observation data from nearby sky areas into one disk while keeping high disk capacity utilization. Our Work: We propose a spatially aggregated data layout based on HEALPix and graph partition for long-term astronomical observation archive, named GpDL. 因为在一个观测周期里,各个天区的观测次数不同,所以天球面上各部分的观测密度差异很大。同时存档系统要尽可能地节省存储资源。所以我们工作的主要挑战就是如何在保持较高的磁盘利用率的同时,将临近天区的观测数据聚合到一个存储单元里。针对这个问题,我们提出了一种基于HEALPix和图划分的空间聚集的数据布局,叫做GpDL。

6 Catalog Motivation Related Work GpDL Design Experiments and Results
GpDL Optimizing Model GpDL Solution based on Graph Partition Experiments and Results Experiments Results Conclusion Next, I will introduce related work briefly.

7 Related Work on Data Layout
Research based on universal data Copy data blocks into free space Hybrid storage hierarchy using SSD and HDD Some research on spatio-temporal data Different read-write characteristics Density of observation records 目前已经有很多关于存储系统数据布局的研究,不过大部分的研究是基于通常的数据的,有的研究尝试在磁盘的空闲区存储其他磁盘的数据来减少查询能耗,但是存档系统需要保持高磁盘利用率,几乎没有空闲的空间。 还有很多研究基于SSD和HDD的混合存储模型。也有一些研究是基于时空数据的,但是因为不同的读写特征等原因不能直接用于天文数据,而且还必须考虑到观测数据的分布问题。所以目前尚未存在一个合适的天文观测数据存档的数据布局。

8 Catalog Motivation Related Work GpDL Design Experiment and Results
GpDL Optimizing Model GpDL Solution based on Graph Partition Experiment and Results Conclusion 下面,主要介绍GpDL的设计。

9 GpDL Optimizing Model Task: aggregate observation data from nearby sky areas into one disk and keep high disk capacity utilization based on distribution-known original temporally aggregated data layout. Essence: choose which disk to store for every record. 下面是我们的GpDL最优化模型,主要任务是将一个周期的观测数据重新布局存档,聚合临近天区的数据,并且保持存档系统的高磁盘利用率。 实质就是对于每一条观测记录,选择一个对应的磁盘去存储。

10 GpDL Optimizing Model Problem Description Input: RS
Output: DS & Map relations RS -> DS 模型的输入就是观测记录的集合RS,每个元素R包含记录的时间信息和空间信息,也就是赤经赤纬。模型的输出是所需磁盘的集合DS以及RS到DS的映射关系,也就是每条记录都有一个磁盘存储它。

11 GpDL Optimizing Model Objective
Every disk has a corresponding set of record stored in it denoted by Ωi. The distribution of records in every Ωi is aggregated on the celestial sphere surface. RS到DS的映射会产生一个对RS的划分,每个磁盘里存储的数据是整个RS的一个子集,我们要让每个子集内部尽量聚集,不同子集尽量分散。所以我们有了这个最优化目标,它的意思是最大化位于不同子集的记录之间距离的和。

12 GpDL Optimizing Model Constraint RC: one record storage size
DC: disk capacity The numbers of records stored in different disks are as far as possible equal. As far as possible to fill every disk. where r is a coefficient, meaning that every disk has used at least r of disk capacity. 我们假设每个磁盘的规格都是一样的。为了均衡各个磁盘存储的数据量同时保持较高的磁盘利用率,我们必须尽量存满每一个磁盘,所以我们为磁盘利用率设定了一个下限r,就是说每个磁盘的数据量必须达到这个要求。这就是我们的GpDL最优化模型。

13 Catalog Motivation Related Work GpDL Design Experiment and Results
GpDL Optimizing Model GpDL Solution based on Graph Partition Experiment and Results Conclusion 下面我将介绍我们基于图划分的gpdl解决方案。

14 GpDL Solution based on Graph Partition
GpDL: typical partition problem, NP-hard. Graph partition problem is NP-complete. Graph partition tools: METIS, Chaco, PaToH, and so on. 我们定义的最优化模型是一个典型的划分问题,不幸的是大部分的划分问题是NP难的,也就是说我们无法在一个可接受的时间内求得最优解。所以只能退而求其次,求一个近似解。 图划分问题已经被研究了很久,已经有了很多工具包可以用来求图划分问题的近似解,所以我们可以借助图划分的方法来求GpDL的近似解。关键点就是如何根据一个周期的观测数据来生成一个图。 Key Point: How to generate a graph based on temporally aggregated data.

15 GpDL Solution based on Graph Partition
Step 1: Spherical surface division. Divide the celestial sphere surface into equal-area small blocks using HEALPix. Count the number of observation records for each block. BlkRNo[BlockID]=RNo. Step 2: Preprocess blocks having singular records number. BlkRNo[BlockID]=BlkRNo[BlockID]mod RN. 下面我将介绍我们的求解方案。第一步,我们利用HEALPix将天球面分成细粒度的块,并且统计每个块上的数据量。第二步,预处理那些数据密度特别大的块。

16 GpDL Solution based on Graph Partition
Step 3: Generating Graph G. V: blocks having BlkRNo[BlockID]>0, the weight is BlkRNo[BlockID]. E: (L-dis)2 , dis < L E(i,j)= none , dis ≥ L 第三步是最主要的步骤。生成图,让那些含有数据的块作为图的顶点,同时我们设置一个阈值,当两个块之间的距离大于这个阈值的时候,相应的两个顶点之间没有边,如果小于这个阈值,相应的两个顶点之间的边的权值为(L-dis)平方。

17 GpDL Solution based on Graph Partition
Step 4: Graph Partition on G. Graph partition tool : METIS. Each partition has a corresponding disk. Obtain the map relation from records to disks from the partition results. 第四步就是在第三步生成的图上应用图划分算法,划分后的每一个子图对应一个子集,也对应着一块磁盘,每个子集包含若干个块,位于这些块上的数据被存到了对应的磁盘里。这样我们就确定了记录和磁盘之间的对应关系。

18 Catalog Motivation Related Work GpDL Design Experiment and Results
GpDL Optimizing Model GpDL Solution based on Graph Partition Experiment and Results Conclusion Next, I will introduce the experiment and results.

19 Experiment and Results
Comparison: GpDL, AmrDL, TaDL Data set: Antarctic Schmidt Telescope(AST3) ~ Simulate data requests on three data layouts 5000 requests for each scale(request range size) Disk capacity utilization Open disks number Energy cost 我们比较了三种数据布局,原始的时间集聚的布局TaDL,我们的设计的GpDL和另一种数据布局AmrDL。我们用的数据集是2016年的AST3的观测数据。在我们的实验中,我们仿真了在三种数据布局上的数据请求。

20 Experiment and Results
Data layout visualization 首先,我们可视化了我们的GpDL数据布局。在这个图里,不同的颜色代表了不同的磁盘。我们可以看到,临近的区域有着相同的颜色,意味着临近的记录被存储到了同一个磁盘里。 Nearby area has the same color, meaning that neighboring records are stored in one disk.

21 Experiment and Results
Disk capacity utilization. 我们比较了AmrDL和GpDL的磁盘空间利用率,很明显可以看出GpDL使用了更少的磁盘,也就意味着更高的磁盘利用率。 The distribution of data among disks is more uniform than AmrDL. The disk capacity utilization of GpDL is much larger than AmrDL.

22 Experiment and Results
Open disks number and Overhead energy cost 频繁的磁盘开闭会损坏磁盘的寿命,所以我们记录了三种数据布局的打开磁盘的数目,可以明显看出,GpDL的优势很大,当查询范围达到20的时候,GpDL比AmrDL减少了25%的开启磁盘数目。 另外我们也统计了这请求过程中产生的能耗,我们可以从这张图中看出,平均下来,GpDL比AmrDL节约了15%的能源消耗。 When scale is 20, GpDL produces about 25% reduction in open disks number compared to AmrDL. On the average, 15.81% energy is saved in GpDL compared to AmrDL

23 Catalog Motivation Related Work GpDL Design Experiment and Results
GpDL Optimizing Model GpDL Solution based on Graph Partition Experiment and Results Conclusion Next Conclusion.

24 Conclusion GpDL optimizing model
GpDL solution based on HEALPix and graph partition GpDL performance High disk capacity utilization Fewer open disks number Less energy cost 在这片论文中,我们为长周期天文观测存档设计了一种空间集聚的数据布局GpDL,我们提出了GpDL的最优化模型同时给出了基于HEALPix和图划分的解决方案。经过仿真实验可以看到,GpDL实现了高磁盘利用率,更少的磁盘开启数目和更少的能耗。

25 Thank You 这就是我的报告的全部内容,感谢在座各位的支持。


Download ppt "高性能计算与天文技术联合实验室 智能与计算学部 天津大学"

Similar presentations


Ads by Google