面向海量数据的 高效天文交叉证认的研究 答辩人:赵青 指导老师:孙济洲 教授 天津大学计算机学院

Slides:



Advertisements
Similar presentations
減重藥膳與耳穴 台北市立聯合醫院 陽明院區 中醫科 林俐嘉 醫師 一、肥胖定義 1.BMI 超過 24─ 體重過重;超過 27─ 肥胖 BMI ( Body Mass Index ,身體質量指數)它是 身高與體重之間關係的一種指標,數值越大代表 一個人越胖。 個人體重(公斤)除以身高(公尺)兩次,就是.
Advertisements

办公室保健指南. 减少辐射篇 ❤显示器散发出的辐射多数不是来自它的正面,而是侧面和后面。因此,不要 把自己显示器的后面对着同事的后脑或者身体的侧面。 ❤常喝绿茶。茶叶中含有的茶多酚等活性物质,有助吸收放射性物质。 ❤尽量使用液晶显示器。
index 目次 ( 請按一下滑鼠,解答就會出現喔 !) 接續下頁解答 3-1 極限的概念.
怎樣才算「識飲識食」? 適當 適量 在日常生活中進食 適當 和 適量 的食物 和飲料。 何謂「適當」? 1. 不偏食,選擇不同種類的食物和飲料, 以吸收不同的營養素。 2. 多進食營養價值高的食物。 3. 避免進食熱量、脂肪、糖份、鹽份和膽 固醇含量過高的食物,以及加工食品 ( 如 罐頭和即食麵.
EpiC elastic power-aware data intensive Cloud. LOGO epiC 大规模数据处理的难点 Page  2 如何查询处 理海量数据? 如何存储 海量数 据? 如何降低硬件成 本? 如何取得一劳 永逸的解决方案?
魏 饴. 处级干部培训班讲座 一、卓越干部的德行素质  常修为政之德、常思贪欲之害、常怀律己之心!  孔老夫子有个观点 “ 为政以德,譬如北辰居其所而众星拱之。 ”  司马光《资治通鉴》 “ 才者,德之资也;德者,才之帅也。 ” “ 德 ” 胜 “ 才 ” 谓之 “ 君子 ” , “ 才 ”
一、真愛密碼 二、尋求真愛 三、有自尊的愛. 。如果雙方對愛情產生 質疑、困惑時,則表示 彼此之間的愛情關係仍 有 待加強或釐清,千萬別 急著為自己的人生大事 下決定。 我是一個 16 歲的未婚媽媽,發現自 己懷孕時,已經五個月大了,我知 道自己沒能力照顧孩子,在驚訝之 於,大人們只好坦然接受,幫我找.
大地遊戲王 課程實錄.
均衡飲食與健康體位 逸馨園 營養師 鍾筱薇.
第5讲 索引构建 Index construction 授课人:高曙明
强力打造湖北农业信息网 全面推进湖北农村信息化
黄金时代 黄金时代:老子,释迦牟尼,苏格拉底,孔子,庄子,耶稣…… 他们是人类智慧的顶峰,他们用人生展示了智慧与慈爱。
第七章 日治時期社會、文藝的新趨向 第一節日治時期的社會變遷
中 國 大 節 慶 陳淑貞.
加強水銀體溫計稽查管制及回收 回收作業須知及緊急應變措施
第四章 商代之舞蹈 本檔案圖片來源:google圖片.
时间与我们的世界 Pb 段心蕊.
釣魚台事件 屬於我們的保「釣」運動將持續進行!.
修辭解析 作者:謝佩陵 指導老師:沈老師.
班級:醫管3B 組別:第二組 組員:王品媛、郭雅瑄、謝淑玲、蔡孟蔙
大紅燈籠高高掛 從電影藝術談微觀權力作用 組員: 陳思潓 蘇惠瑄
第4章 分錄及日記簿 4-1 借貸法則 4-2 日記簿的格式及記錄方法 4-3 分錄的意義及記錄方法 4-4 常見分錄題型分析
嗇色園主辦可立小學 故宮 製作日期:2011年3月21日.
狂犬病 保護你我,愛護動物 武漢國中 黃憶暄.
迪士尼動畫 玩具總動員1.
股票市場技術面概念介紹 斗六高中 馬明宏.
第十三屆 Step.1 我們的目標 Step.2 我們的角色 Step.4 權利與義務 義務 權利 年繳會費五百元整
組別:第一組 組長: 蘇安琪 組員: 陳育德、賴威融、陳仕旂、林龍兒、陳映璇、鍾亞琪、魏君瑜
課程實錄.
避開鳥事、走好運! 懂卜卦的人,一輩子不吃虧!
PB级科研数据集的管理和应用 曙光信息产业(北京)有限公司.
财务管理.
第二章 项目一:企业厂区与车间平面设计 1.
共产党员致力 新疆油田信息化建设 数据公司信息业务党支部 2013年6月.
動物的繁殖行為.
没错,他们就是 中国最具活力和创富能力大的群体之一——
植物保护 课程整体设计 汇报 申报省级精品资源共享课建设 植物保护课程组.
Project Description.
政府扶持资金通览 技术改造篇.
一 二 三 四 五 六 七 项目建设总体情况 建设工作机制与举措 项目建设进展 建设经费投入与使用 贡献与示范 典型案例
羽绒服海外销售 上海 德国汉堡 小组成员: 刘 娟 叶冬仪 谢洁霞 李洁茗 林佩旋 梁丽枝 简伟钳.
訓儉示康 司馬光.
本科生医保资料的提交.
云计算之分布式计算.
統計圖表的製作.
Homework 1(上交时间:10月14号) 倒排索引.
四書期末報告-論語 述而篇第四 國三甲 黃瀞儀 指導教授:胡瀚平 105年5月18日.
專題習研電腦科-西藏民族的服飾 西藏長袍、僧衣、西藏的頭飾 中二班朱惠掦製作.
105年度 大專校院校外實習學生 團體保險 第一產物保險股份有限公司 營業二部 蔡承瑋.
生涯手冊第18頁 生涯統整面面觀.
《结构力学认知实验》(授课形式)的上课时间改为: 5月5日(周二)晚上18:00~19:30和19:30~21:00,
《结构力学认知实验》(授课形式)的上课时间改为: 5月7日(周四)晚上18:30~20:00和20:00~21:30,
詩經 蔡柳金.
香港傳統的農村生活.
訓儉示康 司馬光.
畢業資格審查系統 操作步驟說明.
2.1 高職與私立學校註冊操作說明 (2015/9/15上線)
新制退休實務計算說明- 現職人員退休範例說明
第三章 世界文明的蛻變與互動 第一節 歐洲社會的蛻變 第二節 世界文明的交匯 第三節 亞洲大帝國的發展 1.
Cloud Computing Google云计算原理.
106 學年度新生入學說明會 國立臺灣海洋大學 教務處簡介
Chinese Virtual Observatory
學士學位畢業論文說明 逢 學 大 甲 土 理 管 地 2009/10/05.
支付范围/支付注意事项/公务卡报销流程/时间节点等
高雄市97年度國民小學閱讀計畫創新教學-教案達人創新教學方案
東吳大學『樂齡大學』 外雙溪環境與生態 產業 黃顯宗 東吳大學 微生物學系 101.
不一樣的房子.
8-3 原子結構.
仙人掌 製作人:陳姿文.李令怡.黃淨雪.
Presentation transcript:

面向海量数据的 高效天文交叉证认的研究 答辩人:赵青 指导老师:孙济洲 教授 天津大学计算机学院 天津大学博士研究生毕业答辩 面向海量数据的 高效天文交叉证认的研究 答辩人:赵青 指导老师:孙济洲 教授 天津大学计算机学院 Email: zhaoqing@tju.edu.cn

主要内容 研究背景及意义 面向多核环境的并行交叉证认方法 面向分布式集群环境的交叉证认方法 面向HEALPix和HTM索引的快速邻域编码计算算法 总结与展望

天文多波段交叉证认的概念 基于位置信息的交叉证认 主要面临挑战: 研究背景及意义 天文观测设备的日新月异所带来的天文数据的海量性:TB乃至PB量级,且呈类摩尔定律增长

LAMOST望远镜,全称:大天区面积多目标光纤光谱天文望远镜 2008年10月建成,每夜能观测上万个天体的光谱,世界上威力最大,最重要的天文望远镜之一

国家“十一·五” 开始提出并已开始建设的世界最大的单口径射电望远镜 —— 500米口径球面射电天文望远镜(FAST)。

美国LSST望远镜,8.4米口径大尺度概要巡天望远镜,每晚将产生数据量高达18TB,相当于28000张普通光盘的容量。

关键是解决交叉证认的高效性需求与海量的天文观测数据量之间的矛盾,因此交叉证认是典型的数据密集型、I/O密集型计算难题! 研究意义 虚拟天文台项目数据访问服务的核心模块 LAMOST望远镜大科学工程三大子课题之一 中国科学院天文科学主题库索引层建设的必要技术 统计分析、数据挖掘的基础

研究意义: 画框:降低计算复杂度 基于伪二维球面索引的划分方法 多核环境下的并行交叉证认的研究 当今处理器芯片已经步入多核时代,多核计算资源的普及所带来的强大的计算能力为天文学中很多大规模计算难题的解决提供了新的途径 画框:降低计算复杂度 基于伪二维球面索引的划分方法 HEALPix HTM

使用伪二维球面索引的好处 嵌套的层次编号方式: 临近块的ID编码只区别在低位,且如果Q1区域包含Q2区域,则Q2的编码以Q1的编码为前缀。 适合B-tree索引,物理上相近的块 其块号在数值上也连续或相近,自然地实现了临近区域的聚类,适合于一切SQL系统。 一次索引,可进行多级精度上的计算,便于选取最合适索引块和计算块的级数。不同密度、速度的星体可选择不同距离阈值。 等面积 与简单网格天区划分方式相比,省去了对赤经的修正(spherical-polar distortion problem ),避免了复杂的球面坐标 任务分配方式简单,容易实现负载平衡 通用性

边界漏源问题的解决 简单网格天区划分方式 快速相邻块编码计算算法

并行方法设计

实验结果及分析 Aladin 可视化结果: 方法 星表A来源 星表A数据量 星表B来源 星表B数据量 运行总耗时 Parallel HEALPix-index function ( ) SDSS 100,106,811 2MASS 470,992,970 32分钟 25分钟 57分钟 Parallel HTM-index function ( ) 40分钟 赤纬单维索引方法 73小时 简单网格天区划分方法 78分钟 高丹(KD-tree+HTM) Part of GSC 2.3 295,832 Generat from GSC2.3 5.8分钟

number of blocks bordering one compute-block 分析 与原高丹的方法相比,效率提高显著 计算耗时与查询数据耗时间的平衡:划分粒度过细,边缘数据的比例升高, B-tree索引特性决定非连续数据查询效率较低;划分粒度过粗,则计算量较高。 HTM索引与HEALPix索引相比: 相同面积下正三角形的周长大于正方形的边长 Version number of blocks bordering one compute-block HealPix 4*2^n+4 1 HTM 3*[2^(n+1)]+6 1.5

基于Boundary Growing Model的改进方法 解决最主要性能瓶颈:频繁的I/O操作耗时 数据库B-tree索引特性的利用 数据加载计算流程:Boundary Growing Model 减少I/O读取耗时,抑制内存填充速度

最大生长块概念 自顶向下的最大生长块快速确定方式 增强Boundary Growing Model效果 自适应于天体密度 过滤空白区域

并行算法设计

实验结果及分析 实验一:稀疏数据集上的实验 SDSS DR6星表(约1亿条数据)、2MASS星表(约4.7亿条数据) 原始方法与改进方法的对比: 计算块分块数量 SDSS数据库查询 2MASS数据库 查询 (中心块) 2MASS数据库查询(边界块) 距离计算 其他 总用时 307s 59s 335s 580s 40s 1321s 317s 639s 151s 44s 1191s 427s 54s 1177s 51s 72s 1781s 计算块分块数量 SDSS数据库查询 2MASS数据库查询 距离计算 其他 总用时 120s 78s 2489s 48s 2735s 127s 79s 690s 58s 954s 191s 102s 199s 57s 549s 374s 239s 67s 738s

实验二:非稀疏数据集上的实验 数据集:SDSS:47949212条记录、2MASS:35476377条记录 原始方法与改进方法的对比: 计算块分块数 SDSS数据库查询 2MASS数据库查询 (中心块) 2MASS数据库查询(边界块) 距离计算 其他 总用时 33s 17s 124s 96s 16s 286s 19s 191s 24s 283s 43s 28s 403s 11s 22s 507s 计算块分块数 SDSS数据库查询 2MASS数据库查询 距离计算 其他 总用时 32s 19s 421s 27s 499s 36s 20s 130s 213s 46s 39s 31s 143s 107s 60s 11s 210s

面向HTM索引的可行性分析 优化边界问题的解决方法 限制生长模型

基于MapReduce分布式模型的交叉证认 意义: 数据急速增长,长期考虑,多核单机环境并不现实 突破关系数据库在处理海量数据时的瓶颈 利用大规模集群获得更强大的计算能力,进一步提高效率,为实现在线实时交叉证认和联合查询打下基础

MapReduce模型 概念: MapReduce是Google在2004年提出的一个编程模型,并已于2010年年初正式申请获批该项技术的专利。它主要用以进行大规模数据集上的并行运算,其主要概念“Map(映射)”和“Reduce(规约)”最初借鉴于函数式编程语言。 优点: 适合处理海量数据,尤其适合于数据间存在较强独立性的应用; 成本低廉,使原本必须借助于非常高昂的超级计算机才能获得的计算能力可以在大量廉价机器上同样实现; 易于编程,将任务分发、任务调度、数据分布、容错处理、负载平衡等并行计算中不可避免的复杂控制细节隐藏于系统的运行时后台处理中

Step1:数据分布式存放(Map+Reduce) Shuffle/Sort Chop/replicate 数据块头部 星表A记录组 星表B记录组 (块号+来源,属性) Map Reduce Map Map 输入星表数据 Reduce Map Map Reduce Map

Step2: 证认计算(Map) 证认结果 Map Map Map Map Map Result Result Result Result 数据块头部 星表A记录组 星表B记录组 证认结果 Map Result Map Result Map Result Map Result Map Result

实验 实验结果: 意义: 证认部分耗时:25秒 达到接近线性的加速比 确认了文件数据库在处理海量数据方面的优势 大幅度缩短大星表交叉证认计算用时,为最终实现实时联合查询服务提供了条件 充分利用了廉价的计算资源,对于快速增长的天文数据量具有良好的可扩展性,为今后天文数据处理提供了一种可行的方案。

面向HEALPix和HTM索引的快速邻域编码计算算法 研究意义 各种交叉证认方法得以高效实现的必要前提

在各种天文数据查询、数据处理上有着广泛的应用空间,如“锥形检索服务” r ( α,δ )

HEALPix索引下的邻接块编码计算算法 异或运算之第二操作数求解规则: 如果最终目标是求东北方向的共边邻接块,即图中标志为“2”的邻接块,则其异或运算符右侧的第二操作数的确定方式为:对原块编码从低位向高位寻找第一次出现的“00”或“10”,从该位开始直到最后一位间的每两位均变成“01”,而更高位上均为“0”; 如果最终目标是求西南方向的共边邻接块,即图中标志为“6”的邻接块,则其异或运算符右侧的第二操作数的确定方式为:对原块编码从低位向高位寻找第一次出现的“00”或“01”,从该位开始直到最后一位间的每两位均变成“01”,而更高位上均为“0”; 如果最终目标是求东南方向的共边邻接块,即图中标志为“4”的邻接块,则其异或运算符右侧的第二操作数的确定方式为:对原块编码从低位向高位寻找第一次出现的“11”或“10”,从该位开始直到最后一位间的每两位均变成“10”,而更高位上均为“0”; 如果最终目标是求西北方向的共边邻接块,即图中标志为“8”的邻接块,则其异或运算符右侧的第二操作数的确定方式为:对原块编码从低位向高位寻找第一次出现的“00”或“01”,从该位开始直到最后一位间的每两位均变成“10”,而更高位上均为“0”;

块“2”编码: 块“4”编码: 块“6”编码: 块“8”编码: 块“1”编码: 块“3”编码: 块“5”编码: 块“7”编码:

HTM索引下的邻接块编码计算算法 异或运算之第二操作数求解规则: 如果最终目标是求1号角对边方向的邻接三角形编码,即标记为“1”的邻接块,则其异或运算符右侧的第二操作数的确定方式为:对原块编码从低位向高位寻找第一次出现的“01”或“11”位,如果找到的是“01”,则从该位开始直到最后一位间的每两位均为“11”,如果找到的是“11”,则从该位开始直到最后一位间的每两位均为“10”,而更高位上均为“0”; 如果最终目标是求0号角对边方向的邻接三角形编码,即标记为“0”的邻接块,则其异或运算符右侧的第二操作数的确定方式为:对原块编码从低位向高位寻找第一次出现的“00”或“11”位,无论找到的是“00”还是“11”,都从该位开始直到最后一位间的每两位均设定为“11”,而更高位上均为“0”; 如果最终目标是求2号角对边方向的邻接三角形编码,即标记为“2”的邻接块,则其异或运算符右侧的第二操作数的确定方式为:对原块编码从低位向高位寻找第一次出现的“10”或“11”位,无论找到的是“10”还是“11”,都从该位开始直到最后一位间的每两位均设定为“01”,而更高位上均为“0”;

块“0”编码: 块“1”编码: 块“2”编码:

实验结果: 计算 个HEALPix计算块中的每个计算块周围一圈的 个邻接HEALPix原子块的全部HEALPix编码(包含 次“同等划分级别下的邻接块编码计算”和 次“块内边界小块编码计算”) 总耗时:0.82秒 计算全天区 个HTM计算块中的每个计算块周围一圈的 个邻接HTM原子块的全部HTM编码(包含 次“同等划分级别下的邻接块编码计算”和 次“块内边界小块编码计算”) 总耗时:1.23秒 结论: 为高效交叉证认方法的实现奠定了基础,同时也在多种面向海量数据的天文数据处理中有着重要的应用价值。

未来展望 研究基于数据挖掘、概率统计等更复杂交叉证认方法在海量数据上的效率问题,争取更高的证认精确度。 研究并实现可在线访问的交叉证认服务系统。要构建出具有实际应用价值的交叉证认系统还有许多工作要做,包括多种数据源间的格式转换、多层系统架构的实现、对多种交叉证认扩展方法的支持、与数据查询系统的整合等。 基于交叉证认计算中具有的数据间独立性,可为更加复杂、更加专用的交叉证认方法提供基于数据划分的自动并行化方法,由此可进一步设计开发出支持多种交叉证认方法扩展的自动并行化系统

谢谢各位老师! 请您们给予指点!