数据库研究方法和论文写作 陆嘉恒 中国人民大学.

Slides:



Advertisements
Similar presentations
2014 年上学期 湖南长郡卫星远程学校 制作 13 Getting news from the Internet.
Advertisements

Presented By: 王信傑 Ricky Wang Date:2010/10/6
2007年8月龙星课程 周源源老师课程体会 包云岗 中科院计算所
二維品質模式與麻醉前訪視滿意度 中文摘要 麻醉前訪視,是麻醉醫護人員對病患提供麻醉相關資訊與服務,並建立良好醫病關係的第一次接觸。本研究目的是以Kano‘s 二維品質模式,設計病患滿意度問卷,探討麻醉前訪視內容與病患滿意度之關係,以期分析關鍵品質要素為何,作為提高病患對醫療滿意度之參考。 本研究於台灣北部某醫學中心,通過該院人體試驗委員會審查後進行。對象為婦科排程手術住院病患,其中實驗組共107位病患,在麻醉醫師訪視之前,安排先觀看麻醉流程衛教影片;另外對照組111位病患,則未提供衛教影片。問卷於麻醉醫師
GIS教学体系探讨 ——以北京大学本科教育为例 邬 伦
雅思大作文的结构 Presented by: 总统秘书王富贵.
English Writing Lecture 9
1. 理想的路由算法 有关路由选择协议的几个基本概念 算法必须是正确的和完整的。 算法在计算上应简单。
商業智慧與資料倉儲 課程簡介 靜宜大學資管系 楊子青.
都市計畫概論論文概述及評論: 彰化高鐵站區域計畫
Leftmost Longest Regular Expression Matching in Reconfigurable Logic
A Novel Geographic Routing Strategy over VANET
An Adaptive Cross-Layer Multi-Path Routing Protocol for Urban VANET
Rate and Distortion Optimization for Reversible Data Hiding Using Multiple Histogram Shifting Source: IEEE Transactions On Cybernetics, Vol. 47, No. 2,February.
生物資訊 bioinformatics 林育慶.
毕业论文报告 孙悦明
模式识别 Pattern Recognition
汇报人:王晓东 单 位:信息科学与工程学院 日 期:2016年9月
Manifold Learning Kai Yang
更加高效利用SciVerse ScienceDirect
計算方法設計與分析 Design and Analysis of Algorithms 唐傳義
On Some Fuzzy Optimization Problems
如何從事論文寫作 2 玄奘大學 林國威
Knowledge Engineering & Artificial Intelligence Lab (知識工程與人工智慧)
Flash数据管理 Zhou da
Decision Support System (靜宜資管楊子青)
第4章(2) 空间数据库 —关系数据库 北京建筑工程学院 王文宇.
Department of Computer Science & Information Engineering
Course 9 NP Theory序論 An Introduction to the Theory of NP
创建型设计模式.
文字探勘與知識工程 Text Mining & Knowledge Engineering
Network Planning Algorithms in CATV Networks
971研究方法課程第九次上課 認識、理解及選擇一項適當的研究策略
Hong Kong Library Education and Career Forum 2009
子博弈完美Nash均衡 我们知道,一个博弈可以有多于一个的Nash均衡。在某些情况下,我们可以按照“子博弈完美”的要求,把不符合这个要求的均衡去掉。 扩展型博弈G的一部分g叫做一个子博弈,如果g包含某个节点和它所有的后继点,并且一个G的信息集或者和g不相交,或者整个含于g。 一个Nash均衡称为子博弈完美的,如果它在每.
參加2006 SAE年會-與會心得報告 臺灣大學機械工程系所 黃元茂教授
Formal Pivot to both Language and Intelligence in Science
第4章(1) 空间数据库 —数据库理论基础 北京建筑工程学院 王文宇.
第二讲 计算机信息检索概述 主要内容: 一 信息检索的基本概念 二 电子资源的概念与类型 三 计算机信息检索系统 四 计算机检索技术.
Decision Support System (靜宜資管楊子青)
数据摘要现状调研报告 上下文摘要初步思考 徐丹云.
資料結構 Data Structures Fall 2006, 95學年第一學期 Instructor : 陳宗正.
研究技巧與論文撰寫方法 中央大學資管系 陳彥良.
计算机问题求解 – 论题3-2 - 贪心算法 2018年09月18日.
Maintaining Frequent Itemsets over High-Speed Data Streams
Total Review of Data Structures
Date: 2012/05/14 Source: Bo Zhao et. al (CIKM’11)
中国科学技术大学计算机系 陈香兰 2013Fall 第七讲 存储器管理 中国科学技术大学计算机系 陈香兰 2013Fall.
虚 拟 仪 器 virtual instrument
線性規劃模式 Linear Programming Models
OvidSP Introduction Flexible. Innovative. Precise.
從 ER 到 Logical Schema ──兼談Schema Integration
Google Local Search API Research and Implementation
A Data Mining Algorithm for Generalized Web Prefetching
系统科学与复杂网络初探 刘建国 上海理工大学管理学院
The viewpoint (culture) [观点(文化)]
汪卫 王轶彤 老逸夫楼602-3 数据库新技术 汪卫 王轶彤 老逸夫楼602-3.
An organizational learning approach to information systems development
BiCuts: A fast packet classification algorithm using bit-level cutting
Nucleon EM form factors in a quark-gluon core model
Efficient Query Relaxation for Complex Relationship Search on Graph Data 李舒馨
赵才荣 同济大学,电子与信息工程学院,智信馆410室
(二)盲信号分离.
1 如何將可視化的力量運用於IR 江昱潔.
钱炘祺 一种面向实体浏览中属性融合的人机交互的设计与实现 Designing Human-Computer Interaction of Property Consolidation for Entity Browsing 钱炘祺
Arguments to the main Function and Final Project
OrientX暑期工作总结及计划 XML Group
Experimental Analysis of Distributed Graph Systems
Gaussian Process Ruohua Shi Meeting
Hybrid fractal zerotree wavelet image coding
Presentation transcript:

数据库研究方法和论文写作 陆嘉恒 中国人民大学

报告大纲 数据库的研究主题选择 研究的动机和方法 论文写作方法

Topic + 数据库的研究: 数据+查询

查询种类: 数据种类: SQL 语言 关系数据 XQuery, XPath XML数据 SPARQL 流数据 Top -k 查询 网页数据 Topic 查询种类: SQL 语言 XQuery, XPath SPARQL Top -k 查询 Skyline查询 Keyword查询 近似 查询 图查询 …… 数据种类: 关系数据 XML数据 流数据 网页数据 概率数据 RDF数据 文本数据 图数据 ……

Topic 研究方向的选择: 知识积累 个人兴趣 导师推荐 导师推荐论文和书刊以及书刊 领域内的参考文献 了解该主题中的主要概念和理论

研究方向的选择: topic相关的leading experts 在做什么?从他们的文章中了解当前可做的问题 老问题的新发展:比如云计算和大数据等新内容与老问题之间的交叉等等 讨论 对于一个Problem而言,适宜将一个小的问题发掘透彻,而不是左顾右盼将小问题忽略

报告大纲 数据库的研究主题选择 研究的动机和方法 论文写作方法

三句格言(1) 科学上没有平坦的大道,真理长河中有无数礁石险滩。只有不畏攀登的采药者,只有不怕巨浪的弄潮儿,才能登上高峰采得仙草,深入水底觅得骊珠。

三句格言(2) 当官的道路红彤彤 经商的道路黄灿灿 学术的道路黑洞洞

三句格言(3) 不要努力成为一个成功者,要努力成为一个有价值的人。 

有了好的idea就完成了学术论文的一半! New Idea 新的想法的确立是十分不易的,是一个学术研究的关键,这是一个不断思索的过程。 对于一个Problem: 解决方法是什么? idea是否是新的? 是否有道理? 是否可行? 否有更好的idea? 有了好的idea就完成了学术论文的一半!

一个idea需要有理论分析和实验验证: 理论分析需要较好的数学功底 实验验证需要较好的实验设计能力 理论分析要周全,最好有严格的数学证明 New Idea 一个idea需要有理论分析和实验验证: 理论分析需要较好的数学功底 实验验证需要较好的实验设计能力 理论分析要周全,最好有严格的数学证明 实验验证尽量使用基准测试方案或其他学者常使用的数据 实验要有合理的对比 保证实验的可重复性 Tips

思:边读论文边思考,构建知识体系,思考解决新问题的思路; 学:学习一个领域的相关知识,以及理论分析手段和实验实现方法 Summary 研究是学、思、做、写四个方面的结合。 思:边读论文边思考,构建知识体系,思考解决新问题的思路; 学:学习一个领域的相关知识,以及理论分析手段和实验实现方法 做:研究需要实验来检验自己的假设和细节,发现许多在分析阶段看不到的东西 写:论文的写作是一个科学工作者不可缺少的方面,研究成果要通过论文分享和被同行认可

计算机科学界非常重视会议论文,高档次的会议论文体现了国际一流的学术水平,在数据库领域一流的会议和刊物有: Paper 计算机科学界非常重视会议论文,高档次的会议论文体现了国际一流的学术水平,在数据库领域一流的会议和刊物有: 会议: SIGMOD (ACM Conference on Management of Data) PODS (ACM SIGMOD Conference on Principles of DB Systems) ICDE (IEEE International Conference on Data Engineering) PVLDB (International Conference on Very Large Data Bases) 刊物: TODS (ACM Transactions on Database Systems) TOIS (ACM Transactions on Information and Systems) IEEE TKDE (IEEE Transactions on Knowledge and Data Engineering) VLDBJ (VLDB Journal)

-Support(theoretical or experimental) -Conclusion -Reference Paper Structure 论文的八大结构: -Title -Abstract -Introduction -Previous work -Our work -Support(theoretical or experimental) -Conclusion -Reference

**关键要有吸引力** Title: 论文的题目要能够清楚地表达主要的工作,字数不能过长 Abstract: 目的:总结自己的工作 内容: 研究的问题 自己的方法 自己的方法的特点和优点 方法的结果 Attractive

Introduction 目的:介绍文章的背景和组织结构 内容:问题P十分的重要,A、B和C都已经做过了XX工作,他们的工作取得了哪些成绩,但是都存在某些缺点,我们提出了方法D,阐述D的特点和优点,以及D的实验结果,最后介绍文章的组织结构。 Tips 对别人的工作不能有太多批评,否则显的很不客观,容易降低文章的质量。

对每项重要的历史工作进行简短的回顾(一到几句),注意要回顾正确,抓住要点,避免歧义 和自己提出的工作进行比较 Related work 目的:说明自己与前人的不同 内容: 将历史上前人的工作分成类别 对每项重要的历史工作进行简短的回顾(一到几句),注意要回顾正确,抓住要点,避免歧义 和自己提出的工作进行比较 不要忽略前人的重要工作,要公正评价前人的工作,不要过于苛刻 强调自己的工作和前人工作的不同,最好举出各自适用例子

复杂的冗长的证明和细节可以放在附录中,这里关键是把问题阐述清楚 特例和例外应该在脚注中给予说明 Our work 目的:描述自己的工作 内容: 从读者角度阐明定义和表示法 提供算法的伪码,图解和相应解释 用设问的方式回答读者可能提出的潜在问题 复杂的冗长的证明和细节可以放在附录中,这里关键是把问题阐述清楚 特例和例外应该在脚注中给予说明

通常,对自己观点的支撑和论证需要理论和实验两个方面的阐述 Support 通常,对自己观点的支撑和论证需要理论和实验两个方面的阐述 Theoretical analysis 目的:对自己的方法的理论支持 内容:理论阐述、证明等 Experiment 目的:通过实验来验证自己的工作 内容: 实验设计(保证其他读论文的人可以根据描述重复实验) 对比 结论(从试验中得出了什么结论)

Conclusion 目的:总结全文,结束文章 内容: 快速简短的总结 未来工作的展望 Reference 目的:对相关重要背景文献的引用 选择引文(众所周知的结论不必引用) 引文与文章保持一致

好文章一般的特点: 正确选题 合适的切入点 简洁明了 说清自己的贡献 可靠的/可重现的结果 可重复的过程 好的文章结构和逻辑流程 Rules 好文章一般的特点: 正确选题 合适的切入点 简洁明了 说清自己的贡献 可靠的/可重现的结果 可重复的过程 好的文章结构和逻辑流程 精选的参考文献

Title: Optimal Top-k Generation of Attribute Combinations SIGMOD 2012 Title: Optimal Top-k Generation of Attribute Combinations based on Ranked Lists 题目指出了文章提出了一个最优属性组合产生的方法

further develop optimizations for efficient query evaluation to SIGMOD 2012 研究的问题: In this work, we study a novel topk query type, called topkm queries. Suppose we are given a set of groups and each group contains a set of attributes, each of which is associated with a ranked list of tuples, with ID and score. This problem has a wide range of applications from databases to search engines on traditional and non-traditional types of data (relational data, XML, text, etc.). We show that a straightforward extension of an optimal top-$k$ algorithm, the Threshold Algorithm (TA), has shortcomings in solving the \topkm{} problem. To overcome this weakness, we provide here, for the first time, a \emph{provably instance-optimal} algorithm and further develop optimizations for efficient query evaluation to reduce computational and memory costs and the number of accesses. We demonstrate experimentally the scalability and efficiency of our algorithms over three real applications. 应用背景 我们方法的优点和结果

SIGMOD 2012 1. Introduction: ——1.1 问题的定义 ——1.2 应用 ——1.3 主要的学术贡献 2. PROBLEM FORMULATION 3 BACKGROUND AND RELATEDWORK

算法理论分析,关键所在 SIGMOD 2012 4 TOP-K,M ALGORITHMS 4.1 Access model: sorted and random accesses 4.2 Baseline algorithm: ETA 4.3 Top-k,m algorithm: ULA 4.4 Optimized top-k,m algorithm: ULA+ 4.5 Optimality properties

方法的应用和实验验证理论 论文的结论部分 SIGMOD 2012 5. XML KEYWORD REFINEMENT 6. EXPERIMENTAL STUDY 7. CONCLUSION AND FUTURE WORK 结论和将来的发展; 方法的应用和实验验证理论 论文的结论部分

有力的数学论证和公式推导往往是检验一篇论文质量高低的一个重要的因素。 Theoretical Computer Science 复杂度分析 树的性质 图论 递归的性质 级数运算 数论 概率公式 矩阵运算 微积分公式 求极限方法 …… 有力的数学论证和公式推导往往是检验一篇论文质量高低的一个重要的因素。

复杂度计算 f(n)的上界 f(n)的下界 f(n)的确定界 Eg:

常用分布 二项分布: 泊松分布: 正态(高斯)分布: 高斯分布曲线,多元高斯分布等等。

常用级数(用来公式推导、近似计算等) 泰勒级数的基本表示形式: 常用某公式在0处的展开式来作为推导:

图论中的概念和经典算法 图论中的基本表示方法:节点集、边集…… 图论中的经典算法: Dijkstra算法 Floyd算法 Kruskal算法 ……

除去以上的介绍外,常用的微积分的公式、线性代数的计算方法等需要熟练掌握。 总之,理论计算机的水平提高在于不断的积累和研究中的应用。

克服英语论文语言障碍 多读相关的论文进行学习和揣摩 Tips 准备一个笔记本,随时记录优秀的英语论文里的句子。

Abstract 部分的优秀句子举例(1) 开门见山,直接说本文的主要内容: We study the problem of processing subgraph queries on a database that consists of a set of graphs. The answer to a subgraph query is the set of graphs in the database that are supergraphs of the query. In this article, we propose an efficient index, FG*-index, to solve this problem. 说本文的主要内容和研究问题的重要性 This paper investigates the problem of efficiently computing the confidences of distinct tuples  in the answers to conjunctive queries with inequalities (<) on tuple-independent probabilistic databases. This problem is fundamental to probabilistic dabases and was recetly stated open. 经常说某些工作是第一个工作 This is the first work that reasons about keyword search strategies from a formal perspective. 说试验结果方面的改善 Our experimental results show that this reformulation of non-inner joins as complex predicates can improve optimization time by orders of magnitude, compared to known algorithms dealing with complex join predicates and non-inner joins. once again, this gives dynamic programming a distinct advantage over current memoization technqiues.

Abstract 部分的优秀句子举例(2) 说新方法的额外开销很小 We also show through complexity and performance analysis that the structural signature scheme is efficient; with respect to the Merkle hash signature, it incurs comparable cost for signing the trees and incurs lower cost for user-side integrity verification. 说已有的研究很多,但是还没有满足某个条件的: Nearest neighbour (NN) search in high dimensional space is an important problem in many applications. Ideally, a practical solution (i) should be implementable in a relational database, and (ii) its query cost should grow sub-linearly with the dataset size, regardless of the data and query distributions. Despite the bulk of NN literature, no solution fulfills both requirements, except local sensitive hashing (LSH). 说某个工作和前面的工作不一样,不要总是用“different from” This technique diverges from the research attempting the challenging problem to compress a single genome or recent research on compressing a large database of unrelated sequences. We do not consider the process of generating the variations, which can be a challenging problem itself, but assume that the variation data have been provided. . 说前人工作比较多,但是还是有一些缺点和值得改进的地方 Despite the significant amount of work on streaming XML processing, most of the work focused on XML filtering (such as XFilter) or single extraction node (not multiple extraction nodes). As a result, the work on efficient algorithms for tuple extraction is rather limited/ TurboXPath is the latest system specifically designed for tuple extraction.

总结 数据库的研究主题选择:老问题的新发展和结合 研究的动机:自己觉得研究内容有价值有创意最重要 英语论文写作关键在于揣摩和模仿

总结的格言 所有的方法都需要勤奋的练习

祝大家在数据库研究领域取得好成绩!