数据库研究方法和论文写作陆嘉恒中国人民大学.

Slides:

Advertisements

Similar presentations

2014 年上学期湖南长郡卫星远程学校制作 13 Getting news from the Internet.

Advertisements

Presented By: 王信傑 Ricky Wang Date:2010/10/6

2007年8月龙星课程周源源老师课程体会包云岗中科院计算所

二維品質模式與麻醉前訪視滿意度中文摘要麻醉前訪視，是麻醉醫護人員對病患提供麻醉相關資訊與服務，並建立良好醫病關係的第一次接觸。本研究目的是以Kano‘s 二維品質模式，設計病患滿意度問卷，探討麻醉前訪視內容與病患滿意度之關係，以期分析關鍵品質要素為何，作為提高病患對醫療滿意度之參考。本研究於台灣北部某醫學中心，通過該院人體試驗委員會審查後進行。對象為婦科排程手術住院病患，其中實驗組共107位病患，在麻醉醫師訪視之前，安排先觀看麻醉流程衛教影片；另外對照組111位病患，則未提供衛教影片。問卷於麻醉醫師

GIS教学体系探讨 ——以北京大学本科教育为例邬伦

雅思大作文的结构 Presented by: 总统秘书王富贵.

English Writing Lecture 9

1. 理想的路由算法有关路由选择协议的几个基本概念算法必须是正确的和完整的。算法在计算上应简单。

商業智慧與資料倉儲課程簡介靜宜大學資管系楊子青.

都市計畫概論論文概述及評論：彰化高鐵站區域計畫

Leftmost Longest Regular Expression Matching in Reconfigurable Logic

A Novel Geographic Routing Strategy over VANET

An Adaptive Cross-Layer Multi-Path Routing Protocol for Urban VANET

Rate and Distortion Optimization for Reversible Data Hiding Using Multiple Histogram Shifting Source: IEEE Transactions On Cybernetics, Vol. 47, No. 2,February.

生物資訊 bioinformatics 林育慶.

毕业论文报告孙悦明

模式识别 Pattern Recognition

汇报人：王晓东单位：信息科学与工程学院日期：2016年9月

Manifold Learning Kai Yang

更加高效利用SciVerse ScienceDirect

計算方法設計與分析 Design and Analysis of Algorithms 唐傳義

On Some Fuzzy Optimization Problems

如何從事論文寫作 2 玄奘大學林國威

Knowledge Engineering & Artificial Intelligence Lab (知識工程與人工智慧)

Flash数据管理 Zhou da

Decision Support System (靜宜資管楊子青)

第4章(2) 空间数据库 —关系数据库北京建筑工程学院王文宇.

Department of Computer Science & Information Engineering

Course 9 NP Theory序論 An Introduction to the Theory of NP

创建型设计模式.

文字探勘與知識工程 Text Mining & Knowledge Engineering

Network Planning Algorithms in CATV Networks

971研究方法課程第九次上課認識、理解及選擇一項適當的研究策略

Hong Kong Library Education and Career Forum 2009

子博弈完美Nash均衡我们知道，一个博弈可以有多于一个的Nash均衡。在某些情况下，我们可以按照“子博弈完美”的要求，把不符合这个要求的均衡去掉。扩展型博弈G的一部分g叫做一个子博弈，如果g包含某个节点和它所有的后继点，并且一个G的信息集或者和g不相交，或者整个含于g。一个Nash均衡称为子博弈完美的，如果它在每.

參加2006 SAE年會-與會心得報告臺灣大學機械工程系所黃元茂教授

Formal Pivot to both Language and Intelligence in Science

第4章(1) 空间数据库 —数据库理论基础北京建筑工程学院王文宇.

第二讲计算机信息检索概述主要内容：一信息检索的基本概念二电子资源的概念与类型三计算机信息检索系统四计算机检索技术.

Decision Support System (靜宜資管楊子青)

数据摘要现状调研报告上下文摘要初步思考徐丹云.

資料結構 Data Structures Fall 2006， 95學年第一學期 Instructor : 陳宗正.

研究技巧與論文撰寫方法中央大學資管系陳彥良.

计算机问题求解 – 论题3-2 - 贪心算法 2018年09月18日.

Maintaining Frequent Itemsets over High-Speed Data Streams

Total Review of Data Structures

Date: 2012/05/14 Source: Bo Zhao et. al (CIKM’11)

中国科学技术大学计算机系陈香兰 2013Fall 第七讲存储器管理中国科学技术大学计算机系陈香兰 2013Fall.

虚拟仪器 virtual instrument

線性規劃模式 Linear Programming Models

OvidSP Introduction Flexible. Innovative. Precise.

從 ER 到 Logical Schema ──兼談Schema Integration

Google Local Search API Research and Implementation

A Data Mining Algorithm for Generalized Web Prefetching

系统科学与复杂网络初探刘建国上海理工大学管理学院

The viewpoint (culture) [观点(文化)]

汪卫王轶彤老逸夫楼602-3 数据库新技术汪卫王轶彤老逸夫楼602-3.

An organizational learning approach to information systems development

BiCuts: A fast packet classification algorithm using bit-level cutting

Nucleon EM form factors in a quark-gluon core model

Efficient Query Relaxation for Complex Relationship Search on Graph Data 李舒馨

赵才荣同济大学，电子与信息工程学院，智信馆410室

(二)盲信号分离.

1 如何將可視化的力量運用於IR 江昱潔.

钱炘祺一种面向实体浏览中属性融合的人机交互的设计与实现 Designing Human-Computer Interaction of Property Consolidation for Entity Browsing 钱炘祺

Arguments to the main Function and Final Project

OrientX暑期工作总结及计划 XML Group

Experimental Analysis of Distributed Graph Systems

Gaussian Process Ruohua Shi Meeting

Hybrid fractal zerotree wavelet image coding

Presentation transcript:

数据库研究方法和论文写作陆嘉恒中国人民大学

报告大纲数据库的研究主题选择研究的动机和方法论文写作方法

Topic + 数据库的研究：数据+查询

查询种类：数据种类： SQL 语言关系数据 XQuery, XPath XML数据 SPARQL 流数据 Top -k 查询网页数据 Topic 查询种类： SQL 语言 XQuery, XPath SPARQL Top -k 查询 Skyline查询 Keyword查询近似查询图查询 …… 数据种类：关系数据 XML数据流数据网页数据概率数据 RDF数据文本数据图数据 ……

Topic 研究方向的选择：知识积累个人兴趣导师推荐导师推荐论文和书刊以及书刊领域内的参考文献了解该主题中的主要概念和理论

研究方向的选择： topic相关的leading experts 在做什么？从他们的文章中了解当前可做的问题老问题的新发展：比如云计算和大数据等新内容与老问题之间的交叉等等讨论对于一个Problem而言，适宜将一个小的问题发掘透彻，而不是左顾右盼将小问题忽略

报告大纲数据库的研究主题选择研究的动机和方法论文写作方法

三句格言（1）科学上没有平坦的大道，真理长河中有无数礁石险滩。只有不畏攀登的采药者，只有不怕巨浪的弄潮儿，才能登上高峰采得仙草，深入水底觅得骊珠。

三句格言（2）当官的道路红彤彤经商的道路黄灿灿学术的道路黑洞洞

三句格言（3）不要努力成为一个成功者，要努力成为一个有价值的人。

有了好的idea就完成了学术论文的一半！ New Idea 新的想法的确立是十分不易的，是一个学术研究的关键，这是一个不断思索的过程。对于一个Problem：解决方法是什么？ idea是否是新的？是否有道理？是否可行？否有更好的idea？有了好的idea就完成了学术论文的一半！

一个idea需要有理论分析和实验验证：理论分析需要较好的数学功底实验验证需要较好的实验设计能力理论分析要周全，最好有严格的数学证明 New Idea 一个idea需要有理论分析和实验验证：理论分析需要较好的数学功底实验验证需要较好的实验设计能力理论分析要周全，最好有严格的数学证明实验验证尽量使用基准测试方案或其他学者常使用的数据实验要有合理的对比保证实验的可重复性 Tips

思：边读论文边思考，构建知识体系，思考解决新问题的思路；学：学习一个领域的相关知识，以及理论分析手段和实验实现方法 Summary 研究是学、思、做、写四个方面的结合。思：边读论文边思考，构建知识体系，思考解决新问题的思路；学：学习一个领域的相关知识，以及理论分析手段和实验实现方法做：研究需要实验来检验自己的假设和细节，发现许多在分析阶段看不到的东西写：论文的写作是一个科学工作者不可缺少的方面，研究成果要通过论文分享和被同行认可

计算机科学界非常重视会议论文，高档次的会议论文体现了国际一流的学术水平，在数据库领域一流的会议和刊物有： Paper 计算机科学界非常重视会议论文，高档次的会议论文体现了国际一流的学术水平，在数据库领域一流的会议和刊物有：会议： SIGMOD (ACM Conference on Management of Data) PODS (ACM SIGMOD Conference on Principles of DB Systems) ICDE (IEEE International Conference on Data Engineering) PVLDB (International Conference on Very Large Data Bases) 刊物： TODS (ACM Transactions on Database Systems) TOIS (ACM Transactions on Information and Systems) IEEE TKDE (IEEE Transactions on Knowledge and Data Engineering) VLDBJ (VLDB Journal)

-Support（theoretical or experimental） -Conclusion -Reference Paper Structure 论文的八大结构： -Title -Abstract -Introduction -Previous work -Our work -Support（theoretical or experimental） -Conclusion -Reference

**关键要有吸引力** Title: 论文的题目要能够清楚地表达主要的工作，字数不能过长 Abstract：目的：总结自己的工作内容：研究的问题自己的方法自己的方法的特点和优点方法的结果 Attractive

Introduction 目的：介绍文章的背景和组织结构内容：问题P十分的重要，A、B和C都已经做过了XX工作，他们的工作取得了哪些成绩，但是都存在某些缺点，我们提出了方法D,阐述D的特点和优点，以及D的实验结果，最后介绍文章的组织结构。 Tips 对别人的工作不能有太多批评，否则显的很不客观，容易降低文章的质量。

对每项重要的历史工作进行简短的回顾(一到几句)，注意要回顾正确，抓住要点，避免歧义和自己提出的工作进行比较 Related work 目的：说明自己与前人的不同内容：将历史上前人的工作分成类别对每项重要的历史工作进行简短的回顾(一到几句)，注意要回顾正确，抓住要点，避免歧义和自己提出的工作进行比较不要忽略前人的重要工作，要公正评价前人的工作，不要过于苛刻强调自己的工作和前人工作的不同，最好举出各自适用例子

复杂的冗长的证明和细节可以放在附录中，这里关键是把问题阐述清楚特例和例外应该在脚注中给予说明 Our work 目的：描述自己的工作内容：从读者角度阐明定义和表示法提供算法的伪码，图解和相应解释用设问的方式回答读者可能提出的潜在问题复杂的冗长的证明和细节可以放在附录中，这里关键是把问题阐述清楚特例和例外应该在脚注中给予说明

通常，对自己观点的支撑和论证需要理论和实验两个方面的阐述 Support 通常，对自己观点的支撑和论证需要理论和实验两个方面的阐述 Theoretical analysis 目的：对自己的方法的理论支持内容：理论阐述、证明等 Experiment 目的：通过实验来验证自己的工作内容：实验设计（保证其他读论文的人可以根据描述重复实验）对比结论（从试验中得出了什么结论）

Conclusion 目的：总结全文，结束文章内容：快速简短的总结未来工作的展望 Reference 目的：对相关重要背景文献的引用选择引文（众所周知的结论不必引用）引文与文章保持一致

好文章一般的特点：正确选题合适的切入点简洁明了说清自己的贡献可靠的/可重现的结果可重复的过程好的文章结构和逻辑流程 Rules 好文章一般的特点：正确选题合适的切入点简洁明了说清自己的贡献可靠的/可重现的结果可重复的过程好的文章结构和逻辑流程精选的参考文献

Title: Optimal Top-k Generation of Attribute Combinations SIGMOD 2012 Title: Optimal Top-k Generation of Attribute Combinations based on Ranked Lists 题目指出了文章提出了一个最优属性组合产生的方法

further develop optimizations for efficient query evaluation to SIGMOD 2012 研究的问题： In this work, we study a novel topk query type, called topkm queries. Suppose we are given a set of groups and each group contains a set of attributes, each of which is associated with a ranked list of tuples, with ID and score. This problem has a wide range of applications from databases to search engines on traditional and non-traditional types of data (relational data, XML, text, etc.). We show that a straightforward extension of an optimal top-$k$ algorithm, the Threshold Algorithm (TA), has shortcomings in solving the \topkm{} problem. To overcome this weakness, we provide here, for the first time, a \emph{provably instance-optimal} algorithm and further develop optimizations for efficient query evaluation to reduce computational and memory costs and the number of accesses. We demonstrate experimentally the scalability and efficiency of our algorithms over three real applications. 应用背景我们方法的优点和结果

SIGMOD 2012 1. Introduction： ——1.1 问题的定义 ——1.2 应用 ——1.3 主要的学术贡献 2. PROBLEM FORMULATION 3 BACKGROUND AND RELATEDWORK

算法理论分析，关键所在 SIGMOD 2012 4 TOP-K,M ALGORITHMS 4.1 Access model: sorted and random accesses 4.2 Baseline algorithm: ETA 4.3 Top-k,m algorithm: ULA 4.4 Optimized top-k,m algorithm: ULA+ 4.5 Optimality properties

方法的应用和实验验证理论论文的结论部分 SIGMOD 2012 5. XML KEYWORD REFINEMENT 6. EXPERIMENTAL STUDY 7. CONCLUSION AND FUTURE WORK 结论和将来的发展；方法的应用和实验验证理论论文的结论部分

有力的数学论证和公式推导往往是检验一篇论文质量高低的一个重要的因素。 Theoretical Computer Science 复杂度分析树的性质图论递归的性质级数运算数论概率公式矩阵运算微积分公式求极限方法 …… 有力的数学论证和公式推导往往是检验一篇论文质量高低的一个重要的因素。

复杂度计算 f(n)的上界 f(n)的下界 f(n)的确定界 Eg：

常用分布二项分布：泊松分布：正态（高斯）分布：高斯分布曲线，多元高斯分布等等。

常用级数（用来公式推导、近似计算等）泰勒级数的基本表示形式：常用某公式在0处的展开式来作为推导：

图论中的概念和经典算法图论中的基本表示方法：节点集、边集…… 图论中的经典算法： Dijkstra算法 Floyd算法 Kruskal算法 ……

除去以上的介绍外，常用的微积分的公式、线性代数的计算方法等需要熟练掌握。总之，理论计算机的水平提高在于不断的积累和研究中的应用。

克服英语论文语言障碍多读相关的论文进行学习和揣摩 Tips 准备一个笔记本，随时记录优秀的英语论文里的句子。

Abstract 部分的优秀句子举例（1）开门见山，直接说本文的主要内容： We study the problem of processing subgraph queries on a database that consists of a set of graphs. The answer to a subgraph query is the set of graphs in the database that are supergraphs of the query. In this article, we propose an efficient index, FG*-index, to solve this problem. 说本文的主要内容和研究问题的重要性 This paper investigates the problem of efficiently computing the confidences of distinct tuples in the answers to conjunctive queries with inequalities (<) on tuple-independent probabilistic databases. This problem is fundamental to probabilistic dabases and was recetly stated open. 经常说某些工作是第一个工作 This is the first work that reasons about keyword search strategies from a formal perspective. 说试验结果方面的改善 Our experimental results show that this reformulation of non-inner joins as complex predicates can improve optimization time by orders of magnitude, compared to known algorithms dealing with complex join predicates and non-inner joins. once again, this gives dynamic programming a distinct advantage over current memoization technqiues.

Abstract 部分的优秀句子举例（2）说新方法的额外开销很小 We also show through complexity and performance analysis that the structural signature scheme is efficient; with respect to the Merkle hash signature, it incurs comparable cost for signing the trees and incurs lower cost for user-side integrity verification. 说已有的研究很多，但是还没有满足某个条件的： Nearest neighbour (NN) search in high dimensional space is an important problem in many applications. Ideally, a practical solution (i) should be implementable in a relational database, and (ii) its query cost should grow sub-linearly with the dataset size, regardless of the data and query distributions. Despite the bulk of NN literature, no solution fulfills both requirements, except local sensitive hashing (LSH). 说某个工作和前面的工作不一样，不要总是用“different from” This technique diverges from the research attempting the challenging problem to compress a single genome or recent research on compressing a large database of unrelated sequences. We do not consider the process of generating the variations, which can be a challenging problem itself, but assume that the variation data have been provided. . 说前人工作比较多，但是还是有一些缺点和值得改进的地方 Despite the significant amount of work on streaming XML processing, most of the work focused on XML filtering (such as XFilter) or single extraction node (not multiple extraction nodes). As a result, the work on efficient algorithms for tuple extraction is rather limited/ TurboXPath is the latest system specifically designed for tuple extraction.

总结数据库的研究主题选择：老问题的新发展和结合研究的动机：自己觉得研究内容有价值有创意最重要英语论文写作关键在于揣摩和模仿

总结的格言所有的方法都需要勤奋的练习

祝大家在数据库研究领域取得好成绩！