瞄准国际前沿 做高水平研究 黄健斌(Jianbin Huang) School of Software Xidian University jbhuang@xidian.edu.cn http://kdd.xidian.edu.cn
免责声明 我所分享的许多想法非常简单,你或许会发现它们简单到不可理喻 不过,很多研究生和学者没有注意到这些问题。本讲座主要以计算机科学/软件工程学科为例,其它学科的同学情况可能稍有不同,请根据自己的实际情况调整。
一、国际前沿阵地在哪? 高影响因子SCI不代表前沿阵地。 一流的论文提出问题,二流的论文解决问题,三流的论文修补方法,垃圾论文抄袭问题和方法。 计算机学科的前沿阵地是国际一流学术会议。例如:SIGMOD、VLDB、SIGKDD、CVPR、ICCV、ICML、IJCAI等。 物理学的前沿阵地是一流学术期刊。例如:Phys. Review Letter, Phys. Review E等。
二、为什么要瞄准国际前沿做研究? 国际前沿阵地代表着国际学术研究的主流,代表着当前的研究热点和趋势。小众的研究多数是没有出路的。我们要跟踪主流的问题,采用交叉的方法。 跟踪一流的研究,才有可能出一流的成果。 多数情况下,跟踪一流的研究,可能只能做出二流或三流的成果。跟踪垃圾论文,出的结果肯定是垃圾。 国际前沿阵地每年都会提出一些新的问题,跟踪新的科学问题更有可能做出高水平的成果。
三、学术成果产出的一般流程是什么? (1)阅读论文,找准要解决的问题; (2)大量阅读论文,摸清当前研究进展; (3)瞄准一、两篇论文,找出解决问题方法的突破口; (4)想idea; (5)小规模数据集上的验证; (6)各种数据集上的综合验证和同类方法比较; (7)整理方法和结果,撰写学术论文。
做研究的三个境界 昨夜西风凋碧树,独上高楼,望断天涯路 衣带渐宽终不悔,为伊消得人憔悴 众里寻她千百度,蓦然回首,那人却在灯火阑珊处 王国维《人间词话》
四、如何撰写并发表高水平的论文? 评阅过程 写一篇SIGKDD论文 论文被拒的十大原因 寻找问题/数据 写作秘诀 解决方案 构建问题 解决问题 写作秘诀 激励你的工作 清晰的描述 清晰的图表 论文被拒的十大原因 解决方案
论文投稿 高水平的学术研究论文应该投在该领域的主流会议和刊物上。论文想法的创新性最重要,论文写作水平也非常重要,二者缺一不可。 越是高水平的学术会议或刊物,其论文评阅过程越科学和规范,审稿水平越高,所获得的审稿意见越有价值,对提高自己的学术水平更有帮助。 论文被拒的十大原因 解决方案
最近某次SIGKDD 论文的评阅情况统计 (年份不透露) 论文被录用与否要经过讨论决定,而不仅仅取决于平均分 50 100 150 200 250 300 350 400 450 500 1 2 3 4 5 6 最近提交到某次SIGKDD的论文的评阅分数的平均值和标准偏差 最近某次SIGKDD 论文的评阅情况统计 (年份不透露) 30 papers were accepted 评阅的平均次数为 3.02次 104篇论文被录用 论文编号 论文被录用与否要经过讨论决定,而不仅仅取决于平均分 评阅人员讨论之后,将给出最终分值。 对于那些徘徊在被录用与被拒交界线上的论文,评阅分值的方差带来的影响将远远大于平均分的差异
至少有三篇得分为3.67(或者更低)的论文必须被录用。但是得分为3.67的论文总共有41篇。 50 100 150 200 250 300 350 400 450 500 1 2 3 4 5 6 最近提交到某次SIGKDD的论文的评阅分数的平均值和标准偏差 会议评阅并不是一个完美的系统. 我们必须学会接受被拒. 我们所能做的就是尽力确保我们的论文排序最大可能地靠左。 30 papers were accepted 104篇论文被录用 论文编号 至少有三篇得分为3.67(或者更低)的论文必须被录用。但是得分为3.67的论文总共有41篇。 这就意味着至少存在38篇论文,在那些与他们分值相同或者更高的论文被录用的情行下被拒了 底线: 许多论文极可能被那些比他们价值低的论文所取代,失去录用机会
但好消息是… 我们大多数人只需要提高一点点就可以极大的提升我们的胜算. 50 100 150 200 250 300 350 400 450 500 1 2 3 4 5 6 最近提交到某次SIGKDD的论文的评阅分数的平均值和标准偏差 但好消息是… 我们大多数人只需要提高一点点就可以极大的提升我们的胜算. 30 papers were accepted 104篇论文被录用 论文编号 假设你是绿色(细线)区域中的41个人之一。如果你能说服一位评阅人给你增加一分以提升排名,那么你的论文会从几乎确定被拒转变为几乎确定被录用。 假设你是蓝色(粗线)区域中的140个人之一。如果你能说服一位评阅人给你增加一分以提升排名,那么你的论文会从几乎确定被拒转变为有很大机会被录用。
造成论文被拒的十大可能原因及其 解决方案
To catch a thief, you must think like a thief Old French Proverb 想要抓住小偷,就要以小偷的想法思考(老法国谚语) 想要说服评阅人,就要以评阅人的想法思考 在写论文时要常常想着:最愤世嫉俗的评阅人就站在你身后看着你。这个评阅人并不特别喜欢你,没有太多时间可以花费在你的论文上,也不认为你是在一个有趣的领域进行工作。但是他会听取你的理由。
1.论文超出SIGKDD的征稿范围 在某些情况下,你的论文可能真的超出了范围,并且不可挽回,那么将它投往其它地方。 解决方案 你能这样写一段章节么:At first blush this problem might seem like a signal processing problem, but note that..
2.论文解决的不是一个有趣或重要的问题。 我们为什么要关注? 解决方案 你是否在真实数据上进行测试? 你是否有该领域的专家作为合作者来推动此问题? 你是否明确声明为什么这是一个重要的问题? 你能否估计价值? “在情形下,从主题8转换为主题5可以每年为我们节省近$40,000 ! Patnaiky 等人. SIGKDD 2009” 注意,估算的价值并不一定要以美元来衡量,也可以是犯罪解决、生命救助等的情况。
一个好的研究问题是由什么决定的? 它很重要:如果你能够解决这个问题,你就可以赚取财富、救助生命、帮助儿童学习一门新的语言… 你可以得到真实数据:做尼斯湖水怪的DNA分析是有趣的,但是… 你可以增量式深入研究:一些问题是孤注一掷的,这样的问题对于年轻的科学家来说太冒险了。 有一个全新的成功度量标准:一些问题完全满足以上标准,但是却很难确定你的研究进展。
寻找问题/寻找数据 找到一个好的问题是整个过程中最难的部分 一旦你有了一个问题,你将会需要数据… 在寻找问题时,最明显的方法就是最好的方法,大量阅读论文,无论是SIGKDD 的还是其它地方的。
从领域专家处获取问题 当数据挖掘人员和几乎所有科学家、商人一起工作时,他们是独立存在的 我曾和人类学家、血液学家、考古学家、天文学家、昆虫学家、心脏病学家,爬虫学家,脑电图学家,遗传学家,空间车辆技术人员等一起工作过 这样的合作是获取有趣问题的一个丰富源头
寻找研究问题 假设你认为想法X非常好 你可以这样拓展X… 让它更准确(从统计上显得更准确) 让它更快(通常是一个数量级上的,或是没人关心的) 让它成为随时间变化的算法 让它成为一个在线(流)算法 让它在不同数据类型上工作(包括不确定数据) 让它在低能设备上工作 解释为什么它能如此有效 让它在分布式系统上工作 把它应用在新的设置上(工业/政府轨道) 删除一个参数/假设 让它能够感知磁盘(如果当前它是一个主存上的算法) 让它更简单一些
构建研究问题 作为一位评阅人,如果我在读过摘要之后却不能用这样一句话来描述你的论文,那么你的论文注定被拒了。 作为一位评阅人,我常常为许多人在摘要(或整篇文章)中不能给出清晰的问题描述而感到沮丧! 你能用一句话描述你论文中的研究内容么? X 有利于 Y (在 Z 的上下文中). 扩展 X 以实现 Y (在 Z 的上下文中). 采用 X 以促进 Y (对于Z 格式的数据). 针对 Y 问题的 X 方法可以减轻对 Z 的需要. (针对最近邻分类问题的一个随时间变化算法的方法可以减轻对高性能硬盘的需要) (Ueno 等人ICDM 06) 作为一位评阅人,如果我在读过摘要之后却不能用这样一句话来描述你的论文,那么你的论文注定被拒了。 I hate it when a paper under review does not give a concise definition of the problem 我讨厌一篇待评阅的论文不能对问题给出一个简明的定义 Tina Eliassi-Rad
从问题到数据 现在是获取数据的时候了! 有趣的、真实的(在适当情况下,大的)数据集可以大幅增加你的论文被录用的机会 当前,我们已经有了一个具体的、可验证的研究问题 现在是获取数据的时候了! “现在”,指的是距截稿日期数月之前。我拥有世界上最大的免费数据集集合之一。每年SIGKDD截止日期前几天,向我发送电子邮件询问“我们想向SIGKDD投稿,您有……的数据集么”的数量令我惊讶。 有趣的、真实的(在适当情况下,大的)数据集可以大幅增加你的论文被录用的机会 拥有好的数据还可以阻止你向不切实际的解决方法靠近,帮助你做更好的研究 在真实数据上的早期实验可以反馈回来,以寻找和构建研究问题所到达的阶段 鉴于上述,我们要花些时间来考虑数据。
合成数据会导致矛盾 论文的前面:处理大型数据集的能力变得日趋重要…… 论文的后面:…由于缺少公开可用的大型数据集… 避免出现声称问题是重要的,却没有真实数据,这样的矛盾 如果问题向你所声称的那样重要,评阅人就会为没有真实数据的理由感到奇怪。 我经常会遇到这种矛盾,这里就是一个真实的例子: 论文的前面:处理大型数据集的能力变得日趋重要…… 论文的后面:…由于缺少公开可用的大型数据集…
3.实验是不可复制的 解决方案 因为这个原因被拒变得越来越常见,现在一些会议已经有了关于复制的正式标准。 创建一个带有所有数据和相关论文的网页。 接下来做完整性检查。假如你丢失了所有文件,仅通过网页,你能否重建论文中的所有实验? (这里很容易做出选择,或者自欺欺人,或者做为一名研究生实际尝试去做) 强迫自己去这么做,可以消除99%的问题。
为什么可复制? 我们可以认为可复制是科学方法的基石,是对团体或者你的基金会等部门的一项职责。然而本教程是关于如何使论文发表。 具有很高可复制性的研究将会极大地帮助你获得论文被录用的机会。 在可复制性上做出的明显努力,将逐渐给评阅人灌输信心,使他们相信你的工作是正确的。 在可复制性上做出的明显努力将带来(真正的)价值的出现。 作为奖励,可复制性将会增加你被引用的次数。
如何确保可复制性 明确声明论文中所有的参数和设置。 建立一个带有注释数据和代码的网页,并指向它。 (如果必须进行双盲评阅,要使用匿名托管服务) 当你的工作不是可复制时,很容易自欺欺人地认为它是可复写的。请其他人而不是你自己来对论文的复写性进行测试。 (来自论文) 对于双盲评阅的会议,你可以申请一个Gmail账号,把所有的数据放在里面,再把这个账号放在论文中。
4.和你最近的一篇论文太相似 如果你确实在尝试做“二次发表”,那么这就是一个合理的拒绝。 解决方案 你是否参考了先前的工作? 你是否花费至少一个段落明确解释你是如何扩展工作的(或者,与之前的工作不同)? 你是否重用了你的所有介绍文字和图表等?花些功夫重新做这些可能是值得的。 比如说,如果你最近的一篇论文是测量数据集X的精度的,并且这一篇论文也是要提高精度,那么你能否在X上与之前的工作进行比较?(请注意,这并不排除你从额外数据集/其他方法进行比较,但是如果你没有和之前的工作进行对比,就好像你隐藏了一些东西)
5.你没有承认自己方法的不足 解决方案 这看起来好像你要么不知道有不足之处(你很愚蠢),要么你假装这不是不足(你在撒谎) 。 明确承认不足之处,解释为什么所做的工作仍是有用的(如果有可能的话,它如何能够解决) “虽然如第4章所提到的那样,我们的算法只适用于离散数据,在商业上也同样存在重要的离散域问题。我们还认为,通过考虑……可能能够减弱不足。”
6.你没有公平看待其他人的工作 比较: 解决方案 向存在竞争的作者发一份预览: “在Smith 带有启发性的论文中,显示……我们通过缓解对……的需要,在她的基础上进行了拓展” “Smith的想法缓慢而笨拙……我们修改了它。” 一些评阅人指出,他们不会明确告诉作者他们觉得论文有不公平的评论或者轻视的言语(这样的主观反馈需要花费时间去书写),但是这会影响他们对论文的看法。 解决方案 向存在竞争的作者发一份预览: “亲爱的Sue,我们正努力拓展您的想法,我们想确保对您的工作描述正确、公平,您能帮我们看一下这个预览么……”
6.存在另种同类的方法解决这个问题, 而你没有将这个方法拿来进行比较 解决方案 包含简单的稻草人在内 (“尽管我们认为由于讨论过的那个原因,海明距离并不适用,我们要把它包含在内进行对比”) 写出明确的解释,说明其它方法为什么不使用(见下文)。 而不是仅仅说 “Smith说海明距离不好,所以我们没有采用”
方法简单是一个优点 Paradoxically and wrongly, sometimes if the paper used an excessively complicated algorithm, it is more likely that it would be accepted 矛盾地,同样也是错误地是:有时论文中使用一个极度复杂的说服,会使论文更容易被录用 Charles Elkan 如果你的想法很简单,不要试图用一些不必要的填充来隐藏事实(尽管有时很不幸地是,它似乎很有效)。相反,简单地向大家推出就好。 “…它强化了我们所宣称的,我们的方法实现起来非常简单……在解释我们针对这个问题得出的简单解决方案之前……我们可以利用这个简单的算法客观地发现异常……SIGKDD’04 简单是一种力量,而不是缺点,请承认并宣告:简单是一个优点
激励你的工作 如果有一种不同的方法可以解决你的问题,而你却没有提到这一点。你的评阅人会认为你在隐藏一些东西 你应当非常明确的说明为什么其他的想法不能使用。即使这对于你来说是非常明显的,但它对于评阅人却不一定是明显的。 解决这个问题的其他方法可能是简单的。对其他方法编写代码,并进行对比。
8.你没有参考相关工作。 这个想法已经存在,见Lee 1978 解决方案 做一个详细的文献搜索 如果相关文献数量庞大,写一份更长的科技报告,并在你的论文中说明 “这个领域的相关工作是巨大的,感兴趣的读者可以关注我们的科技报告,查看更详细的综述” 提前把你的论文草稿发送给那些模拟评阅人 即使你意外发现了已有的成果,只要你提前知道就有可能能够修补这个错误。例如:“在论文中,我们从制图学重新引入一个模糊的结果来进行数据挖掘和说明……” (在10年时间里,我被拒了4篇论文,都是关于重新发现 Douglas-Peuker算法的)
说服他人你的工作是原创的 说服评阅人你的工作是原创的是非常重要的。 做一个详细的文献搜索 使用模拟评阅人 巴赫,哥德堡变奏曲 Martin Wattenberg 在InfoVis 2002上发表了一篇很不错的论文,该文显示了字符串的重复结构 … 如果是我来评阅这篇论文,它会被拒的,因为这个想法在1120年就已经完成了! 说服评阅人你的工作是原创的是非常重要的。 做一个详细的文献搜索 使用模拟评阅人 解释为什么你的工作是不同的 (参见避免“洗衣单”式引文) De Musica: Boethius关于音乐的专著中的一页.。 图中绘以动物形式的野兽。 Alexander Turnbull 图书馆, 惠灵顿, 新西兰
避免“洗衣单” 式引文 在我一些早期的论文中,我误把Davood Rafiei的名字拼写为 Refiei。现在,这个拼写错误却在无数其他人的论文中出现…… 通过加权时间方法在时间序列数据中寻找相似性… 在时间序列数据库中进行相似性搜索使用… 基于低分辨率的金融时间序列索引… 在时间序列数据中使用加权时间进行相似性搜索… 对预期时间减少数据、过滤噪声… 这(连同在此省略的其它事实)表明一些人甚至连读都没读,就去抄袭“经典”引文。 在其他案例中,我看到论文宣称“我们引入一个新的算法X”,而实际上一个基本相同的算法就出现在某篇他们的引文(可能没有读到)中。 读你的引文!如果你所做的事与之前的工作发生冲突或重复,请在你的论文中明确标出。 在大规模…上的时间序列数据分析和预处理 基于G概率的方法和它的… 对基于相似性的…在时间序列表示上的回顾 基于低分辨率的金融时间序列索引… 关于多分类器系统的一个新设计,并应用于… A classic is something that everybody wants to have read and nobody wants to read 经典就是每个人都希望自己已经读过,实际上却没有人想读的东西
9.你的参数/选择项太多了 解决方案 对于每个参数,要么: 解释每个选项: 说明你是如何设置它的值(通过理论或实验) 说明你的想法对确定的值不敏感 解释每个选项: 如果你的选项是任意的,明确标出。我们在所有的实验中使用单链接,也尝试平均、分组以及避开链接,但是发现这并不起到什么作用。因此简单起见,我们忽略这些效果。 如果你的选项不是任意的,证明它。我们选择 DCT而不是更为传统的 DFT ,原因有三,具体来说…
太多的参数不是一个好东西 隐式不可复制最常见的原因是算法有许多参数。 带有参数的算法看起来是(实际上也常常是)临时的、脆弱的。 带有参数的算法会降低评阅人的信心。 对于你的方法中的每个参数,你必须通过逻辑性、理性或实验进行说明,要么…… 可以通过一些方法对参数设置一个良好的值 参数的特定的值差别不大 With four parameters I can fit an elephant, and with five I can make him wiggle his trunk 我可以通过四个参数描述一头大象,而五个参数就可以使它摆动尾巴 John von Neumann
不合理的选项(不好) 解释/证明每个选项是非常重要的,即使它只是一个任意选择。 例如,这句话使我很沮丧:一年之内有300个用户以及足够数量的会话,我们随机选出100个用户进行研究。为什么是 100? 如果是200个用户,能否得到相似的结论? 不好:我们使用单链接聚类…Why 为什么使用单链接,为什么不使用分组平均或是消除? 好:我们采用单链接/分组链接/全链接,但最终发现这种选择影响微乎其微,因此我们仅报告… 最好:我们采用单链接/分组链接/全链接,但最终发现这种选择影响微乎其微,因此文中仅报告单链接的情况。然而对本文感兴趣的读者可以关注科技报告[a],查看聚类中所有变体…
10.论文表达太差,出现许多拼写错误、不明确的图表 如果你有一个好的想法,但对写好的论文粗心审阅是十分令人沮丧的,这似乎并不公平。许多评阅人会假设你在描述过程中所付出的心血是和完成实验过程中一样多的。 解决方案 提前完成写作,然后付款请人帮忙检查书写 使用模拟评阅人 要为你的工作而自豪!
一个有用的原则 Don’t make the reviewer of your paper think! 不要让你论文的评阅人自己去思考! Steve Krug有一本不错的关于网页设计的书,书中还包括一些在书写论文方面十分有用的想法。 一个基本的原则就是从标题中捕获的: Don’t make the reviewer of your paper think! 不要让你论文的评阅人自己去思考! 如果他们被迫地去思考,他们可能会为被迫去努力而感到怨恨。 如果你让读者自己去想,他们可能会有错误的 在非常细心的写作、伟大的组织以及能够自我解释的图表之下,你能够(也应该)为评阅人避免大部分的劳动。
这需要大量的看法来理解2DDW 比欧氏距离要好 一个有用的原则 一个简单详细的例子: 这需要大量的看法来理解2DDW 比欧氏距离要好 这不行 2DDW 距离 欧几里德距离 图3:两组面相通过2DDW距离(上)和欧几里德距离(下)聚类
为什么模拟评阅人可以起到帮助 模拟评阅人可能会注意到 “upward shift” 拼写错误,或者“Negro” 使用不当,或者…
下面两幅图描述的都是时间序列分类的动作… 图中不能明显表示出算法是最好的。 而且标题信息几乎为零。 你需要非常认真地阅读文段来理解这幅图。 由Keogh重新设计 乍一看,可以发现精度非常高。 我们还可以看出,当…的时候DTW会更好一些。 在图5中绘制数据点。 注意正确分类动作必须出现在左上角(灰色)中。 1 In this region our algorithm wins Chuanjun Li, B. Prabhakaran and S.Q. Zheng, Similarity Measure for Multi-Attribute Data, Proc. ICASSP 2005 - 2005 IEEE International Conference on Acoustics, Speech, and Signal Processing, Philadelphia, PA USA, March 18-23, 2005, II-1149 - II-1152. In this region DTW wins 1 图5:将100个运动点绘制在二维坐标中。X值代表到相同类中最近邻居的距离,Y值代表到不同类最近邻居的距离。
对比这两组图,它们都试图证明岩画可以有意义地被聚类。 思考…帮助 色彩帮助 直接标签帮助 有意义的标题帮助 你需要跨越四页,查看文段和两幅图,才能找出本文中相似度量的效用。 SIGKDD 09
写论文的理想化流程 寻找问题/数据 开始写作(确实,在研究之前和进行中开始写作) 做研究/解决问题 完成95% 草稿 发送预览给模拟评阅人 发送预览给竞争作者 (事实上的或表面上的) 使用检查列表修改 提交 距截止日期一个月
总 结 在顶级期刊和会议上发表论文可能会是令人畏惧的,是令人沮丧的… 但是,你可以做到! 总 结 在顶级期刊和会议上发表论文可能会是令人畏惧的,是令人沮丧的… 但是,你可以做到! 采用一种系统化的方法,在每个阶段自我严格要求,这会帮助你赢得更大的机会。 拥有一双来自外界挑剔的眼睛(模拟评阅人)也将极大地帮助你提升被录用的机会
The End