Download presentation
Presentation is loading. Please wait.
Published byGloria Lucas Modified 6年之前
1
Setting our bibliographic references free: towards open citation data
2
背景信息:Silvio Peroni Silvio Peroni: 使用OWL本体对书目实体进行文档标记和语义描述的专家;
计算机科学博士学位; 博洛尼亚大学古典文献学和意大利研究系的助理教授; SPAR(语义发布和引用)本体的主要开发者之一; OpenCitations的联席主管; 开放引用倡议(Initiative for Open Citations,I4OC)的创始成员。
3
背景信息:OpenCitations OpenCitations项目于2010年正式启动,是由JISC资助的为期一年的项目,由当时在牛津大学动物学系工作的David Shotton担任主管。该项目的范围是全球性的,旨在改变科学出版和学术交流的面貌。具体来说,是用RDF出版开放的书目引文数据,并使引文链接像Web链接一样易于遍历。 该项目的主要成果之一是发布了一个开放的学术引文语料库,该库使用SPAR(语义发布和引用)本体描述,被命名为OpenCitations Corpus(OCC),它最初是由PubMed Central开放访问子集内的期刊文章引用而来的。 2015年底,David Shotton成为牛津大学牛津电子研究(e-research)中心的一员,博洛尼亚大学的Silvio Peroni以联席董事和技术经理的身份加入OpenCitations,目的是基于新元数据模式,对语料库进行新的实例化,并使用几种新技术自动地从权威数据来源获取新的引文元数据,目前OCC的实例化工作由博洛尼亚大学计算机科学和工程系主办。 自2016年7月初以来,OCC一直在消化、处理和发布欧洲PubMed Central的学术论文参考列表。 从历史上看,JISC是联合信息系统委员会(Joint Information Systems Committee)的缩写,但在过去的十年中,我们不断发展,作为一家公司,我们现在被称为JISC。
4
背景信息:论文简介 本文(2015年)是描述OpenCitations的第一篇完整文章,文章对开放引文数据的背景信息进行了介绍,指出目前开放引文数据库存在的问题和解决思路,并描述了OpenCitations语料库(OCC)。重点指出了未来需要引人的新类型的数据,文章中称之为引用功能(citation function)。
5
2 What exactly is a reference within a scholarly document?
1 Introduction 2 What exactly is a reference within a scholarly document? 2.1 The word “reference” and its overlapping meanings 2.2 Classifying citing and cited entities 2.3 Classifying the citations themselves 3 Drawbacks of currently-avaliable sources of citation data 3.1 Cost 3.2 Cotation count accuracy 3.3 Citation-based metrics 4 The open citation corpus 4.1 Aims of OCC 4.2 From where do,will and should references com 4.3 Service 4.4 The benefits of the OCC 5 Towards Semantic Publishing 5.1 Machine-readable metadata 5.2 The SPAR (Semantic Publishing and Referencing) Ontologies 6 New tools and interfaces to handle citations better 6.1 Utopia documents,ALC and the Pensoft Writing Tool 6.2 The CITO Reference Annotation Tools 6.3 Recommending citation types using CITalO 7 Building Venice: a vision 8 Conclusions 在本文中,作者首先介绍了影响当前可用的引文数据库存在的问题,然后描述openCitations组织对这个领域的贡献:公开引用语料库(OCC) 、引文类型本体(SPAR)、引文注释工具。 第一部分是介绍; 第二部分文章对“bibliographic citation”的精确的概念进行了说明,具体阐明了构成学术文档的引证部分的文本所需要的组件,并指出了对引文类型进行分类的必要性; 第三部分列举了当前引文数据库存在的缺陷; 第四部分对开放引用语料库的结构,以及其中所应用的本体模型,进行了说明; 第五部分对第四部分的本体模型进行了描述; 第六部分我们进一步描述了使用CiTO为引文指定特定的修辞或事实描述的引文类型的分类方法,以及辅助这一过程的CiTO引用注释工具。 第七部分说明了开放引文和对引文类型进行分类的好处; 第八部分作为论文总结。
6
1. Introduction
7
开放存取运动 开放存取(Open Access,OA)运动于20世纪90年代末在国际学术界、出版界、信息传播界和图书情报界大规模地兴起。其初衷是解决当前的“学术期刊出版危机”,推动科研成果利用因特网自由传播,促进学术信息的交流与出版,提升科学研究的公共利用程度,保障科学信息的长期保存。 2001年12月,开放协会研究所在匈牙利的布达佩斯召集了有关开放访问的国际研讨会,起草和发表了“布达佩斯开放存取倡议”(BOAI)。
8
Two cases Heather Piwowar
Piwowar是ImpactStory的联合创始人,现居加拿大温哥华,当时是北卡罗来纳州杜克大学的博士后。由于无法进入爱思唯尔的学术引文语料库Scopus,她最终通过与加拿大国家科学图书馆的研究工作者合作获得了访问权限。但由于她曾在美国生活过,这就要求她进行指纹识别,以获得警方的许可证书。她告诉我:“我浪费了好几天时间,试图获取我研究所需的引文数据。这太荒谬了。”Piwowar需要分析1万篇文章的引文数据,但另一个主要的引文来源——汤森路透科学网(Thomson Reuters Web of Science) 当时并不支持使用PubMed的ID号查询。她解释说:“如果有公开的引文数据,我就可以自己写脚本了!” pubmed检索号,即PMID号,相当于文献的身份证号。点开pubmed每篇文献,在作者一行的下面,就可以看到PMID号。 PubMed.cn是医学,生命科学领域的数据库,旨在组织、分享科研领域信息。 Scopus是一个新的导航工具,它涵盖了世界上最广泛的科技和医学文献的文摘、参考文献及索引。 Impactstory由Heather Piwowar和Jason Priem创办。它的创办源于2011年Beyond Impact举办的一次编程马拉松大赛。比赛已经结束,意犹未尽的参赛者在酒店的走廊里继续工作,经过24小时的编程奋战终于得到了Impactstory的雏形。此后通过几个月的调试,正式建立了Impactstory。Impactstory是一个以帮助科研人员在线发掘以及分享其科研影响力的非营利性开源网络平台。通过帮助科研人员利用数据揭示自身的科研成果,Impactstory建立了一个全新的以鼓励网络化为特征的学术奖励系统。Impactstory也受到了美国国家科学基金会(NSF)和斯隆基金会(Alfred P. Sloan Foundation)的资助。
9
Steven Greenberg 马萨诸塞州波士顿哈佛医学院(Harvard Medical School)的神经病学家Steven Greenberg也有类似的经历,他着手揭示了“假设”是如何通过重复引用而转化为“事实”的。Greenberg人工构建并分析了一个引文网络,其中包含242篇论文、675篇引文和220553条与特定假设相关的不同引文路径。如果这些引文数据可以在网上轻易获取,他就可以省下不少精力。但是由于目前引用数据的获取非常困难,研究实践受到了影响。 这两个例子说明了目前获取引文数据是非常困难的,直接影响到了研究实践工作。 在这个开放获取的十年里,我们认为学术文章中的参考书目(学者的独立研究成果)并没有免费提供给学者使用,这在目前开放存取的环境下是一个非常大的问题。为了纠正这个问题,引用数据需要被认可为一个共享的一部分,那些自由和合法可供分享的作品,放置在一个开放的存储库,他们应该存储在适当的机器可读的格式,以便重复利用,为人们提供新的服务。
10
想象一下,单个学术出版物代表一个岛屿,引用(citation)就是连接人们从一个岛 (如会议论文) 到另一个岛 (如期刊文章和书籍章节) 的桥梁。尽管目前到不同岛屿旅行是被允许的,但在整个桥梁网络上不受限制的旅行需要昂贵的季票,只有有钱的专业人士才能负担得起,普通民众被排除在外,因此城市的社会和商业发展受到阻碍。相比之下,如果向普通民众免费开放桥梁,人们就能在整个学术知识之城自由穿梭,社会就会兴旺发达。 因此,OpenCitations试图创建这样一个开放的学术交流之城。具体来说,就是借助开放引文语料库(Open Citation Corpus,OCC)构建岛屿之间开放的桥梁。在OCC中,通过开放机器可读的引文数据,我们就能够从由独立的学术出版物组成的复杂群岛中自由穿梭。
11
本文涉及的OpenCitations的贡献:
the Open Citations Corpus (OCC): 一种开放的学术引文数据仓库,基于知识共享协议CC0 1.0开发,利用SPAR本体进行描述。 the Citations Typing Ontology (CiTO): 一个由OWL2 DL(Description Logic,描述逻辑)本体语言编码的本体,支持RDF中引用的断言,以及根据引用的原因对引文进行机器可读的特性标注。 the CiTO Reference Annotation Tools: 一个引用注释工具,由JavaScript语言实现,用于分配CiTO注释。 CiTalO: 一个算法工具,通过本体学习和映射、自然语言处理、情感分析、词义消歧等技术,试图推断作者引用某篇论文的原因。
12
2. What Exactly is a Reference within a Scholarly Document?
13
引用(citation)是一个学者引用他人已出版工作的行为,是学术交流的中心,是学术声望(credit)的体现,也是整合独立研究成果的努力。
引用把整个学术世界编织成一个巨大的引文网络:一个以出版物为节点、以引文为链接的有向图。学术交流涉及到通过这个引文网络的信息和思想的流动,分析网络随时间的变化,揭示学者之间的交流模式,以及学科的发展和消亡。
14
2.1 The word “reference” and its overlapping meanings
bibliography reference citation 然而,如图1所示,这个词“参考”被宽泛地赋予多种意义:或者是书目引用本身,或文章中对被引文献的条目文本表示,或者是发表或引用的行为目标,或者是实际目标刊物本身。 bibliography通常是指在写论文或者其他文章的过程中参考的书目,这些书目不见得都引用了在你的论文或文章当中,但是作者可能受到了启发,对这些书目的阅读也是为了这篇论文或者文章做准备。 reference通常是指在论文或者文章中直接引用的内容,这些内容是别人的,但是作者借用这些内容来支持或者证明自己的观点,这些是必须要列出来的,不然可能算作抄袭或者剽窃。 citation通常是指引用,它和reference和bibliography不同,因为reference和bibliography通常放在文章或者论文的最后,而citation只是用来描述引用这种现象的单词。
15
2.1 The word “reference” and its overlapping meanings
Bibliographic record Bibliographic reference Citing work Cited work Citation To cite(及物动词) In-text reference pointer Citation context 在学术文献相互引用的环境下,从一篇文章(citing work)向另一篇被引文章(cited work)的引用(citation)通常包括:在“参考文献”部分对被引文章的文后参考文献(bibliographic record),以及对正文部分中引用部分的指示(in-text reference pointers). Bibliographic record:权威信息系统或图书馆目录中完整描述某一出版物的数据记录。每个书目记录包含一组预定义的实体出版商出版的描述方面:所有作者的名字,文章标题、期刊名称、卷号,版本号,第一个和最后一个页码,出版日期,出版商的名字,版权信息、同行评议的地位,开放存取状态,文章的数字对象标识符(DOI),期刊的国际标准序列号(ISSN)。 Bibliographic reference:引用工作中标识被引用工作的文本实体。 Citing work:包含对另一作品的参考书目的文章。 Cited work:the article that is being referred to by such a bibliographic reference. Citation:the attribution link between a citing work and the cited work that is created when the author of the citing work makes a bibliographic reference to the cited work. To cite:引用已发表的作品的表现行为,通常通过引用作品中包含的书目引用来实例化(对于文本作品),引用作品时应该用文本引用指针在引用作品的文本中明确地表示出来。“已被引用”的被动条件存在于已发表的作品中,而在另一已发表的作品中存在对其的书目引用。 In-text reference pointer:引用作品正文中表示参考书目或脚注中特定书目引用的实体。 Citation context:在已发表的论文(如句子、段落、章节或章节)中出现文本引用指针的文本内容,为该引用的存在提供了修辞基础。
16
CiTO,the Citation Typing Ontology
BiRO,the Bibliographic Reference Ontology C4O,the Citation Counting and Context Characterization Ontology
17
2.2 Classifying citing and cited entites
传统上,引用/被引用实体是指专著、书籍章节、期刊文章、会议论文集中的论文等,另外还包括专利、网页、博客帖子、数据集、演示文稿和其他形式的数字内容。 除此之外,还涉及基于引用、被引用实体更抽象的特征的分类。例如,一个特定的实体是否包含实验研究结果、调查或问卷的结论、系统描述等等,这些相对更抽象的特征描述的是出版物的内容而不是出版物的类型。 The Journal of Document:研究论文、观点、技术论文、概念性论文、案例研究、文献综述或一般综述; The Journal of Web Semantics:研究论文、本体论文、调查论文和系统论文
18
2.3 Classifying the citations themselves
1、评估研究质量的替代指标。 首先需要明确引用的性质,才能回答诸如以下问题: 负面引用和正面引用应该以同样的方式计算权重吗? 自我引用是否与其他学者的引用具有同样的重要性? 对每一篇文章的被引用次数给予同等的权重,那么,给一篇评论以与一篇研究论文同等的权重是否合适? 2、新的学术视角。 有了一种有效的方法来描述引用的特性,就开辟了一个有趣的视角,利于实现例如自动分析特定研究领域的文档的针对性、发现新的研究趋势、观察新的研究方法和想法是如何传播的、建立复杂的推荐等。 因此,在任何引文信息来源中,如果所有引文都附有适当的功能注释,即“作者引用某篇论文的理由”,那将是非常可取的。
19
models for describing citation function
Teufel et al.(2006)(2009)通过引入3组12个不同的类别来提供引文功能的分类,分别表达否定(Weak,CoCo-),积极 (PMot,PUse,PBas,PModi,PSim,PSup),中性 (CoCoGM,CoCoR0,CoCoXY,Neut)。 Jorg(2008)发现动词通常携带有涉及到引用本质特点的信息,例如“基于”,“超越”、“关注”、“扩展”等等,并将其映射到Murugesan(1975)提出的对引用的类别划分上(概念/操作,有机/敷衍了事,进化/并列,确定/否定)。 在生物学领域,Agarwal等人(2010)引入了8个顶层类别来描述不同类型的引用:背景、当代、对比、评价、结果解释、材料和方法、方式、相似性。
20
CiTO,the Citation Typing Ontology
CiTO,即引文类型化本体,用OWL 2 DL本体语言编写,它可以对引文的性质或类型进行描述,并允许这些描述在Web上发布。CiTO允许作者在引用另一个文档时根据41种不同的引文属性对引文进行描述。这些属性被归类为事实属性(例如,cito:包含引用)和/或修辞属性,包括积极属性(例如,cito:支持)、中性属性(例如,cito:评论)和消极属性(例如,cito:争议)。 CiTO包括以下几个类: affilation self citation、author network self citation、author self citation、citation distant citation、funder self citation、journal cartel citation、journal self citation、self citation
21
3. Drawbacks of Currently-Avaliable Sources of Citation Data
22
3.1 Cost the Thomson Reuters Web of Science (WoS) (1964)
Elsevier's Scopus (2004) 为了获得这两种资源,英国的研究型大学每年都要支付数万英镑(Chadegani et al.,2013)。 Google Scholar (2004) Microsoft Academic Search (2009) 所有这些来源都有许可证限制,防止它们的引文数据被自由重用。
23
3.2 Citation count accuracy
例如,David Shotton“Adventure in Semantic publishing: exempler semantic enhancments of a research article”一文的引文记录在Web of Science、Google Scholar、Microsoft Academic Search之间就存在着很大的差异,分别为50,193,198。
24
3.3 Citation-based metric
目前,用于衡量期刊相对重要性的影响因子仅仅基于期刊内文章直接引用的数量,而不考虑更广泛的网络。 有几项研究强调了将引文分类为不同类型(例如支持性的、批判性的、中性的)将导致影响因子和类似度量值的变化。例如,持负面态度的引用(MacRoberts and MacRoberts,1989),或自引行为(Aksnes,2003)可以彻底改变学术社区中个人的影响力。
25
4. The Open Citation Corpus
26
4.1 What is OCC 开放引文语料库[1](Open Citation Corpus)是一种新的开放的学术引文语料库,它的目标是提供准确的书目引用数据,以便其他人可以自由地构建、增强和重用它们,不受版权或数据库法律的限制。OCC所提供的精确的RDF引文信息,由OpenCitations数据模型使用SPAR本体描述得到。 OCC的内容可以通过基于OSCAR(a general Search Application for Rdf data specially designed for Open Citations)[2] 创建的OCC搜索界面进行检索。搜索界面使用一个表示标识符(DOI,ORCID)、作者名或作品标题(或其部分)的字母数字字符串作为输入,以识别书目及其作者、参考文献和引文。返回的结果可以使用OSCAR的关联浏览界面(即LUCINDA)进行浏览。此外,还可以使用SPARQL端点对OCC进行编程访问,单个书目实体的元数据还可以通过使用单个URL的简单Web表单访问。 截止到2018年11月10日,OCC已经从326743引用书目资源中获取了参考文献,其中包含了到 引用资源的 条引文链接。 [1] http://opencitations.net/corpus [2]
27
4.1 Aims of OCC 创建语义基础结构(semantic infrastructure),使RDF中citation、reference和bibliographic实体的描述成为可能。 扩展语义基础结构来处理数据引用和数据实体,以及书目引用和书目实体。 通过创建从现有编码到RDF的映射,以及创建与书目、数据实体及其引用相关的RDF元数据,提供如何将本体应用于实际数据的范例。 用RDF编码PubMed Central开放访问子集中所有文章中的引用列表,并将它们作为开放链接数据发布到OCC中,以便第三方可以自由地重用它们。
28
4.2 From where do,will and should references come
目前:修订OCC数据模型,改进其托管基础设施,扩大覆盖范围,从PubMed Central 和arXiv预印本服务器获取引文数据,从而在数学和“硬”科学中增加引文,以扩大学科领域范围。 已经:与几家主要期刊出版商达成协议,以便将来定期收集它们的期刊参考数据。除了“纯粹的”开放获取出版商,订阅获取期刊的出版商还包括自然出版集团、牛津大学出版社、美国科学促进会、英国皇家学会出版社、波特兰出版社、麻省理工学院出版社和Taylor & Francis,所有这些出版商都将从它们的部分或全部期刊中提供引文数据。 长期目标:为世界上大多数学术文献提供引文信息,包括艺术、人文和科学。
29
4.3 Service OCC将提供多源的引文数据的访问服务,包括来自传统学术出版内部和外部的引用数据,并提供清晰的出处数据。
它将公开实体关系:包括文章到文章、文章到数据库、数据库到文章的引用,并且,在数据可用的情况下,将显示文章之间共享的作者身份和机构成员关系、公共资金以及语义关系。 一旦引文数据公开可用,就可以构建有用的分析服务,包括分面(faceted)的搜索和浏览工具、推荐和趋势识别服务以及时间轴可视化。 一个对错误引用修正服务:发表论文约1%的引用包含错误的不同程度,从微不足道的——例如将“beta淀粉酶”替换为“β淀粉酶”——的错误,到更加严重的如参考标题,作者的名字,年份,卷,页码或DOI的错误。OCC已经在内部使用引文校正方法,使用多次被引用的参考对象,或从外部获得的权威书目记录。
30
4.4 The benefits of the OCC 学者:特别是那些不是处于图书馆有能力购买商业引用数据的研究型大学的学者:这些学者现在可以更自由地从事他们的研究,不受任何阻碍地通过引文网络跟踪参考文献,更容易地找到、讨论和引用他们自己的出版物。 出版商:更多的读者将被引导到他们的在线期刊文章。现在很少有人在期刊出版时浏览每一期的目录。相反,研究者通常会通过引用链接找到一篇文章,因此,这些链接越容易访问,文章的流量就越大。此外,更容易被发现的期刊将通过吸引更多的文章投稿而受益。 希望跟踪其成员/受资助者的学术生产力和影响力的机构和资助机构:一旦这些个人的书目和引文数据以机器可读的形式公开,也将受益于能够更容易地这样做。 研究管理员:因为用RDF语义描述的OCC数据将可与其他类似描述的数据资源集成,包括使用欧洲共同研究信息框架CERIF编码的研究信息。 开发人员:可以利用免费的引用数据来构建新的应用程序和进行可视化。
31
5. Towards Semantic Publishing
32
5.1 Machine-readable metadata
当前,学术界被其领域内越来越多的论文所淹没,从事书目和引文数据自动化处理(如过滤相关性)的系统变得越来越重要。这就需要引入与出版物和引用相关的机器可处理的元数据,且需要适当的本体来将这些元数据被编码为RDF(可互操作链接数据的通用语言)。 为了实现语义出版,需要开展以下两方面的工作: 开发和采用符合学术创作和出版要求的语义模型(词汇表、本体),特别是允许以机器可读的形式(如RDF)出版书目和引文数据; 注释工具的开发,允许作者使用这些模型来使用适当的语义断言(semantic assertions)来增强文档。
33
5.2 The SPAR(Semantic Publishing and Referencing Ontologies)
对引文环境、文档内容和独立引用的类型或本质的机器可读的书目和引用数据的编码,可通过OWL本体(Motik,Patel-Schneider and Parsia,2012),the SPAR (Semantic Publishing and Referencing) 本体来实现: CiTO,the Citation Typing Ontology (Peroni and Shotton,2012) BiRO,the Bibliographic Reference Ontology C4O,the Citation Counting and Context Characterisation Ontology FaBiO,the FRBR-aligned Bibliographic Ontology DoCO,the Document Component Ontology PRO,the Publishing Roles Ontology (Peroni et al.,2012) PSO,the Publishing Status Ontology (Peroni et al.,2012) PWO,the Publishing Workflow Ontology 语义发布和引用本体,即SPAR本体,形成了一套正交互补的OWL 2 DL本体模块,用于为语义发布和引用的每个方面创建全面的机器可读的RDF元数据:文档描述、书目资源标识符、引文类型和相关上下文、书目引用、文档部分和状态、代理角色和贡献、书目计量数据和工作流过程。 CiTO:之前介绍过的,一种可以断言书目参考文献的存在、及其事实和修辞性质的本体。所描述的引用可以是直接和明确的(如期刊文章的参考列表),间接的(如同一研究小组对同一主题的最近一篇论文的引用),或者隐含的(如艺术引用或模仿,或剽窃)。 BITO:是根据FRBR模型构造的一种本体,用于描述单个文献参考的逻辑系统,例如在公布的文章的参考列表中出现的,以及它与所引用的文章的完整书目记录的关系,除了包含从其中缺失的元数据组件(例如标题,doi)以外,还提供了什么参考文献参考,也可以包括出版商的名称,以及出版物的issn或isbn。BITO还允许一个人将各个文献参考文献的集合描述为有序参考列表,以及将文献记录收集到书目记录集合中,例如图书馆目录。 C4O:提供所需的本体结构,以允许记录引用论文中存在的引用论文的引用次数(即引用文章引用列表中指向单个引用的文本引用指针的数量),以及引用论文在全球范围内接收到的引用次数(通过咨询外部引用信息资源如微软学术搜索(microsoft academic search)、谷歌学术搜索(google scholar)、scopus或WoS。此外,C4O可以用来定义引证的上下文,也就是在引用的文件中嵌入了一个文本引用指针的文本。 FaBiO:是用于记录和发布在已发布或潜在发布的实体的语义web描述上的本体,特别是那些包含或参考文献参考的实体。FaBiO实体主要是文本出版物,例如书、杂志、报纸和杂志,以及其内容物,例如诗歌、会议论文和社论。也包括博客、网页、数据集、计算机算法、实验协议、正式规范和词汇表、法律记录、政府文件、技术和商业报告及类似出版物,以及选集、目录和类似收藏。FaBiO使用来自frbr的rdf和owl版本、prism、都柏林核心元数据元素、都柏林核心项和skos的术语。 DoCo:提供用于描述文档组成部分的结构化词汇,结构(例如,块、章、标题、行内、段落、节段、文本块)和修辞(如摘要、介绍、结果、讨论、结论、结论、确认、参考书目、图、附录),使这些组件以及由它们组成的文档在rdf中描述。 PRO:是指在出版过程中(如作者、编辑、图书馆员、审评小组、发布者)的代理人(即,作者、编辑、馆员、审查小组、审评者)的角色的本体,并规定了持有这些角色的时间,以及与这些角色相关的背景。 PSO:是用于描述一个文件或其他出版实体在出版过程的每个不同阶段的出版状态的本体(例如,草稿、提交、审查、拒绝、接受出版、证明、出版、记录版本、同行评审、自由开放存取、编目、存档)。它还可以用于指定持有这些状态的时间、触发从一个状态到下一个状态的转换的事件以及参与这些事件的人员。 PWO:是描述与文档发布相关的工作流的主要阶段(例如正在编写、正在审查、xml捕获、页面设计、发布到web)的本体,以及指定每个步骤所需的输入和输出,以及与每个步骤关联的时间和事件。它是专门为描述已经发生的工作流而设计的,而不是为将来的工作流提供决策树。
34
6. New Tools and Interfaces to Handle Citations Better
35
6.1 Utopia documents,ALC and the Pensoft Writing Tool (学术文献的语义注释工具)
(学术文献的语义注释工具) Utopia Documents (Attwood et al.,2010):“乌托邦文档”是一个将科学文章的静态内容连接到动态在线内容的免费PDF阅读器,包括一种将pdf文档解构为其组成部分,然后使用DOCO对其进行注释的机制。 the ACL Anthology Network (Radev et al.,2013):一个计算语言学研究论文的数字档案,由计算语言学社区资助。它包括权威的《计算语言学》杂志(Computational Linguistics journal)的论文,以及许多相关会议及研讨会的文献ACL Anthology目前存档超过14,100篇关于计算语言学的研究论文,并提供全文检索。这些被收集的数据可以浏览,并用于探索引文网络,作者的引用和协作网络。 Pensoft Writing Tool:Pensoft是一家生物领域的小型出版商,其开放访问的在线期刊具有大量的语义增强功能。Pensoft Writing Tool是一个新的协作创作环境,集成了期刊的评审和发布环节,在编写过程中自动实现文本和数据的语义标记,而不需要作者额外的工作。还可以将参考资料添加到合适格式的参考列表中,一旦被引用的文件被他们的DOI或PubMed ID识别。此外,可以使用“cite a reference”命令将关联的文本内引用指针以所需格式自动插入到文本的光标位置。 学术交流,在这个数字革命的中点,处于一个不明确的过渡状态下,在纸媒世界的某个地方,在网络和计算机的世界之间,前者仍然比后者更有影响力。我们现在在网上发布,但在我们的语义出版样本被放到网上的五年之后,大部分的文件仍然以静态pdf文档的形式发布。我们需要工具来推动在线报纸从现在的"无马马车状态"过渡到与法拉利同等的学术交流状态。 它通过链接到web上的实时资源以及将它们所包含的静态数字数据转换为实时交互内容,《Biochemical Journal》编辑经常使用它来将静态文档特性转换为对象,这些对象可以交互地链接、注释、可视化和分析。 在文章中生成书目计量元数据、改进多列文档中的鼠标划词方法、识别文档中正确的文本流;
36
6.2 The CiTO Reference Annotation Tools
对于使用国家医学图书馆发表的DTD进行XML编码的在线文章,例如PubMed Central、PLoS Currents、eLife和ZooKeys中的文章,读者只需安装一个简单的CiTO Chrome插件即可提供此功能。 发布者或用户可以将三行XML代码插入PubMed Central、PLoS Currents、eLife或ZooKeys的一篇原始发表的文章中,并将其与第二种CiTO引用注释工具提供的Javascript库结合查看。 除非提供适当的创作工具,否则设想作者将承担使用cito的引文类型属性在其期刊文章中指定引文类型所需的额外工作是天真的。实现这一目标的一个步骤是开发cito引用注释工具,它允许在参考列表中查看引用时从下拉列表中选择cito属性。
37
选中的cito属性都以绿色高亮显示。为了确保用户完全理解每个属性的含义,当鼠标停留在表中的属性标签上时,它的文本定义将显示在弹出框中。
38
6.3 Recommending citation types using CiTalO
对引文功能的注释工作存在困难: “引文功能很难注释,因为它原则上需要解释作者的意图(作者选择某一引文的意图可能是什么?)”。 根据CiTO等特定本体注释引文必须“将特定含义与其中定义的每个不同功能关联起来”,对书面文本中作者意图的个人解释,即对引文模型某一功能的引用。 因此,通过计算自然语言处理来确定引文语境的修辞意义,从而向用户推荐最合适的引文描述,来进行引文类型的自动分类。 即使使用这样的工具,输入引文也是目前需要由作者或其他相关方(例如编辑、发布者或读者)手动进行的附加任务。
39
CiTalO CiTalO是一种算法工具,通过本体学习和映射、自然语言处理、情感分析、词义消歧等技术,试图推断作者引用某篇论文的原因。该工具将包含引用的句子作为输入,并返回一组CiTO属性,这些属性是系统设定的描述引用的最佳选项。 此外,CiTalO还包括以下功能:用于以PDF格式存储的科学论文的引用,进行自动提取和语义特征描述。
40
在引用的世界里有一个平行的世界。当引文链接存在但未被描述时,在学术出版城市里的旅行者就相当于没有具体指导的情况下行进,并将在形成引证网络的迷宫中迷失方向。CiTO就是用来增加提供信息的“街道标志”指引方向的。
41
8. Conclusions
42
本文提出了开放引文语料库(OCC),这是一种对学术文献数据的开放访问方式,基于SPAR本体(包括CiTO、引用类型的存在论)开发得到;以及一些原型工具,这些工具可以协助进行CiTO属性的注释,以描述引用的功能和目的。 本项目的未来工作包括: 寻求学者、出版商和机构的帮助,以增加OCC的语料规模; 进一步开发搜索、浏览和可视化学术引文网络的用户界面; 通过自动推荐系统提高CiTalO的性能,实现通过推荐最合适的CiTO属性来描述引用的性质和目的。
43
Thank you.
Similar presentations