北京玛格泰克科技发展有限公司
 
 

元数据提取服务, 用于网刊发布系统

文章元数据的定义和内容:文章元数据是指用于描述文章重要信息的、结构化的内容。文章元数据一般包含3个层次:文章基本元数据、文章扩展元数据和文章的学科语义指纹。文章基本元数据主要包括:期刊ISSN号、期刊名称、文章的栏目、专题、题目、摘要、关键词、作者、作者单位、收稿日期、修回日期、接受日期、基金资助、致谢、参考文献、年卷期、页码范围、doi、中图分类号等数据;文章扩展元数据主要包括:文章的Outline(文章轮廓:即目录结构)、首页预览、图和图说、表和表题、标注、公式,以及附件(Supporting Info)、审稿评价表、相关多媒体视频文件;文章的学科语义指纹:指利用分词技术提取全文知识点,并利用语义分析建立知识点之间的语义相关性。随着Journal 3.0的发展,文章扩展元数据和文章的学科语义指纹越来越成为文章元数据的重要内容。

元数据的价值:  从本质上说,元数据的核心价值在于让计算机能理解内容的含义;从读者行为分析的角度看,大约70%的读者没有阅读全文,而只阅读摘要,因此丰富摘要信息,使摘要信息能尽可能涵盖全文的核心内容和最有价值的内容,甚至以直观、方便的方式呈现这些摘要内容,对提高期刊文章的传播力和影响力,至关重要。但实际情况是,目前文章的摘要无法满足这种需求,因此,从一定程度上看,文章元数据是对摘要内容的重要补充,是整篇文章的精华荟萃。从技术角度看,这些内容不仅要便于读者理解,还必须让计算机能理解,这就是实现元数据结构化的含义所在。

元数据制作:一般来说,各个编辑部在发布网刊、制作年度目录和年度索引(作者索引、关键词索引、学科分类索引等)、为第三方提供数据(例如向Pubmed提供Linkout数据、向DOAJ发布OA数据),都是采用手工粘贴拷贝的方式。这种方式不仅工作量很大(一篇文章一般需要粘贴拷贝大约25-60次,如果一期30篇文章,则需要粘贴拷贝750-1800次),而且数据质量很低,例如在粘贴拷贝时会丢失上下角标信息、导致多余的空格或丢失空格信息、丢失正斜体信息、出现不可见字符等。另外,由于手工制作的工作量,导致了文章发布周期的时滞较长。

元数据自动提取是指利用计算机软件,采用模式识别智能算法,从排版后的最终文件中自动、准确提取本期所有文章的元数据,并形成各种可重复利用的结构化数据文件,如Excel、XML文件,并可以一键发布到网刊系统,在网刊的基础上,形成各种个性化的应用文件,如Linkout XML文件等。

我公司经过努力,已经完成了从方正书版排版结果(FBD文件)、Word文件和Latex排版文件中,自动获取每篇文章的基本元数据和扩展元数据,并可以自动发布到网刊系统,并实现参考文献的自动连接,同时自动生成Pubmed Linkout XML数据。对非Magtech 的网站系统,我们的元数据自动提取系统可以形成Excel文件和XML文件,用于一键式发布。

本系统的特点:快捷(一期文章基本上在半天内完成)、准确

元数据提取的相关技术问题:元数据自动提取系统不仅代替了手工的粘贴和拷贝,而且彻底解决了数据质量问题,包括上下角标、正斜体、特殊符号处理、不可见字符处理、元数据之间的对应关系等。

实例:本系统已经成功地为10几个期刊提供数据制作服务,包括:中华内科杂志中国医学科学院学报Chinese Medical Sciences Journal (中国医学科学杂志)、中国防痨杂志热带海洋杂志中华骨科杂志 等。

更多技术问题和合作意向,请联系: linjl@magtech.com.cn

发布时间:2011-10-09    点击: 5182