北京玛格泰克科技发展有限公司
 
 

结构化数据加工

结构化数据主要指期刊全文的结构化数据加工。传统的以印刷为最主要目的的排版系统,形成以PS文件和PDF文件未最终结果,而PS和PDF文件是典型的非结构化文件,即它只描述了页面显示效果,而没有指明文字的内容的语义含义。这给数据重复使用,实现多渠道的立体出版是一个严重障碍。

在XML文件中,不再记录版式和内容的呈现方式(如字体、字号、居中等效果),而只记录它是什么,例如:
<articletitle>白血病细胞中不同启动子驱动外源基因表达能力差异分析</articletitle> 来标记“白血病细胞中不同启动子驱动外源基因表达能力差异分析”是文章题目等。 

XML文件从本质上是一个文本文件,因此,它可以在任何平台上进行编辑和修改,也因此使XML具有持久的生命力。其次,XML是一种结构化的文件,也就是说,在文件内定义是内容的属性,这不仅使阅读的人能理解,更重要的是让计算机也能理解这是什么。因此,一个XML文件相当于一个小的数据库,文章中的内容已经进行分门别类进行存储,这就使跨平台的数据读取和数据交换,以及数据的重新组织和再利用创造了条件。

在学术出版领域,各大数字出版厂商和数字图书馆也开始规划构建用于文献存档的XML规范。2002年4月,NCBI、Mulberry技术公司、Inera公司、哈佛大学的电子期刊存档项目(Harvard University E-Journal Archiving Project)和梅隆基金会(the Mellon Foundation)在PubMed Central 设计的生物文献描述规范的PMC DTD基础上,建立了一套更具有普遍性和通用性的学术文献XML描述规范,简称NLM DTD,并与2003年3月31日发布了1.0版本,目前最新版本是2008年11月21日发布的3.0版本。NLM DTD包含3个规范:文献存档标签集(Archiving Tag Set)、Journal Publishing Tag Set(期刊出版标签集)和 NCBI Book Tag Set(图书标签集)。目前,最广为接受的是Journal Publishing Tag Set。

另外,其他的数字出版厂商也发布了各自的文献XML描述规范,例如AIP(美国物理学会)、BMC、PlosOne等,经过比较,大家普遍认为NLM DTD在标签定义的规范性、整个体系的完整性以及普适性等方面具有非常大的优势,因此,虽然最初是为生物医学文献而设计的NLM DTD,也逐渐地被其他领域的学术文献出版机构和存档机构所接受,例如BMJ、PNAS等。

文章结构化加工主要就是把期刊的最终排版结果(PS文件、PDF文件、Word文件、Latex文件)形成符合NLM DTD 标准(和中文扩展标准)的XML文件。

Magtech 经过1年多的开发,已经可以实现从最终的Word文件和 Latex 文件中,形成完全符合 NLM DTD 标准(和中文扩展标准)的XML文件。

自动化程度达到98%以上。

发布时间:2011-10-09    点击: 5223