计算机检索方法学与中医药文献数据库研究综述

来源: 药材童子
发布时间:2023-12-28 00:37:47

关键词:信息研究,中医药文献数据库计算机检索

文献资源共享是时代的迫切要求。

随着科学技术的飞速进步,人类社会正在从工业社会向后工业社会迈进,社会信息化程度不断提高,人们越来越重视信息的作用。信息需求的客观性极大地刺激了信息技术的发展。

全球信息网络已经迅速建立。信息资源可以在“信息高速公路”上自由传递,全球信息资源共享的梦想终于有望实现。

实现文献资源共享是信息社会的客观要求,也是现代科技发展的历史必然。在市场经济环境下,对文献资源的需求更加迫切。实现文献资源共享是我国图书情报事业发展的必然趋势,也是各国图书情报事业发展的重要特征。

美国人在1850年提出了编制联合目录的设想,1942年美国制定了“法明顿计划”来协调和补充文献。1975年,国际图书馆协会和机构联合会(IFLA)正式将文献资源共享(UAP)列为中期计划。目前,

全世界有数百个搜索网络和数千个机器可读的数据库。只有美国国家医学图书馆的医学文献在线检索系统MEDLINE拥有由11个地区图书馆中心和遍布全国的800个在线检索点组成的网络。

网络还延伸到全球11个地区和国家,终端超过3000个。整个系统存储79个文献数据库,包括病毒学、医学图书馆目录、医学期刊目录等350万篇论文和数据。[1]

互联网是全球规模最大、用户数量最多、影响最广的互联网络系统。据估计,互联网上的数据库不少于10,000个,不仅包括大量的科技数据库,

还有大量的时事评论、社会科学、文学艺术等方面的数据库,北美最大、最具代表性的图书馆资源共享网络是美国的OCLC和加拿大的ISM。到1997年3月,OCLC的成员图书馆已增加到24,117个。

覆盖60多个国家和地区,是全球最大的专业网络。OCLC的参考咨询服务系统与55个具有国际影响力的大型数据库连接,遵循Z39.50协议,一种检索方式可以访问55个数据库。一些数据库还提供全文,

并标有传真服务的价格。[2]

国际计算机检索方法论的现状和新进展

数据库是以统一方式管理的相关数据的集合。可以被各类用户共享,冗余最小,数据之间关系紧密,数据独立性高。

数据库系统是指由计算机软件、硬件和数据资源组成的,能够有组织地、动态地存储大量相关数据并方便多用户访问的系统,即使用数据库技术的计算机系统。

根据国际标准化组织。DIS5127标准(文献和信息工作术语),数据库被定义为:“由至少一个文档组成的、能满足特定目的或特定数据处理系统需要的数据集。”[3]根据国际通用分类方法,

数据库通常分为以下几种类型:

1.参考数据库:一种引导用户到另一个信息源获取原文或其他细节的数据库。它还包括书目数据库和指南数据库。

2.源数据库:指能够直接提供原始数据或特定数据的数据库。可以分为:数值型数据库、文本-数值型数据库、全文数据库、术语数据库、图像数据库和混合数据库。

计算机检索系统可以根据存储数据库的不同内容、文件结构、存储容量和检索方式,提供多种内容和形式的检索服务。就全文数据库检索而言,

目前产品的检索方式一般采用布尔逻辑运算和自由词来检索文献中一个或多个词的来源,也可以进行词频检索。当前的检索技术很难根据相关度对检索到的文档进行排序,

最相关的文献应该排在第一位。布尔检索是排序相关度的弱断言形式,这种局限性的存在降低了检索的性能。[4]

全文文档信息检索技术的研究从基于概念的算法发展到基于内容的算法。这种演变反映了内容知识的检索逐渐取代了概念知识的检索。

每个文档都由许多概念组成,这些概念之间的关系本质上是文档内容的真实反映,概念之间的关系可以称为“概念结构”。在索引和检索文献时,我们必须如实反映它们的概念结构。

现代检索技术中称为“消息理解”的检索方法,就是追求概念结构的典型形式。目前,基于帧的方法被广泛使用。

在这种方法中,概念结构是框架式的。[5]

布尔逻辑理论指导下的检索题都遵循德摩根规则——链接“或”与,“与”的互补就是互补部分的“或”。这个理论认为一个物体是否属于一个集合。

也就是只用0和1来表示这种从属关系。而模糊子集理论认为存在广义隶属函数,即可以用0到1之间的任意值来表示。

元素集{x x}的模糊子集可以由一个隶属函数定义为:0fs(x)1。

也就是说,当fs(x)=1时,X元素一定在系统中;当fs(x)=0时,x肯定不在系统中。

通过将提问形式中的每个概念转化为概念空间中相应的因子向量,用W和T计算相似度,根据模糊逻辑法则计算总分,就可以完美地解读一个结构化的提问形式。[6]

在基于乘积的表达式的基础上,利用德摩根法则中的AND函数计算OR函数。事实上,严格的参数限制了那些看起来不太严重的术语。通过对外汇进行适当的修改,

例如,范围在0.3和1之间,可以防止这种情况。

可以看出,构建一个复杂的线性结构,然后用表示基于问题的剩余结构的选择扩展项对其进行修改,通过用向量表示文献,用概念结构表示基于问题的结构,可以完全支持一个检索项目

需要明确的是,用线性代数和非线性广义方法表示的匹配方案,可以从自然语言概念、概率或统计检索或基于框架的推理等不同理论中得到。事实上,大多数方法直接应用自然语言,而不是概念。

无论搜索词是以单词、n元语法还是短语的形式出现,在处理基于问题的可搜索文档时所使用的方法都与上述概念描述中所使用的方法相同。c(概念)在这里不是用来索引权重和相互关系的。

而T(实际出现在文档或问题中的术语)是用来索引的,因为它们是实际出现在文本中的术语,所以我们称之为文本的“内容”,这与人们所感知的概念有很大的不同。

预处理是从内容中提取概念的步骤。老式的预处理文档的方法是将所有单词替换为大写字体,并将大量单词替换为这些单词的词干。这种做法有助于突出文字所代表的概念,

不需要考虑这些概念的各种形式,比如名词的单复数和动词的时态变化。当短语和单词的组合被添加到倒排文档时,以这种方式索引将消耗大量空间。

上面的线性公式是著名的向量方法,在SMARTS及其以后的演化体系中得到了证明。文献用向量表示,这些向量的基本元素与文献中出现的术语频率有关,提问公式也是在此基础上表达的。实际上,

在SMARTS出现之前,卢恩在1959年提出了一些非常重要的原则。

主要观点如下:(1)文档与术语的相关度应随着术语在文档中出现频率的增加而增加(术语频率或TF原理);(2)术语在区分文档中的重要性随着包含它的文档数量的增加而降低(违背文档频率原则或IDF)。

7

如果布尔逻辑系统只对集合进行搜索,而不对检索到的文档按照相关重要性进行排序,那么在对术语集合进行某些运算时,就不再局限于布尔运算了。首先,系统规定用户应该以某种方式,

如标题和关键词等。标记语言的快速发展极大地促进了用于检索目的的文本处理的自动化。[8]其次,

该系统识别近似运算符,这些运算符重新组合从自由文本中提取的概念。但在实际检索中,并没有系统使用上述近似方法计算术语之间的关系作为索引文本的依据,而是根据检索用户的要求定义术语之间的关系。

术语之间还有更复杂的关系,即语料库无关的情况。这是建立术语之间关系的另一种方法,需要学习书面文档的基本词汇。

包括从构造词表到对自然语言进行处理的一系列过程。目前对这一方法的研究是以WordNet的语义网络结构为基础的,但还未取得预期的结果。

不过已进行的研究表明:在一个显示术语与术语之间相互关系的通用网络中无法找到所要求的特殊关系。因此,研究的方向就是发展与各领域的基本概念相对应的术语与术语之间的关系的特定领域网络,

这与人工智能中得到的一个结论相类似――要解决一个特定问题,就要发展特定领域知识。9把这一结论应用于中医药学古籍文献的检索中,非常具有指导意义,它提示我们必须深入到中医古籍特有的语词规律中去,

发展特定的标引体系。如果照搬其他医学文献的标引方法,将是行不通的。

自动做文摘和抽取主题句也是一种可以考虑的标引方法。系统通过自动做出文摘和抽取文中的关键句子和重要公式,可以向用户描述数据空间,从而有助于测度和明确信息需求。

分散集中方法通过为用户提供题名和短语、跟踪用户的抉择,可以帮助用户构造尽可能简洁明了的提问式。

由此引起的问题领域包括:(1)在减少某一空间时所需进行的维度选择;(2)为科霍南算法选择意识参数(conscience parameters);(3)选择可改变“文献频率参数”的区间;(4)对词干规则和非用词表的特定选择;(5)建立代表概念的术语集。

当代信息检索方法无论是在理论层次上,还是在实践中都显示出一种成熟的技术特质,通过对实践经验的不断积累,可以有效地推进理论的发展。

中医药文献检索方法的进展

国内在中医药文献方面的理论研究新成果相对较少,尤其缺乏创新性成果。由于建设大型数据库方面要耗费大量的财力、人力,在一定程度上限制了这方面的大型项目的开展,所以可供参考信息的不多。

建设全国中医药信息网络的设想数年前就有人提出,中国中医研究院在1987年就初步建成我国第一个综合性的《中医药文献分析检索系统》 (TCMLARS),

收录19841987年全国公开发行的300余种生物医学期刊中有关中医、中药、针灸、按摩、气功、养生保健、民族医药等内容的文献十多万条。这个数据库在当时能与国内外主要生物医学数据库兼容,

但在时差和收录范围方面则显得落后,而这两项恰好是检索工具先进性的主要标志。10“上海市中医药信息协作中心”提出的局域网拓扑结构为总线型与星型相结合,采用Windows NT4.0网络操作系统。

该系统大致有以下几方面的应用:(1)行政办公;(2)中医函授;(3)情报文献,网上刊物,报刊摘要,学术动态;(4)学术交流,开设杏林论苑;(5)医药服务,远程会诊,网上就医,健康咨询,药品介绍等。

11目前,国内已经出现商业性的期刊检索数据库,其中也包含了医药类期刊,如http:www.cnki.net(CNKI数据库)。

在中医文献的数字化方面的工作,上海中医药大学计算机中心开展得比较早,在数据库的中医特色化上有许多创新思路,值得借鉴。他们最早提出整合性关系化医学电子书(IRMEB)的概念,探索医学的数学和信息学内涵,

致力于医学的定量化、数学化、信息化的新研究QMSOC(医学的计算机定量模拟和运算)或信息医学(Information Medicine)的一部分。IRMEB尽可能地把医学的最实质的知识元素化,

把知识的表达方式归结为一种结构严格一致的关系形式。将各种专门的知识以诸如“生成”、“组成(所属)”、“激扬”、“阻抑”、“量序”、“时序”、“度序”等构成知识的基本谓词,编辑成知识“积木块”,

然后对任何大小范围的医学信息和知识进行重新组装,并利用医学知识的内在的数学属性加以整合互通、互导、互析、互晰等。12

包含飞把所有医学知识归结为系统论意义下的几种泛化关系:泛激、泛抑、泛生、泛函、泛等、泛转、泛并、泛序、泛移、泛境。并把医学事件、概念、泛权元素化编码化,

进而把医学知识根据上述关系三集合化:主体集合、客体集合、条件集合,在此基础上对医学知识实施互联、整理、整合。13这对如何进行中医药文献的数据库建设是具有一定的启发意义的。

中国中医研究院及北京中医药大学研制出了“小儿咳喘病证古代中医文献数据库”,收集资料年代范围截止到1911年以前。该课题的数据收集、整理工作全部在中文Office97中进行,

用Visual Basic6.0中文版进行编程。系统采用了动态数据库对象技术,运用面向对象的编程技术和activeX技术进行程序设计,简洁高效,可视性好。界面采用多媒体技术进行动画和声音处理,

特色鲜明。采用树状结构显示文献目录和检索结果目录,运用补字技术处理僻字。14

南京中医药大学在中医方剂数据库方面做了大量富有成效的工作,已顺利完成了江苏省科委自然科学基金资助项目“中医方剂编码及文献数据库系统”。该项研究历时3年,共收录方剂101903首,

比《中医方剂大辞典》 多收载方剂5311首,是目前最大的方剂数据库检索系统,各方剂的相关研究资料截止1999年底,反映了这一领域的最新成就。该系统具有多途径检索功能,

可以进行方名检索、处方药物检索、功效检索、药味数检索、模糊检索等,还可以进行多个项目的联合检索,即可以将多项检索条目逻辑相加进行布尔检索,对方名、书名、药物、功用、主治等的任一两项以上条件的综合检索,

有效地提高了检索绩效。该系统维护简便,可以随时增添新内容,并且自动生成相应索引项。此项研究中还创制了一套行之有效的方剂编码系统,对于纠正古代方剂文献中广泛存在的命名混乱现象,颇具研究价值。

方法是以功效与主治病证为依据,对各方编制代码,采用62位进制的混合码,由10个阿拉伯数字和26个英文字母的大小写二种形式组合而成。每码长度为12位,前8位描述功效和主治病证,每2位表示一个分类条目,

后4位码用作功效和主治病证相同方剂的顺序码。这项编码体系是现代检索技术在中医药古代文献研究领域的具体运用,对于中医药文献数据库研究的理论和实践有着重要的参考价值。

综上所述,国内在中医药文献数据库方面起步较晚,缺乏必要的人力、物力投入,故发展滞后,明显落后于其他先进学科的水平。所以,在此领域的发展空间还是相当巨大的。

参考文献

1陈界,等.新编文献学.北京:军事医学科学出版社,1999-1:302.

2陈界,等.新编文献学.北京:军事医学科学出版社,1999-1:312.

3黎汉津,等.中医药文献检索.广州:广东高等教育出版社,1999-8:117.

4孟广均,等.国外图书馆学情报学研究进展.北京:北京图书馆出版社,1999-9:190.

5孟广均,等.国外图书馆学情报学研究进展.北京:北京图书馆出版社,1999-9:193.

6孟广均,等.国外图书馆学情报学研究进展.北京:北京图书馆出版社,1999-9:195.

7Luhn,H.P.Auto-encoding of documents for information retrieval systems.In:Boaz,M.

ed.Modern Trends in Documentation.London,England:Pergamon Press,1959:45.

8Goldfarb,Charles F.The SGmlHandbook.New York,NY:Oxford University Press,1990:664.

9Miller,George A.et al.Five Papers on WordNet.Princeton,NJ:PrincetonUniversityComputer Science Laboratory,1990JuIy.

10唐国顺.完善和发展全国中医药信息网络的设想.中医文献杂志,1996,(3):22.

11胡开敏,等.中医药信息与INTERNET.中医文献杂志,1997,(3):21.

12包含飞,等.整合性关系化医学电子书的单纯性传递性知识链自动推导―QMSOC与计算机辅助医学教学().医学教育,1994,(8):17.

13包含飞.在ER基础上建成国际一流的中医学智能化Internet网站.中国中医基础医学杂志,2000,6(3):56.

14万芳,等.小儿咳喘病证古代文献数据库的建立,北京中医药大学学报,2000,23(6):15.

南京中医药大学(江苏,210029)陈晓东李婷

本栏阅读

阅读最多

最新推荐