2020年06月02日 周二

军事文献搜索引擎架构的研究与实现

2020年05月13日

军事文献搜索引擎架构的研究与实现

来自 万方

阅读量:

18

作者:

周翊超

摘要:

军队信息服务体系与创新研究作为军队信息化建设战略研究的基础构件之一,在挖掘信息资源,实现无障碍传递,推进技术革新,协助军事科研,培养现代化军队,造就高素质复合型人才等方面,具有重要的理论价值和现实意义。当今时代,信息资源的开发利用作为信息化建设的中心任务,具有极其重要的意义。在军队的信息化建设过程中,电子军务,内网稳定共享的要求逐步提高,为了满足军方信息内部共享的要求,我们构建军用Internet。从目前发展的军网的架构来看,不同密级的局域网通过骨干网络沟联起来,信息通过外部网站的信息来发布。 军事领域内网检索过程中,产生了大量的文献资料,为了有效地获取并利用这些已有信息,以往开发的部分军务系统将文献资料存储到Oracle数据库中,并利用其提供的全文检索技术Oracle Text来创建索引和进行检索。利用Oracle数据库检索技术虽然在一定程度上实现了文献资料的检索,但这种方法也有其自身的不足:索引与数据库是紧耦合的,这种紧耦合的关系在一定程度上影响了数据库的工作效率,特别是在索引创建和维护的过程中,要占用大量的系统资源,导致数据库的运行效率降低,可能会影响到其他使用数据库的应用的运行。其次Oracle数据库的索引不能为其他数据库系统所使用,因而当文献资料存储在多种数据库中时,不能进行跨库查询。最后,Oracle Text中的中文分词效率不高,而且不支持中英文混合情况下的分词,这都影响了检索的查全率和查准率。 我们在已有的技术基础上,构建了军事文献搜索引擎架构,虽然依然使用Oracle数据库来存储军网的文献资料,但是不再使用Oracle内部的索引机制,而是设计开发了索引服务模块和查询服务模块来索引和检索。本论文解决以下几个问题: (1)提出了军事文献搜索引擎中检索系统的体系结构框架。该框架中,数据库与索引文件实现了松耦合,解决了以往系统中索引重建导致数据库效率变低的缺陷。 (2)为了保证文献资料与索引的同步,采用了多线程编程的方式设计了数据采集服务并且引入了线程池技术以此来提高数据采集的运行效率。同时提出了在数据采集服务模块当中引入了网络爬虫的机制,利用类似于垂直搜索的概念扩充了军务信息的采集方式。 (3)在C++平台上设计实现了算法即插即用的文本转换框架,利用C++的虚函数机制来获取文本转换基类的多态行为。该框架具备高度的可扩展性,在不影响框架本身和应用的前提下就可以将算法集成到框架中。 (4)在研究已有索引技术的基础上,设计实现了满足系统需求的索引服务和查询服务。索引服务不仅对文献资料正文数据创建了索引,同时对于文献资料的属性信息和文献库的相关信息也存到了索引中,这为查询服务的几种查询方式提供了便利。

展开

DOI:

CNKI:CDMD:2.2008.158494


国防图片更多>>
洲际简介|大事记|网站动态|产品介绍|广告服务|客户服务|联系方式|共建单位|合作媒体
Copyrights © 2014 - 2020 洲际(江苏)国防科技产业发展有限公司 All Rights Reserved.
未经本网书面授权,请勿转载、摘编或建立镜像,否则视为侵权。