基于Hadoop的实时文献资料搜索引擎研究Study on Real-Time Search Engine of Literary Documents Based on Hadoop
许桂芳,林科
摘要(Abstract):
数据的存储和检索是大数据时代有效构建系统应用的关键技术问题。针对高校教育信息系统数据量大、存储异构、查找困难等问题,提出一种基于分类索引以及热度积累的云存储及实时搜索引擎设计方案。该方法首先建立持久性硬盘分类索引。然后,通过一种索引热点数据缓存技术和一种高效的热度累积缓存替换策略,利用内存提升查询性能,降低对硬盘索引表的磁盘访问开销。
关键词(KeyWords): 实时搜索引擎;云存储;文献资料;内存索引;热度积累
基金项目(Foundation): 全国教育科学“十二五”规划课题(DCA130225);; 广东省高等院校学科与专业建设专项(2013KJCX0134);; 国家863计划项目(2012AA011005)
作者(Author): 许桂芳,林科
DOI: 10.16565/j.cnki.1006-7744.2016.17.04
参考文献(References):
- [1]程蓓,孙胜春,李忠猛,等.基于Hadoop技术的数字化校园海量数据存储系统研究与设计[J].实验技术与管理,2015(9).
- [2]Radha,K.,Rao,B.Thirumala.Slot utilization and performance improvement in hadoop cluster[J].Advances in Intelligent Systems and Computing,2016(434).
- [3]Naik,Nenavath Srinivas,Negi,Atul,Sastry,V.N.Performance improvement of Map Reduce framework by identifying slow Task Trackers in heterogeneous Hadoop cluster[J].Smart Innovation,Systems and Technologies,2016(44).
- [4]张兴.基于Hadoop的云存储平台的研究与实现[D].成都:电子科技大学,2013.
- [5]赵铁柱,袁华强.高性能的云存储安全网关设计与实现[J].计算机应用与软件,2014,31(11).
- [6]Kilias Torsten,Loser Alexander,Andritsos Periklis.INDREX:In-database relation extraction[J].Information Systems,2015(53).
- [7]白培发,王成良,徐玲.一种融合词语位置特征的Lucene相似度..评分算法[J].计算机工程与应用,2014(2).
- [8]任树怀.LUCENE搜索算法剖析及优化研究[J].图书馆杂志,2014(12).
- [9]李贵林,杨禹琪,高星,等.企业搜索引擎个性化表示与结果排序算法研究[J].计箅机研究与发展,2014,51(1).
- [10]王惠.基于用户满意度的搜索引擎实证研究[J].情报科学,2015,33(9).
- [11]Haque Md E.,Elnikety Sameh,Eom Yong Hun,Bianchin Ricardo,He Yuxiong,Mc Kinley Kathryn S.Few-to-Many:Incremental parallelism for reducing tail latency in interactive services[J].ACM SIGPLAN Notices,2015,20(4).
- [12]Li Xiaotao,Hu Xiaohui,Lu Weina,Liu Xi.A heterogeneous data sharing approach based on ontology and metadata[J].Journal of Computational Information Systems,2015,11(8).
- [13]白培发,王成良,徐玲.一种融合词语位置特征的Lucene相似度评分算法[J].计算机工程与应用,2014(2).
- [14]周敬才,胡华平,岳虹.基于Lucene全文检索系统的设计与实现[J].计算机工程与科学,2015,37(2).