最佳实践:《MongoDB在信息资源共享建设的应用实践》

优采云 发布时间: 2022-11-29 01:18

  最佳实践:《MongoDB在信息资源共享建设的应用实践》

  一、背景介绍

  成立于1950年代,具有60多年历史的中心(以下简称“中心”)提供软科学;中心提供的产品是大量专业化、高质量的专业技术报告。如何更好地利用这些海量文件促进工作发展,是中心必须面对的问题。

  为此,信息部门着手构建“信息资源共享系统”(以下简称“系统”)。系统建设的目标和意义是:

  2.系统使用技术

  2.1 系统建设面临的要点

  经研究,中心认为可以借鉴百度、搜狗等网民常用的互联网搜索系统。互联网用户检索各种网页,但本系统的用户检索中心拥有的文件。基于此,我们不得不考虑以下几点:

  1.如何在数据平台中存储大量的文档中心。该平台不仅要将文档保存完好,还要提供高效的查询和导出服务。

  2、一份文件往往有几万个汉字。如何让用户尽快了解本文档的内容,判断内容是否符合用户的要求。

  一方面,用户搜索必须能够找到相关文档,另一方面,搜索速度必须符合现行标准:对用户请求的响应时间不得超过3秒。

  从这几点来看,传统的工程建设方式(比如基于关系型数据库)已经不能如愿以偿了,所以这里介绍一下符合要求的大数据、互联网等技术。

  2.2 系统建设采用的技术

  系统建设采用的技术包括:文档数据库MongoDB,用于大型数据库存储;提高检索质量,方便前后端分离的微服务SpringBoot;以及用于文档文本处理的自然语言处理技术 (NLP)。下面简要介绍这些项目。

  2.2.1 MongoDB数据库

  本系统部使用的数据库版本为3.6,部署服务器操作系统windows server 2008。由于服务器硬件和操作系统软件的性能和质量都比较一般,数据库在系统运行过程中的性能并不是最优的。

  2.2.2 微服务与SpringBoot

  微服务最重要的特征是,由于服务很小且可独立部署,因此无需通过繁琐的操作来更改应用程序的小部分。SpringBoot是Java领域微服务架构的最优落地技术,Spring Boot 2.0+MongoDB 3.6方案是本系统采用的服务端方案。

  2.2.3 自然语言处理

  自然语言处理(Natural Language Processing,NLP)以语言为对象,以计算机作为语言研究的有力工具,在计算机的支持下对语言信息进行定量研究。这里我们使用了两个重要的部分:

  1.自动汇总。一种信息压缩技术,是利用计算机按照一定的规则自动提取文本信息,组装成简短摘要的一种信息压缩技术。它旨在实现两个目标:首先,使语言简短,其次,保留重要信息。

  2. 关键词提取。从文中抽取一些与本文意思最相关的词。关键词是从报告和论文中选出的一个词或术语,用来表示全文的主题内容信息,供文献索引之用。

  摘要和关键词在系统建设中有着重要的应用,是开展工作不可或缺的基础和前提。该系统使用 java 工具包 ansj 来执行此类工作。

  另外,中心制作的文档存储格式基本为:pdf、word、excel、ppt格式。因此,本系统使用相应的tika软件包提取文件中的文本内容,然后自动汇总关键词提取文本内容。

  三、系统设计

  系统的主要功能模块由以下两个模块组成:信息采集和信息检索。

  中心利用“信息采集”模块,对大量上交单据进行批量采集处理,并将处理结果保存在数据存储器中。用户通过“信息检索”功能检索采集结果,并对检索结果进行详细阅读等操作。这里需要注意的是,本文使用的示例文档均来自公共新闻网站。

  3.1 信息采集

  

" />

  3.1.0 工作过程

  单据收录入系统的流程步骤如下:

  1. 文件采集

  2.全文提取

  3. 自动汇总和关键词提取

  4.计算文档之间的相关性

  本模块内容如下:文档采集、全文提取、自动抽象和关键词提取、文档间相关性计算。文章不仅介绍了各个子模块的工作内容,还用图例展示了工作效果。

  3.1.1 文献采集

  文件采集在后台服务器上实现。对准备好的大量文档进行批处理,逐一读取,生成元数据(年份、作者、部门等)。将文档本身和生成的元数据保存到数据库中。

  图 1. 准备在服务器上采集

的文件。你可以看《暖玉长荣航空桂冠客舱.docx》作为范例文档。文件大小为9MB

  图 2. 文档在采集

后存储在 MongoDB 数据库 (GridFS) 中。从图中可以看到数据库中存储了文件“暖玉长荣航空桂冠客舱.docx”,数据库管理员可以下载该文件到本地

  图 3. 显示了本文档生成的元数据(部门:管理学院,年份:2019,类别:报告……)。需要注意的是,这些文档作为一个整体以pdf/doc/ppt格式的文件存储在数据库中,用户无法查看其内容和进行内容检索。

  3.1.2 全文提取

  读取上一步保存的文档,读取所有的文本内容,然后将内容(MongoTemplate技术)保存到数据库中。

  图 1. 存储在数据库中的全文。由于文献较多,读者只能看到部分内容。事实上,全文已超过10,000字。

  3.1.3 自动汇总和关键词提取

  使用NLP处理软件包自动生成文摘并关键词提取从《暖和如玉EVA Air Royal Laurel Class.docx》中提取的全文,并保存到数据库中(MongoTemplate技术)。

  图1. “长荣航空皇家桂冠Class.doc”自动摘要生成内容。

  图 2. 提取的 关键词。关键词从这份文件中提取出来的有:长荣、航空公司、公务舱、休息室、座位、桂冠舱、台北等。

  3.1.4 计算文档之间的相关性

  当用户找到对自己的工作有用的文档时,他一定想进一步了解一些相关的文档。系统在后台计算每个文档的关联度,得到与该文档相关的一批文档,保存起来供用户使用。

  

" />

  该函数背后的数据科学原理是可信度计算:关键词同时出现在文档1和文档2中的数量与关键词在文档1中出现的数量之比,值为(0, 1 ],数值越大相关性越高,与“长荣航空皇家桂冠客舱.docx”相关的文档合集如下,可以看出这些文档都是关于民航的。

  3.2 信息检索

  3.2.0 工作流程 本功能面向广大中心用户。用户可以使用该功能模块在网页上搜索相关信息。系统对每一个操作的工作流程可以大致用下图来说明:

  该功能涉及系统的三层结构:网页前端、运行在服务端JAVA EE平台的微服务架构、文档数据库MongoDB。

  服务器部署的微服务概览如下图所示:

  该功能模块可分为以下子模块:

  关键词 搜索,书目信息浏览。

  3.2.1 关键词搜索

  信息检索模块主要面向中心用户,提供类似百度搜索的功能:用户在文本查询框中输入关键词后,页面返回一批相关文献数据,用户可以查看详细内容。系统提供文件名搜索、目录(摘要和关键词)搜索和全文搜索。

  图 1. 用户搜索文件名收录

“engine”的文档。用户提交关键词“engine”后,网页显示相关文档集合。如果文档过多,用户可以点击页面查看更多内容。本次检索到72份相关文件,左侧展示了这72份记录对应的分类摘要(密级、年份、作者、部门等)

  图 2. 显示每条记录(文档)向用户显示的内容。包括文件名、摘要(字数过多会截取前几个字符)、关键词、分类级别、年份等。

  3.2.2 文献信息浏览

  如果用户想详细了解其中一个查询结果,用户可以打开一个新的页面进行查看。

  图 1. 显示用例“Pratt & Whitney 推出新的航空发动机 MRO 服务品牌 EngineWise”

  该功能不仅显示文档的详细信息,还显示与该文档有一定相关性(推荐阅读)的其他文档的简要信息。

  图2. 显示与“普惠推出全新航空发动机MRO服务品牌EngineWise”相关的其他文件。可以看出,这份文件和相关文件都是关于发动机维护(MRO)的。

  四、系统操作

  该系统目前收录

近42万份文件(360GB),可供中心工作人员搜索和下载。系统性能良好,平均用户请求响应时间小于2.5秒。

  5. 未来工作

  未来的工作可以分为事务性工作和系统功能扩展两部分。交易工作。

  扩大信息采集:力争到2022年达到70万条数据(500GB)。

  系统功能拓展:模仿百度、搜狗等互联网检索系统的一些实用功能:智能检索,提升用户体验,更重要的是在使用过程中不断发现新的知识点。

  解决方案:友链交换..「友链交换..源码」

  网站优化买外链,SEO网站优化买外链。链接长期优质,没有做不到的关键词,不用到处买优质链接:所有站都是运营站,非站群,垃圾网站!网站SEO优化,买链接就行!(爱心链接)(原文来自)

  (来源文章)

  SEO优化网站时,经常会与其他网站交换链接。这种网站是双方之间的链接,我们称之为友情链接。但是我们也不能低估这些链接在我们网站中的作用,无论是提升流量,提升用户体验等等,都有看得见的效果。

  (本文来自)

  1、友情链接对网站优化有什么好处?

  1.吸引蜘蛛

  友情链接的优势不在于它能为你的网站带来多少直接访问,而在于它能让搜索引擎收录更多你的网页。据权威调查显示,全球80%的网站70%-90%的访问来自搜索引擎。因此,让搜索引擎收录更多的网页是增加网站访问量最有效的方法。

  2. 提升用户体验

  与同行交换友情链接确实能给网站带来良好的用户体验。引导用户从其他网站获取内容,可以有效提升网站的用户体验。这也是为什么与同行业的网站交换友情链接可以增加权重的原因之一。但是,它可能会间接增加网站的跳出率。

  3.提高关键词排名

  我们平时在做友情链接的时候,都会给别人提供一个锚文本。通常这个锚文本是我们网站的 关键词。友情链接是最好的外部链接之一。这个和我们去论坛签到,博客加好友链接的功能是一样的,目的是为了提高这个关键词的排名。

  

" />

  4.增加网站权重

  这是目前交换友情链接最根本的目的。通过增加网站的权重,我们可以从搜索引擎中获得更好的展示机会和展示位置,从而使网站的盈利能力和收入得到很大的改变。对于吸引蜘蛛爬取效果也非常好,更有效地爬取网站内容,增加收录。

  5.提高知名度

  这篇文章比较有针对性,只是针对一些特定的网站和特定的情况才会达到这个效果。例如,一个不知名的新网站如果能链接到新浪、搜狐、雅虎、网易、腾讯、网址大全等各大网站,肯定会大大提高其知名度和品牌形象。

  6.改善交通

  这篇文章几乎可以忽略不计,但之所以写出来,是因为很多新人有一个误区,认为改友情链接就是增加流量,所以这里严重纠正一下,友情链接对提高流量很有帮助,如果友情链接如果带的几个IP都能影响你网站的流量,那这个网站有没有生存的必要性就值得商榷了。

  7、提高网站的PR值

  友情链接质量高,对提升PR值很有帮助。传输 PR 值。这就是为什么如果你的 PR 比对方低,人们就不喜欢和你做。虽然业内人士多次提到PR对百度影响不大,但很多站长在交流友情时还是会考虑到这个因素。很多时候我们因此而错过了高质量的链接。

  8.驱动网站快照

  前面我们提到过,蜘蛛是通过链接来爬取的,一个新的快照站点说明它很受蜘蛛的喜爱,所以我们就和这些新的快照站点做友好链接,这样当蜘蛛爬取他的站点时,它也会来到我们的站点通过链接,可以快速更新我们网站的快照。

  9、提高网站的展示率和品牌效应

  友情链接可以提高自己网站在其他网站页面上的显示率,还可以提升网站的品牌和知名度。当然,如果链接到你的网站有一定的品牌和知名度就更好了。

  来个网站友情链接(爱心链接)

  

" />

  外贸网站优化及外链建设。小编总结,传统的外链搭建主要有以下三种方式:

  1、通过正常发布信息做外链,通过其他方式做单项导入链接。

  您可以在各大社区、论坛、贴吧、商城发布信息,并在信息中添加网站链接。这是建立外部链接最原创

、最基本的方法。其中,在论坛、贴吧发帖时,可以在帖子内容或个性签名中加入文字链接;有的店铺在发布新闻时可以在新闻内容中加入文字链接,有的店铺有友情链接版块,可以在该版块添加文字链接指向目标网站。

  2.交换友情链接。

  交换友情链接是建立外部链接最直接的方式。找一个权重和流量都不错的网站交换链接就好了。做友情链接的好处是不用花太多时间找发帖..和养..账号;缺点是友情链接同时导入权重和减肥(但这个效果不是很明显),而且寻找行业相关性比较高的友情链接并不容易。

  三、购买外部链接。

  A. 购买外部链接..,(爱链接)。其实还有其他几个外链可以买。。你也可以试试,不过我只用过love links。

  B. 购买外链的基本原则。

  不要购买垃圾链接;

  外链不要一次性买太多,逐渐增加;

  不要专门购买高权重的外部链接;

  另外,外链也要兼顾广度和深度。链条的宽度是多少?就是做大量不同的外链.. 外链深度是多少?就是在同一个页面做很多不同层次的外链。这考虑到了外链的广度和深度。对于外贸网站来说,外链建设是一个长期的过程,需要一步步积累,不是一蹴而就的。

  本文到此结束,希望对大家有所帮助。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线