自动采集推送(基于开源架构的网络期刊论文跟踪与热点推送系统研究)
优采云 发布时间: 2021-09-21 21:03自动采集推送(基于开源架构的网络期刊论文跟踪与热点推送系统研究)
内政部:10.3969/j.issn.1001-8972. 2015. 01.026在线期刊信息采集和基于开源架构的推送系统的研究数据供科技工作者参考。在实现技术上,采用了基于Java的开源体系结构。这些开源架构在技术上是成熟的,复杂的数据采集和数据分析可以通过调用一个简单的接口来完成。适合科研人员作为科研辅助工具使用。本文使用的开源框架包括httpclienet、Htmlparser和ikanalyzer。目前,各类科技论文以每年200多万篇的速度增长。对这些海量数据的搜索和利用已经成为研究人员共同关注的问题。期刊论文应用中普遍存在三个问题:一是期刊论文更新滞后。由于版权和其他原因,大多数期刊在数字出版商网站如《中国知网》中出现数月,但这些期刊经常在其官方网站中及时更新最新的文章信息;第二个是文章query和push。主要数字出版商的数字出版物规模越来越大。虽然它们提供了各种方便的查询并提供了相关的查询功能,但这些功能往往要求用户主动搜索,缺乏个性化热点推送功能。第三,一些科研机构不购买数据资源,这给期刊论文的查询和利用带来了更多不便。针对上述现象和科研人员往往只关注各自研究领域的学术信息这一基本事实,本文针对科研人员的个性化需求,提出并实现了一种基于开源架构的网络期刊论文跟踪和热点推送方法,定期自动跟踪最新期刊,分析这些期刊论文的热点,当发现用户关注的话题有新论文发表时,可以自动推送给用户,积极为研究人员提供在线期刊服务
借助本文提出的方法,研究人员可以节省在主要数据库或期刊官方网站上搜索和检索文章的时间。httpclinetjdkjavanet的许多早期应用是,对于大多数应用来说,JDK库本身提供的函数不够丰富和灵活。近年来,科研应用开发人员对HT-pclient-Apache-Jakarta-common下的子项目非常感兴趣,该子项目可用于提供支持HTTP协议的高效、新的富客户端编程工具包,并支持HTTP协议的最新版本和建议。HTTP协议是互联网上应用最广泛、最重要的协议。越来越多的Java应用程序需要通过HTTP协议直接访问网络资源。Httpclient已经在许多项目中使用,例如ApacheJakarta上的另外两个著名的开源项目,CACT US版本是Httpclient4.2(GA).HTMLPasser。HtmlParser AVA库文件主要用于转换或提取HT ml。它是HT ml解析和分析中使用最广泛的工具。现在HTMLPasser和信息转换是两个主要功能。信息提取功能包括五个子功能:文本信息提取,如HTML有效信息搜索;本文提出的网络期刊论文自动跟踪和热点推送系统的主要研究思路是:首先确定采集站点,然后进行定向数据采集,生成知识库并进行热点分析,最后发布分析-77-北京科技学院信息。提出并实现了一种基于开源体系结构的网络期刊论文跟踪和热点推送方法。面对科研人员的个性化需求,定期自动跟踪最新期刊,分析这些期刊论文的热点,当发现用户关注的话题有新论文发表时,可以自动推送给用户,积极为科研人员提供网络期刊服务
信息技术促进会中国科技信息2015年第01期《中国科学技术信息》2015年1月摘录,用于自动标记页面的链接文本;资源提取,如一些图片和声音资源的处理;链接检查,用于检查html中的链接是否有效;监控页面内容。信息转换功能包括五个子功能:链接重写,用于修改页面中的所有超链接;网页内容副本,用于本地保存网页内容;内容检查可以用来过滤网页上的一些单词;HTML信息的清理和格式化;转换为XML格式的数据。根据这些网站源的网页设计技术,分析网站页面的组成结构,得出网站捕获模式;然后,使用Htmlparser-httpclinet获取网站的信息并存储在数据库中;最后,通过分析数据库中获取的期刊论文的相关信息,得到热点信息。系统工作流程如图所示。Data采集processor,JDK1.6myeclipse10 httpclinet实现。主代码如图所示,网站address和网站encoding方法在geturlcontent中传递,以获取网页的源代码。网站源代码可以通过Htmlparser进行解析
以网站为例,获取该期刊的最新文章信息,关键代码如图所示,每个网站需要分析其制版规律,然后通过andfilter方法解析指定标签中的内容,然后将获取的文章标题存储在数据库中。根据实际需要,您也可以采集作者和文章总结。本文仅以采集文章标题为例。Ikanalyzer是一个基于Java语言的开源、轻量级中文分词工具包。由于大多数开源软件都来自国外,所以中文分词一般都是单字分词,分词效果不好。开源项目的作者林良毅编写的ikanalyzer应该是最好的Lucene中文分词器之一,并且随着Lucene版本的更新而不断更新。目前,它已更新为ikanalyzer的2012版本。最初,它是一个基于开源项目luence并结合字典分词和语法分析算法的中文分词组件。发件人3.0在版本开始时,IK已经发展成为一个通用的Java分词组件,它独立于Lucene项目。同时,它具有独特的“前向迭代最细粒度分割算法”,具有60万字的高速处理能力。采用多子处理器分析模式,支持英文字母(IP地址、电子邮件、URL)、数字(日期、常用中文定量词、罗马数字、科学计数法)、中文词汇(姓名和地名处理)等分词处理
热点分析研究人员可以根据自己关注的领域建立采集站点,通过上述方法完成原创信息的采集并存储在数据库中。系统架构研究系统设计与实现系统主要由两部分组成,一部分是信息采集,另一部分是热点分析。信息捕获可以使用httpclinet实现数据采集主代码,根据科研人员的兴趣点获取特定期刊的最新文章信息-78-信息技术促进中国科技信息2015年1月中国科技信息2015,然后通过ikanalyzer完成中文分词,本文通过参考开源jar包实现文章标题的分词,关键代码如图所示,系统显示分词并计算该处理信息中的词频。研究人员可以手动筛选和识别、选择热门词汇并将其存储在热门词库中,并根据人工经验实现热门词汇的分类。这些热门词汇将作为系统的知识积累。通过系统提供的热点词检索功能,您可以在采集系统的论文中快速找到所有相关文章,从而分析并获取当前论文的热点和出现频率。信息推送信息推送是指信息源主动向用户发送信息。它是一种数据发布技术,信息服务公司根据用户的需要,根据一定的技术标准和协议,从在线信息资源中自动选择用户感兴趣的数据,并定期推送到用户的计算机上
系统通过注册功能实现科研人员的信息定制,并通过科研人员关注的信息建立个人模型,包括用户兴趣爱好、信息资源类别、学科等。推送系统根据用户模型定期进行搜索,并通过电子邮件将相关信息推送给用户。与用户自助在线搜索信息相比,推送服务最大的特点是能够实现用户的一次性输入请求,定期、持续地接收最新信息