基于开放源码架构的网络期刊信息采集与推送系统研究.pdf 3页
优采云 发布时间: 2020-08-08 02:18中国科学…ANDTECHNOLOGYINFORMA_IO“ NJan201j中国科学技术港口201号)信息技术推广的第一阶段刘涵将跟随刘禹的姓氏北京科学技术情报学院本文提出并实施了基于开源体系结构论文跟踪和热点推送方法,针对科学研究人员的个性化需求,以有针对性和定期的方式自动跟踪最新期刊,并对这些期刊论文进行热点分析,并在发现新论文时自动推送给用户,以便主动为研究人员提供一个网络时期: FUIE服务. DOI: 10.3969〜. issn. 1001—8972.2015.01.026网络期刊信息采集与推送系统研究后的数据基于开源架构的技术供科技工作者参考. 实现技术采用JAV基于a的开源体系结构. 这些开源体系结构技术已经成熟并且可以轻松调用当前接口. 各种科技论文以每年超过200万的速度增长,可以完成复杂的数据采集和数据分析. 研究人员用作搜索辅助工具来搜索和使用这些海量数据. 本文使用的开放源代码框架是HttpClinet和Questions. 期刊论文的应用中存在三个常见问题: 一是期刊HTMLParser和IKAnalyzer. 纸张更新被延迟. 由于版权和其他原因,大多数期刊出现在CNKI和其他数字出版商网站上的时间为几个月. 但是,这些HttpClinet期刊通常会在其官方网站上及时更新最新文章. JDK的javanet软件包提供的Hl {pURLC0nnecti0n技术信息;第二个是文章查询和推送的问题. 主要的数字出版商正在进行数字出版. 早期,许多应用程序系统都是通过iar包实现数据采集的,但版本规模较大尽管它提供了各种方便的查询,但对于大多数应用程序,JDK库本身提供的功能还提供了相关的查询功能. ,但这些功能通常需要用户主动采取行动,以使其不致富裕和灵活.
近年来,科学研究应用程序开发人员热衷于搜索,但缺少个性化的热点推送功能. 第三,某些科研单位没有使用HttpClient技术来实现数据采集. HttpClient是Apache购买的一种数据资源,它将JakartaCommon下的更多子项目带到期刊论文的查询和利用中,可用于提供高效率和许多不便. 鉴于上述现象,支持HTTP协议的最新且功能丰富的客户端编程工具包,研究人员通常只关注自己的研究领域,并且可以支持HTTP协议的最新版本和建议. 学术信息的基本事实,本文提出并实现了一个基于lntemet的开源HTTP协议,这是Intemet上使用最多,最重要的协议. 它是Web期刊论文跟踪和热点推送方法的架构,以及越来越多的Java应用程序用于科学研究. 必须直接使用HTTP协议来个性化访问者的需求,以有针对性和常规的方式自动跟踪最新的期刊,并请求网络资源. HttpOlient已在许多项目中使用,例如这些期刊论文的热点分析. 当发现用户的注意力集中在Cactus的ApacheJakarta上的其他两个著名的开源项目时,新论文可以在发布时自动推送给用户,从而为科学研究做出积极贡献. 人员和HTMLUnit都使用HttpClient. 现在,HttpClient提供了最多的网络周期: FUIE服务.
研究人员可以使用本文提到的方法,新版本为HttpClient4.2(GA). 该省在主要数据库或期刊的官方网站中的A〜B-J'之间进行文章搜索和检索. HTMLParser HTMLParser是一个纯Iava html解析库. 它的关键技术不依赖于其他iava库文件. 它主要用于转换或提取html. 它是目前使用最广泛的htmI解析和分析工具. 现在,本文提出了一个网络期刊Paper自动跟踪和热点推送系统,最新版本的htmlparser是2. O. HTMLParser具有信息提取功能. 主要的研究思想是首先确定采集地点,然后进行针对性和信息转换两个主要功能. 信息提取功能包括五个子功能: 数据采集,知识库生成和热点分析,最后发布分析文本信息提取,例如对HTML的有效信息搜索. 链接一个77一个