三个主题爬行器是实现基于主题的信息采集功能的核心组成部分
优采云 发布时间: 2021-08-13 06:15三个主题爬行器是实现基于主题的信息采集功能的核心组成部分
三个主要组件:主题爬虫、检索器、管理平台
主题爬虫是实现基于主题的信息采集功能的核心组件,一般由爬取队列、网络连接器、主题模型、内容相关性分析和链接相关性分析等功能模块组成
其中,爬取队列由一系列主题相关性高的URL组成。爬取队列由主题搜索引擎在主题搜索开始时的*敏*感*词*站点组成。这些*敏*感*词*站点可以由行业专家给出,也可以在某些权威网站的帮助下自动生成。搜索过程开始后,系统会查找新的 URL,并根据主题相关性对其进行排序,并将其添加到抓取队列中。网络连接器根据抓取队列中的 URL 与网络建立连接,下载其指向的页面内容。
主题模型是通过主题建模方法实现的。主题词典是一种常用的主题建模方法。 关键词法使用一组特征关键词来表示话题内容,包括用户需求、话题和文档内容,一个主图关键词可以是一个词组,包括语言权重等属性,常用的相关算法是词频统计法。
内容相关性分析是指系统对提取内容特征后的网页数据进行分析,判断网页内容与指定主题的关联程度,过滤不相关的页面,保留相关性达到阈值的网页。
链接相关性分析是指系统测量从网页中提取的超链接信息,获取每个URL指向的页面与指定主题的相关性,并将符合主题级别要求的URL加入到抓取中queue 和 Crawl 优先排序,确保优先检索相关性高的页面。
搜索器为用户提供查询界面,根据用户提出的搜索公式搜索索引库,根据相关程度对查询结果进行排序,将页面链接和相关信息返回给用户。
管理平台负责对整个系统进行监控和管理。主要实现确定主题、初始化爬虫、控制爬虫过程、协调优化模块间功能实现、用户交互等功能。作为一个完美的搜索引擎,管理平台还应该提供跨平台的应用web服务应用接口