搜索指定网站内容(基于主题网络爬虫的网络信息搜索方法是什么?专利)
优采云 发布时间: 2022-01-28 10:02搜索指定网站内容(基于主题网络爬虫的网络信息搜索方法是什么?专利)
专利名称:一种面向领域的网络信息搜索方法
技术领域:
本发明是一种面向领域的网络信息搜索方法,涉及主题爬虫采集策略改进、网页内容提取与分类等相关技术。
背景技术:
随着网页信息的快速增长,目前网页总数已超过35亿,并且以每天百万的速度增长,这将导致一般搜索引擎索引的网页信息时效性较差,难以满足不同专业用户的需求。互联网的飞速发展给WEB信息的搜索带来了巨大的挑战。于是,面向该领域的垂直搜索引擎应运而生。基于主题网络爬虫的搜索引擎(即第四代搜索引擎)已成为当前搜索引擎的热门研究方向。垂直搜索引擎专注于特定领域,大大减少信息处理量,让搜索引擎在实时处理方面拥有强大的功能,主题识别和过滤,以及主题搜索。与一般搜索引擎强调“大而广”的覆盖面相比,主题搜索的目标是力求“专、精、深”。但是,对于某个领域,网页信息仍然很多,不可能全部获取。即使可以全部获取,根据调查,用户也不会全部浏览,这就需要一定的爬取策略和尽可能有效的分类爬取。重要性高的网页很容易提供给用户进行检索。同时,由于不同领域的数据结构也有很大差异,因此该领域的网络信息搜索方法的具体设计应有针对性,以更好地满足该领域的特点。
发明内容
本发明的目的是根据当前网络的发展状况,提出一种面向领域的网络信息搜索方法,通过分析链接和内容分析,编写蜘蛛采集策略来提高主题相关性,以及使用采集对网页内容进行提取和分类,建立索引并存入数据库,为日后用户检索提供字段数据源。为实现上述目的,本发明的技术方案如下。本发明提出的面向领域的网络信息搜索方法的步骤是先咨询领域专家的意见,总结领域网站集合,然后采集一些典型的网页构成训练文档集,并通过上述domain网站集合人工识别相关和非相关,并利用机器学习的方法,根据领域的特征建立能够充分表示领域特征的语料库并结合与专家意见。上面建模得到网页的自动分类器,编写网络信息采集策略,通过链接和内容分析引导蜘蛛采集领域相关性高的目标网页,利用网页分析器获取提取的网页信息的领域相关性,并建立倒排索引将其存储在数据库中。具体步骤包括三大模块:网页采集蜘蛛模块、分类器训练模块和数据索引模块。流程见 集,并采用机器学习的方法,根据领域的特点,结合专家意见,建立能够充分表示领域特征的语料库。上面建模得到网页的自动分类器,编写网络信息采集策略,通过链接和内容分析引导蜘蛛采集领域相关性高的目标网页,利用网页分析器获取提取的网页信息的领域相关性,并建立倒排索引将其存储在数据库中。具体步骤包括三大模块:网页采集蜘蛛模块、分类器训练模块和数据索引模块。流程见 集,并采用机器学习的方法,根据领域的特点,结合专家意见,建立能够充分表示领域特征的语料库。上面建模得到网页的自动分类器,编写网络信息采集策略,通过链接和内容分析引导蜘蛛采集领域相关性高的目标网页,利用网页分析器获取提取的网页信息的领域相关性,并建立倒排索引将其存储在数据库中。具体步骤包括三大模块:网页采集蜘蛛模块、分类器训练模块和数据索引模块。流程见 采用机器学习的方法,根据领域的特点,结合专家意见,建立能够充分表示领域特征的语料库。上面建模得到网页的自动分类器,编写网络信息采集策略,通过链接和内容分析引导蜘蛛采集领域相关性高的目标网页,利用网页分析器获取提取的网页信息的领域相关性,并建立倒排索引将其存储在数据库中。具体步骤包括三大模块:网页采集蜘蛛模块、分类器训练模块和数据索引模块。流程见 采用机器学习的方法,根据领域的特点,结合专家意见,建立能够充分表示领域特征的语料库。上面建模得到网页的自动分类器,编写网络信息采集策略,通过链接和内容分析引导蜘蛛采集领域相关性高的目标网页,利用网页分析器获取提取的网页信息的领域相关性,并建立倒排索引将其存储在数据库中。具体步骤包括三大模块:网页采集蜘蛛模块、分类器训练模块和数据索引模块。流程见 编写网络信息采集策略,通过链接和内容分析引导蜘蛛采集领域相关性高的目标网页,利用网页分析器获取提取的网页信息的领域相关性,建立倒排索引存储在数据库。具体步骤包括三大模块:网页采集蜘蛛模块、分类器训练模块和数据索引模块。流程见 编写网络信息采集策略,通过链接和内容分析引导蜘蛛采集领域相关性高的目标网页,利用网页分析器获取提取的网页信息的领域相关性,建立倒排索引存储在数据库。具体步骤包括三大模块:网页采集蜘蛛模块、分类器训练模块和数据索引模块。流程见 分类器训练模块和数据索引模块。流程见 分类器训练模块和数据索引模块。流程见
图1:上述网页采集蜘蛛模块和数据库数据索引模块的作用是获取领域相关性高的网页内容,建立倒排索引表并存储在数据库中,提供领域知识供未来用户检索的资源。对应流程如图2所示:具体步骤如下(1)领域专家提供的网站集合作为爬虫搜索的起始网页,存储在初始爬取中队列; 蜘蛛读取初始URL,然后启动采集网页,根据蜘蛛设置的采集深度循环采集提取新的URL并存入队列,直到触发停止条件或达到深度要求停止采集;(< @2)采集条件主要是通过搜索策略算法,根据链接分析和内容分析的双重约束设置来增加相关性;分析预测,判断PAGERANK值是高还是低,值高的页面优先级高,优先下载此类页面;具体参数如下 外链网页个数,r为不直接链接u的网页,但可能指向图中任意网页,一共N个,所以其贡献为PR(r )/N,d为阻尼系数(O < d < 1,合理的取值为O. 75 O. 9,文献中经常使用O. 8 5)。
权利请求
1.一种面向领域的网络信息搜索方法,其特点是先咨询领域专家的意见,总结领域网站集合;然后通过网络蜘蛛采集一些典型的网页,形成一个训练文档集,上面的域网站集手动识别相关性和不相关性;然后根据专家意见建立一个能充分代表该领域的名词数据库,根据领域名词数据库的定义,使用网页分析器获取网页中的域名。相关信息; 然后,根据该领域的特点,采用机器学习的方法,在训练集上对网页自动分类器进行建模;然后写入网络信息采集策略,并且蜘蛛通过对链接和内容的分析采集足够的域相关性高的目标网页,并使用分类器进行判别和分类;最后,将提取的领域信息存储在数据库中,为以后的用户检索提供领域数据源;具体步骤包括三大模块网页采集蜘蛛模块、分类器训练模块和数据索引模块。
建立文本表示的向量空间模型;具体操作包括使用GBK网页编码,使用URL加权器去除之前出现的URL,去除HTML代码中的不规则标记。对网页中的无关内容进行噪声过滤和去除,然后进行中文分词,根据建立的停用词列表去除停用词,建立文档向量;(4)提取出来的关键词作为特征项,并生成一个属性集,将训练集中所有网页的关键词合并生成一个属性集,属性集收录训练集中所有网页的关键词,并去除重复,然后使用属性集对网页进行分割,并建立文档向量模型,在训练集上训练分类器进行分类,并在测试集上测试分类器的性能;(5)将标记信息点的网页和分类器参数以及训练集中的文档向量设置参数存储。样本数据库。
<p>3.根据权利要求1所述的面向领域的网络信息搜索方法,其特征在于,通过网页采集@可以访问网页采集蜘蛛模块和数据索引模块的功能。 >spider模块采集 @>来自@>的网页使用数据索引模块建立索引,得到基于倒排表的全文索引数据库,作为以后用户查询的数据库。具体步骤如下(1)网站设置为蜘蛛搜索的起始网页,并存入初始抓取队列;蜘蛛读取初始URL,然后启动采集 @>网页,根据蜘蛛@采集深循环采集设置的采集网页,提取新的URL并存入队列,直到触发停止条件或达到深度要求停止采集;(