自动识别采集内容( 本发明训练出网页模板分类器的网页结构识别模板方法)
优采云 发布时间: 2022-02-14 16:17自动识别采集内容(
本发明训练出网页模板分类器的网页结构识别模板方法)
云计算中垂直搜索引擎网页采集模板的自动识别方法
【摘要】本发明公开了一种云计算中垂直搜索引擎网页采集模板的自动识别方法。对网页进行分析,提取特征属性,将属性值采集聚类到数据表中作为训练样本数据,得到多个不同的网页模板;为网页模板识别类别,并将其作为训练样本训练网页模板分类分类器用于将所有采集网页分类为模板,并根据分类得到的模板提取信息。该方法通过对不同的网站网页进行采样,利用数据挖掘的聚类和分类算法,针对这些网站中的不同网页结构识别出不同的分析模板,
[专利说明] - 云计算中垂直搜索引擎网页采集模板的自动识别方法
【技术领域】
[0001] 本发明涉及云计算垂直搜索引擎领域,具体涉及一种自动识别垂直搜索引擎网页模板采集的方法。
技术背景
[0002] 搜索引擎是云计算的关键技术,它充分利用了云计算带来的便利,也为云计算注入了无穷的活力。垂直搜索引擎与普通网页搜索引擎最大的区别在于它从网页信息中提取结构化信息,即将网页的非结构化数据提取成特定的结构化信息数据。然后将这些数据存入数据库进行进一步处理,如去重、分类等,最后进行分词、索引、搜索,满足用户的需求。
[0003] 垂直搜索引擎中的某个行业会涉及多个网站,每个网站的组织形式和网页结构千差万别。为了从中提取所需的信息,需要一个高效且准确的结构。信息提取技术。信息抽取方式有两种,一种是模板法,具有实现速度快、成本低、灵活性强等优点。缺点是后期维护成本高,信息来源和信息量少;,优点是数据容量大,但灵活性差,准确率低,成本高。
【发明内容】
[0004]本发明要解决的技术问题是:本发明的目的是利用数据挖掘技术实现垂直搜索引擎的智能网页分析。
本发明采用的技术方案是:
云计算中垂直搜索引擎网页采集模板的自动识别方法,旨在随机获取一定数量的样本网页,分析现有网页,提取特征属性,将属性值采集聚类成数据表作为训练样本数据,得到多个不同的网页模板;识别网页模板的类别,并将其作为训练样本来训练网页模板分类器;将分类器应用于所有采集网页被分类成模板,根据分类得到的模板提取信息。
本发明的有益效果是:该方法通过对不同的网站进行网页采样,利用数据挖掘的聚类、分类算法,对这些网站不同的网页结构进行不同的识别分析模板,达到智能分析的目的。
【专利图纸】
【图纸说明】
图1为本发明的原理*敏*感*词*。
【详细说明】
下面结合附图,通过【具体实施例】对本发明作进一步说明:
如图1所示,一种云计算中垂直搜索引擎网页采集模板的自动识别方法,根据需要随机获取一定数量的采集网站样本网页,并分析现有网页。分析提取特征属性,将属性值采集聚类到数据表中作为训练样本数据,得到多个不同的网页模板;识别网页模板的类别,训练网页模板分类器作为训练样本;分类器用于将所有采集网页分类为模板,根据分类得到的模板提取信息。
【权利要求】
1.一种云计算中垂直搜索引擎网页模板的自动识别方法采集,其特征在于:根据需要采集网站随机获取一定数量的样本网页,有网页进行分析,提取特征属性,将属性值采集聚类到数据表中作为训练样本数据,得到多个不同的网页模板;识别网页模板的类别,将网页模板训练为训练样本Classifier;使用该分类器对所有采集网页的模板进行分类,根据分类得到的模板进行信息提取。
【文件编号】G06F17/30GK103870567SQ2
【公示日期】2014年6月18日申请日期:2014年3月11日优先日期:2014年3月11日
【发明人】范莹、于志楼、梁华勇申请人: