网页采集器的自动识别算法(1.中文网页自动分类文本自动化的基础上发展)

优采云发布时间: 2021-12-05 05:19

　　1.中文网页自动分类是在自动文本分类的基础上发展起来的。由于自动文本分类技术相对成熟，许多研究工作都尝试使用纯文本分类技术来实现网页分类。孙建涛指出：用纯文本表示网页是困难和不合理的，因为网页所收录的信息比纯文本要丰富得多；以不同的方式表示网页，然后结合分类器的方法可以综合利用网页。但是，每个分类器的性能很难估计，也很难确定使用什么组合策略。董静等。提出了一种基于网页样式、形式和内容的网页形式分类方法，从另一个方面研究网页分类；范忠等。提出了一种简单的贝叶斯协调分类器来合成纯网页文本等结构信息的分类方法；测试结果表明，组合分类器的性能得到了一定程度的提升；杜云奇等人使用线性支持向量机（LSVM）学习算法实现了一个自动中文文本分类系统，该系统还进行了*敏*感*词*真实文本的测试。结果发现该系统的召回率较低，但准确率较高。论文对结果进行了分析，提出了一种在训练过程中拒绝识别的方法。样本信息改进了分类器的输出。实验表明，该方法有效地提高了系统的性能，取得了满意的效果。陆明宇等。提出了一种网页摘要方法，过滤掉对网页分类有负面影响的干扰信息；刘伟宏【基于内容和链接特征的中文垃圾网页分类】等人提出结合网页内容和链接特征，利用机器学习对中文垃圾网页进行分类检测。实验结果表明，该方法能够有效地对中文垃圾网页进行分类；张毅中提出了一种结合SOFM（自组织特征映射）和LVQ（学习向量量化）的分类算法，用一种新的网页表示方法将特征向量应用于网页分类。该方法充分利用了SOFM自组织的特点，同时利用LVQ解决了聚类中测试样本的重叠问题。实验表明，它不仅具有更高的训练效率，而且具有更好的召回率和准确率；李涛等。将粗糙集理论应用于网页分类，减少已知类别属性的训练集并得出判断规则，然后利用这些规则确定待分类网页的类别。

　　2中文网页分类关键技术

　　2.1 网页特征提取

　　特征提取在中文网页分类的整个过程中非常重要。可以体现网页分类的核心思想。特征提取的效果直接影响分类的质量。特征提取是将词条选择后的词再次提取出来，将那些能够代表网页类别的词提取出来，形成一个向量进行分类。特征提取的方法主要是根据评价函数计算每个条目的值，然后根据每个条目的值对条目进行降序排序，选择那些值较高的条目作为最终特征。特征提取常用的评价函数有文档频率（DF）、信息增益（IG）、互信息（MI）、平方根检验（CHI）、[中文搜索工程中的中文信息处理技术] [自动文本检索的发展] 通过对上述五种经典特征选择方法的实验，结果表明[A文本分类特征选择对比研究】CHI和IG方法最好；DF IG和CHI的表现大致相同，都可以过滤掉85%以上的特征项；DF算法简单，质量高，可用于替代CHI和IG；TS方法性能一般；MI方法的性能最差。进一步的实验结果表明，组合提取方法不仅提高了分类精度，而且显着缩短了分类器的训练时间。

　　2.2 分类算法

　　分类算法是分类技术的核心部分。目前中文网页分类算法有很多种，朴素贝叶斯（NB）、K-最近邻（KNN）[超文本分类方法研究]、支持向量机（SVM）[、支持向量机的文本分类： Learning with many]、决策树和神经网络（NN）等。

　　朴素贝叶斯（NB）算法首先计算属于每个类别的特征词的先验概率。在对新文本进行分类时，根据先验概率计算该文本属于每个类别的后验概率，最后取最大的后验概率作为文木所属的类别。许多学者对贝叶斯分类算法进行了改进，如结合潜在语义索引的贝叶斯方法、结合模糊聚类的朴素贝叶斯方法、贝叶斯分层分类方法等。

　　K-最近邻（KNN）是一种传统的模式识别算法，在文本分类中得到了广泛的研究和应用。它计算文本之间的相似度，在训练集中找到与测试文本最接近的k个文本，即新文本的k个最近邻，然后根据类别确定新文本的类别k 文本。

　　支持向量机 (SVM) 基于结构风险最小化原则。通过适当地选择该子集中的函数子集和判别函数，学习机的实际风险最小化，并且通过有限训练样本获得的小错误分类器的测试误差对于独立的测试集相对较小，从而获得a 具有最优分类能力和能力提升的学习机。SVM算法具有很强的理论基础，应用于文本分类时取得了很好的实验效果。李荣【SVM-KNN分类器——一种提高SVM分类精度的新方法】等提出了KNN与SVM相结合的分类算法，取得了较好的分类效果。目前，更有效的 SVM 实现方法包括 Joachims 的 SVMlight 系统和 Platt 的序列最小优化算法。决策树（Decision Tree）就是通过对新样本的属性值的测试，从树的根节点开始，根据样本属性的值，逐步向下决策树，直到叶子节点树的叶子节点所代表的类别就是新样本的类别。决策树方法是数据挖掘中一种非常有效的分类方法。具有很强的消噪能力和学习反义表达能力。C4.5、CART、CHAID 等几种流行的归纳技术可用于构建决策树。神经网络 (NN) 是一组连接的输入/输出单元。输入单元代表条目，输出单元代表木材的类别，单元之间的联系有相应的权重。在训练阶段，通过一定的算法，例如反向传播算法，调整权重，使测试文本能够根据调整后的权重正确学习。涂黄等。提出了一种基于RBf和决策树相结合的分类方法。

　　3. 中文网页分类评价指标

　　对于网页分类的效率评价标准，没有真正权威的、绝对理想的标准。一般性能评价指标：召回率R（Recall）、准确率P（Precision）和F1评价。

　　召回率是正确分类的网页数量与应该分类的网页数量的百分比，即分类器正确识别该类型样本的概率。准确率又称分类准确率，是指自动分类和人工分类结果相同的网页所占的比例。召回率和准确率不是独立的。通常，为了获得比较高的召回率，通常会牺牲准确率；同样，为了获得比较高的准确率，通常会牺牲召回率。因此，需要一种综合考虑召回率和准确率的方法来评估分类器。F1 指标是一种常用的组合：F1 = 2RP / (R + P)。事实上，网页的数量极其庞大，单纯的召回率没有任何实用价值。准确率的含义应作相应修改；数据库大小、索引方法和用户界面响应时间应作为评价指标纳入评价体系。

　　4.中文网页分类系统介绍

　　开发了 TRS InfoRadar 系统。系统实时监控和采集互联网网站内容，对采集收到的信息进行自动过滤、分类和重置。最后及时发布最新内容，实现信息统一导航。同时提供包括全文、日期等全方位的信息查询。TRS InfoRadar集成了信息监控、网络舆情、竞争情报等多种功能，广泛应用于政府、媒体、科研、企业。TRS InfoRadar在内容运营的垂直搜索应用、内容监管的在线舆情应用、

　　百度电子政务信息共享解决方案以百度先进的信息集成处理技术为核心，构建政府内网和政府信息门户的高性能信息共享平台，可集中共享相关地区、机构等多个信息源的信息、和组织，让用户在一个地方获得他们需要的所有相关信息，使电子政务从“形象工程”转变为“效益工程”，有效提高政府工作效率，极大地提升政府威信和公众形象。它具有强大的信息采集能力，安全的信息浏览，准确的自动分类，全面的检索功能，

　　清华同方KSpider网络信息资源采集系统是一个功能强大的网络信息资源开发、利用和集成系统，可用于定制、跟踪和监控互联网实时信息，建立可复用的信息服务体系。KSpider可以自动对来自各种网络信息源，包括网页、BLOC、论坛等用户感兴趣的特定信息进行分类处理，并以多种形式提供给终端用户。KSpider可以快速及时的捕捉用户需要的热点新闻、市场情报、行业资讯、政策法规、学术文献等网络信息内容。可广泛应用于垂直搜索引擎、网络敏感信息监控、情报采集、

　　5 结束语

　　随着互联网的飞速发展，中文网页的自动分类已经成为搜索引擎进行分类查询的关键。这就要求中文网页的自动分类技术在网页的处理方式、网页效果识别、分类准确率和评价指标等方面有进一步的提升。因此，中文网页的自动分类技术是一个长期而艰巨的研究课题。

0

2021-12-05

网页采集器的自动识别算法

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页采集器的自动识别算法(1.中文网页自动分类文本自动化的基础上发展)

0 个评论

发起人

AI时代内容工厂

网页采集器的自动识别算法(1.中文网页自动分类文本自动化的基础上发展)

0 个评论

发起人

相关问题