网页采集器的自动识别算法(如何过滤掉这些不良信息,营造绿色安全的网络环境)

优采云 发布时间: 2021-11-23 10:08

  网页采集器的自动识别算法(如何过滤掉这些不良信息,营造绿色安全的网络环境)

  【摘要】 随着互联网技术的飞速发展,网络中的资源越来越丰富,网络已经成为人们获取各种信息和资源的主要渠道。搜索引擎在网络信息检索中扮演着重要的角色,但在搜索效率和搜索结果的准确性方面还不能完全满足人们的需求。此外,互联网上充斥着*敏*感*词*、暴力、*敏*感*词*或*敏*感*词*等不健康内容。如何过滤掉此类不良信息,营造绿色安全的网络环境,也对搜索引擎提出了挑战。网页分类技术可以提供一种解决上述问题的方法。如果一个网页有能够代表其自身特征的标签,那么当我们需要从海量数据中搜索自己想要的信息时,网页标签可以帮助提高检索效率和准确率;当我们需要过滤掉一些不感兴趣或内容不好的网页时,我们可以通过识别网页标签来提高过滤的准确性。本研究基于项目组正在开发的教育浏览器,对网页分类问题进行了研究,以期找到一种高效的网页分类算法。主要研究工作包括:1、 研究网页分类问题的*敏*感*词*研究和应用现状,明确相关技术基础和研究方法,包括文本分类问题的一般处理过程和分词技术. 2、 对网页分类问题中的几个关键机制进行了研究,包括编写有针对性的网络爬虫来获取网页信息;对网页进行预处理,获取网页文本内容;采用中文分词技术对网页文本进行处理,并对处理后的文本进行特征提取。3、 设计并实现了网页分类算法。除了朴素贝叶斯和支持向量机这两种经典的文本分类算法外,本文还将新兴的机器学习算法随机森林算法引入到网页分类的研究中,对网页分类问题进行了改进,提出了一种“半随机森林算法”。通过对三种分类算法的数据实验,结果表明,本文改进的随机森林算法具有更好的分类效果,且结构比SVM更简单。本研究不仅丰富了教育浏览器的功能,而且为基于教育浏览器的用户行为分析、个性化内容推荐等智能服务和应用奠定了基础。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线