【干货】一种基于主题的网页实时分类模型的研究

优采云 发布时间: 2021-06-13 00:28

  【干货】一种基于主题的网页实时分类模型的研究

  基于主题的网页实时分类模型研究

  开始时间:2013-07-12

  马建红 1

  马建红,(1965-),女,教授,主要研究方向:人工智能、软件工程。

  张晨光2

  张晨光(1987-),男,硕士*敏*感*词*,数据挖掘,机器学习。

  摘要:本文首先研究了通用分类模型,分析了该模型对网页实时分类的不足。在此基础上,为了更适合网页的实时分类,本文提出了一种基于主题的网页分类模型。第一,垂直搜索引擎的主题爬虫由Nutch构建,可以随时抓取互联网上的网页,保证网页的实时性;然后对Nutch的爬取结果进行主题去噪处理,其中一部分与分类无关。页;最后,对抓取的网页进行分类。实验证明,通过该模型,可以大大提高网页分类的速度和准确率。针对网页实时分类的大数据需求,该模型可以有效优化输入样本,节省计算时间。

  关键词:

  如需英文信息,请点击此处

  基于主题的实时网页分类研究

  马建红1

  马建红,(1965-),女,教授,主要研究方向:人工智能、软件工程。

  张晨光2

  张晨光(1987-),男,硕士*敏*感*词*,数据挖掘,机器学习。

  摘要:本文首先对通用分类模型进行了研究,分析了通用模型对网页实时分类的不足。在此基础上,为了更适合实时分类,本文提出一种基于主题的分类模型。首先,通过Nutch构建垂直搜索引擎爬虫的主题,网页可以一直被抓取,从而保证网页的实时性。其次,去除部分页面女巫通过主题去噪对Nutch的抓取结果进行处理,与分类无关。最终可以对抓取的网页进行分类。实验表明,该模型可以提高速度和准确性。针对大数据的需求实时网页分类,该模型可以有效优化输入样本,节省计算时间。

  关键字:

  点击折叠

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线