网站内容采集系统( 所述各个网络爬虫的状态调度与方法及系统的应用)

优采云 发布时间: 2022-01-26 21:18

  网站内容采集系统(

所述各个网络爬虫的状态调度与方法及系统的应用)

  一种基于互联网的舆情数据采集方法及系统*敏*感*词*法

  【技术领域】

  [0001] 本发明涉及互联网数据采集技术领域,具体涉及一种基于互联网的舆情数据采集的方法和系统。

  【背景技术】

  网络舆情是通过互联网传播的,公众对现实生活中的一些热点和焦点问题,主要通过论坛上的论坛,具有较强的影响力、倾向性情绪、态度、意见、言论或观点。发表评论和跟进,博客等得到落实和加强。由于互联网具有虚拟性、隐蔽性、发散性、渗透性和随机性等特点,越来越多的网民愿意通过这个渠道发表意见、传播思想。而且,互联网已经成为反映社会舆论的主要载体之一。

  目前,大部分部门和企业的舆情监测管理工作主要依靠人工,人工舆情监测面临舆情信息采集不全、舆情信息发现不及时、舆情信息发现不准确、舆论信息使用不便。和许多其他问题。因此,舆情信息的采集和上报完全靠人工,耗费大量时间和精力,效果也不理想。

  [0004] 在新的互联网形势下,面对这样的困扰,需要借助互联网舆情监测工具,快速建立*敏*感*词*的舆情监测机制,提高互联网舆情数据的采集能力和网络舆情监测能力。实战部门情报。引导能力。

  【发明内容】

  [0005] 鉴于上述问题,本发明提出提供一种基于互联网的舆情数据采集的方法和系统,以克服上述问题或至少部分地解决或缓解上述问题。

  根据本发明的一个方面,提供了一种基于互联网的舆情数据采集方法,该方法包括:

  实时监控各个网络爬虫的状态,根据各个描述的网络爬虫的状态调度各个网络爬虫,实现对互联网上每个预设舆情网站内容和/或其他网站内容屏蔽;

  [0008] 使用网络爬虫根据预设条件爬取各个预设舆情网站的网页内容,并从爬取的数据中提取对应的网站地址;

  [0009] 对网站的地址进行地址解析,对解析成功的网站的地址进行去重、去噪和分类;

  [0010] 使用网络爬虫爬取分类成功网站的网站地址对应的网页内容;

  为获取网站对应的网页内容建立舆情数据全文索引信息,并将所述网页内容存储在预设内容数据库中,舆情数据全文索引信息存储在预设索引数据库中。

  可选的,所述实时监控多个网络爬虫的状态,根据所述网络爬虫的状态调度各个网络爬虫,包括:

  [0013] 根据用户输入的网站网站,预先设置需要在互联网上进行网页内容爬取的舆情网站,以及网站无需在互联网上进行网页内容爬取;

  根据用户输入的爬虫设置参数,进行网络爬虫的设置;

  [0015] 实时感知各个网络爬虫的工作状态;

  根据各网络爬虫的工作状态,生成爬虫分类信息,将负担大于第一预设值的爬虫从当前的取数据任务中解放出来,分配负担小于第二预设值的爬虫执行描述的数据捕获任务;

  [0017] 过滤不需要网页内容爬取的网站的地址。

  可选的,所述采用所述网络爬虫根据预设条件对所述各个预设舆情网站的网页内容进行爬取,并提取对应的网站地址,包括:

  [0019] 根据预设条件,抓取各个预设舆情网站的网页内容;

  [0020] 计算获取的网页信息与预设条件的相似度;

  [0021] 根据相似度大于第三预设值的网页信息生成对应的网站地址。

  [0022] 可选的,对网站的地址进行地址解析,对解析成功的网站的地址进行去重、去噪和分类,包括:

  [0023] 对网站地址进行地址类型判断,根据判断结果选择合适的地址解析器进行地址解析,对解析成功的网站地址进行去重去噪;

  [0024] 对去重去噪后的网站地址进行分类。

  可选的,所述采用所述网络爬虫爬取分类成功的网站地址的网站对应的网页内容,并下载该网页的全文信息,包括:

  [0026] 使用网络爬虫爬取分类成功网站对应的网站地址的网络内容;

  [0027] 根据分类成功的网站地址的地址类型选择下载器,并使用选择的下载器下载网页内容。

  可选的,为抓取到的网站对应的网页内容建立舆情数据全文索引信息,并将该网页内容存储在预设的内容数据库中,并将舆情数据全文索引信息存储在预设的内容数据库。设置的索引数据库,包括:

  [0029] 为被抓取的对应网站的网页内容建立舆情数据全文索引信息;

  [0030] 取到的网站对应的网页内容存储在预设的内容库中,舆情数据全文索引信息存储在预设的索引库中;

  [0031] 对索引数据库中存储的数据进行统计分析。

  [0032] 根据本发明的另一方面,提供了一种基于互联网的舆情数据采集系统,该系统包括数据采集单元和检索分析单元,数据采集单元包括爬虫调度子系统和网络爬虫子系统;

  爬虫调度子系统用于实时监控各个网络爬虫的状态,根据各个网络爬虫的状态调度各个网络爬虫,从而实现对各个预设舆情内容的爬取网站@ > 在互联网上和/或阻止互联网上的其他 网站 内容;

  [0034] 网络爬虫子系统,用于根据预设条件对各个预设舆情网站的网页内容进行爬取,并从爬取的数据中提取对应的网站地址;对网站的地址进行地址解析,对解析成功的网站地址进行去重去噪后的分类;网络爬虫子系统也用于分类成功的网站@网站地址对应要爬取的网站的网页内容;

  [0035] 检索分析单元,用于为网站对应的网页内容建立舆情数据全文索引信息,将网页内容存入预设的内容数据库和全文索引网页的信息。存储在预设索引数据库中。

  可选的,所述爬虫调度子系统包括:

  [0037] 分类配置模块用于根据用户输入的网站网址预先设置互联网中需要抓取网页内容的舆情网站,网站 @网站 互联网中的网页内容不需要爬取。@网站;

  爬虫配置模块,用于根据用户输入的爬虫进行参数设置,进行网络爬虫系统的设置;

  [0039] 状态监测模块用于实时感知各个网络爬虫的工作状态;

  爬虫分发模块,用于根据各个网络爬虫的工作状态生成爬虫分类信息,将负担大于第一预设值的爬虫从当前的数据抓取任务中解放出来,分发负担小于第一预设值的爬虫。第二个预设值。值爬虫执行数据抓取任务;

  [0041] 站点过滤模块用于过滤不需要网页内容爬取的网站的地址。

  可选的,所述网络爬虫子系统,包括:

  [0043] 抓取模块,用于根据预设条件抓取各个预设舆情的网页内容;

  计算模块,用于计算所抓取的网页信息与所述预设条件的相似度;

  生成模块,用于根据相似度大于第三预设值的网页信息生成对应的网站地址;

  [0046] 地址解析模块用于判断网站地址的地址类型,根据判断结果选择合适的地址解析器进行地址解析,并对解析成功的网站地址进行去重。,去噪处理;

  URL管理模块用于对网站去重去噪后的地址进行分类聚类;

  所述爬取模块还用于对分类成功的网站地址的网站对应的网页内容进行爬取;

  [0049] 地址下载模块用于根据分类成功的网站地址的地址类型选择下载器,并利用选择的下载器下载网页内容。

  可选的,所述检索分析单元,包括:

  [0051] 索引建立模块,用于为抓取到的网站对应的网页内容建立舆情数据全文索引信息。

  [0052] 存储模块,用于将采集到的网站对应的网页内容存储到预设的内容库中,将舆情数据的全文索引信息存储到预设的索引库中;

  [0053] 统计分析模块,用于对索引数据库中存储的数据进行统计分析。

  本发明的有益效果是:

  1、本发明提供的基于互联网的舆情数据采集方法及系统,由

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线