抓取网页数据违法吗( 互联网网络爬虫技术和文本挖掘技术的区别-乐题库)
优采云 发布时间: 2021-09-11 01:12抓取网页数据违法吗(
互联网网络爬虫技术和文本挖掘技术的区别-乐题库)
一种面向招商引资领域的互联网情报采集与推荐系统
[0001]
技术领域
[0002] 本发明涉及一种投资促进领域的互联网情报采集与推荐系统,属于互联网技术领域。
背景技术
[0003] 从事投资促进领域的人员依靠信息的获取,开展投资促进工作、服务工作和咨询工作。目前投资信息的来源主要是线下活动和客户走访,缺乏主动获取信息的有效手段。因此,有必要利用互联网爬虫技术、全文搜索技术和文本挖掘技术帮助投资人员获取互联网投资信息和信息。
[0004] 网络爬虫又称网络蜘蛛、网络机器人,是按照一定的规则自动抓取万维网上信息的程序或脚本。网络爬虫将互联网上的所有页面分为五类:已下载但未过期、已下载并已过期、等待下载、可知和未知。爬行策略可分为广度优先搜索策略、最佳优先搜索策略、深度优先搜索策略等。
[0005] 全文搜索是一种文本数据搜索方法,将文档中的所有文本与搜索词进行匹配。全文检索研究整个文档信息的表示、存储、组织和访问,即根据用户的查询要求,从信息库中检索相关信息。全文搜索的中心环节是文档内容的表达、信息查询的获取、相关信息的匹配。
[0006] 文本挖掘是提取分散在文本文件中的有效、有用、可理解和有价值的知识,并利用这些知识更好地组织信息的过程。文本挖掘使用智能算法,如神经网络、案例推理、可能性推理等,结合文字处理技术,分析大量非结构化文本源(如文档、电子表格、客户电子邮件、问题查询、网络页等)),提取或标记关键词概念与词的关系,并根据内容对文档进行分类,以获得有用的知识和信息。中文分词是文本挖掘的基础。对于一段中文输入,成功进行中文分词可以达到计算机自动识别句子意思的效果。
发明内容
[0007] 本发明的目的在于解决招商引资服务咨询中存在的问题,提出一种面向招商引资领域的互联网情报采集与推荐系统。
[0008] 本发明的技术方案如下,一种用于投资促进领域的互联网情报抓取和推荐系统,它集成了互联网金融舆情、上市公司投资或并购信息、各公司CEO公开演讲、社交媒体通过网络爬虫及时获取跟踪信息;通过基于人工监督和机器学习的推荐算法对网络信息进行过滤推荐,推荐符合用户目标范围的优质信息;根据审稿人的推荐与否,并利用推荐信息的阅读量自动修改情报推荐分析,使以后获取的信息质量更高,减少人为干预。
[0009] 系统抓取媒体网站和社交媒体网站提供的信息,将抓取的关键词进行对比,并与招商领域相关,用于发现各种投资项目信号。
[0010]机器学习算法如下:(1)推荐模型的初始算法是判断信息是否出现在知识库中的关键词以及关键词出现的频率。关键词出现频率优先推荐;(2)推荐网页的特征必须人工筛选,人工筛选的结果将网页分为正面网页和负面网页,同时过滤后的结果被不同的人点击用户,点击量反映了网页的准确度和相关性;(3)系统分析网页特征值,网页特征值包括网页网站网址、时间、关键词频率;(4)系统将网页的特征值与人工筛选的结果与页面浏览量相关联,使用随机数建立init并使用深度学习神经网络进行训练,最终得到修正后的推荐模型。
[0011] 本发明是一种针对招商领域的互联网情报采集与推荐系统,包括招商情报采集模块、招商情报分析模块和招商情报服务模块。投资信息采集模块将每个网站采集招商智慧的数据发送到投资信息分析模块;信息分析后,投资信息分析模块向投资信息服务模块发送情报服务指令执行;投资信息采集模块、投资信息分析模块和投资信息服务模块的输出数据存储在数据库中。
[0012]投资信息采集模块包括爬虫规则定义子模块、网络爬虫子模块、统计分析子模块、人工审核子模块和规则设置子模块。爬取规则子模块制定智能爬取规则。网络爬虫子模块根据抓取规则,利用网络爬虫抓取互联网金融舆情、上市公司投资并购信息、各公司关键人物公开演讲、社交媒体跟踪信息根据爬行规则。子模块及时获取。
[0013]投资情报分析模块包括内容去重子模块、敏感词过滤子模块、情报关键词子模块、机器学习子模块、数据规范子模块投资情报分析模块分析网页的特征值,包括网页网站网址、时间、出现频率最好的关键词。
[0014] 招商情报服务模块包括话题呈现子模块、舆情简报子模块、统计分析子模块、人工审核子模块、规则设置子模块。
[0015]与现有技术相比,本发明的有益效果是:本发明系统的情报捕捉模块主要针对财经舆情,并有特定的投资关键词对这些舆情进行过滤,使得信息更准确。本发明系统返回的信息覆盖范围更广,不仅包括国内各大网络媒体,还包括各级政府官方网站,以及国外网站的企业信息;本发明系统推荐的招商舆情筛选系统具有自学习能力,可以根据用户的选择和推荐次数形成新的推荐算法,从而推荐更符合市场需求的情报信息。用户的需求。
图纸说明
[0016]图1是本发明的结构框图;图2为本实施例使用的通用网络爬虫采集的程序框图;图3为本实施例中使用的神经网络*敏*感*词*。
具体实现方法
[0017] 本发明的具体实现如图1所示。
[0018]本实施例为招商引资领域的互联网情报采集与推荐系统,包括投资情报获取模块、投资情报分析模块和投资情报服务模块。以下是这些模块的功能说明: Information采集module:该模块负责采集招商投资及相关话题。只有采集 指定相关的网站 和该部分的网页。一般网络爬虫返回的结果中含有大量用户不关心的网页,所以本系统的采集程序适用于垂直爬虫。根据给定的入口地址,不断获取和下载页面上的新链接。链接分为目标网址和非目标网址。目标URL主要是文章body的URL。除了解析目标URL中的链接外,还必须提取正文、标题、发布时间等信息。通用网络爬虫采集程序如图2所示。
[0019]采集项目应满足的要求如下:(1)采集主题包括:投资、金融、产业、企业、企业家、技术、高新技术、专利和科学与技术科技成果,世界500强、国内100强等定制主题。
[0020](2)采集相关文章文字、标题、发表时间等
[0021](3)可以根据采集网站自动灵活调度采集任务,或者手动触发任务。
[0022](4)静态页和正文页只采集一次,不重复采集。
[0023](5)内容更新动态页面可以重复采集。
[0024](6)待采集队列应该去重以避免重复采集。
[0025](7)最新信息可以及时采集。
[0026](8)可灵活设置采集线程数。
[0027](9)可以为不同的网站设置不同的采集深度。
[0028](10)可以根据链接组织规则和页面结构灵活配置处理规则。
[0029]投资情报分析模块:对采集的文本进行分析,包括以下步骤:舆情识别、文本去重、文本摘要、舆情分类、舆情情绪分析、企业关键词标注、可信度投资机会指数分析计算,企业媒体指数计算,机器学习。
<p>[0030](1)舆情识别:通过统计符合规则的关键词数量和权重来判断是否是文章收录舆情信息。对于不收录舆情信息的文章 ,不需要进一步的分析处理,不需要发布。文章的匹配指数=关键词频率难度),但当匹配指数达到一定阈值时,舆论认可。