基于电子产品领域的微博热点话题分析预测方法及系统

优采云 发布时间: 2021-04-28 20:04

  

基于电子产品领域的微博热点话题分析预测方法及系统

  

  本发明涉及电子产品领域,尤其涉及一种微博上热点话题的预测方法和系统。

  背景技术:

  微博的自由性和大量信息使手动组织和分类变得困难。手动操作不能满足效率方面的需求。快速合理地预测微博的发展趋势很重要。许多学者已经开始研究发现和预测技术主题。

  技术实现要素:

  本发明的目的是提出一种微博热点话题分析和预测方法,该方法利用数据挖掘算法有效处理在采集中获得的微博信息,为用户提供灵活,快速,易于使用的信息。利用数据推送的经验。微博信息包括微博内容和微博参数。

  一种分析和预测微博热点话题的方法,其特征在于包括以下步骤:

  S 1、从主流微博网站 采集微博数据中,微博信息包括:微博内容和微博参数;

  S 2、对微博文本进行数据预处理,包括分词和词频统计;

  S 3、进一步计算和分析微博文本,计算描述主题的各种定量指标,计算微博的各种热点指标,并计算当前微博的热门话题;

  S 4、按从高到低的顺序显示微博上的热门话题。

  采集微博数据具体为:门户网站指定的开放界面微博采集门户网站的微博信息通常使用Web爬网程序,该爬网程序用于搜索Internet,下载和存储所需信息。 。数据。

  采集微博数据的处理过程为:

  过程1. 1,跟踪采集器所有已知URL的存储模块;

  步骤1. 2,根据给定的URL从网络获取文件的文件下载模块;

  进程1. 3是文件解析模块,负责从各种格式(例如HTML,PDF,Word等)的文件中提取原创内容,还负责提取文件中的URL以及对索引有用的其他数据,尤其是元数据信息;

  处理1. 4,一种存储模块,用于存储已进行采集的文件的元数据和在爬网过程中从原创文件中提取的内容;

  处理1. 5,将URL转换为标准格式,以便比较和计算URL的正则化模块;

  程序1. 6,避免使用无效网址的网址过滤模块;

  网络采集器会自动获取多个初始网页的URL。在搜索和爬网URL的过程中,引用了增量更新的概念。在抓取当前页面的同时,它也在抓取随后的URL,直到满足由0定义的结束判断条件为止。

  采集微博数据适合通过自动聚类采集的微博内容并获取微博的类别来对微博进行分类。

  数据预处理的具体工作过程如下:

  处理2. 1,输入文档集合,将源微博与转发的微博合并,

  处理2. 2,使用现有的分词技术工具jieba来分割微博文本;

  过程2. 3,过滤收录数字,标点符号和其他无意义的单词的停用词,并保留“#”表示讨论的话题,并保留“ @User”表示话题的转发适合基于垃圾邮件重新发布短语在数据库的中心短语中过滤垃圾邮件短语;

  处理2. 4,并对分词结果执行词性标注。标记内容包括诸如单词频率WF,词素WL,特殊标志SI和命名实体NE之类的参数。

  主题计算分析的具体步骤如下:

  步骤3. 1,对微博进行分类,并根据其来源,源微博和转发微博将其划分为微博;

  步骤3. 2,根据Mantaras距离关键词优化提取;

  步骤3. 3,根据关键词的三元组,w代表微博链中的一个单词; t表示单词所在的微博与转发的微博之间的时间间隔,在此为了方便计算而使用时分等级; s表示单词所在的微博的类型,其值为(0、 1、 2),对应于上述常规,显式和广播;三元数据该空间表示为W。与转发的消息中的单词相对应的三元组中的t的值为0;

  在步骤3. 4中,根据关键词及其三元组计算主题的受欢迎程度。

  基于Mantaras距离优化提取关键词的具体步骤如下:

  步骤4. 1,以“曼塔拉斯距离”为分支划分标准,学习训练数据,并构造决策树T;

  步骤4. 2,输入数据集;

  步骤4. 3,根据数据预处理模块中提取的单词的相关属性:单词频率WF,词位WL,特殊标志SI,命名实体NE等参数,计算每个属性的值和单词的权重可以通过以下公式计算:

  其中,α,β,γ,μ是缺陷产品,位置,特殊符号和命名实体的调整因子,Q(wi,dj)是wi的权重,而WL(wi,dj)是是该单词的权重位置,SI是一个特殊符号,它是一个突出的单词,例如粗体或黑色,SIH,是一个特殊符号的单词,例如在“”中的SIS单词;

  步骤4. 4,将在步骤4. 3中计算出的单词的权重从最大到最小进行排序,选择前5000个单词以构成关键词集,并为每个关键词数字分配一个ID

  具体主题计算分析为:

  根据隐式Dirichlet模型(LDA)的思想选择权利要求7中获得的关键词集,根据以下内容获得关键词和微博文本中主题的联合概率分布公式:

  p(w |θ,β)= p(w | z,β)p(z |θ)

  = p(w | z)p(w |β)p(z |θ)

  = ∑∈Wp(t,s)p(wi | t,s,zi)∑zp(w | z,β)p(z |θ); (2)

  表示单词分布; θ表示话题分布; α是话题分布θ的先验分布,即Dirichlet分布参数; β是单词分布的先验分布,即Dirichlet分布的参数。

  所描述的主题显示过程是:根据当前流行程度从低到高对微博上的热门话题进行排序和显示。

  微博热点话题分析预测系统,该系统包括:数据采集模块,用于从新浪微博网站 采集获取微博,并在一定时间内重新发布微博信息。信息包括:微博内容和微博参数;

  数据预处理模块用于处理由数据采集模块采集获得的微博,包括微博的合并,分词,过滤无用信息等,以查找频率更高的单词;

  主题计算分析模块根据数据预处理模块最终获得的单词,计算微博主题的受欢迎程度,包括主题特征单词提取和相似主题合并,适用于数据预处理模块获得的高频单词,基于LDA改进的热点话题分析和预测模型,该模型将相似度超过阈值的话题合并并合并相似话题,并根据该模型判断后续微博是否可以成为热点话题;

  主题显示模块,对热门话题的热门话题进行排序,并在微博上获取热门话题的排名;

  data 采集模块为数据预处理模块提供处理数据。然后由主题预处理和分析模块计算由数据预处理模块处理的数据,以计算现有主题并为当前微博做出主题预测。最后,主题显示模块在微博上显示热门主题。

  本发明的有益效果如下:

  本发明根据采集中微博的内容计算出热门词,并根据获取的微博参数计算出热门词,从而准确地确定了微博的热门话题,并根据根据计算出的热门词流行度,计算出获得的微博参数,可以准确判断微博的热门话题,挖掘结果更能反映互联网舆论的客观事实。

  上面的描述仅仅是本发明的技术方案的概述。为了更清楚地理解本发明的技术手段,可以根据说明书的内容来实施,并且可以使本发明的上述以及其他目的,特征和优点更好。显然并且可以理解,下面将引用本发明的具体实施例。

  图纸说明

  通过阅读以下优选实施例的详细描述,各种其他优点和益处对于本领域普通技术人员将变得显而易见。附图仅用于示出优选实施例的目的,并且不被认为是对本发明的限制。此外,在所有附图中,相同的附图标记用于表示相同的组件。在所附图片中:

  图1是根据本发明实施例的微博热点话题分析预测系统的结构*敏*感*词*;

  图2是热点话题识别流程图;

  图3是数据采集的流程图;

  图4是数据预处理模块的基本流程图;

  图5是预测分析模块的基本框架图。

  具体的实现方法

  下面结合附图,对本发明实施例中的技术方案进行清楚,完整地描述。显然,所描述的实施例仅仅是本发明实施例的一部分,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

  根据本发明的实施例,提供了一种微博热点话题分析预测系统。如图。图1是根据本发明实施例的微博热点话题分析预测系统的结构*敏*感*词*。本发明实施例的微博热点话题系统,包括:采集模块,预处理模块,计算分析模块和显示模块。下面详细描述本发明实施例的各个模块。

  采集模块适合通过开放式接口采集来获取微博信息,其中的微博信息包括:微博内容,微博发布时间,微博转发与源微博发布之间的时间间隔,微博。博客的来源和微博信息的来源;上述微博参数可以包括以下一项或多项组合:时间点,该时间点的微博转发次数,微博转发总数,微博评论总数以及用户数量转发关系和等等。

  具体来说,采集模块可以通过门户微博采集指定的开放接口访问门户微博的微博信息。

  在实际应用中,不同的微博类别有不同的热点话题,不同类别的微博话题的受欢迎程度也不同。例如,运动微博中的热门话题低于娱乐八卦微博中的热门话题。许多。这需要对微博主题进行分类,以便用户可以根据不同的微博类别查看微博热点。

  本发明实施例采用自动聚类的方法对微博进行分类,其中自动聚类是指:计算机根据被调查对象的内部或外部特征,根据一定的要求(例如数量类别受限,相似对象的接近度等),将具有相似,相似或相同特征的对象分组在一起的过程。微博内容的自动分类可以分为运动微博,娱乐微博,情感微博等。

  根据本发明的实施例,提供了一种微博热点话题分析预测系统。如图。图1是根据本发明实施例的微博热点话题分析与预测方法的流程图。如图1所示。如图2所示,根据本发明,本发明实施例的微博热点话题处理包括:数据采集,文档集合输入,分词,无用词过滤,关键词流行度计算和热点话题识别。

  请参阅图3。首先,必须解决数据源问题。您可以从网站(它们是爬网程序)中批量下载这些微博客。使用成熟的采集器软件,您可以使用界面操作进行搜寻。本发明使用免费的gooseeker软件,该软件是Firefox浏览器的插件,它避免了许多网站动态渲染不易分析的问题。它使用浏览器的功能,只要可以在浏览器中看到这些元素即可轻松下载。

  采集模块用于根据接收到的查询请求进行相应的数据查询;当基于数据时间范围元素确定查询请求为实时数据查询时,查询路由将相应的任务调度请求转发给在线查询模块。 采集该模块负责调用系统服务以获得并缓存实时数据。实时数据采用增量缓存,每次使用任务调度请求以增量方式获取准实时数据时都会触发该增量缓存。缓存完成后,返回查询结果。

  我们捕获了不同类型的微博数据,包括重新发布的用户,重新发布的用户,微博内容,发布时间和其他对象。

  参考图4,数据预处理模块,适合于处理采集微博的内容;

  预处理模块需要找出采集中各种类型的微博的源微博及其对应的转发情况,即,转发的微博必须具有该微博的内容,并且该源微博必须为所有重新发布的”的微博都合并为一条记录,然后进行分词,并对诸如无用的单词之类的数据进行过滤;进行词性标记,标记内容具有频率WF,词素WL,特殊标志SI和命名实体NE等参数。

  请参阅图5,该分析和预测模块适用于计算预处理数据。

  具体来说,计算和分析模块适用于基于Mantaras距离优化的关键词提取所有预处理文档的单词。 关键词提取的参考因子是词频WF,词素WL和特殊标记SI,即实体NE,可以通过以下公式计算词的权重:

  其中,α,β,γ,μ是缺陷产品,位置,特殊符号和命名实体的调整因子,Q(wi,dj)是wi的权重,而WL(wi,dj)是是该单词的权重位置,SI是一个特殊符号,一种突出的单词,如粗体或黑色的SIH,以及一种特殊符号的单词,如“”中的SIS单词。

  选择前5000个权重的单词来为其分配ID,并构建一个三元组。

  适合统计单词所在的微博的时间间隔和类型,并根据LDA模型进行扩展;该模型的使用推导了吉布斯抽样方法,推导的主要过程如下:获得微博文本中的所有单词和主题的联合概率分布为

  p(w |θ,β)= p(w | z,β)p(z |θ)

  = p(w | z)p(w |β)p(z |θ)

  = ∑∈Wp(t,s)p(wi | t,s,zi)∑zp(w | z,β)p(z |θ)(4)

  按照热门度值从高到低的顺序输出并显示热门话题。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线