关键字采集文章(EventMonitorEventbyBaidu)

优采云 发布时间: 2021-10-15 12:02

  关键字采集文章(EventMonitorEventbyBaidu)

  事件监视器

  基于百度搜索引擎建立的在线新闻语料库的事件监视器,使用事件关键字进行事件故事情节分析,基于给定的事件关键词、采集事件信息,对事件进行挖掘和分析。

  项目路线图

  项目分解

  1)基于主题的主题历时语料库关键词采集

  执行方法:进入EventMonitor目录,进入cmd窗口,执行“scrapy crawl eventspider -a keyword=topic关键词”,或者直接python crawl.py,等待几秒,就可以在新闻中存储相应的文件夹新闻文件,可以获取对应事件的话题集,话题历史文本

  2)热点事件的情绪分析

  对于1)得到的历史语料,可以使用基于依赖语义和情感词汇的文本级情感分析算法进行情感分析

  这部分参考了我的章节级情感分析项目DocSentimentAnalysis:

  3)热点事件搜索趋势

  4) 热点事件话题分析

  对于1)得到的历史语料,可以使用LDA、Kmeans模型进行主题分析

  这部分是指我的话题分析项目Topicluster:

  5)热点事件的代表性文本分析

  对于1)得到的历史语料,可以使用跨文本textrank算法对文本集的重要性进行计算和排序

  这部分是指我的文本重要性分析项目ImportantEventExtractor:

  6) 热点事件新闻文本图形化展示

  获取每条历史新闻事件的文本,可以使用关键词、实体识别等关系抽取方法,将文本可视化展示

  这部分内容参考我的文本内容可视化项目TextGrapher:

  结束语

  事件监控的方法很多,需要解决的问题也很多。上面提出的方法只是一种尝试。算法本身还有很多需要改进的地方。

  接触

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线