关键词文章采集 经典之作:《战狼2》口碑票房双丰收,吴京成最值得纪念的新锐导演

优采云 发布时间: 2022-12-12 00:14

  关键词文章采集 经典之作:《战狼2》口碑票房双丰收,吴京成最值得纪念的新锐导演

  关键词文章采集&过滤

  1、准备工作在上篇文章中我介绍了如何采集豆瓣top250影片,但实际采集效果并不理想,这是因为豆瓣在电影专题页面对于电影标题以及介绍内容的处理较为粗糙,这意味着找不到我们想要的电影推荐数据。那么,

  2、数据获取豆瓣影评数据获取实践

  

  1)从豆瓣将影评数据复制下来在收集前,我首先先复制豆瓣上的影评数据,并用wind数据分析软件进行收集,最终数据包含20277条。下面我会将豆瓣影评数据持续更新下去。

  2)读取wind数据分析软件并进行数据分析操作接下来,读取wind数据分析软件并进行数据分析操作,分析采集豆瓣电影标题和观影评论数据的操作。接下来的所有操作,都会在wind数据分析软件中完成。

  3、数据清洗和处理数据清洗需要大量的精力,作者曾在多个地方进行数据清洗,这个过程对于刚学习数据分析知识的人来说比较复杂,不推荐通过网上搜索方式查看文章。下面我会逐一分析清洗数据的操作。

  

  4、数据分析

  1)标题的标注及数据预处理对于一篇影评来说,标题一般可以由标题关键词组成,标题关键词又可以分为以下几种:标题数字:比如“《战狼2》口碑票房双丰收!吴京成最值得纪念的新锐导演”,以这种形式为标题的影评可以作为一篇电影专题文章,如果不需要写专题文章,不建议对标题进行去重。标题在句中:我们可以根据专题选题“《战狼2》标题怎么写?”,将标题进行拆分后分别拆分为“标题1——《战狼2》映前点映获国家主席点赞,北京大学排片占比近7成?”和“标题2——《战狼2》映前点映获国家主席点赞,北京大学排片占比近7成?”,然后利用wind数据分析软件的标题分析功能,可以很直观地看到这两个标题的区别,是否删除前一标题,取决于作者自己的喜好。

  标题在句末:标题1结尾处的关键词可以是一个双关语或一个标题,如标题3的标题是“《新喜剧之王》冲破票房奇迹,票房号称22亿,但好评只有6.6分”,则可以分拆标题为“标题3——《新喜剧之王》冲破票房奇迹,票房号称22亿,但好评只有6.6分”。将标题分拆为三段或者四段后,可以直接作为自己专题题目,标题的数量可以从0到10,但是每一段标题一定要对应自己的电影。

  同时,因为标题是两个句子组成,所以在拆分标题的时候,标题的汉语输入,不建议使用五笔输入法,最好是使用全拼、智能abc等输入法,还可以使用灵格斯词典。为了在影评标题中增加“top250”标签,作者需要对标题进行处理。作者在。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线