文章自动采集(如何从豆瓣搜索电影,最简单的爬虫方式,就是要搜集豆瓣数据的词)
优采云 发布时间: 2021-11-05 21:04文章自动采集(如何从豆瓣搜索电影,最简单的爬虫方式,就是要搜集豆瓣数据的词)
文章自动采集了豆瓣电影数据,代码在tjfler4010/tfget,涉及到的知识点:统计学,机器学习,sql(主要是针对单篇文章),excel(统计处理)。原数据可见-film.txt。1.数据采集首先,在chrome扩展里添加一个插件:videocamp,用来将页面各种图片嵌入为txt形式,自动采集下载各种豆瓣电影数据。
chrome拓展这里我就不介绍了,有很多。接下来进入本文主要的知识点-如何从豆瓣搜索电影,最简单的爬虫方式,就是要搜集豆瓣数据的词。1.1词标签选择首先,要设置好自己的豆瓣账号,相当于用户名了,随便一个就行。接下来就是要加载词,把电影标签加上,这样搜索才会有它的相关词出现。注意,豆瓣的用户名,不能有“。
”和“。”等,否则不会被搜到,因为标签只能加一个,需要设置好字符长度。1.2数据采集我爬虫采集的数据,是第一步设置好的用户名和用户名对应的电影标签,下面是豆瓣上面所有电影标签列表(没有扩展,见如下图),我把它们统称为单标签。当然也可以加上别的标签,例如图片,标签就会变成多标签了,如下图(蓝线所示)。2.数据清洗2.1清洗数据做数据清洗的工作,分为两步:选择自己需要的数据,清洗字符串:例如搜索引擎,需要打码上传id,用户名、标签,通过自定义列表,例如id,用户名列表上传图片,标签上传标签重命名文件,例如id,标签名重命名列表格式化数据..2.2清洗结果集好了,说了那么多,最后是我用的python代码。
我写代码的语言是python2.x。2.2.1源代码python爬虫,用的最多的网络框架是python3.x,python2.x和3.x数据格式、自定义函数的区别,请参考如下回答,推荐阅读下我的回答:、豆瓣搜索器、豆瓣电影标签选择器,请参考:。最后按下启动按钮,数据就已经采集好了。代码我再提一下,importjson将处理好的文件保存到本地,请自行体会python的异步特性,不懂在评论区提问,已回复。