文章自动采集(如何从豆瓣搜索电影，最简单的爬虫方式，就是要搜集豆瓣数据的词)

优采云发布时间: 2021-11-05 21:04

　　文章自动采集了豆瓣电影数据，代码在tjfler4010/tfget，涉及到的知识点：统计学，机器学习，sql（主要是针对单篇文章），excel（统计处理）。原数据可见-film.txt。1.数据采集首先，在chrome扩展里添加一个插件：videocamp，用来将页面各种图片嵌入为txt形式，自动采集下载各种豆瓣电影数据。

　　chrome拓展这里我就不介绍了，有很多。接下来进入本文主要的知识点-如何从豆瓣搜索电影，最简单的爬虫方式，就是要搜集豆瓣数据的词。1.1词标签选择首先，要设置好自己的豆瓣账号，相当于用户名了，随便一个就行。接下来就是要加载词，把电影标签加上，这样搜索才会有它的相关词出现。注意，豆瓣的用户名，不能有“。

　　”和“。”等，否则不会被搜到，因为标签只能加一个，需要设置好字符长度。1.2数据采集我爬虫采集的数据，是第一步设置好的用户名和用户名对应的电影标签，下面是豆瓣上面所有电影标签列表（没有扩展，见如下图），我把它们统称为单标签。当然也可以加上别的标签，例如图片，标签就会变成多标签了，如下图（蓝线所示）。2.数据清洗2.1清洗数据做数据清洗的工作，分为两步：选择自己需要的数据，清洗字符串：例如搜索引擎，需要打码上传id,用户名、标签，通过自定义列表，例如id,用户名列表上传图片，标签上传标签重命名文件，例如id,标签名重命名列表格式化数据..2.2清洗结果集好了，说了那么多，最后是我用的python代码。

　　我写代码的语言是python2.x。2.2.1源代码python爬虫，用的最多的网络框架是python3.x，python2.x和3.x数据格式、自定义函数的区别，请参考如下回答，推荐阅读下我的回答：、豆瓣搜索器、豆瓣电影标签选择器，请参考：。最后按下启动按钮，数据就已经采集好了。代码我再提一下，importjson将处理好的文件保存到本地，请自行体会python的异步特性，不懂在评论区提问，已回复。

0

2021-11-05

文章自动采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

文章自动采集(如何从豆瓣搜索电影，最简单的爬虫方式，就是要搜集豆瓣数据的词)

0 个评论

发起人

AI时代内容工厂

文章自动采集(如何从豆瓣搜索电影，最简单的爬虫方式，就是要搜集豆瓣数据的词)

0 个评论

发起人

相关问题