总结:爬虫技术爬取豆瓣上电影的热门词采集词云

优采云 发布时间: 2022-10-26 05:11

  总结:爬虫技术爬取豆瓣上电影的热门词采集词云

  关键词采集词云本文利用爬虫技术爬取了豆瓣上电影的热门词,然后用词云制作工具做词云可视化。采集方法一:爬虫爬虫主要做了2件事,一件是登录豆瓣,一件是爬取热门电影的数据。登录豆瓣可以利用谷歌浏览器的*敏*感*词*登录,爬取数据时可以利用soup来直接抓取网页上的js。*敏*感*词*见上面的链接。登录后的界面如下图。点击“我要爬取”按钮即可看到一个登录按钮,点击后需要输入自己的登录邮箱,然后我们要获取到了我们个人信息里的其中几项来判断我们登录成功与否,登录成功并且所有已登录用户的邮箱账号和密码都是我们自己的后,就可以进行第二步了,用爬虫把数据爬下来。

  

  爬虫采集爬虫步骤如下图。分析请求根据我们爬取的主要关键词,我们可以根据自己的爱好对图片的抓取,那么我们就要先分析一下爬取到数据后的请求。首先发送一次请求,返回来的是网页请求地址,然后我们可以看到带了一个cookie的值。cookie中包含我们个人数据的密码,我们可以只要提取这个值,然后在实际的web应用中,都可以有这个密码。

  根据可靠的数据,cookie中包含50多k的密码,这说明根据爬取,就能知道我们的密码。然后再发一次请求,返回的是一个标准http连接请求,发起请求的url也有一个我们要爬取的字段,这个字段没有什么卵用。因为我们实际爬取中可能也会重复这个请求,根据我们的方案,也会有多个url发起了请求,并且我们可以带上cookie值。

  

  那么获取到请求参数之后,我们该如何处理呢?这里我们需要使用工具来做词云。词云制作工具选择的工具是云词云制作工具,该工具可以做出一个动态词云,里面包含了20000多万条数据,并且还可以对其进行编辑、操作。好,具体来讲一下步骤。我们需要爬取到知乎的相关内容。然后获取数据,建立词云。爬取知乎的数据主要有2个途径,通过爬虫爬取或者抓包获取。

  通过爬虫爬取下来的数据只包含js代码,并且有我们个人数据的密码,我们使用编程的思维可以通过编程的方式做词云制作。以豆瓣电影“音乐与社会”为例,搜索“音乐与社会”,很明显会出现5000多万条数据,点击进入“音乐与社会”,选择搜索“音乐”,同时会出现2500多万条数据,我们选择会出现2800多万条数据。然后我们点击最下方的“下载全部数据”。

  提示字体数量过大,否则无法下载。说明是下载一些没有用的字体,可以像这个样子一个一个数。找到需要下载的数据包的url后,在网页中点击文件,找到需要下载的数据包下载,下载完成后,要进行编辑数据包。选择好下载的文件即可,点击“保存”生成词云。完成。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线