解读:教大家如何利用采集豆瓣电影top250内容，挖掘用户画像的潜在价值

优采云发布时间: 2022-11-07 01:06

　　文章采集文章采集是网络爬虫与文字工程常用的技术之一，它的用途非常广泛，可以帮你爬到你想要的结果，并且在公司内部应用非常广泛。本文将教大家采集豆瓣电影top250内容，目前有总共6821部在豆瓣可以找到。同时，我也将教大家如何利用采集到的数据进行数据分析与机器学习，挖掘用户画像的潜在价值。设置环境我们使用python的urllib2库来抓取豆瓣的数据。

　　我们首先要进行的是设置采集规则：一般可以使用requests库将request_headers传入urllib2程序内部来设置规则，headers传入urllib2后我们可以得到error等信息。所以首先我们需要先将urllib2设置好：可以参考python爬虫的urllib2设置requests设置下面这个代码我们设置request的头部信息和cookie等，通过urllib2程序内部的beautifulsoup_extract_tags函数对request_headers和error进行解析：urllib2接收了url的请求头和请求tags，tags对应了请求的关键字。

　　于是requests就请求成功了。最终我们会得到一个url，需要解析出信息的数据就可以得到最终的结果了。由于是分析评论，我们需要了解各个评论的总和，其中评论人数top25是列表，有名字就可以直接进行爬取了。将总和相加会得到ulist，ulist可以获取评论的总数。并且ulist是包含评论人数信息的一个文本文件。

　　这里我们要使用解析json格式的方法解析出评论信息：解析完后就可以进行机器学习挖掘了，可以用一些分词，聚类，关联性，反文本等等的方法去利用分析的结果去挖掘用户画像。上面这部分文字是没有写入sql数据库的，我们还是需要将数据写入mysql：获取到文本后，本质上需要解析得到评论数据，再将数据存储。为此需要知道标题，评论链接，评论内容等等评论数据，我们常用的有json格式的方法，这里也是需要进行相应处理的。

　　否则需要写入特定的文件里再将结果同步到mysql。评论发布得到文本后，我们还需要制作评论在页面中的*敏*感*词*，也就是在标题下面会出现一些小的链接，这些链接是每一个评论的开始，我们只需要找到这些就可以将这些短评很好的记录下来。首先还是通过链接上的长短来将*敏*感*词*切分：将所有标题前面加上---link，这个可以将短评划分成多个部分，同时如果不想打开超链接，可以加上一些link白名单。

　　然后就将*敏*感*词*填入数据库：数据分析的方式首先使用pandas库将得到的数据进行整理。再次是将分析结果存储为csv格式，我们采用的是excel作为分析结果。首先有两种方式进行处理数据，一种是用脚本直接将文本发布出去，另一种是使用数据库。

0

2022-11-07

文章采集文章采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

解读:教大家如何利用采集豆瓣电影top250内容，挖掘用户画像的潜在价值

0 个评论

发起人

AI时代内容工厂

解读:教大家如何利用采集豆瓣电影top250内容，挖掘用户画像的潜在价值

0 个评论

发起人

相关问题