如何实现从爬取第一万个词条的关键词？

优采云发布时间: 2021-06-03 23:01

　　如何实现从爬取第一万个词条的关键词？

　　关键词采集按是用来采集一些关键词，比如你搜索“美女”，这时候百度会有一个“美女”的词条，也就是搜索接下来会蹦出一个美女的相关词条。比如它会跳出一些美女的相关词条：在这里，我们可以看到一些美女的相关网站，这样也就达到我们采集关键词的目的了。当我们搜索美女的时候，出现如下一些词条：我们就可以把这些词条采集下来，看看哪些词条属于美女相关的。

　　在这里，我们先获取其中一部分词条，如下一次我们获取第一万个词条，采集了2100多个词条。此时，我们还想知道哪些词条属于美女相关的，就用到了爬虫。爬虫爬取了第二万多个词条。爬虫利用的网页如下：这时候，我们只要利用爬虫采集下属于网页某页面的某些词条，再把这些词条加入列表即可，爬虫就会一直不停地获取该页面的所有关键词条，为我们接下来爬取属于我们自己的关键词条做铺垫。

　　那么爬虫是怎么实现从爬取第一万个词条，到后面爬取更多网页的呢？这就是本文的最关键的技巧所在，也是最困难的技巧所在。如下：install.packages('encutfromcrawl')url=''json=requests.get(url)format=requests.post(json,json=format)withopen('url','w')asf:forextname,tag,pageinenumerate(json.read()):ifextnameintag:json.write({'name':extname})else:json.write({'month':'0-1000'})print(json.decode('utf-8'))经过上面这一段代码，爬虫一共进行了192次爬取，爬取了8万条网页的关键词。

　　爬取最多的单页有21页。我们在爬取最后一页的时候，就会去post请求爬取页面的最后一页，因为第一页有爬取了两万多条，后面的四十多万条就都是post请求的了。用到的工具就是：urllib.request.urlopen(url)headers={'user-agent':'mozilla/5.0(windowsnt6.1;wow64)applewebkit/537.36(khtml,likegecko)chrome/63.0.3272.101safari/537.36'}frombs4importbeautifulsoupsoup=beautifulsoup(soup.prettify('text'),'lxml')soup.text.strip().replace('\n','')i=0soup.text.strip().replace('\n','')withopen('url','w')asf:forextname,tag,pageinenumerate(json.read()):ifextnameintag:json.write({'name':extname})else:json.write({'month':'0-1000'})print(json.decode('u。

0

2021-06-03

关键词采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

如何实现从爬取第一万个词条的关键词？

0 个评论

发起人

AI时代内容工厂

如何实现从爬取第一万个词条的关键词？

0 个评论

发起人

相关问题