如何实现从爬取第一万个词条的关键词?

优采云 发布时间: 2021-06-03 23:01

  如何实现从爬取第一万个词条的关键词

  关键词采集按是用来采集一些关键词,比如你搜索“美女”,这时候百度会有一个“美女”的词条,也就是搜索接下来会蹦出一个美女的相关词条。比如它会跳出一些美女的相关词条:在这里,我们可以看到一些美女的相关网站,这样也就达到我们采集关键词的目的了。当我们搜索美女的时候,出现如下一些词条:我们就可以把这些词条采集下来,看看哪些词条属于美女相关的。

  在这里,我们先获取其中一部分词条,如下一次我们获取第一万个词条,采集了2100多个词条。此时,我们还想知道哪些词条属于美女相关的,就用到了爬虫。爬虫爬取了第二万多个词条。爬虫利用的网页如下:这时候,我们只要利用爬虫采集下属于网页某页面的某些词条,再把这些词条加入列表即可,爬虫就会一直不停地获取该页面的所有关键词条,为我们接下来爬取属于我们自己的关键词条做铺垫。

  那么爬虫是怎么实现从爬取第一万个词条,到后面爬取更多网页的呢?这就是本文的最关键的技巧所在,也是最困难的技巧所在。如下:install.packages('encutfromcrawl')url=''json=requests.get(url)format=requests.post(json,json=format)withopen('url','w')asf:forextname,tag,pageinenumerate(json.read()):ifextnameintag:json.write({'name':extname})else:json.write({'month':'0-1000'})print(json.decode('utf-8'))经过上面这一段代码,爬虫一共进行了192次爬取,爬取了8万条网页的关键词。

  爬取最多的单页有21页。我们在爬取最后一页的时候,就会去post请求爬取页面的最后一页,因为第一页有爬取了两万多条,后面的四十多万条就都是post请求的了。用到的工具就是:urllib.request.urlopen(url)headers={'user-agent':'mozilla/5.0(windowsnt6.1;wow64)applewebkit/537.36(khtml,likegecko)chrome/63.0.3272.101safari/537.36'}frombs4importbeautifulsoupsoup=beautifulsoup(soup.prettify('text'),'lxml')soup.text.strip().replace('\n','')i=0soup.text.strip().replace('\n','')withopen('url','w')asf:forextname,tag,pageinenumerate(json.read()):ifextnameintag:json.write({'name':extname})else:json.write({'month':'0-1000'})print(json.decode('u。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线