Python批处理采集爱站上关键字的搜索量

优采云 发布时间: 2020-08-06 21:44

  使用Python批量采集Love Station上关键字的搜索量并进行简单的关键字挖掘,因为它们都在网页的源代码中,因此可以与通用正则表达式匹配,如果不这样做,知道或不清楚,您可以填写自己的大脑,以下代码部分具有完整的正则表达式部分,网页源代码中的几乎所有采集思路都可以大致这样操作:

  首先请求url,获取html源代码的url变量部分,用于遍历本地文件以实现批量替换操作. 使用正则表达式或xpath提取重要信息并将数据保存到excel. 还将提供需要登录到爱站以获取数据的数据库和其他部分的源代码

  在崇高状态下运行打印的结果如下:

  

  

  导出csv的结果如下:

  

  

  Python使用搜索量源代码采集爱情网站关键字:

  

import re

import urllib

op_csv_write=open('ciku.csv','a')

op_csv_write.write('关键词,搜索量\n')

for keyword in open('word.txt'):

word=keyword.strip()

url='http://ci.aizhan.com/%s/'%word

# print url

html=urllib.urlopen(url).read()

# print html

if '没有相关的关键词' in html:

pass

else:

r=re.compile(r'(.*?)[\s\S]*?(\d+)')

a=re.findall(r,html)

for i in a:

# print i

f=','.join(i)

w=re.compile('|')

b = w.sub('',f)

print b

op_csv_write.write(b+'\n')

<p>此外,只要有足够的根,就可以采集很多东西. 另一个是翻页. 您必须登录到爱站以获取数据. 您可以在模拟登录后打开页面以采集更多关键字数据. 代码直接在下面:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线