Python批处理采集爱站上关键字的搜索量
优采云 发布时间: 2020-08-06 21:44使用Python批量采集Love Station上关键字的搜索量并进行简单的关键字挖掘,因为它们都在网页的源代码中,因此可以与通用正则表达式匹配,如果不这样做,知道或不清楚,您可以填写自己的大脑,以下代码部分具有完整的正则表达式部分,网页源代码中的几乎所有采集思路都可以大致这样操作:
首先请求url,获取html源代码的url变量部分,用于遍历本地文件以实现批量替换操作. 使用正则表达式或xpath提取重要信息并将数据保存到excel. 还将提供需要登录到爱站以获取数据的数据库和其他部分的源代码
在崇高状态下运行打印的结果如下:
导出csv的结果如下:
Python使用搜索量源代码采集爱情网站关键字:
import re
import urllib
op_csv_write=open('ciku.csv','a')
op_csv_write.write('关键词,搜索量\n')
for keyword in open('word.txt'):
word=keyword.strip()
url='http://ci.aizhan.com/%s/'%word
# print url
html=urllib.urlopen(url).read()
# print html
if '没有相关的关键词' in html:
pass
else:
r=re.compile(r'(.*?)[\s\S]*?(\d+)')
a=re.findall(r,html)
for i in a:
# print i
f=','.join(i)
w=re.compile('|')
b = w.sub('',f)
print b
op_csv_write.write(b+'\n')
<p>此外,只要有足够的根,就可以采集很多东西. 另一个是翻页. 您必须登录到爱站以获取数据. 您可以在模拟登录后打开页面以采集更多关键字数据. 代码直接在下面: