关键词采集文章(百度相关关键词查询defxgss)
优采云 发布时间: 2021-09-23 11:05百度相关搜索关键词爬行,阅读TXT 关键词,导出TXT 关键词
#百度相关搜索关键词爬行,读取TXT 关键词,导出TXT 关键词
# - * - 编码= UTF-8 - * -
导入请求
导入Re
导入时间
从multiprocessing.dummy导入池作为ThreadPool
#百度相关关键词查询
def xgss(URL):
标题= {
“用户 - 代理”:“mozilla / 5. 0(Windows NT 1 0. 0; Win64; X6 @ AppleWebkit / 53 7. 36(Khtml,喜欢壁虎)Chrome / 6 8.8. 0. 344 0. 106 Safari / 53 7. 36“
}
html = requests.get(URL,标题=标题).text
#print(html)
ze = r'
相关搜索
xgss = re.findall(ze,html,re.s)
#print(xgss)
xgze = r'
(。+?)'
sj = re.findall(xgze,str(xgss),re.s)
#print(sj)
gjc =''
在SJ中为x:
打印(x [1])
gjc = gjc + x [1] +'\ n'
#导出关键词是txt text
与打开(“。\ gjcsj.txt”,'a',编码='utf-8')作为f:
f.write(gjc)
打印(“------------------------------”)
返回gjc
打印(“程序正在运行,导入关键词 list !!!”)
打印(“------------------------------”)
#导入关键词 txt列表
urls = []
data = []
在打开的行('\ gjc.txt',“r”,编码='utf-8'):
data.append(行)
打印(“导入关键词列成!”)
打印(“------------------------------”)
#关键词搜索链接
数据中的关键字:
url ='#39; +关键字
urls.append(URL)
打印(“采集百分之相关搜关键词开!”)
打印(“.................”)
#多线程采集相关关键词
尝试:
#打开4个工作人员,默认值是没有参数的CPU的核心号
pool = threadpool()
结果= pool.map(xgss,urls)
pool.close()
pool.join()
print(“采集百度相关关键词 complety,已保存在gjcsj.txt中!”)
除:
打印(“错误:无法启动线程”)
打印(“8S后程序自动关闭!”)
time.sleep(8)