关键词采集文章(百度相关关键词查询defxgss)

优采云发布时间: 2021-09-23 11:05

　　百度相关搜索关键词爬行，阅读TXT 关键词，导出TXT 关键词

　　＃百度相关搜索关键词爬行，读取TXT 关键词，导出TXT 关键词

　　＃ - * - 编码= UTF-8 - * -

　　导入请求

　　导入Re

　　导入时间

　　从multiprocessing.dummy导入池作为ThreadPool

　　＃百度相关关键词查询

　　def xgss（URL）：

　　标题= {

　　“用户 - 代理”：“mozilla / 5. 0（Windows NT 1 0. 0; Win64; X6 @ AppleWebkit / 53 7. 36（Khtml，喜欢壁虎）Chrome / 6 8.8. 0. 344 0. 106 Safari / 53 7. 36“

　　}

　　html = requests.get（URL，标题=标题）.text

　　#print（html）

　　ze = r'

　　相关搜索

　　xgss = re.findall（ze，html，re.s）

　　#print（xgss）

　　xgze = r'

　　（。+？）'

　　sj = re.findall（xgze，str（xgss），re.s）

　　#print（sj）

　　gjc =''

　　在SJ中为x：

　　打印（x [1]）

　　gjc = gjc + x [1] +'\ n'

　　＃导出关键词是txt text

　　与打开（“。\ gjcsj.txt”，'a'，编码='utf-8'）作为f：

　　f.write（gjc）

　　打印（“------------------------------”）

　　返回gjc

　　打印（“程序正在运行，导入关键词 list !!!”）

　　打印（“------------------------------”）

　　＃导入关键词 txt列表

　　urls = []

　　data = []

　　在打开的行（'\ gjc.txt'，“r”，编码='utf-8'）：

　　data.append（行）

　　打印（“导入关键词列成！”）

　　打印（“------------------------------”）

　　＃关键词搜索链接

　　数据中的关键字：

　　url ='＃39; +关键字

　　urls.append（URL）

　　打印（“采集百分之相关搜关键词开！”）

　　打印（“.................”）

　　＃多线程采集相关关键词

　　尝试：

　　＃打开4个工作人员，默认值是没有参数的CPU的核心号

　　pool = threadpool（）

　　结果= pool.map（xgss，urls）

　　pool.close（）

　　pool.join（）

　　print（“采集百度相关关键词 complety，已保存在gjcsj.txt中！”）

　　除：

　　打印（“错误：无法启动线程”）

　　打印（“8S后程序自动关闭！”）

　　time.sleep（8)

0

2021-09-23

关键词采集文章

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

关键词采集文章(百度相关关键词查询defxgss)

0 个评论

发起人

AI时代内容工厂

关键词采集文章(百度相关关键词查询defxgss)

0 个评论

发起人

相关问题