关键词采集文章(百度相关关键词查询defxgss)

优采云 发布时间: 2021-09-23 11:05

  关键词采集文章(百度相关关键词查询defxgss)

  百度相关搜索关键词爬行,阅读TXT 关键词,导出TXT 关键词

  #百度相关搜索关键词爬行,读取TXT 关键词,导出TXT 关键词

  # - * - 编码= UTF-8 - * -

  导入请求

  导入Re

  导入时间

  从multiprocessing.dummy导入池作为ThreadPool

  #百度相关关键词查询

  def xgss(URL):

  标题= {

  “用户 - 代理”:“mozilla / 5. 0(Windows NT 1 0. 0; Win64; X6 @ AppleWebkit / 53 7. 36(Khtml,喜欢壁虎)Chrome / 6 8.8. 0. 344 0. 106 Safari / 53 7. 36“

  }

  html = requests.get(URL,标题=标题).text

  #print(html)

  ze = r'

  相关搜索

  xgss = re.findall(ze,html,re.s)

  #print(xgss)

  xgze = r'

  (。+?)'

  sj = re.findall(xgze,str(xgss),re.s)

  #print(sj)

  gjc =''

  在SJ中为x:

  打印(x [1])

  gjc = gjc + x [1] +'\ n'

  #导出关键词是txt text

  与打开(“。\ gjcsj.txt”,'a',编码='utf-8')作为f:

  f.write(gjc)

  打印(“------------------------------”)

  返回gjc

  打印(“程序正在运行,导入关键词 list !!!”)

  打印(“------------------------------”)

  #导入关键词 txt列表

  urls = []

  data = []

  在打开的行('\ gjc.txt',“r”,编码='utf-8'):

  data.append(行)

  打印(“导入关键词列成!”)

  打印(“------------------------------”)

  #关键词搜索链接

  数据中的关键字:

  url ='#39; +关键字

  urls.append(URL)

  打印(“采集百分之相关搜关键词开!”)

  打印(“.................”)

  #多线程采集相关关键词

  尝试:

  #打开4个工作人员,默认值是没有参数的CPU的核心号

  pool = threadpool()

  结果= pool.map(xgss,urls)

  pool.close()

  pool.join()

  print(“采集百度相关关键词 complety,已保存在gjcsj.txt中!”)

  除:

  打印(“错误:无法启动线程”)

  打印(“8S后程序自动关闭!”)

  time.sleep(8)

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线