采集相关文章(网络爬虫从企查查采集企业信息的步骤很简单:企查查 )

优采云 发布时间: 2021-10-06 16:04

  采集相关文章(网络爬虫从企查查采集企业信息的步骤很简单:企查查

)

  企业搜索,一个网站查询企业信息,这个网站也是网络爬虫选择采集的对象,这个网站反爬提到不好,有没有一定的爬虫技术,不可能采集成功。

  网络爬虫从公司检查采集 公司信息。如果要查看完整的企业信息,需要登录后点击详情查看信息,但只能看到部分信息,但登录时会出现验证码 如果是爬虫行为,很容易被识别。这时,您需要使用cookie登录。如果您使用cookie登录,服务器会认为您是已登录用户,因此会返回您已登录的内容。因此,如果需要验证码,可以使用带有验证码登录的cookie来解决问题。登录后,获取企业信息页面源码,分析采集的数据,获取企业名称和数据代码,并处理验证码,避免限制爬行行为。大部分网站限制IP对于爬虫的频繁访问,被网站限制,我们也可以通过使用爬虫代理来解决。然后将采集的数据信息保存到文件中。

  简单的说,采集Enterprise Chacha的步骤很简单:

  1、使用COOKIE登录并处理验证码

  2、使用爬虫代理

  3、采集企业信息页面

  4、分析采集的数据

  5、存储采集的数据信息

  以下代码仅供参考:

   #! -*- encoding:utf-8 -*-

import requests

import random

import requests.adapters

# 要访问的目标页面

targetUrlList = [

"https://httpbin.org/ip",

"https://httpbin.org/headers",

"https://httpbin.org/user-agent",

]

# 代理服务器(产品官网 www.16yun.cn)

proxyHost = "t.16yun.cn"

proxyPort = "31111"

# 代理隧道验证信息

proxyUser = "username"

proxyPass = "password"

proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {

"host": proxyHost,

"port": proxyPort,

"user": proxyUser,

"pass": proxyPass,

}

# 设置 http和https访问都是用HTTP代理

proxies = {

"http": proxyMeta,

"https": proxyMeta,

}

# 访问三次网站,使用相同的Session(keep-alive),均能够保持相同的外网IP

s = requests.session()

# 设置cookie

cookie_dict = {"JSESSION":"123456789"}

cookies = requests.utils.cookiejar_from_dict(cookie_dict, cookiejar=None, overwrite=True)

s.cookies = cookies

for i in range(3):

for url in targetUrlList:

r = s.get(url, proxies=proxies)

print r.text

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线