采集相关文章(网络爬虫从企查查采集企业信息的步骤很简单:企查查 )
优采云 发布时间: 2021-10-06 16:04采集相关文章(网络爬虫从企查查采集企业信息的步骤很简单:企查查
)
企业搜索,一个网站查询企业信息,这个网站也是网络爬虫选择采集的对象,这个网站反爬提到不好,有没有一定的爬虫技术,不可能采集成功。
网络爬虫从公司检查采集 公司信息。如果要查看完整的企业信息,需要登录后点击详情查看信息,但只能看到部分信息,但登录时会出现验证码 如果是爬虫行为,很容易被识别。这时,您需要使用cookie登录。如果您使用cookie登录,服务器会认为您是已登录用户,因此会返回您已登录的内容。因此,如果需要验证码,可以使用带有验证码登录的cookie来解决问题。登录后,获取企业信息页面源码,分析采集的数据,获取企业名称和数据代码,并处理验证码,避免限制爬行行为。大部分网站限制IP对于爬虫的频繁访问,被网站限制,我们也可以通过使用爬虫代理来解决。然后将采集的数据信息保存到文件中。
简单的说,采集Enterprise Chacha的步骤很简单:
1、使用COOKIE登录并处理验证码
2、使用爬虫代理
3、采集企业信息页面
4、分析采集的数据
5、存储采集的数据信息
以下代码仅供参考:
#! -*- encoding:utf-8 -*-
import requests
import random
import requests.adapters
# 要访问的目标页面
targetUrlList = [
"https://httpbin.org/ip",
"https://httpbin.org/headers",
"https://httpbin.org/user-agent",
]
# 代理服务器(产品官网 www.16yun.cn)
proxyHost = "t.16yun.cn"
proxyPort = "31111"
# 代理隧道验证信息
proxyUser = "username"
proxyPass = "password"
proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
"host": proxyHost,
"port": proxyPort,
"user": proxyUser,
"pass": proxyPass,
}
# 设置 http和https访问都是用HTTP代理
proxies = {
"http": proxyMeta,
"https": proxyMeta,
}
# 访问三次网站,使用相同的Session(keep-alive),均能够保持相同的外网IP
s = requests.session()
# 设置cookie
cookie_dict = {"JSESSION":"123456789"}
cookies = requests.utils.cookiejar_from_dict(cookie_dict, cookiejar=None, overwrite=True)
s.cookies = cookies
for i in range(3):
for url in targetUrlList:
r = s.get(url, proxies=proxies)
print r.text