采集相关文章(网络爬虫从企查查采集企业信息的步骤很简单：企查查 )

优采云发布时间: 2021-10-06 16:04

　　采集相关文章(网络爬虫从企查查采集企业信息的步骤很简单：企查查

)

　　企业搜索，一个网站查询企业信息，这个网站也是网络爬虫选择采集的对象，这个网站反爬提到不好，有没有一定的爬虫技术，不可能采集成功。

　　网络爬虫从公司检查采集公司信息。如果要查看完整的企业信息，需要登录后点击详情查看信息，但只能看到部分信息，但登录时会出现验证码如果是爬虫行为，很容易被识别。这时，您需要使用cookie登录。如果您使用cookie登录，服务器会认为您是已登录用户，因此会返回您已登录的内容。因此，如果需要验证码，可以使用带有验证码登录的cookie来解决问题。登录后，获取企业信息页面源码，分析采集的数据，获取企业名称和数据代码，并处理验证码，避免限制爬行行为。大部分网站限制IP对于爬虫的频繁访问，被网站限制，我们也可以通过使用爬虫代理来解决。然后将采集的数据信息保存到文件中。

　　简单的说，采集Enterprise Chacha的步骤很简单：

　　1、使用COOKIE登录并处理验证码

　　2、使用爬虫代理

　　3、采集企业信息页面

　　4、分析采集的数据

　　5、存储采集的数据信息

　　以下代码仅供参考：

　　 #! -*- encoding:utf-8 -*-

import requests

import random

import requests.adapters

# 要访问的目标页面

targetUrlList = [

"https://httpbin.org/ip",

"https://httpbin.org/headers",

"https://httpbin.org/user-agent",

]

# 代理服务器(产品官网 www.16yun.cn)

proxyHost = "t.16yun.cn"

proxyPort = "31111"

# 代理隧道验证信息

proxyUser = "username"

proxyPass = "password"

proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {

"host": proxyHost,

"port": proxyPort,

"user": proxyUser,

"pass": proxyPass,

}

# 设置 http和https访问都是用HTTP代理

proxies = {

"http": proxyMeta,

"https": proxyMeta,

}

# 访问三次网站，使用相同的Session(keep-alive)，均能够保持相同的外网IP

s = requests.session()

# 设置cookie

cookie_dict = {"JSESSION":"123456789"}

cookies = requests.utils.cookiejar_from_dict(cookie_dict, cookiejar=None, overwrite=True)

s.cookies = cookies

for i in range(3):

for url in targetUrlList:

r = s.get(url, proxies=proxies)

print r.text

0

2021-10-06

采集相关文章

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

采集相关文章(网络爬虫从企查查采集企业信息的步骤很简单：企查查 )

0 个评论

发起人

AI时代内容工厂

采集相关文章(网络爬虫从企查查采集企业信息的步骤很简单：企查查 )

0 个评论

发起人

相关问题