免费文章采集(一个日记-采集快代理免费代理ip并清洗ip)

优采云发布时间: 2021-12-15 06:01

　　标题：爬虫日记-采集快速代理免代理ip和干净ip

　　标签： ['requests','python','lxml','proxy ip','proxy']

　　日期：2021-12-08

　　类别：“磨刀，不误砍木头”

　　环境

window10

python3

使用到的库

requests 网络请求

lxml 网页源码解析

　　源地址

　　文章内容

　　概括

　　爬虫写封ip是正常的，所以代理ip也是爬虫生活中不可缺少的一部分。今天写一个网上公开的免费代理ip。

　　首先理清逻辑，我想写个爬虫，把网站上的公共代理ip发送到采集，然后，保险起见，把数据清理到某个获得可用ip的程度。

　　好了，开始写爬虫。

　　1 采集Proxy ip 1. 1 观察目标页面

　　快速代理免费ip显示的数据如下：

　　而我们的程序访问网络需要的部分是ip、端口和类型，例如：

　　url = "https://www.baidu.com"

proxies = {'http': "http://111.231.86.149:7890"}

requests.get(href, proxies=proxies)

　　所以我们想要的采集就是每个代理ip的ip、端口和类型。

　　1.2 采集

　　爬虫很简单，直接上代码。

　　# 目标网址

url = "https://www.kuaidaili.com/free/"

payload = {}

# 构造请求头

headers = {

"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36",

'Accept': 'application/json, text/javascript, */*; q=0.01',

}

# 获取网页源码

response = requests.request("GET", url, headers=headers, data=payload)

# 存放结果的列表

res = []

_ = etree.HTML(response.text)

# 格式化代理的中间变量

type_dct = {

"HTTP": "http://",

"HTTPS": "https://"

}

data_list = _.xpath("//tbody/tr")

for data in data_list:

# 获取ip

ip = data.xpath("./td[1]/text()")[0]

port = data.xpath("./td[2]/text()")[0]

type = data.xpath("./td[4]/text()")[0]

# 存到结果中

res.append(type_dct[type] + ip + ':' + port)

print(res)

　　2 清洗剂2.1 用途及原理

　　毕竟，这些数据在 Internet 上是公开可用的。如果100%好用，那为什么还要有付费代理呢？

　　直接获得的代理一般都会有一定的时间限制，存在真假的缺陷，如果直接在项目中使用，效率可能堪忧，所以在使用之前，最好将获得的代理清洗到一定的程度程度，并且收购的是暂时有效的Agent。

　　清洗的方法也很简单，就是检查药剂是否有效。

　　我们可以构造一个请求并使用这个代理进行访问。如果我们可以访问和获取数据，那么这个代理是暂时有效的，可以在项目中使用。如果直接出现404或者其他问题，那么这个代理可能坏了，或者质量不好，就放弃吧。

　　2.2 清理ip的代码

　　href = 'https://www.baidu.com'

if 'https' in proxy:

proxies = {'https': proxy}

else:

proxies = {'http': proxy}

headers = {

'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 11_2_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4396.0 Safari/537.36'

}

try:

r = requests.get(href, proxies=proxies, timeout=5, headers=headers)

if r.status_code == 200:

print "代理有效"

except:

print "代理失效"

　　3 完美代码

　　import requests

from lxml import etree

# 获取快代理首页的代理

def get_proxy_list():

url = "https://www.kuaidaili.com/free/"

payload = {}

headers = {

"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36",

'Accept': 'application/json, text/javascript, */*; q=0.01',

}

response = requests.request("GET", url, headers=headers, data=payload)

res = []

_ = etree.HTML(response.text)

type_dct = {

"HTTP": "http://",

"HTTPS": "https://"

}

data_list = _.xpath("//tbody/tr")

for data in data_list:

ip = data.xpath("./td[1]/text()")[0]

port = data.xpath("./td[2]/text()")[0]

type = data.xpath("./td[4]/text()")[0]

res.append(type_dct[type] + ip + ':' + port)

return res

# 测试代理

def check(proxy):

href = 'https://www.baidu.com'

if 'https' in proxy:

proxies = {'https': proxy}

else:

proxies = {'http': proxy}

headers = {

'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 11_2_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4396.0 Safari/537.36'

}

try:

r = requests.get(href, proxies=proxies, timeout=5, headers=headers)

if r.status_code == 200:

return True

except:

return False

if __name__ == '__main__':

proxy_list = get_proxy_list()

print(proxy_list)

for p in proxy_list:

print(p, check(p))

　　写在最后

　　代码并不完善，直接应用到一个像样的项目中仍然不可行。它不处理一些奇怪的操作或情况，只是提供一个想法和一个演示。

　　实力有限，人才相对不足。如果你有任何错误，请纠正我。

0

2021-12-15

免费文章采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

免费文章采集(一个日记-采集快代理免费代理ip并清洗ip)

0 个评论

发起人

AI时代内容工厂

免费文章采集(一个日记-采集快代理免费代理ip并清洗ip)

0 个评论

发起人

相关问题