免费文章采集(一个日记-采集快代理免费代理ip并清洗ip)
优采云 发布时间: 2021-12-15 06:01免费文章采集(一个日记-采集快代理免费代理ip并清洗ip)
标题:爬虫日记-采集 快速代理免代理ip和干净ip
标签: ['requests','python','lxml','proxy ip','proxy']
日期:2021-12-08
类别:“磨刀,不误砍木头”
环境
window10
python3
使用到的库
requests 网络请求
lxml 网页源码解析
源地址
文章内容
概括
爬虫写封ip是正常的,所以代理ip也是爬虫生活中不可缺少的一部分。今天写一个网上公开的免费代理ip。
首先理清逻辑,我想写个爬虫,把网站上的公共代理ip发送到采集,然后,保险起见,把数据清理到某个获得可用ip的程度。
好了,开始写爬虫。
1 采集Proxy ip 1. 1 观察目标页面
快速代理免费ip显示的数据如下:
而我们的程序访问网络需要的部分是ip、端口和类型,例如:
url = "https://www.baidu.com"
proxies = {'http': "http://111.231.86.149:7890"}
requests.get(href, proxies=proxies)
所以我们想要的采集就是每个代理ip的ip、端口和类型。
1.2 采集
爬虫很简单,直接上代码。
# 目标网址
url = "https://www.kuaidaili.com/free/"
payload = {}
# 构造请求头
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36",
'Accept': 'application/json, text/javascript, */*; q=0.01',
}
# 获取网页源码
response = requests.request("GET", url, headers=headers, data=payload)
# 存放结果的列表
res = []
_ = etree.HTML(response.text)
# 格式化代理的中间变量
type_dct = {
"HTTP": "http://",
"HTTPS": "https://"
}
data_list = _.xpath("//tbody/tr")
for data in data_list:
# 获取ip
ip = data.xpath("./td[1]/text()")[0]
port = data.xpath("./td[2]/text()")[0]
type = data.xpath("./td[4]/text()")[0]
# 存到结果中
res.append(type_dct[type] + ip + ':' + port)
print(res)
2 清洗剂2.1 用途及原理
毕竟,这些数据在 Internet 上是公开可用的。如果100%好用,那为什么还要有付费代理呢?
直接获得的代理一般都会有一定的时间限制,存在真假的缺陷,如果直接在项目中使用,效率可能堪忧,所以在使用之前,最好将获得的代理清洗到一定的程度程度,并且收购的是暂时有效的Agent。
清洗的方法也很简单,就是检查药剂是否有效。
我们可以构造一个请求并使用这个代理进行访问。如果我们可以访问和获取数据,那么这个代理是暂时有效的,可以在项目中使用。如果直接出现404或者其他问题,那么这个代理可能坏了,或者质量不好,就放弃吧。
2.2 清理ip的代码
href = 'https://www.baidu.com'
if 'https' in proxy:
proxies = {'https': proxy}
else:
proxies = {'http': proxy}
headers = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 11_2_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4396.0 Safari/537.36'
}
try:
r = requests.get(href, proxies=proxies, timeout=5, headers=headers)
if r.status_code == 200:
print "代理有效"
except:
print "代理失效"
3 完美代码
import requests
from lxml import etree
# 获取快代理首页的代理
def get_proxy_list():
url = "https://www.kuaidaili.com/free/"
payload = {}
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36",
'Accept': 'application/json, text/javascript, */*; q=0.01',
}
response = requests.request("GET", url, headers=headers, data=payload)
res = []
_ = etree.HTML(response.text)
type_dct = {
"HTTP": "http://",
"HTTPS": "https://"
}
data_list = _.xpath("//tbody/tr")
for data in data_list:
ip = data.xpath("./td[1]/text()")[0]
port = data.xpath("./td[2]/text()")[0]
type = data.xpath("./td[4]/text()")[0]
res.append(type_dct[type] + ip + ':' + port)
return res
# 测试代理
def check(proxy):
href = 'https://www.baidu.com'
if 'https' in proxy:
proxies = {'https': proxy}
else:
proxies = {'http': proxy}
headers = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 11_2_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4396.0 Safari/537.36'
}
try:
r = requests.get(href, proxies=proxies, timeout=5, headers=headers)
if r.status_code == 200:
return True
except:
return False
if __name__ == '__main__':
proxy_list = get_proxy_list()
print(proxy_list)
for p in proxy_list:
print(p, check(p))
写在最后
代码并不完善,直接应用到一个像样的项目中仍然不可行。它不处理一些奇怪的操作或情况,只是提供一个想法和一个演示。
实力有限,人才相对不足。如果你有任何错误,请纠正我。