网页采集器的自动识别算法( Python爬虫有些网站需要验证码通过后方可进入网页,目的)
优采云 发布时间: 2022-03-14 12:15网页采集器的自动识别算法(
Python爬虫有些网站需要验证码通过后方可进入网页,目的)
Python免验证码识别ddddocr识别OCR自动库的实现
更新时间:2022年2月24日10:00:34 作者:海宝7号
在Python爬取过程中,部分网站需要通过验证码才能进入网页。目的很简单,就是区分是人读访问还是机器爬虫。下面文章主要给大家介绍一下用于Python免验证码识别的dddddocr识别OCR自动库实现的相关信息,有需要的朋友可以参考下面
目录
需要OCR识别,推荐使用Python免费验证码识别-ddddocr
安装过程:
1、镜像安装:pip install ddddocr -i
pip install ddddocr -i https://pypi.tuna.tsinghua.edu.cn/simple
2.python.exe -m pip install --upgrade pip
注意升级pip库,随时升级都很麻烦。
Collecting pip
Downloading https://pypi.tuna.tsinghua.edu.cn/packages/ca/31/b88ef447d595963c01060998cb329251648acf4a067721b0452c45527eb8/pip-21.2.4-py3-none-any.whl (1.6 MB)
|████████████████████████████████| 1.6 MB 939 kB/s
Installing collected packages: pip
Attempting uninstall: pip
Found existing installation: pip 21.2.1
Uninstalling pip-21.2.1:
Successfully uninstalled pip-21.2.1
Successfully installed pip-21.2.4
完成后,找一张参考图片
import ddddocr
ocr = ddddocr.DdddOcr()
with open('1.png', 'rb') as f:
img_bytes = f.read()
res = ocr.classification(img_bytes)
print(res)
对比效果图:
效果不是很好,一些图片,例如:
哈哈哈,自己玩吧。
附上ddddocr-验证码识别案例
import ddddocr
ocr=ddddocr.DdddOcr()
with open('test_img.png', 'rb') as f:
img_bytes=f.read()
res=ocr.classification(img_bytes)
print(res)
普通干扰较弱的验证码可以识别通过
总结
这就是Python免验证码识别dddddocr识别OCR自动库的实现介绍文章。更多相关ddddocr识别OCR自动库内容请搜索上一期脚本首页文章或继续浏览以下相关文章希望大家以后多多支持脚本首页!