网页采集器的自动识别算法( Python爬虫有些网站需要验证码通过后方可进入网页,目的)

优采云发布时间: 2022-03-14 12:15

　　网页采集器的自动识别算法(

Python爬虫有些网站需要验证码通过后方可进入网页,目的)

　　Python免验证码识别ddddocr识别OCR自动库的实现

　　更新时间：2022年2月24日10:00:34 作者：海宝7号

　　在Python爬取过程中，部分网站需要通过验证码才能进入网页。目的很简单，就是区分是人读访问还是机器爬虫。下面文章主要给大家介绍一下用于Python免验证码识别的dddddocr识别OCR自动库实现的相关信息，有需要的朋友可以参考下面

　　需要OCR识别，推荐使用Python免费验证码识别-ddddocr

　　安装过程：

　　1、镜像安装：pip install ddddocr -i

　　pip install ddddocr -i https://pypi.tuna.tsinghua.edu.cn/simple

　　2.python.exe -m pip install --upgrade pip

　　注意升级pip库，随时升级都很麻烦。

　　Collecting pip

Downloading https://pypi.tuna.tsinghua.edu.cn/packages/ca/31/b88ef447d595963c01060998cb329251648acf4a067721b0452c45527eb8/pip-21.2.4-py3-none-any.whl (1.6 MB)

|████████████████████████████████| 1.6 MB 939 kB/s

Installing collected packages: pip

Attempting uninstall: pip

Found existing installation: pip 21.2.1

Uninstalling pip-21.2.1:

Successfully uninstalled pip-21.2.1

Successfully installed pip-21.2.4

　　完成后，找一张参考图片

　　import ddddocr

ocr = ddddocr.DdddOcr()

with open('1.png', 'rb') as f:

img_bytes = f.read()

res = ocr.classification(img_bytes)

print(res)

　　对比效果图：

　　效果不是很好，一些图片，例如：

　　哈哈哈，自己玩吧。

　　附上ddddocr-验证码识别案例

　　import ddddocr

ocr=ddddocr.DdddOcr()

with open('test_img.png', 'rb') as f:

img_bytes=f.read()

res=ocr.classification(img_bytes)

print(res)

　　普通干扰较弱的验证码可以识别通过

　　总结

　　这就是Python免验证码识别dddddocr识别OCR自动库的实现介绍文章。更多相关ddddocr识别OCR自动库内容请搜索上一期脚本首页文章或继续浏览以下相关文章希望大家以后多多支持脚本首页！

0

2022-03-14

网页采集器的自动识别算法

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页采集器的自动识别算法( Python爬虫有些网站需要验证码通过后方可进入网页,目的)

0 个评论

发起人

AI时代内容工厂

网页采集器的自动识别算法( Python爬虫有些网站需要验证码通过后方可进入网页,目的)

0 个评论

发起人

相关问题