今天看啥  ›  专栏  ›  Python学习交流

python验证码识别

Python学习交流  · 公众号  · Python  · 2017-09-20 23:53
写爬虫有一个绕不过去的问题就是验证码,现在验证码分类大概有4种:图像类滑动类点击类语音类今天先来看看图像类,这类验证码大多是数字、字母的组合,国内也有使用汉字的。在这个基础上增加噪点、干扰线、变形、重叠、不同字体颜色等方法来增加识别难度。相应的,验证码识别大体可以分为下面几个步骤:灰度处理增加对比度(可选)二值化降噪倾斜校正分割字符建立训练库识别由于是实验性质的,文中用到的验证码均为程序生成而不是批量下载真实的网站验证码,这样做的好处就是可以有大量的知道明确结果的数据集。当需要真实环境下需要获取数据时,可以使用结合各个大码平台来建立数据集进行训练。生成验证码这里我使用 Claptcha 这个库,当然 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照