利用机器学习在15分钟内破解验证码!

2017 年 12 月 21 日 全球人工智能 ATYUN


-欢迎加入AI技术专家社群>>

- 日薪5K-10K招兼职AI讲师>>

个人都讨厌验证码——只有输入了那些讨厌的图片上的文本,才能访问网站。验证码的设计是为了防止计算机自动填写表格,验证你是一个真实的“人”。但随着深度学习和计算机视觉的兴起,现在他们往往容易被击败。


我一直在读一本由Adrian Rosebrock所写的书《Deep Learning for Computer Vision with Python》(Python计算机视觉深度学习)。在这本书中,Adrian回顾了如何通过机器学习破解e – zpass纽约网站上的验证码系统:

Adrian没有访问生成验证码图像的应用程序的源代码。为了破解这个系统,他不得不下载数百个示例图像,并手动解决它们以训练他的系统。


但是,如果我们想要破解一个开源的验证码系统,我们去哪里访问源代码呢?


我访问了WordPress.org插件登记网站,并搜索了“CAPTCHA”。上面的结果被称为“Really Simple CAPTCHA”,并且有超过100万的安装量:


  • WordPress.org插件登记地址:https://wordpress.org/plugins/

最棒的是,这里有它的源代码!因为有生成验证码的源代码,所以这应该很容易被破解。为了让事情变得更有挑战性,让我们给自己一个时间限制。我们能在15分钟内彻底破解这个验证码系统吗?让我们试一试!


重要提示:这绝不是批评“Really Simple CAPTCHA”插件或其作者。插件作者自己说它已经不安全了,建议你使用其他的东西。这只是一个有趣并且快速的技术挑战。但如果你是100万用户之一,或许你应该有所防备了:)

挑战

首先,让我们需要知道 Really Simple CAPTCHA生成什么样的图像。在演示网站上,我们看到:


  • Really Simple CAPTCHA地址:https://wordpress.org/plugins/really-simple-captcha/

演示验证码图片


验证码图像看起来是四个字母。让我们在PHP源代码中验证这一点:


	public function __construct() {
		/* Characters available in images */
		$this->chars = 'ABCDEFGHJKLMNPQRSTUVWXYZ23456789';

		/* Length of a word in an image */
		$this->char_length = 4;

		/* Array of fonts. Randomly picked up per character */
		$this->fonts = array(
			dirname( __FILE__ ) . '/gentium/GenBkBasR.ttf',
			dirname( __FILE__ ) . '/gentium/GenBkBasI.ttf',
			dirname( __FILE__ ) . '/gentium/GenBkBasBI.ttf',
			dirname( __FILE__ ) . '/gentium/GenBkBasB.ttf',
		);

是的,它生成了4个字母的验证码,使用4种不同字体的随机组合。我们可以看到,在代码中它从不使用“O”或“I”,以此避免用户的混淆。这就给我们留下了32个可能的字母和数字。


到目前为止的时间:2分钟

我们的工具集

在我们进一步讨论之前,我们先来讨论一下解决这个问题需要的工具:


Python 3

Python是一种很有趣的编程语言,包含很好的机器学习和计算机视觉库。


OpenCV

OpenCV是一个流行的计算机视觉和图像处理框架。我们将使用OpenCV来处理验证码图像。它有一个Python API,因此我们可以直接在Python中使用。


Keras

Keras是用Python编写的深度学习框架。它使得定义、训练和使用具有最小编码的深度神经网络变得很容易。


TensorFlow

TensorFlow是谷歌的机器学习库。我们将在Keras中编码,但是Keras并没有真正实现神经网络逻辑本身。相反,它使用谷歌在幕后的TensorFlow库来完成繁重的任务。


好了,回到挑战。

创建数据集

训练任何机器学习系统,都需要训练数据。要破解验证码系统,我们需要这样的训练数据:

我们有了WordPress插件的源代码,就可以修改它来保存10000个验证码图像,以及每个图像的预期答案。


在对代码进行了几分钟的破解并添加了一个简单的for循环之后,我有了一个包含训练数据的文件夹—10,000个PNG文件,将正确的答案作为其文件名:


这是唯一的我不给你示例代码的部分。我们这样做是为了教学,我不希望你真的去垃圾邮件网站。但是我会给你我在最后生成的10000张照片,这样你就可以复制我的结果。


到目前为止的时间:5分钟

简化问题

现在我们有了训练数据,我们可以直接用它来训练神经网络:

如果有足够的训练数据,这种方法可能有效——但是我们可以使问题变得简单得多。问题越简单,训练数据越少,我们解决需要的计算力就越少。我们毕竟只有15分钟!


幸运的是,验证码图像通常只由四个字母组成。如果我们能把图像分割开来,这样每个字母都是一个单独的图像,那么我们只需训练神经网络识别单个字母:

我没有时间去浏览10000个训练图像,并且用Photoshop将它们手工分割成单独的图像。这需要几天的时间,但我只剩下10分钟了。我们不能将图像分割成4个等分大小的块,因为验证码随机将字母放置在不同的水平位置,如下图所示:


每个图像中的字母都是随机放置的,使图像分割变得更加困难。


幸运的是,我们仍然可以实现自动化。在图像处理中,我们经常需要检测具有相同颜色的像素的“blob”。这些连续像素点的边界称为轮廓。OpenCV有一个内置的findContours()函数,我们可以用它来检测这些连续区域。


我们将从一个原始的验证码图像开始:

然后我们将图像转换成纯黑白像素点(这称为色彩阈值法),这样就很容易找到连续区域的轮廓边界:

接下来,我们将使用OpenCV的findContours()函数来检测图像中包含相同颜色连续像素块的分离部分:

接着把每个区域作为一个单独的图像文件保存。因为我们知道每个图像应该包含从左到右的四个字母,所以我们可以用这些知识来标记我们保存的字母。我们按这个顺序把它们存起来,并用相应的字母名称来保存每一个图像字母。


但是等一下 — 我发现问题了!有时验证码有这样重叠的字母:

这意味着我们最终将提取将两个字母拼凑在一起的区域:

如果我们不处理这个问题,我们就会产生糟糕的训练数据。我们需要解决这个问题,这样我们就不会偶然地让机器将这两个squashed – together字母识别为一个字母。


有一个简单的窍门:如果一个区域的宽比它的高度大,那就意味着我们可能有两个字母挤压在一起了。在这种情况下,我们可以把这两个字母放在中间,把它分成两个独立的字母:

现在我们有了一种提取单个字母的方法,让我们在所有的验证码图像中运行它。目的是收集每个字母的不同变体。我们可以把每个字母都保存在自己的文件夹里。


这是我摘取所有字母后,“W”文件夹的图片:

到目前为止的时间:10分钟

构建并训练神经网络

因为我们只需要识别单个字母的图像,所以并需要一个非常复杂的神经网络结构。识别字母比识别像猫和狗这样的复杂图像要容易得多。


我们将使用一个简单的卷积神经网络架构,它有两个卷积层和两个完全连通的层:

定义这个神经网络架构只需要使用Keras的几行代码:


# Build the neural network!
model = Sequential()

# First convolutional layer with max pooling
model.add(Conv2D(20, (5, 5), padding="same", input_shape=(20, 20, 1), 
activation="relu")) model.add(MaxPooling2D(pool_size=(2, 2), strides=(2, 2))) # Second convolutional layer with max pooling model.add(Conv2D(50, (5, 5), padding="same", activation="relu")) model.add(MaxPooling2D(pool_size=(2, 2), strides=(2, 2))) # Hidden layer with 500 nodes model.add(Flatten()) model.add(Dense(500, activation="relu")) # Output layer with 32 nodes (one for each possible letter/number we predict) model.add(Dense(32, activation="softmax")) # Ask Keras to build the TensorFlow model behind the scenes model.compile(loss="categorical_crossentropy", optimizer="adam", metrics=
["accuracy"])

现在我们可以运行它了。


# Train the neural network
model.fit(X_train, Y_train, validation_data=(X_test, Y_test), batch_size=32, 
epochs=10, verbose=1)

经过训练数据集10次之后,我们达到了接近100%的准确度。我们应该能够在任何我们需要的时候自动绕过这个验证码。


时间过了:15分钟

使用训练的模型来以解决验证码

现在我们有了一个经过训练的神经网络,用它来破解验证码是很简单的:


1. 从WordPress插件的网站上获取真正的验证码图像。

2. 用我们用来创建训练数据集的方法将验证码图像分割成四个不同的字母图像。

3. 让我们的神经网络对每个字母图像做一个单独的预测。

4. 用四个预测字母作为验证码的答案。


下面是我们的模型如何解码真实的验证码:

或从命令行:

试一下

如果你想亲自尝试,你可以在这里获取代码。它包括10,000个示例图像和本文中每个步骤的所有代码。班阔说明如何运行模型的README.md文件。


  • 代码地址:https://s3-us-west-2.amazonaws.com/mlif-example-code/solving_captchas_code_examples.zip


如果你真的想要深入了解代码背后的知识,那么我建议你读一下《Deep Learning for Computer Vision with Python》。它包括了很多细和大量示例,如果你对解决现实生活中困难问题的示例感兴趣,那么它或许很适合你。

↓↓↓ 点击阅读原文,进入【全球人工智能学院】

登录查看更多
4

相关内容

全自动区分计算机和人类的图灵测试(英语: Completely Automated Public Turing test to tell Computers and Humans Apart,简称 CAPTCHA),俗称 验证码,是一种区分用户是计算机和人的公共全自动程序。
【实用书】学习用Python编写代码进行数据分析,103页pdf
专知会员服务
192+阅读 · 2020年6月29日
AI创新者:破解项目绩效的密码
专知会员服务
33+阅读 · 2020年6月21日
 【SIGGRAPH 2020】人像阴影处理,Portrait Shadow Manipulation
专知会员服务
28+阅读 · 2020年5月19日
【实用书】Python爬虫Web抓取数据,第二版,306页pdf
专知会员服务
117+阅读 · 2020年5月10日
安全和健壮的医疗机器学习综述,附22页pdf
专知会员服务
46+阅读 · 2020年1月25日
2019年机器学习框架回顾
专知会员服务
35+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
AWVS12 V12.0.190530102 windows正式版完美破解版
黑白之道
29+阅读 · 2019年8月24日
史上最全 OpenCV 活体检测教程!
无人机
5+阅读 · 2019年4月10日
神器Cobalt Strike3.13破解版
黑白之道
12+阅读 · 2019年3月1日
基于GAN的验证码识别工具,0.5秒宣告验证码死刑!
GAN生成式对抗网络
5+阅读 · 2018年12月15日
95行代码破解极验滑动验证码(附源码)
FreeBuf
11+阅读 · 2018年5月9日
仅需15分钟,使用OpenCV+Keras轻松破解验证码
机器之心
4+阅读 · 2017年12月14日
Capsule Networks教程
全球人工智能
10+阅读 · 2017年11月24日
【推荐】树莓派/OpenCV/dlib人脸定位/瞌睡检测
机器学习研究会
9+阅读 · 2017年10月24日
TResNet: High Performance GPU-Dedicated Architecture
Arxiv
8+阅读 · 2020年3月30日
Neural Image Captioning
Arxiv
5+阅读 · 2019年7月2日
Deep Anomaly Detection with Outlier Exposure
Arxiv
17+阅读 · 2018年12月21日
Arxiv
3+阅读 · 2018年6月19日
Arxiv
11+阅读 · 2018年5月13日
Arxiv
4+阅读 · 2018年4月30日
VIP会员
相关VIP内容
【实用书】学习用Python编写代码进行数据分析,103页pdf
专知会员服务
192+阅读 · 2020年6月29日
AI创新者:破解项目绩效的密码
专知会员服务
33+阅读 · 2020年6月21日
 【SIGGRAPH 2020】人像阴影处理,Portrait Shadow Manipulation
专知会员服务
28+阅读 · 2020年5月19日
【实用书】Python爬虫Web抓取数据,第二版,306页pdf
专知会员服务
117+阅读 · 2020年5月10日
安全和健壮的医疗机器学习综述,附22页pdf
专知会员服务
46+阅读 · 2020年1月25日
2019年机器学习框架回顾
专知会员服务
35+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
相关资讯
AWVS12 V12.0.190530102 windows正式版完美破解版
黑白之道
29+阅读 · 2019年8月24日
史上最全 OpenCV 活体检测教程!
无人机
5+阅读 · 2019年4月10日
神器Cobalt Strike3.13破解版
黑白之道
12+阅读 · 2019年3月1日
基于GAN的验证码识别工具,0.5秒宣告验证码死刑!
GAN生成式对抗网络
5+阅读 · 2018年12月15日
95行代码破解极验滑动验证码(附源码)
FreeBuf
11+阅读 · 2018年5月9日
仅需15分钟,使用OpenCV+Keras轻松破解验证码
机器之心
4+阅读 · 2017年12月14日
Capsule Networks教程
全球人工智能
10+阅读 · 2017年11月24日
【推荐】树莓派/OpenCV/dlib人脸定位/瞌睡检测
机器学习研究会
9+阅读 · 2017年10月24日
相关论文
TResNet: High Performance GPU-Dedicated Architecture
Arxiv
8+阅读 · 2020年3月30日
Neural Image Captioning
Arxiv
5+阅读 · 2019年7月2日
Deep Anomaly Detection with Outlier Exposure
Arxiv
17+阅读 · 2018年12月21日
Arxiv
3+阅读 · 2018年6月19日
Arxiv
11+阅读 · 2018年5月13日
Arxiv
4+阅读 · 2018年4月30日
Top
微信扫码咨询专知VIP会员