全文总字数:6882字
摘 要:机器学习以及分类问题概述,为什么要使用机器学习。介绍传统机器学习的经典算法优缺点。对于那些传统技术手段根本无法解决的问题,通过机器学习技术可以找到一个解决方案。机器学习在计算机视觉领域有着广泛的应用,例如验证码识别。验证码作为反爬虫的常见措施,是网络安全的重要组成部分,随着技术的发展,使得验证码越来越复杂。传统的机器学习算法对验证码识别,通常需要对图片字符进行切割、二值化等处理后,再使用算法进行训练。对于复杂、强干扰验证码图片识别有较大误差。深度学习的概念源于人工神经网络的研究,作为一种实现机器学习的技术,通过接受原始输入(例如图像的像素值)来抽取更高层的特征,并且逐层抽象,从而建立从底层简单特征到高层抽象语义的非线性映射关键。这种自动构建数据表示的能力是深度神经网络相较于传统机器学习的关键优势。采用深度学习的卷积神经网络进行验证码图片的训练和识别可以达到较高的准确率。近年来火热的强化学习在应用领域也取得瞩目的成绩。未来机器学习将走进我们的生活,无处不见。
关键词:机器学习 深度学习 验证码识别 神经网络
引言
本文介绍了机器学习的算法以及在验证码识别方面的应用。验证码作为反爬虫的常见措施,网站通过设置验证码来区分机器操作和人为操作,有效地防止恶意破解密码、刷票等行为。通过对机器学习的算法研究,一是了解机器学习算法设计的底层结构,算法的设计原理,二是可以更加明确机器学习算法在计算机视觉领域不同场景方面的应用,对强干扰验证码图片的准确识别,体现了深度神经网络强大的自适应和自学习能力,在视觉应用方面有着很好的参考价值;其次可以通过验证码识别,了解复杂验证码的破解思路,通过与验证码设计人员的交流,改进反爬虫策略,共同维护网络安全。
研究现状
1 机器学习
1.1机器学习概念
机器学习作为人工智能的子领域,是一门能够让计算机从数据中学习的计算机科学。机器学习可以从已有的数据中拟合数据的模式和规律,广泛用于解决分类任务、回归任务、聚类等。通常我们根据输入变量的值来判断任务类型,输出值为连续则称之回归任务;离散则为分类任务[[1]]。机器学习一般分为两类:有监督学习、无监督学习、半监督学习以及强化学习。有监督学习是指对数据的若干特征与若干标签之间的关联性进行建模的过程;而无监督学习是指,对不带任何标签的数据特征进行建模。半监督学习显著点在于训练通常使用大多数没有标记的数据和少数标记好的数据,其算法是将无监督学习和有监督学习两者的算法相结合[[2]]。强化学习则与众不同,它的学习系统通过观察环境,选择执行的策略后开始执行操作,通过获得奖励或惩罚进行不断迭代,随着时间的推移,直到产生最优策略[[3]]。
1.2 为何使用机器学习
