验证码的破解和机器注册
一、验证码的历史由来 全自动区分计算机和人类的图灵测试(英语:Completely Automated Public Turing test to tell Computers and Humans Apart,简称CAPTCHA),俗称验证码 最早是在2002年由卡内基梅隆大学的路易斯·冯·安、Manuel Blum、Nicholas J.Hopper以及IBM的John Langford所提出。 源于Yahoo对解决垃圾邮件的需求
Capcha 反向图灵测试 最早的capcha 更现代的CAPTCHA
reCAPTCHA 利用CAPTCHA技术来帮助典籍数字化的进行 一个是需要辨认的文档图像,一个是计算机生成的capcha 已经帮助完成了整个纽约时报130年的报纸存档数字化
如何破解? 利用了早期的计算机技术computer vision技术不先进的因素 OCR(Optical Character Recognition,光学字符识别)识别引擎 图像输入、预处理;二值化;噪声去除;倾斜校正;版面分析;字符切割;字符识别;版面恢复;后处理、校对
竞赛 Captcha方: Captcha项目: http://www.captcha.net/ jCaptcha项目:http://jcaptcha.sourceforge.net/ Break Captcha方 http://www.cs.sfu.ca/~mori/research/gimpy/ http://sam.zoy.org/pwntcha/ http://www.brains-n-brawn.com/default.aspx?vDir=aicaptcha http://homepages.cs.ncl.ac.uk/jeff.yan/
tesseract-ocr 难点:消去背景、切割元素、辨認元素 一些曾经或者正在使用中的验证码系统已被破解。这包括Yahoo验证码的一个早期版本 EZ-Gimpy,PayPal使用的验证码,LiveJournal、phpBB使用的验证码 Google code page http://wenku.baidu.com/view/ea22bcf5910ef12d2af9e7a9.html
实例 http://wenku.baidu.com/view/97b64ae181c758f5f61f676b.html EZ-Gimpy Paypal Recognizing Objects in Adversarial Clutter: Breaking a Visual CAPTCHA 作者G.Mori 的宣称他们在EZ-gimpy里的识别率为92%,在gimpy里的识别率为33%。里边提出了shape context 的概念
人肉破解 即花钱雇佣了大量来自第三世界的廉价劳动者,让他们逐个对进行 CAPTCHA系统进行人手破解 打码任务
那些丧心病狂的验证码
谢 谢!