全自动区分计算机和人类的公开图灵测试(英语:Completely Automated Public Turing test to tell Computers and Humans Apart,简称CAPTCHA),俗称验证码,是一种区分用户是机器或人类的公共全自动程序。在CAPTCHA测试中,作为服务器的计算机会自动生成一个问题由用户来解答。这个问题可以由计算机生成并评判,但是必须只有人类才能解答。由于机器无法解答CAPTCHA的问题,回答出问题的用户即可视为人类。
CAPTCHA这个词最早是在2002年由卡内基梅隆大学的路易斯·冯·安、Manuel Blum、Nicholas J.Hopper以及IBM的John Langford所提出。卡内基梅隆大学曾试图申请此词使其成为注册商标, 但该申请于2008年4月21日被拒绝。一种常用的CAPTCHA测试是让用户输入一个扭曲变形的图片上所显示的文字或数字,扭曲变形是为了避免被光学字符识别之类的计算机程序自动识别出图片上的文数字而失去效果。由于这个测试是由计算机来考人类,而不是标准图灵测试中那样由人类来考计算机,人们有时称CAPTCHA是一种反向图灵测试。
为了无法看到图像的身心障碍者,替代的方法是改用语音读出文数字,为了防止语音识别分析声音,声音的内容会有杂音或仍可以被人类接受的变声。
根据CAPTCHA测试的定义,产生验证码图片的算法必须公开,即使该算法可能有专利保护。这样做是证明想破解就需要解决一个不同的人工智能难题,而非仅靠发现原来的(秘密)算法,而后者可以用逆向工程等途径得到。
CAPTCHA技术广泛用于网站的留言板以及注册账号。许多网站为了防止有人利用计算机程序大量在留言板上张贴广告或其他垃圾消息,因此会放置CAPTCHA要求留言者必需输入图片上所显示的文数字或是算术题才可完成留言。而一些网络上的交易系统(例如:订票系统、网络银行)为了避免被计算机程序以暴力破解大量尝试交易也会有CAPTCHA的机制。
相关的技术有:
一些曾经或者正在使用中的验证码系统已被破解。这包括Yahoo验证码的一个早期版本 EZ-Gimpy、PayPal、LiveJournal和phpBB使用的验证码,很多金融机构(主要是银行)使用的网银验证码以及很多其他网站使用的验证码。
俄罗斯的一个黑客组织使用一个自动识别软件在2006年破解了Yahoo的CAPTCHA。准确率大概是15%,但是攻击者可以每天尝试10万次,相对来说成本很低。而在2008年,Google的CAPTCHA也被俄罗斯黑客所破解。攻击者使用两台不同的电脑来调整破解进程,可能是用第二台电脑学习第一台对CAPTCHA的破解,或者是对成效进行监视。
也有一种类似分布式的人工识别方法,多用于在自动化运行程序防止被反自动化机制拦截,如游戏自动外挂等,就是通过将需要验证的图片等数据转发到有人值勤的终端,由其他人类代为识别回答后再把答案转发回验证发送端回答。Gmail邮箱注册验证系统的破解可能即是经由此方法。已经有专门的公司提供专门的人员识别服务。reCAPTCHA(Human-based computation(英语:Human-based computation))的一种,由CAPTCHA的发明者之一Luis von Ahn所发起。)亦是人工破解验证码的应用。
关于破解,也有一些使用新算法和AI结合的算法。