使用验证码拦截爬虫和机器人实践分享

宙哈哈
• 阅读 330

背景

在很多时候我们都会遇到验证码的多种场景,不同的产品也会使用不同的登录验证方式。

在项目开发中,我将KgCaptcha应用到搜索和分页中,下面是我写的的记录。

使用验证码拦截爬虫和机器人实践分享

开发过程

1、页面创建一个搜索表单

<form name="search" method="post" id="searchForm">
    <input type="hidden" name="page" value="" />
    <ol class="word"><input type="text" name="word" value="" maxlength="30" /></ol>
    <ol class="submit"><input type="submit" name="" value="" />
</form>

2、接入KgCaptcha

<script src="captcha.js?appid=xxx"></script>
<script>
kg.captcha({
    // 绑定弹窗按钮
    button: "#captchaButton",
    // 验证成功事务处理
    success: function (e) {
        // 验证成功,直接提交表单
        console.log(e);
        $('#kgCaptchaToken').val(e["token"])
        setTimeout(() => {
            $('form[name=search]').submit() 
        }, 500);
    },
    // 验证失败事务处理
    failure: function (e) {
        console.log(e);
    },
});
</script>

<a id="captchaButton" hidden>点击弹出验证窗口</a>
<input type="hidden" name="kgCaptchaToken" id="kgCaptchaToken" value=""/>

3、弹出验证窗口按钮

将表单提交绑定到id为captchaButton的弹出验证窗口按钮,当点击搜索,表单提交时,弹出验证窗口,待用户验证成功显示搜索结果。

使用验证码拦截爬虫和机器人实践分享

4、分页限制

首次搜索,需要弹出验证; 第一页和第三页之后,需要弹出验证; 其余不需要验证的页码,直接显示搜索结果;

if (page=='' || page=='1' || page > '3') {
    $('#captchaButton').click()
} 

5、后端代码

后端根据当前页码,对提交的kgCaptchaToken进行验证,验证通过显示搜索结果;

<?php
    if ($_POST['page']=='' || $_POST['page']=='1' || $_POST['page'] > '3') {
        include "KgCaptcha/KgCaptchaSDK.php";
        // 填写你的 AppId,在应用管理中获取
        $appId = "xxx";
        // 填写你的 AppSecret,在应用管理中获取
        $appSecret = "xxx";
        $request = new kgCaptcha($appId, $appSecret);
        // 填写应用服务域名,在应用管理中获取
        $request->appCdn = "https://cdn.kgcaptcha.com";
        // 前端验证成功后颁发的 token,有效期为两分钟
        $request->token = $_POST["kgCaptchaToken"];
        // 当安全策略中的防控等级为3时必须填写
        $request->userId = "kgCaptchaDemo";
        // 请求超时时间,秒
        $request->connectTimeout = 10;
        $requestResult = $request->sendRequest();
        if ($requestResult->code === 0) {
            // 验签成功逻辑处理
            // 输出搜索结果
            ...
        } else {
            // 验签失败逻辑处理
           // 失败,提示错误并跳转页面
            msgbox("验证失败,错误信息:{$requestResult->msg}",'search.php');
            return false;
        }
    } else {
        // 输出搜索结果
        ...
    }
?>

最后

SDK开源地址:KgCaptcha (KgCaptcha) · GitHub,顺便做了一个演示:凯格行为验证码在线体验

点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
Jacquelyn38 Jacquelyn38
3年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
Wesley13 Wesley13
3年前
VBox 启动虚拟机失败
在Vbox(5.0.8版本)启动Ubuntu的虚拟机时,遇到错误信息:NtCreateFile(\\Device\\VBoxDrvStub)failed:0xc000000034STATUS\_OBJECT\_NAME\_NOT\_FOUND(0retries) (rc101)Makesurethekern
Wesley13 Wesley13
3年前
FLV文件格式
1.        FLV文件对齐方式FLV文件以大端对齐方式存放多字节整型。如存放数字无符号16位的数字300(0x012C),那么在FLV文件中存放的顺序是:|0x01|0x2C|。如果是无符号32位数字300(0x0000012C),那么在FLV文件中的存放顺序是:|0x00|0x00|0x00|0x01|0x2C。2.  
Wesley13 Wesley13
3年前
mysql设置时区
mysql设置时区mysql\_query("SETtime\_zone'8:00'")ordie('时区设置失败,请联系管理员!');中国在东8区所以加8方法二:selectcount(user\_id)asdevice,CONVERT\_TZ(FROM\_UNIXTIME(reg\_time),'08:00','0
Wesley13 Wesley13
3年前
PHP创建多级树型结构
<!lang:php<?php$areaarray(array('id'1,'pid'0,'name''中国'),array('id'5,'pid'0,'name''美国'),array('id'2,'pid'1,'name''吉林'),array('id'4,'pid'2,'n
Wesley13 Wesley13
3年前
Java日期时间API系列36
  十二时辰,古代劳动人民把一昼夜划分成十二个时段,每一个时段叫一个时辰。二十四小时和十二时辰对照表:时辰时间24时制子时深夜11:00凌晨01:0023:0001:00丑时上午01:00上午03:0001:0003:00寅时上午03:00上午0
Wesley13 Wesley13
3年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
Python进阶者 Python进阶者
9个月前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这