BOB'S BLOG

抖音滑块验证码 captchaBody 逆向分析，JSVMP 纯算法还原

2023-05-04T15:20:00.000Z

本文已收到抖音的律师函，CSDN 和本站的文章都已经做下架处理。

欢迎加入爬虫逆向微信交流群：添加微信 IT-BOB（备注交流群）

数美验证全家桶逆向分析以及 AST 获取动态参数

2023-04-20T12:20:00.000Z

欢迎加入爬虫逆向微信交流群：添加微信 IT-BOB（备注交流群）

文章目录

声明
目标
抓包分析
逆向分析
- captchaUuid
- 12 个加密参数
结果验证
AST 获取动态参数

声明

本文章中所有内容仅供学习交流使用，不用于其他任何目的，不提供完整代码，抓包内容、敏感网址、数据接口等均已做脱敏处理，严禁用于商业用途和非法用途，否则由此产生的一切后果均与作者无关！

本文章未经许可禁止转载，禁止任何修改后二次传播，擅自使用本文讲解的技术而导致的任何意外，作者均不负责，若有侵权，请通过邮件 admin@itbob.cn 联系我立即删除！

目标

目标：数美全家桶，包括：滑块、文字点选、图标点选、语序点选、空间推理、无感验证
地址：

// 官网体验地址aHR0cHM6Ly93d3cuaXNodW1laS5jb20vdHJpYWwvY2FwdGNoYS5odG1s// 官方隐藏地址aHR0cHM6Ly9jYXN0YXRpYy5mZW5na29uZ2Nsb3VkLmNuL3ByL3YxLjAuNC9kZW1vLmh0bWw=// 某红书验证页面aHR0cHM6Ly93d3cueGlhb2hvbmdzaHUuY29tL3dlYi1sb2dpbi9jYXB0Y2hh

数美不同类型验证码核心的 JS 都是一样的，只是个别参数有微小差别，主要以滑块为例来分析，通过 JS 代码以及官方文档可以看出数美是有无感验证的，但是官网体验地址里并没有放出来，官方有一个隐藏地址，里面的 demo 是最全的，包括无感，可以去上面给出的第二个地址里查看；数美的加密参数包含了 DES 加密算法，参数名以及 DES Key 不定时会变化，本文也会分析如何利用 AST 来获取动态的参数。

抓包分析

conf 接口，获取配置，主要是获取核心的 captcha-sdk.min.js 的地址，请求参数解释：

参数	含义
`organization`	数美分配的公司标识，一般是每个网站唯一，写死即可
`appId`	应用标识，区分不同应用，数美后台可以管理
`callback`	回调参数
`lang`	语言，`zh-cn` 简体中文、`zh-tw` 繁体中文、`en` 英文
`model`	模式，`slide` 滑块、`auto_slide` 无感验证、`select` 文字点选、`icon_select` 图标点选、`seq_select` 语序点选、`spatial_select` 空间推理
`sdkver`	这个 sdk 版本是 `captcha-sdk.min.js` 内部写死的
`channel`	推广渠道，数美后台可以管理
`captchaUuid`	32位随机字符串，与业务方自身埋点数据配合，便于后续定位问题或进行数据统计
`rversion`	`captcha-sdk.min.js` 版本号

返回结果重点看 captcha-sdk.min.js 文件地址，如下图所示有个 v1.0.4-171，本文中我们称 v1.0.4 为大版本，171 为小版本，小版本不定时会更新，版本号不断升高。

然后就是 register 接口，不同类型，返回的数据都大同小异，其中 bg 是背景图片，fg 是滑块，文字点选、空间推理中 order 是提示信息，k、l、rid 三个参数后续会用到。

最后就是 fverify 验证接口，有类似下图红框中的 12 个参数，都是通过 JS 生成的，其参数名会根据 captcha-sdk.min.js 的变化而变化，其中有个最长的类似于下图的 ep 值，包含了轨迹加密。返回值里参数解释：

参数	含义
`code`	`1100`：成功；`1901`：QPS超限；`1902`：参数不合法；`1903`：服务失败；`9101`：无权限操作
`riskLevel`	处置建议，`PASS`：正常，建议直接放行；`REJECT`：违规，建议直接拦截

逆向分析

跟栈会发现核心逻辑在 captcha-sdk.min.js 里，这个 JS 类似于 OB 混淆（以前的文章介绍过，此处不再细说）：

这里可以自己写 AST 还原一下，为了方便我们直接使用 v_jstools 解混淆：

然后替换掉原来的 captcha-sdk.min.js，如果你测试的是官网的体验页面，使用 Fiddler 替换时要注意可能有跨域问题，需要利用 Filters 功能，设置响应头 Access-Control-Allow-Origin 字段值为当前域名：

如果你没注意到这个跨域问题，可能会替换之后发现没替换成功，原因是数美的资源有四个域名，其中一个宕了便会启用另一个，你替换其中一个报错了就会自动跳转另一个，所以看起来你并没有替换成功：

PS：若替换的 JS 格式化了，那么你在网页上滑动也是校验失败的，因为 JS 里检测了格式化，将 JS 压缩成一行再替换即可，具体检测的位置后文会讲到。

captchaUuid

直接搜索关键词下断点，经过多次调试会发现第一个出现 captchaUuid 的地方是在 smcp.min.js，如下图所示：

这里的栈并不多，来回跟栈也没发现是哪里生成的，此时可以从初始位置也就是 embed.html 初始化验证码的地方开始单步跟：

单步跟进去会发现一个 getCaptchaUuid() 的方法，将此方法扣出来即可。

function generateTimeFormat() {    var e = new Date()    , t = function(n) {        return +n < 10 ? "0" + n : n.toString();    };    return ((e.getFullYear().toString() + t(e.getMonth() + 1)) + t(e.getDate()) + t(e.getHours()) + t(e.getMinutes())) + t(e.getSeconds());}function getCaptchaUuid() {    var c = "";    var o = "ABCDEFGHJKMNPQRSTWXYZabcdefhijkmnprstwxyz2345678";    var s = o.length;    for (var a = 0; a < 18; a++) {        c += o.charAt(Math.floor(Math.random() * s));    }    return generateTimeFormat() + c;}

12 个加密参数

直接跟栈就很容易找到，如下图所示的位置，D 就是生成的所有参数，此外，也可以通过搜索关键字 getEncryptContent 或者直接搜索参数名称来定位。

可以发现上图里就有四个加密参数，都用到了 getEncryptContent 这个加密方法，加密方法传入两个参数，一个是待加密参数，一个是 DES Key，这四个待加密参数分别为 appId 值、channel 值、lang 值和一个 getSafeParams 方法。

重点跟进 getEncryptContent 方法看看，一个控制流，挑几个重点的讲一下，第一步是获取一个 key，这个 key 是在前面设置的，后续会讲到，实际上这个 key 没啥用。

然后会有一个 isJsFormat 的格式化检测函数，正常应该是 false 的，如果你格式化了就为 true，也就会导致 f 的值为时间戳加数美的域名，这个 f 值后续是 DES 的 Key，不对的话自然怎么滑都不会通过。

然后就是 DES 加密了，这个 DES 是标准的加密算法，下图中传入的 1 和 0 表示的是加密，0 和 0 则表示解密，解密的情况也有，后续会遇到，mode 为 ECB，padding 为 ZeroPadding，不需要 iv，可以直接扣代码，或者直接引库即可。

var CryptoJS = require("crypto-js")function DESEncrypt(key, word) {    var key_ = CryptoJS.enc.Utf8.parse(key);    var srcs = CryptoJS.enc.Utf8.parse(word);    var encrypted = CryptoJS.DES.encrypt(srcs, key_, {        mode: CryptoJS.mode.ECB,        padding: CryptoJS.pad.ZeroPadding    });    return encrypted.toString();}function DESDecrypt(key, word) {    var key_ = CryptoJS.enc.Utf8.parse(key);    var decrypt = CryptoJS.DES.decrypt(word, key_, {        mode: CryptoJS.mode.ECB,        padding: CryptoJS.pad.ZeroPadding    });    return decrypt.toString(CryptoJS.enc.Utf8);}

这里的四个值就分析完了，还有八个值是在前面生成的，如下图所示 x 的值即为其他八个值，往前看是一个函数生成的，往里面跟即可。

跟进来是一个 getMouseAction 方法，里面先是挨个取值，后续会对这些值进行 DES 加密，下图中的 a、c 参数就是 register 接口返回的 k、l 值，s 参数是对 register 接口返回的 k 值进行解密操作：

上图中 u = this._data 里面的值，根据滑块、点选、无感模式的不同，也有所差异，以下代码中，以 baseData 来表示 this._data 的值，根据模式的不同，可分为三类，大致构成如下：

滑块（slide）：

/* track：滑动轨迹（x, y, t），distance：滑动距离，randomNum：生成两数之间的随机值，示例：var track = [[0, -2, 0], [62, 1, 98], [73, 4, 205], [91, 3, 303], [123, -3, 397], [136, 8, 502], [160, 0, 599], [184, 0, 697], [169, 0, 797]]var distance = 169 */var baseData = {}baseData.mouseData = trackbaseData.startTime = 0baseData.endTime = track[track.length - 1][2] + randomNum(100, 500)baseData.mouseEndX = distancebaseData.trueWidth = 300baseData.trueHeight = 150baseData.selectData = []baseData.blockWidth = 40

滑块轨迹生成代码：

def get_sm_track(distance):    track_length = random.randint(4, 10)    track = [[0, -2, 0]]    m = distance % track_length    e = int(distance / track_length)    for i in range(track_length):        x = (i + 1) * e + m + random.randint(20, 40)        y = -2 + (random.randint(-1, 10))        t = (i + 1) * 100 + random.randint(-3, 5)        if i == track_length - 1:            x = distance            track.append([x, y, t])        else:            track.append([x, y, t])    logger.info("track: %s" % track)    return track

点选类（文字点选 select、图标点选 icon_select、语序点选 seq_select、空间推理 spatial_select）：

/*coordinate：点选坐标（x, y），randomNum：生成两数之间的随机值，示例：var coordinate = [[171, 101], [88, 102], [138, 109], [225, 100]] */var baseData = {}var time_ = new Date().getTime()coordinate.forEach(function(co) {    co[0] = co[0] / 300    co[1] = co[1] / 150    co[2] = time_    time_ += randomNum(100, 500)})baseData.mouseData = coordinatebaseData.startTime = time_ - randomNum(800, 20000)baseData.endTime = coordinate[coordinate.length - 1][2]baseData.mouseEndX = 0baseData.trueWidth = 300baseData.trueHeight = 150baseData.selectData = coordinatebaseData.blockWidth = undefined

无感（auto_slide）：

/*randomNum：生成两数之间的随机值*/var baseData = {}baseData.mouseData = [[0, 0, 0]]baseData.startTime = 0baseData.endTime = randomNum(100, 500)baseData.mouseEndX = 260baseData.trueWidth = 300baseData.trueHeight = 150baseData.selectData = []baseData.blockWidth = 40

这些值生成完了之后，就是挨个通过 getEncryptContent 进行加密，前面已经分析过，实际上就是 DES 加密，可以看到分为点选、滑块和无感三类，其中 DES Key 也是会每隔一段时间变化的：

再往下走还有三个加密参数，待加密值是定值，然后将 s 的值（也就是前面 register 接口返回的 k 经过 DES 解密后的值赋值给了 this._data.__key）。

至此所有加密参数就搞完了。

结果验证

AST 获取动态参数

前面说了，/v1.0.4-171/captcha-sdk.min.js 文件地址，我们称 v1.0.4 为大版本，171 为小版本，小版本每隔一段时间会更新，版本号会不断升高，具体更新周期是多少？这里推荐一个方法 document.lastModified，该方法记录的是物理网页的最后修改时间，我们直接访问 JS 地址，就可以直接查看不同版本的 JS 是啥时候更新的了，多对比几个版本，发现更新间隔时间并没有太明显的规律，如下图所示：

不同版本里面的 12 个加密参数的名称和 DES 加密的 Key 都不一样，我们可以利用 AST 来动态获取这 12 个参数，经过测试，以下版本均可正常提取：

v1.0.4-148 ~ v1.0.4-171
v1.0.3-147 ~ v1.0.3-171
v1.0.1-147 ~ v1.0.1-171

截止本文发布，小版本 171 为最新，v1.0.4 小版本从 148 开始，v1.0.3、v1.0.1 在 147 以前没有混淆，可自行正则匹配，暂未发现其他大版本，如有遇到不能适配的，可联系我瞅瞅，以下是完整的代码分享。

PS：此 AST 代码仅实现对动态参数的提取，并非还原所有的混淆，提取出来的结果是有序、未去重的，后续按索引取就行。

/*@File   :  get_dynamic_params_ast.js@Time   :  2023-04-04@Author :  公众号：虫技@Desc   :  数美验证，动态读取 captcha-sdk.min.js，AST 提取动态参数@Version:  1.0.1 / 1.0.3 / 1.0.4 通用@Url    :  https://castatic.fengkongcloud.cn/pr/auto-build/v1.0.4-171/captcha-sdk.min.js*/const fs = require("fs");const parse = require("@babel/parser").parse;const generate = require("@babel/generator").default;const traverse = require("@babel/traverse").default;const types = require("@babel/types");function getDynamicParams(oldCode){    // 导入混淆代码并解析为 AST    const astCode = parse(oldCode);    // 获取整个 AST 节点的长度    let astCodeLength = astCode.program.body.length    // 获取数组位移函数的名称，如 _0x86bf    let arrDisplacementFuncName = ""    for (let i = 0; i < astCodeLength; i++) {        let astCodeBody = astCode.program.body[i]        if (astCodeBody.type == "FunctionDeclaration" && astCodeBody.params.length === 2) {            arrDisplacementFuncName = astCodeBody.id.name        }    }    // console.log("arrDisplacementFuncName: ", arrDisplacementFuncName)    // 获取大数组以及数组位移代码    let decryptFunction = "";    for (let i = 0; i < astCodeLength; i++) {        if (astCode.program.body[i].type == "FunctionDeclaration") {            decryptFunction += generate(astCode.program.body[i]).code        }        if (astCode.program.body[i].type == "ExpressionStatement") {            let expressions = astCode.program.body[i].expression.expressions            for (let a = 0; a < expressions.length; a++) {                if (expressions[a].type == "CallExpression" && expressions[a].callee.type == "FunctionExpression" && expressions[a].arguments.length == 2) {                    let expressionStatement = types.expressionStatement(expressions[a])                    decryptFunction += generate(expressionStatement).code                }            }        }    }    eval(decryptFunction)    // 获取所有引用了解密函数的变量名    let allReplacedFunc = []    let tmpReplacedFunc1 = [arrDisplacementFuncName]    while (true) {        let tmpReplacedFunc2 = []        traverse(astCode, {            VariableDeclarator(path) {                if (path.node.init && path.node.init.type == "Identifier" && tmpReplacedFunc1.indexOf(path.node.init.name)) {                    tmpReplacedFunc2.push(path.node.id.name)                    path.remove()                }            }        })        if (!tmpReplacedFunc2.length) {            break        }        allReplacedFunc = allReplacedFunc.concat(tmpReplacedFunc2)        tmpReplacedFunc1 = tmpReplacedFunc2    }    // console.log(JSON.stringify(allReplacedFunc))    // 解密函数还原    traverse(astCode, {        CallExpression(path) {            let calleeName = path.node.callee.name;            if (allReplacedFunc.indexOf(calleeName) > -1) {                // 先替换函数名称 _0xbce966(0x936) ==> _0x86bf(0x936)                let callee = types.identifier(arrDisplacementFuncName)                let argument = path.node.arguments                path.replaceInline(types.callExpression(callee, argument));                // 直接计算结果并替换                path.replaceInline(types.stringLiteral(eval(path.toString())));            }        }    })    // 大对象还原    let allObject = {}    traverse(astCode, {        VariableDeclarator(path) {            if (path.node.init && path.node.init.type == "ObjectExpression" && path.node.init.properties.length > 1) {                let name = path.node.id.name                let properties = path.node.init.properties                allObject[name] = {}                for (let i = 0; i < properties.length; i++) {                    allObject[name][properties[i].key.value] = properties[i].value                }                path.remove()            }        }    })    // 函数替换，字符串替换：将类似 _0x3b79c6['YrYQW'] 变成 '#IpValue'    traverse(astCode, {        MemberExpression(path) {            for (let key in allObject) {                if (path.node.object && path.node.object.name == key && path.inList) {                    path.replaceInline(allObject[key][path.node.property.value])                }                if (path.node.object && path.node.object.name == key && path.parent.property && path.parent.property.value == "split") {                    path.replaceInline(allObject[key][path.node.property.value])                }                if (path.node.object && path.node.object.name == key && path.parent.type == "SwitchCase") {                    path.replaceInline(allObject[key][path.node.property.value])                }            }        }    })    // 获取动态post参数和加密的key    let parametersList = [];    traverse(astCode, {        AssignmentExpression(path) {            let left = path.node.left            let right = path.node.right            if (right.callee && right.callee.property && right.callee.property.value == "getEncryptContent") {                parametersList.push([left.property.value, right.arguments[1].value])            }        },        CallExpression(path) {            let arguments = path.node.arguments            if (arguments.length == 3 && arguments[2].callee && arguments[2].callee.property && arguments[2].callee.property.value == "getEncryptContent") {                parametersList.push([arguments[1].value, arguments[2].arguments[1].value])            }        }    })    // 将 AST 节点转换成 JS 代码并写入到新文件里    // const result = generate(astCode).code    // fs.writeFile("./new.js", result, (err => {console.log(err)}))    return parametersList}// 从本地读取一份 captcha-sdkconst oldCode = fs.readFileSync("captcha-sdk.v1.0.4-171.js", {encoding: "utf-8"});const parametersList = getDynamicParams(oldCode)console.log(parametersList)console.log(parametersList.length)

百度滑块、点选、旋转验证码 v1、v2 逆向分析

2023-04-06T12:20:00.000Z

欢迎加入爬虫逆向微信交流群：添加微信 IT-BOB（备注交流群）

声明

逆向目标

目标：百度滑块验证码、点选验证码、旋转验证码，v1、v2 逆向分析
v1 旋转验证码：

aHR0cHM6Ly93YXBwYXNzLmJhaWR1LmNvbS9zdGF0aWMvY2FwdGNoYS90dXhpbmcuaHRtbD9haz0zM2M0ODg4NGI3ZGY4M2Q0MjMwZTA3Y2JjZDBkMDdmZCZiYWNrdXJsPWh0dHBzJTNBJTJGJTJGYWlxaWNoYS5iYWlkdS5jb20mdGltZXN0YW1wPTE2MzE0MzQ0MjUmc2lnbmF0dXJlPWM2ODRhODJiNzk4MjAyOTg3NWJmZDhlMGE2NjBiNzdm

v2 旋转验证码：

aHR0cHM6Ly93YXBwYXNzLmJhaWR1LmNvbS9zdGF0aWMvY2FwdGNoYS90dXhpbmcuaHRtbD8mYWs9YzI3YmJjODlhZmNhMDQ2MzY1MGFjOWJkZTY4ZWJlMDY=

v2 滑块验证码：

aHR0cHM6Ly93YXBwYXNzLmJhaWR1LmNvbS9zdGF0aWMvY2FwdGNoYS90dXhpbmcuaHRtbD8mYW1wO2FrPWMyN2JiYzg5YWZjYTA0NjM2NTBhYzliZGU2OGViZTA2

v2 点选验证码：

aHR0cHM6Ly93YXBwYXNzLmJhaWR1LmNvbS92Ni9nZXRQYXNz

PS：v1、v2 是作者自己为了区分而命名的版本号，主要依据是核心 JS 文件分为 mkd.js 和 mkd_v2.js 两个版本，如下图所示：

此外，在界面上也有所区别，v2 版本的旋转、滑块图片有很明显的阴影、线条干扰，如下图所示：

上面给的地址中，点选验证码的地址有时候是点选，有时候会变成旋转，估计是异常等级不同导致的，此外，传闻还有一种无感验证，不过作者到处找也没找到个地址，估计逻辑都是差不多的，无感验证如下图所示：

抓包分析

以下以 v1 旋转验证码为例（v2 接口名称不一样，但逻辑是一样的），第一次 viewlog 接口，请求的 ak 是固定值，当然不同场景不同网站是不一样的，callback 回调值，_ 时间戳，返回值 as、tk 都是后面会用到的。

然后是一个 getstyle 接口，其中的 tk 就是前面 viewlog 接口返回的，返回值里 backstr 后续参数加密会用到，img 就是旋转图片地址，info 是一些版权信息。

旋转验证码开始验证，此时第二次出现 viewlog 接口，as 和 tk 参数是第一次 viewlog 返回的，fs 参数需要我们逆向，包含了旋转角度等信息，如果旋转角度正确且参数没问题，则返回值里的 op 为 1，另外返回的 ds 和 tk 后续还会用到。

上一步验证走完后，并不意味着通过验证了，后续还会有一个 viewlog/c 的接口需要进一步验证，其中的 tk、ds 参数就是上一步返回的，如果验证失败，返回值 code 为 1，验证成功，code 则为 0。

逆向分析 fs

接下来分析主要加密参数 fs，跟栈到 mkd.js：

可以看到 o 就是 fs，而 o 又是 r.rzData 经过加密后得到的，输出一下 r.rzData，结构如下图所示：

重要参数：

ac_c：一看就知道和旋转的角度有关；
backstr：getstyle 接口返回的；
cl：x，y 坐标以及时间戳，量一下就知道这个坐标是鼠标点击下面那个滑动条按钮的时候的坐标；
mv：鼠标轨迹，鼠标动一下就记录一下坐标和时间戳；
cr：屏幕长宽高等信息；
其他值都是空或者0。

实际测试，cl 和 mv 都不校验，写死或者置空都行，当然想要自己伪造一下也是可以的，量一下滑动按钮在屏幕中的位置，cl 根据这个位置随机生成就行了。重点看看 ac_c，直接搜索即可定位：

可以看到这个值的计算方法为 parseFloat(o / a).toFixed(2)，a 是定值 212，实际上就是滑动条能够滑动的最大长度，o 是滑动的距离，如果我们识别出来的是旋转角度 angle，则 ac_c 计算方法如下：

var o = angle * 212 / 360var ac_c = parseFloat(o / 212).toFixed(2)// 也可以直接写成：var ac_c = parseFloat(angle / 360).toFixed(2)

r.rzData 搞定后，就只有个 r.encrypt() 方法了，直接跟进去就是我们熟悉的 AES 算法，其中 iv 是 viewlog 接口返回的 as 值加上一个定值 appsapi0，其他就不用多说了。至此加密参数就搞完了，还是非常简单的。

旋转角度识别

这里推荐一个国外大佬的 RotNet 项目，可以用于预测图像的旋转角度以纠正其方向，还有基于此项目开发的，Nanda 大佬的 RotateCaptchaBreak、另一个大佬的 rotate-captcha-crack 等，链接如下：

深度学习大佬可以基于这些项目进一步训练，像我这种对这方面一窍不通的当然是选择打码平台了，云码打码还不错，只不过官网只放出了 v1 版本没有阴影干扰的，找他们客服可以拿到 v2 版本有阴影干扰的类型，这里就不多说了，免得被认为是打广告了哈哈哈。

v2 版本分析

v2 版本和 v1 版本基本上差不多，区别在于 rzData 的结构不太一样，ac_c 的计算方法不一样，以及 AES 的 IV 不一样，先看 AES 的 IV，v2 版本是 as 值加上固定值 appsapi2：

然后再看看 rzData，common 字段下基本上就是 v1 的 rzData 的格式，captchalist 下，至少有 spin-0（旋转）、``puzzle-0（滑块）、click-0（点选）三种，ac_c` 依旧是旋转角度占比、滑动占比以及点选坐标信息，其他的依旧是写死或者置空就行。

然后就是 ac_c 的计算方法了，首先是旋转验证码，直接搜索 ac_c：

往上跟栈，有个 percent 的地方，一个三目表达式，e 是固定值 290，e - 52 = 238，238 也就是滑动条能够滑动的最大长度：

如果我们识别出来的是旋转角度 angle，则 ac_c 计算方法如下：

var distance = angle * 238 / 360var ac_c = Number((distance / (290 - 52)).toFixed(2))// 也可以直接写成：var ac_c = Number((angle / 360).toFixed(2))

而对于滑块验证码就有所不同，同样是这个地方的三目表达式，但是要走后面的逻辑：

如果我们识别出来的是滑动距离 distance，则滑块 ac_c 的计算方法如下：

var ac_c = Number((distance / 290).toFixed(2))

同样对于点选验证码来说，也不一样，ac_c 的值是点击的 xy 坐标以及时间戳：

其他问题

前面我们说了百度的验证应该有两次，对于第二次验证，也就是 v1 的 viewlog/c 接口，v2 的 cap/c 接口，即便你第一次校验通过了，这个 c 接口校验也有可能不通过，出现这种情况的原因是通过的时间太短了，随机 time.sleep 1-3 秒即可，如果时间太短，c 接口可能会报以下验证错误：

{'code': 1, 'isRectified': False, 'msg': 'Verification Failed'}

还有一种情况就是提示存在安全风险，请再次验证，出现这种情况你会发现去浏览器手动滑也是一样的，所以在本地加个再次验证的逻辑就行了，一般来说第二次验证就能通过。

{'code': 0, 'msg': 'success', 'data': {'f': {'feedback': 'https://www.baidu.com/passport/ufosubmit.html', 'reason': '存在安全风险，请再次验证'}}}

然后就是请求 header 里没有 Referer 或者 Referer 不正确的话，会报错：

// v1 没有 Referer{'code': 1, 'msg': 'Unregistered Host'}// v1 Referer 不正确{'code': 1, 'msg': 'Invalid Request', 'data': []}// v2 没有 Referer 或者 Referer 不正确{'code': 100600, 'msg': 'Unauthorized Host'}

还有一个小技巧，如果你想自己验证一下旋转的角度对不对，怎么去测量这个角度呢？我们可以借助一些做图软件，简单点儿的比如美图秀秀，新建一个画布，然后直接将验证码图片拖进去，就可以自由旋转了，旋转的时候软件会自动标注出旋转的角度，如下图所示：

结果验证

极验全家桶细节避坑总结

2023-03-19T16:00:00.000Z

欢迎加入爬虫逆向微信交流群：添加微信 IT-BOB（备注交流群）

文章目录

声明
前言
关于 w 值
关于时间间隔
关于 challenge
关于 c 和 s
关于两次 get.php 和 ajax.php 请求
关于智能组合验证
关于扣 w 的算法
关于验证码的识别
关于轨迹的生成
其他可能的报错

声明

前言

某验的验证码总体来说还是很简单的，但是也有一些细节可能要注意一下，如果你扣完算法发现验证报各种各样的错误，或者在官网的 demo 能验证通过，在其他网站却验证失败，那么就可以看看本文总结的细节你有没有注意到。

除此之外，本文还分享了一些验证码的识别方案、轨迹的处理，这些方法大多来自网络上其他大佬的分享，直接百度就能搜到，本文只是做了一个归纳总结。

关于 w 值

三代里面，有几个接口请求都有 w，但除了最后一个校验接口 ajax.php 以外，其他接口的 w 可以置空，但也不完全都是这样，比如三代的一键通过模式（无感验证），在请求 get.php 接口获取 c 和 s 值的时候，同样校验了 w 值，因此需要获取两次 w 值，而这两次 w 值的生成方式还不太一样，需要自己细心分两次扣一下。如果你第一次不带 w，或者 w 生成错误，就会报以下错误：

{'status': 'error', 'error': 'param decrypt error', 'user_error': '网络不给力', 'error_code': 'error_03'}

关于时间间隔

三代里面，整个流程走得太快了也是不行的，需要在生成 w 值之后，随机停留个 2 秒左右，以三代的点选（文字点选、图标点选、语序点选、空间推理）为例，如果整得太快了验证失败会报以下错误：

{'status': 'success', 'data': {'result': 'fail', 'msg': ['duration short']}}

关于 challenge

三代里面，有个 challenge 参与了很多接口的请求，三代滑块比较特殊，第一次获取到了一个 challenge，后面的第二个 get.php 请求返回数据里会有一个新的 challenge，新的 challenge 比第一次的 challenge 多了两位数，后续的请求要用这个新的 challenge 才行，不然的话会报以下错误：

{'success': 0, 'message': 'fail'}

关于 c 和 s

三代里面，有个 c 和 s 的值参与了 w 的计算，点选系列和滑块，第一次 get.php 请求会返回一个 c 和 s，第二次 get.php 请求也会返回一个 c 和 s，两次的 c 一般是不变的，但 s 会变，生成 w 要用第二次 get.php 返回的 s 才行，不然的话会报以下错误：

{'success': 0, 'message': 'forbidden'}

关于两次 get.php 和 ajax.php 请求

同样还是三代里面，点选系列和滑块，会有两次以 get.php 和 ajax.php 结尾的请求，第一次的 get.php 返回的是一些主题、域名、提示文字等信息，第一次的 ajax.php 返回的是验证码的类型，这两次请求返回的数据虽然对我们没太大用处，但是我们还是得发起请求，不然后续的请求就不对，必须得按照他这个顺序来才行。

关于智能组合验证

智能组合验证说白了就是事先不知道是什么类型，四代在很多网站都是选择智能模式，处理方法也很简单，事先把所有类型都准备好，然后通过接口返回的验证码类型来接入不同的逻辑。

三代判断逻辑：第一次的 ajax.php 接口，返回值会告诉你是点选 (click) 还是滑块 (slide)，其中点选又分为文字点选、图标点选、语序点选和空间推理，它们的类型都为 click，这个时候就要进行第二次判断，第二次 get.php 返回的 pic_type 字段，会告诉你是文字点选 (word)、图标点选 (icon)、语序点选 (phrase) 还是空间推理 (space)。

四代判断逻辑：四代更简洁，load 接口会有一个 captcha_type 字段，会直接告诉你是滑块、点选（以及哪种类型的点选）、五子棋还是九宫格等。

关于扣 w 的算法

扣 w 的算法，里面也有一些细节，某些参数也值得注意。

passtime

不管是二代、三代还是四代，生成 w 的时候经常有个 passtime 参与了计算，这个值分为两种情况，如果是滑块，这个值应该是滑动花费的时间，因为滑块的轨迹里包含了时间，所以应该直接取轨迹的最后一个时间值即可，即 track[track.length - 1][2]，以三代为例，如果这个值和你轨迹里的时间不一致，就会报以下错误：

{'success': 0, 'message': 'forbidden'}

除了滑块，其他情况下，这个值写死就行，不过还是建议写个随机值：Math.floor((Math.random()*500) + 4000)

pow_sign 和 pow_msg

这两个参数是四代里独有的，如果你是在 gt4.geetest.com 进行调试，你会发现 pow_msg 的组成格式如下：

1|0|md5|datetime|captcha_id|lot_number||随机字符串

而 pow_sign 则是 pow_msg 经过 MD5 加密后的值，如下图所示：

这里你可能不注意的话，直接按照这个格式写死了，特别是最后一个随机值，真的随机其实是不行的，真随机就会导致你在某些网站里能通过，某些网站不能通过。搜索 pow_sign 或者 pow_msg 的 Unicode 值，总共就三个地方，都下个断点，刷新一下网页，断下之后仔细分析，其实是有三种算法的，如下图所示：

上图中第 6819 行的 h 就是随机值，后续会根据不同算法进行计算，判断这个随机值是否满足一些条件，满足才是正确的，可以在 load 接口返回的 pow_detail 字段判断是 MD5、SHA1 还是 SHA256，如下图所示：

这一段的处理逻辑扣出来就是这样的：

var CryptoJS = require("crypto-js");function getRandomString(){    function e(){        return (65536 * (1 + Math.random()) | 0).toString(16).substring(1);    }    return e() + e() + e() + e();}function get_pow(pow_detail, captcha_id, lot_number) {    var n = pow_detail.hashfunc;    var i = pow_detail.version;    var r = pow_detail.bits;    var s = pow_detail.datetime;    var o = "";    var a = r % 4;    var u = parseInt(r / 4, 10);    var c = function g(e, t) {        return new Array(t + 1).join(e);    }("0", u);    var _ = i + "|" + r + "|" + n + "|" + s + "|" + captcha_id + "|" + lot_number + "|" + o + "|";    while (1) {        var h = getRandomString()          , l = _ + h          , p = void 0;        switch (n) {            case "md5":            p = CryptoJS.MD5(l).toString();            break;        case "sha1":            p = CryptoJS.SHA1(l).toString();            break;        case "sha256":            p = CryptoJS.SHA256(l).toString();        }        if (0 == a) {            if (0 === p.indexOf(c))                return {                    "pow_msg": _ + h,                    "pow_sign": p                };        } else if (0 === p.indexOf(c)) {            var f = void 0              , d = p[u];            switch (a) {            case 1:                f = 7;                break;            case 2:                f = 3;                break;            case 3:                f = 1;            }            if (d <= f)                return {                    "pow_msg": _ + h,                    "pow_sign": p                };        }    }}// 测试用例// var pow_detail = {//     bits: 0,//     datetime: "2023-02-09T11:04:17.687400+08:00",//     hashfunc: "md5",//     version: "1"// }// var captcha_id = "08c16c99330a5a1d6b7f4371bbd5a978"// var lot_number = "1417b7e362b748429003c412b3aa300c"// console.log(get_pow(pow_detail, captcha_id, lot_number))

只有经过这样处理，才能保证 pow_sign 和 pow_msg 是正确的，才能适配不同网站、不同算法的验证。

随机变化的字符串

不管是哪一代，都会有一个 16 位随机字符串参与了 w 的加密计算，这个随机字符串一般都会用到两次，这两次要保证是一样的才行。

如果这个字符串两次不一样，二、三代验证会报错如下：

{'status': 'error', 'error': 'param decrypt error', 'user_error': '网络不给力', 'error_code': 'error_03'}

四代验证会报错如下：

{'status': 'error', 'code': '-50002', 'msg': 'param decrypt error', 'desc': {'type': 'defined error'}}

随机变化的键值对

三四代生成 w 的过程中会有一个随机键值对，每隔一段时间就会变化，类似于 {h9s9: '1803797734'}，这个键值对写死也可以，貌似不影响，但如果非要和网页一样随机起来应该怎么做呢？

以三代滑块为例，断点到 o 参数生成的地方，后续有个 lang 和 ep 组成的 s 参数，经过 window[$_CAHJd(744)](s) 处理后，s 里就新增了一个键值对（不同类型略有差别，但生成的位置一定离 o 不远，仔细跟即可），如下图所示：

跟进去，会来到 gct.xxx.js 里，也是经过了一个方法后，就多了这个键值对：

这个 gct 的 js 具体地址可以在前面的 get.php 之类的请求里拿到，由于里面是不断变化的，所以可以采取动态请求这个 js，动态导出获取这个值，一个简单的逻辑如下：

import reimport execjsimport requestsheaders = {    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36",}# gct js 路径gct_path = "https://static.geetest.com/static/js/gct.b71a9027509bc6bcfef9fc6a196424f5.js"gct_js = requests.get(gct_path, headers=headers).text# 正则匹配需要调用的方法名称function_name = re.findall(r"\)\)\{return (.*?)\(", gct_js)[0]# 查找需要插入全局导出代码的位置break_position = gct_js.find("return function(t){")# window.gct 全局导出方法gct_js_new = gct_js[:break_position] + "window.gct=" + function_name + ";" + gct_js[break_position:]# 添加自定义方法调用 window.gct 获取键值对gct_js_new = "window = global;" + gct_js_new + """function getGct(){    var e = {"lang": "zh", "ep": "test data"};    window.gct(e);    delete e["lang"];    delete e["ep"];    return e;}"""gct = execjs.compile(gct_js_new).call("getGct")print(gct)# {'h9s9': '1803797734'}

补环境中可能用到的方法

补环境可能会遇到 window.crypto.getRandomValues() 方法，例如三代滑块的位置如下：

可以用以下代码来实现：

window = global;window.crypto = {    getRandomValues: getRandomValues_}function randoms(min, max) {    return Math.floor(Math.random() * (max - min + 1) + min)}function getRandomValues_(buf) {    var min = 0,    max = 255;    if (buf.length > 65536) {        var e = new Error();        e.code = 22;        e.message = 'Failed to execute \'getRandomValues\' : The ' + 'ArrayBufferView\'s byte length (' + buf.length + ') exceeds the ' + 'number of bytes of entropy available via this API (65536).';        e.name = 'QuotaExceededError';        throw e;    }    if (buf instanceof Uint16Array) {        max = 65535;    } else if (buf instanceof Uint32Array) {        max = 4294967295;    }    for (var element in buf) {        buf[element] = randoms(min, max);    }    return buf;}// 测试// var a = new Uint32Array(256);// console.log(window.crypto.getRandomValues(a))

另外，还有个用到 window.performance.timing 的地方，如下图所示：

这个主要是一些性能指标，直接搞个时间戳随机加值就行了：

function timing() {    var now = Date.now()    var tim = {        "navigationStart": now,        "unloadEventStart": now + 200,        "unloadEventEnd": now + 200,        "redirectStart": 0,        "redirectEnd": 0,        "fetchStart": now + 100,        "domainLookupStart": now + 150,        "domainLookupEnd": now + 250,        "connectStart": now + 30,        "connectEnd": now + 50,        "secureConnectionStart": now + 52,        "requestStart": now + 72,        "responseStart": now + 91,        "responseEnd": now + 92,        "domLoading": now + 99,        "domInteractive": now + 105,        "domContentLoadedEventStart": now + 105,        "domContentLoadedEventEnd": now + 111,        "domComplete": now + 111,        "loadEventStart": now + 111,        "loadEventEnd": now + 111,    }    return tim}

关于验证码的识别

识别主要有三种方法，第一个是会深度学习的话，自己用 OpenCV 之类的去识别，第二个当然是非常牛逼的 ddddocr（https://github.com/sml2h3/ddddocr），还支持自己训练，是不错的选择，当然也有一些其他开源库，这里就不一一举例了，第三个就是打码平台，这里推荐云码打码，可通过我的链接注册：https://www.jfbym.com/register/TG17764 ，自己去官网看，支持非常多的类型，甚至谷歌验证码都可以，价格也不贵，实测成功率 99%，还是不错的。这里贴一个 OpenCV 识别滑块的源码（来源于互联网收集），效果还不错：

# CV2 识别滑块缺口距离import cv2import PILimport numpy as npfrom PIL import Imagefrom pathlib import Pathdef imshow(img, winname='test', delay=0):    """cv2展示图片"""    cv2.imshow(winname, img)    cv2.waitKey(delay)    cv2.destroyAllWindows()def pil_to_cv2(img):    """    pil转cv2图片    :param img: pil图像,     :return: cv2图像,     """    img = cv2.cvtColor(np.asarray(img), cv2.COLOR_RGB2BGR)    return imgdef bytes_to_cv2(img):    """    二进制图片转cv2    :param img: 二进制图片数据,     :return: cv2图像,     """    # 将图片字节码bytes, 转换成一维的numpy数组到缓存中    img_buffer_np = np.frombuffer(img, dtype=np.uint8)    # 从指定的内存缓存中读取一维numpy数据, 并把数据转换(解码)成图像矩阵格式    img_np = cv2.imdecode(img_buffer_np, 1)    return img_npdef cv2_open(img, flag=None):    """    统一输出图片格式为cv2图像,     :param img:     :param flag: 颜色空间转换类型, default: None        eg: cv2.COLOR_BGR2GRAY（灰度图）    :return: cv2图像,     """    if isinstance(img, bytes):        img = bytes_to_cv2(img)    elif isinstance(img, (str, Path)):        img = cv2.imread(str(img))    elif isinstance(img, np.ndarray):        img = img    elif isinstance(img, PIL.Image.Image):        img = pil_to_cv2(img)    else:        raise ValueError(f'输入的图片类型无法解析: {type(img)}')    if flag is not None:        img = cv2.cvtColor(img, flag)    return imgdef get_distance(bg, tp, im_show=False, save_path=None):    """    :param bg: 背景图路径或 Path 对象或图片二进制               eg: 'assets/bg.jpg'、Path('assets/bg.jpg')    :param tp: 缺口图路径或 Path 对象或图片二进制               eg: 'assets/tp.jpg'、Path('assets/tp.jpg')    :param im_show: 是否显示结果, ; default: False    :param save_path: 保存路径, ; default: None    :return: 缺口位置    """    # 读取图片    bg_img = cv2_open(bg)    tp_gray = cv2_open(tp, flag=cv2.COLOR_BGR2GRAY)    # 金字塔均值漂移    bg_shift = cv2.pyrMeanShiftFiltering(bg_img, 5, 50)    # 边缘检测    tp_gray = cv2.Canny(tp_gray, 255, 255)    bg_gray = cv2.Canny(bg_shift, 255, 255)    # 目标匹配    result = cv2.matchTemplate(bg_gray, tp_gray, cv2.TM_CCOEFF_NORMED)    # 解析匹配结果    min_val, max_val, min_loc, max_loc = cv2.minMaxLoc(result)    distance = max_loc[0]    if save_path or im_show:        # 需要绘制的方框高度和宽度        tp_height, tp_width = tp_gray.shape[:2]        # 矩形左上角点位置        x, y = max_loc        # 矩形右下角点位置        _x, _y = x + tp_width, y + tp_height        # 绘制矩形        bg_img = cv2_open(bg)        cv2.rectangle(bg_img, (x, y), (_x, _y), (0, 0, 255), 2)        # 保存缺口识别结果到背景图        if save_path:            save_path = Path(save_path).resolve()            save_path = save_path.parent / f"{save_path.stem}{save_path.suffix}"            save_path = save_path.__str__()            cv2.imwrite(save_path, bg_img)        # 显示缺口识别结果        if im_show:            imshow(bg_img)    return distance# with open("./img/slide_bg.jpg", "rb") as f:#     bg_img = f.read()# with open("./img/slide_slice.png", "rb") as f:#     slice_img = f.read()# distance = get_distance(bg_img, slice_img)# print(distance)

关于轨迹的生成

轨迹主要是针对滑块的，可以利用贝塞尔曲线、缓动函数等，来生成正确的轨迹，基于贝塞尔曲线的可以参考：https://github.com/2833844911/gurs ，吾爱上也有个大佬利用 tanh 和 arctan 函数整合生成轨迹的：https://www.52pojie.cn/forum.php?mod=viewthread&tid=1162979

基于缓动函数的可以参考以下代码（来源于互联网收集）：

import randomdef __ease_out_expo(sep):    """    缓动函数 easeOutExpo    参考：https://easings.net/zh-cn#easeOutExpo    """    if sep == 1:        return 1    else:        return 1 - pow(2, -10 * sep)def get_slide_track(distance):    """    根据滑动距离生成滑动轨迹    :param distance: 需要滑动的距离    :return: 滑动轨迹: [[x,y,t], ...]        x: 已滑动的横向距离        y: 已滑动的纵向距离, 除起点外, 均为0        t: 滑动过程消耗的时间, 单位: 毫秒    """    if not isinstance(distance, int) or distance < 0:        raise ValueError(f"distance类型必须是大于等于0的整数: distance: {distance}, type: {type(distance)}")    # 初始化轨迹列表    slide_track = [        [random.randint(-50, -10), random.randint(-50, -10), 0],        [0, 0, 0],    ]    # 共记录count次滑块位置信息    count = 30 + int(distance / 2)    # 初始化滑动时间    t = random.randint(50, 100)    # 记录上一次滑动的距离    _x = 0    _y = 0    for i in range(count):        # 已滑动的横向距离        x = round(__ease_out_expo(i / count) * distance)        # 滑动过程消耗的时间        t += random.randint(10, 20)        if x == _x:            continue        slide_track.append([x, _y, t])        _x = x    slide_track.append(slide_track[-1])    return slide_track

其他可能的报错

// challenge 不对geetest_xxxxxxxxxxxxx({"status": "error", "error": "illegal challenge", "user_error": "网络不给力", "error_code": "error_23"})// w 生成不对geetest_xxxxxxxxxxxxx({"status": "error", "error": "param decrypt error", "user_error": "网络不给力", "error_code": "error_03"})// 滑动验证没有轨迹geetest_xxxxxxxxxxxxx({"status": "error", "error": "not proof", "user_error": "网络不给力", "error_code": "error_21"})// 轨迹、缺口距离、参数问题geetest_xxxxxxxxxxxxx({"success": 0, "message": "fail"})geetest_xxxxxxxxxxxxx({"success": 0, "message": "forbidden"})

极验三代、四代点选类验证码逆向分析

2023-03-15T11:00:00.000Z

欢迎加入爬虫逆向微信交流群：添加微信 IT-BOB（备注交流群）

文章目录

声明
逆向目标
通讯流程
三代抓包情况
三代逆向分析
- w 参数逆向
结果验证
四代抓包情况
四代逆向分析
- w 参数
结果验证

声明

逆向目标

目标：某验三代、四代点选类验证码（文字、字序、图标、九宫格）逆向分析
三代主页：aHR0cHM6Ly93d3cuZ2VldGVzdC5jb20vc2hvdw==
四代主页：aHR0cHM6Ly9ndDQuZ2VldGVzdC5jb20v

通讯流程

接口相关：

完整流程：

三代抓包情况

通过抓包发现，register-click-official 接口会返回 challenge 和 gt 值，为 get.php 接口的关键请求参数：

get.php 会返回 c 和 s，同样后面会用到，这个接口的 w 值与三代无感不同，可以置空：

点击按钮进行验证，会弹出文字点选框，此时抓包到第一个 ajax.php 接口，虽然只返回了验证码类型，没什么关键参数，但是不请求会报错，点击文字进行验证后，抓到第二个 ajax.php 接口，返回验证结果及 validate 参数的值，该值登录接口会用到：

三代逆向分析

w 参数逆向

从 ajax.php 接口处跟栈或者直接搜索特征码 "\u0077" 即可定位到 w 参数值生成的位置，位于 click.3.0.7.js 文件的第 5839 行：

p + l = w，关键代码：

var l = n[$_CACJJ(716)](), h = X[$_CADAG(338)](ae[$_CACJJ(130)](o), n[$_CADAG(711)]()), p = w[$_CADAG(776)](h)

先来看看 l 参数，跟到 n[$_CACJJ(716)] 中去，this[$_CBFJA(711)](e) 为十六位随机字符串，跟到 this[$_CBFJA(711)] 中将算法扣下来即可：

因此 t 是将十六位随机字符串加密后得到的，这里为 RSA 加密，从原型链中跟进去即可找到公钥和模值，将代码扣下来或者直接用库都行，至此 l 值分析完了，接下来是 h 值，n[$_CADAG(711)]() 同样是十六位随机字符串，h 参数的加密方法为 X[$_CADAG(338)]，跟进去打断分析会发现是 AES 加密，初始向量 iv 为 0000000000000000：

o 值的关键参数如下：

passtime：图片加载时间
a：点选文字位置
pic：背景图片链接
tt：将 c、s、鼠标信息等进行加密，某些值可以固定，加密方法直接扣下来即可
h9s9: "1816378497"：该键值对每天变化，扣法往期文章讲过
rp：将 gt、challenge、passtime 经过 MD5 加密

将 h 经过 w[$_CADAG(776)] 方法加密后得到 p，跟进去扣下来即可，三代图标、语序除了 a 的写法，其他逻辑都是一样的。

结果验证

四代抓包情况

抓包，load 接口返回值如下：

captcha_type：验证码类型，文字点选为 word
gct_path：gct4 文件路径
lot_number：生成 pow_msg、w 的关键参数
pow_detail：bits、datetime、hashfunc 都与 w 参数有关
payload：verify 请求参数
process_token：verify 请求参数
ques：各文字图片的链接

点击验证后，verify 接口返回校验结果及 login 请求参数：

result：校验结果，成功即 success，失败为 fail
captcha_id：验证码 id
captcha_output：login 请求参数
gen_time：login 请求参数
lot_number：login 请求参数
pass_token：login 请求参数

login 接口验证登录成功则返回：

四代逆向分析

w 参数

与三代文字点选一样，四代的 w 参数同样直接搜索 "\u0077" 即可定位到，r 为 w 参数的值：

r 参数定义在第 6096 行，内容如下：

var r = (0, d[$_CBHIU(47)])(f[$_CBHHP(47)][$_CBHIU(541)](e), i)

跟进到 d[$_CBHIU(47)] 中，(0, d[$_DIEHV(186)])(c) + u 即 w 值：

u 定义在第 11461 行：

u = new l[($_DIEIo(47))]()[$_DIEIo(1443)](i)

由上可知，u 是将 i 经过加密后得到的值，i 定义在上面一行，跟进去会发现是十六位随机字符串，u 的加密方式为 RSA，公钥和模值如下，将加密算法扣下来或者直接用库都可：

(0, d[$_DIEHV(186)])(c) 是将 c 进行了加密处理，c 定义在第 11462 行：

var c = s[a][$_DIEIo(1488)][$_DIEIo(1443)](e, i);

i 上文讲了，为十六位随机字符串，e 中 device_id、lot_number 由 load 接口返回，userresponse 为点选坐标，pow_msg 为 "1|0|md5|" + datetime + "|" + captcha_id + "|" + lot_number + "||" + 16位随机数，pow_msg 经过 MD5 加密即为 pow_sign，"f019":"1024281898" 为动态变化的键值对，在往期四代滑块的文章中均有详细介绍，其他值固定即可：

接下来跟进到 s[a][$_DIEIo(1488)][$_DIEIo(1443)] 中，c 为 AES 加密，扣代码或者直接用库：

四代图标、字序、九宫格除了 userresponse 的写法，其他逻辑都是一样的。

结果验证

极验四代五子棋、消消乐验证码逆向分析

2023-03-14T06:00:00.000Z

欢迎加入爬虫逆向微信交流群：添加微信 IT-BOB（备注交流群）

文章目录

声明
逆向目标
通讯流程
消消乐流程分析
逆向分析
- w 参数
消消乐结果验证
五子棋流程分析
五子棋结果验证
五子棋和消消乐算法

声明

逆向目标

目标：某验四代消消乐、五子棋验证码，w 参数逆向及算法分析
行为验证 4.0 demo：aHR0cHM6Ly9ndDQuZ2VldGVzdC5jb20v
加密算法：RSA、AES、MD5

通讯流程

消消乐流程分析

进入网页后，F12 进行抓包，选择消消乐验证码，抓包到 load 接口：

captcha_id：验证码 id，固定值，四代滑块文章中有讲；
challenge：动态变化，由 gtc4.js 文件生成，四代滑块文章中有讲；
client_type：web 端；
risk_type：验证码类型，例如滑块为 slide，无感为 ai，消消乐为 match；
lang：语言；
callback：回调参数，geetest_ + 时间戳。

响应预览中返回的关键内容如下：

captcha_type：验证码类型；
gct_path：gct4 文件路径；
lot_number：生成 pow_msg、w 的关键参数；
payload：verify 请求参数；
datetime：ISO 8601 扩展格式的日期，生成 pow_msg 的关键参数；
process_token：verify 请求参数；
ques：消消乐矩阵（3x3），每个数字代表一种颜色，将三个相同数字换到同一列或同一行即可通过。

点击验证按钮，弹出消消乐验证码，移动图案之后，抓包到 verify 校验接口：

captcha_id：与 load 请求头中的 captcha_id 一致；
client_type：web 端；
lot_number：load 响应返回；
risk_type：验证码类型；
payload：load 响应返回；
process_token：load 响应返回；
payload_protocol：1；
pt：1；
w：加密参数，由轨迹、passtime、userresponse 等参数加密得到；
callback：回调参数，geetest_ + 时间戳。

响应预览中返回的内容如下，result 值为 success 即校验通过，fail 即校验失败，携带 seccode 下的五个参数请求 login 接口，即可登录成功：

逆向分析

w 参数

四代的基本流程都是差不多的，直接搜索特征值 "\u0077" 即可定位到 w 参数生成的位置，先全局搜索 "\u0077"，找到对应的 js 文件，点击进去格式化后，再 ctrl + f 局部搜索定位关键位置：

在第 6251 行打下断点，移动图案即会断住，r 即 w 参数的值：

跟进 r 生成的位置，其定义在第 6237 行，可以看到加密方式与四代滑块是一样的：

var r = (0,d.default)(f.default.stringify(e), i)

唯一不同的就是 e 中参数值的构成，以下是四代滑块与消消乐的对比：

可以看到不同点在于四代滑块 e 中参数包括 setLeft（缺口距离）、track（滑动轨迹），自然消消乐是没有的，userresponse 在滑块中是数值计算，而消消乐中是交换的两个图片的坐标，举个例子：

上图中的验证码，接口返回的 ques 值为：

ques = [    [0, 1, 0],     [1, 3, 3],     [1, 0, 1]]

ques[0]、ques[1]、ques[2] 分别对应验证码的第0列、第1列、第2列，注意是列，不是行！而我们只需要关心 ques 数组里的交换即可，正确应该交换第0行第1列和第0行第0列，那么 userresponse 的值应该为：[[0, 1], [0, 0]]。

其他参数值的生成都是一样的方式，具体可以阅读 K 哥往期文章《【验证码逆向专栏】某验四代滑块验证码逆向分析》，这里就不再重复写了。

消消乐结果验证

只要 JS 和交换的坐标没问题，成功率就为 100%。

五子棋流程分析

五子棋的流程跟消消乐一样，进入网页后，F12 进行抓包，选择五子棋验证码，抓包到 load 接口：

captcha_id：验证码 id，固定值，四代滑块文章中有讲；
challenge：动态变化，由 gtc4.js 文件生成，四代滑块文章中有讲；
client_type：web 端；
risk_type：验证码类型，例如滑块为 slide，无感为 ai，五子棋为 winlinze；
lang：语言；
callback：回调参数，geetest_ + 时间戳。

响应预览中返回的关键内容如下：

captcha_type：验证码类型；
gct_path：gct4 文件路径；
lot_number：生成 pow_msg、w 的关键参数；
payload：verify 请求参数；
datetime：ISO 8601 扩展格式的日期，生成 pow_msg 的关键参数；
process_token：verify 请求参数；
ques：五子棋矩阵（5x5），每个数字代表一种颜色，0 表示空位，将五个相同数字换到同一列、同一行或对角线上即可通过。

其他的与消消乐是一样的，e 参数如下，其中 userresponse 就是需要交换的两个棋子的坐标：

五子棋结果验证

同样的，只要 JS 和交换的坐标没问题，成功率就为 100%。

五子棋和消消乐算法

以下是消消乐和五子棋坐标交换的 Python 算法，注意是交换坐标的算法哟，不是全部的代码哈，消消乐大概30来行，五子棋大概60来行，还是很简单的，有需要的可以看看。

def match_algorithm(ques):    """消消乐算法"""    # 横向查找    def check_x(matrix):        for index, array in enumerate(matrix):            unique_list = list(set(array))            two_num = [x for x in unique_list if array.count(x) == 2]            if two_num:                one_num = [x for x in unique_list if array.count(x) == 1]                one_num_index = array.index(one_num[0])                if index == 0:                    if matrix[index+1][one_num_index] == two_num[0]:                        return [[index+1, one_num_index], [index, one_num_index]]                if index == 1:                    if matrix[index-1][one_num_index] == two_num[0]:                        return [[index-1, one_num_index], [index, one_num_index]]                    if matrix[index+1][one_num_index] == two_num[0]:                        return [[index+1, one_num_index], [index, one_num_index]]                if index == 2:                    if matrix[index-1][one_num_index] == two_num[0]:                        return [[index-1, one_num_index], [index, one_num_index]]    # 纵向查找    def check_y(matrix):        # 转置原数组        transposition_array = list(map(list, zip(*matrix)))        x_result = check_x(transposition_array)        actual_result = [[x_result[0][1], x_result[0][0]], [x_result[1][1], x_result[1][0]]]        return actual_result    result = check_x(ques)    if not result:        result = check_y(ques)    return resultdef winlinze_algorithm(ques):    """五子棋算法"""    # 横向查找    def check_x(matrix):        for index1, array1 in enumerate(matrix):            unique_list = list(set(array1))            four_num = [x for x in unique_list if array1.count(x) == 4 and x != 0]            if four_num:                one_num = [x for x in unique_list if array1.count(x) == 1]                one_num_index = array1.index(one_num[0])                for index2, array2 in enumerate(matrix):                    for arr in array2:                        if four_num[0] == arr and index2 != index1:                            arr_index = array2.index(arr)                            return [[index2, arr_index], [index1, one_num_index]]    # 纵向查找    def check_y(matrix):        transposition_array = list(map(list, zip(*matrix)))        x_result = check_x(transposition_array)        if x_result:            actual_result = [[x_result[0][1], x_result[0][0]], [x_result[1][1], x_result[1][0]]]            return actual_result    # 对角查找(左 → 右: \)    def check_left_to_right(matrix):        array_left_to_right = []        for index1, array1 in enumerate(matrix):            array_left_to_right.append(array1[index1])        unique_list = list(set(array_left_to_right))        four_num = [x for x in unique_list if array_left_to_right.count(x) == 4 and x != 0]        if four_num:            one_num = [x for x in unique_list if array_left_to_right.count(x) == 1]            one_num_index = array_left_to_right.index(one_num[0])            for index2, array2 in enumerate(matrix):                for index3, array3 in enumerate(array2):                    if four_num[0] == array3 and index2 != index3:                        return [[index2, index3], [one_num_index, one_num_index]]    # 对角查找(右 → 左: /)    def check_right_to_left(matrix):        reverse_matrix = [m[::-1] for m in matrix]        res = check_left_to_right(reverse_matrix)        actual_result = []        for i in res:            if i[1] < 2:                actual_result.append([i[0], i[1]+2])            elif i[1] > 2:                actual_result.append([i[0], i[1]-2])            else:                actual_result.append([i[0], i[1]])        return actual_result    result = check_x(ques)    if not result:        result = check_y(ques)    if not result:        result = check_left_to_right(ques)    if not result:        result = check_right_to_left(ques)    return result# 消消乐示例match_ques = [    [1, 0, 1],     [2, 3, 2],     [0, 2, 0]]# 五子棋示例winlinze_ques = [    [0, 4, 0, 0, 0],     [0, 0, 0, 2, 0],     [0, 0, 0, 0, 0],     [0, 2, 2, 2, 2],     [0, 0, 0, 0, 0]]match_result = match_algorithm(match_ques)winlinze_result = winlinze_algorithm(winlinze_ques)print(match_result)print(winlinze_result)

极验三代、四代无感验证（一键通过）逆向分析

2023-02-20T06:00:00.000Z

欢迎加入爬虫逆向微信交流群：添加微信 IT-BOB（备注交流群）

文章目录

声明
逆向目标
通讯流程
三代抓包情况
三代逆向分析
- 第一个 w 值
- 第二个 w 值
三代结果验证
四代抓包情况
四代逆向分析
- w 参数
四代结果验证

声明

逆向目标

目标：某验三代、四代一键通过模式（无感验证）逆向分析
三代主页：aHR0cHM6Ly93d3cuZ2VldGVzdC5jb20vZGVtby9mdWxscGFnZS5odG1s
四代主页：aHR0cHM6Ly9ndDQuZ2VldGVzdC5jb20v

通讯流程

接口相关：

完整流程：

三代抓包情况

register-fullpage 会返回 challenge 和 gt 值，后期有用到。

get.php 会返回 c 和 s，同样后期会用到，这个请求同样需要 w 值，在某验的点选滑块里，这个请求可以不要 w 值，但在三代无感里，必须得要，不然最后是会验证失败的，可能不带 w 请求，返回的 s 是个假的值，导致最后验证失败。

ajax.php 验证是否成功，同样需要 w 值，成功则会返回一个 validate。

三代逆向分析

第一个 w 值

相信看过K哥以前滑块、点选的文章，对于定位 w 的值很熟练了，这里也是类似的，"\u0077" 就是 "w"，其值为 i + r，如下图所示：

主要就是 r、o、i 的值，关键代码：

var r = t[$_CFAGw(1326)]()  , o = $_BFx()[$_CFAGw(1367)](pe[$_CFAFP(416)](t[$_CFAGw(353)]), t[$_CFAGw(1393)]())  , i = O[$_CFAGw(1375)](o)

先看看 r，跟进去就是我们熟悉的 RSA 了，和以前的处理一样，把代码扣下来或者用库都行。

同样需要注意的是上图中 this[$_CHCFe(1393)]() 也是个随机字符串，会遇到多次，但整体一次验证下来都是相同的值，不然验证会失败，点选、滑块等一系列都一样的。

然后是 o 的值，这里和以前一样，跟进去看仍然是 AES 加密。 t[$_CFAGw(1393)]() 依旧是随机字符串。

中间这一串 pe[$_CFAFP(416)](t[$_CFAGw(353)])，也没啥特别的，除了 gt 和 challenge，其他都是定值，最后面那一串 i 的值，实测写死、置空都行。

然后继续跟进 i，把前面 o 的值转换成一个大的字符串，这里也不是很复杂，直接扣代码即可：

然后 i + r 就是 w 的值了，到这里第一个 w 的值就搞完了。

第二个 w 值

第二个 w 的值和以往的地方都不太一样，不过通过跟栈的方式也很容易找到，来到有个 var n = {}; 的地方，如下图所示：

t[$_CGABi(1436)] 就是 w 值，也就是 t['$_CEDO']，前面定义了 var t = this，经过第 8215 行的 t[$_CGAAX(1462)]() 之后，就有了 w 的值，所以要跟进去重点看这一行。

如上图所示，e、t、n、r 中涉及到一些浏览器环境值的计算，当然还有鼠标移动等相关数据的计算，如下图所示：

而实际测试发现这四个值直接置空也可以，在本例中可以，不知道是否有其他案例校验更加严格，知道的朋友可以在评论区提出来，再往下，会遇到很多给变量赋值的地方，如下图所示，G 是 MD5 方法，中间的 O[$_CGBFp(948)] 和以前类似，返回一个对象中的 res 和 end 相加，这里就不再赘述了。

i[$_CGBGa(1415)] 这里就是将每个变量和值挨个相加，组成一个大的字符串。

然后到 r 这里，就多了一个 captcha_token，然后用 {} 将所有数据包了起来。

这些数据我们格式化一下，大致结构如下图所示：

其中 ep 里面的 ven、ren 是显卡相关信息，fp、lp 是取了两个鼠标移动的位置信息，直接写死为 null 也可以，tm 就是 window.performance.timing 的一些东西，自己随便伪造一下就行了。

最后一步 i[$_CGDBA(1436)]，随机字符串为 key，将前面的数据 r 进行 AES 加密，得到我们最终的 w 值，如下图所示：

三代结果验证

四代抓包情况

load 接口返回值如下：

captcha_type：验证码类型，无感为 ai
gct_path：gct4 文件路径
lot_number：生成 pow_msg、w 的关键参数
payload：verify 请求参数
datetime：ISO 8601 扩展格式的日期，生成 pow_msg 的关键参数
process_token：verify 请求参数

verify 接口返回值如下：

captcha_id：验证码 id
captcha_output：login 请求参数
gen_time：login 请求参数
lot_number：login 请求参数
pass_token：login 请求参数

login 接口验证登录成功：

四代逆向分析

w 参数

与三代无感一样，四代无感 w 参数同样直接搜索 "\u0077" 即可定位到，r 为 w 参数的值：

r 参数定义在第 6237 行，内容如下：

(0,d[$_CBHHO(84)])(f[$_CBHIE(84)][$_CBHHO(562)](e), i)d["default"])(f["default"]["stringify"](e), i)

由上可知，r 是将 i 参数和转为字符串的 e 参数加密得到的，跟进到 d[$_CBHHO(84)] 中，加密函数定义在第 11669 行，在第 11707 行打下断在，返回值为 r 参数的值，即 w 值：

(0,d[$_DIEHS(177)])(c) + ud["arrayToHex")(c) + u

这里是将 c 数组转换成了十六进制的字符串然后加上 u 得到的 r 值，d[$_DIEHS(177)] 跟进去直接扣出来即可，c 定义在第 11705 行：

var c = s[a][$_DIEIq(1403)][$_DIEHS(1498)](e, i);var c = s[1]["symmetrical"]["encrypt"](e, i);

e 后文分析，i 为 16 位字符串：

i 定义在第 11702 行，跟进到 d[$_DIEIq(103)] 方法中，i 为 16 位随机数：

e 参数内容如下：

device_id、lot_number 由 load 接口返回，pow_msg 为 "1|0|md5|" + datetime + "|" + captcha_id + "|" + lot_number + "||" + 16位随机数，pow_msg 经过 MD5 加密即为 pow_sign，"l0zs":"53502544" 为动态变化的键值对，在往期四代滑块的文章中均有详细介绍，接下来跟进到 s[a][$_DIEIq(1403)][$_DIEHS(1498)] 中，c 为 AES 加密，扣代码或者直接引库：

u 定义在第 11704 行，i 为十六位随机字符串：

u = new l[($_DIEHS(84))]()[$_DIEIq(1498)](i);u = new l["default"]()["encrypt"](i);

跟进到加密函数 l[($_DIEHS(84))] 中，在第 12725 行，于 12741 行打下断点，可以看到这里就是个 RSA 加密，扣代码或者直接引库即可：

四代结果验证

吾爱破解 2023 春节解题领红包之 Web 题解

2023-02-05T16:00:00.000Z

欢迎加入爬虫逆向微信交流群：添加微信 IT-BOB（备注交流群）

文章目录

题目简介
初级难度
中级难度
高级难度

（图作者 | 吾爱破解@Ps出来的小赵）

吾爱破解每年都有个解题领红包活动，今年也不例外，需要我们使出看家逆向本领来分析内容获得口令红包，根据难度等级不同会获得不同数量的吾爱币，活动持续到元宵节结束。活动一共有十个题，本文仅分享 Web 初级、中级、高级三个题的逆向思路。

活动地址：https://www.52pojie.cn/thread-1738015-1-1.html

题目简介

三个 Web 题的线索都在一个视频里：https://www.bilibili.com/video/BV123411R7K6/

视频中包含 12 个静态 flag: flag1~flag12，另外还需要寻找到 3 个动态 flag: flagA~flagC。本题总共有 3 个难度，每个难度提交 4 个静态 flag 和 1 个动态 flag 就算通过。

初级难度为 flag1~flag4 与 flagA
中级难度为 flag5~flag8 与 flagB
高级难度为 flag9~flag12 与 flagC

初级难度

flag1

flag1 直接在视频中给出了，flag1{52pojiehappynewyear}

flag2

flag2 藏在二维码里，拿手机扫一下会打开一个网址，网址后面跟了一个 flag2{878a48f2}，当然直接搜二维码在线解码也行，上传上去就能看到文本信息。

flag3

在视频 25 秒左右，右下角会出现一串字符 iodj3{06i95dig}，这里肯定是一个 flag，注意观察 flag 是四个字母，iodj 也是四个字母，可以大胆猜测这就是 flag3，在字母上动了手脚，数字和括号没变，极大可能是恺撒密码，恺撒密码是一种替换加密的技术，明文中的所有字母都在字母表上向后（或向前）按照一个固定数目进行偏移后被替换成密文，例如，当偏移量是3的时候，所有的字母A将被替换成D，B变成E。这里 iodj 每个字母分别向前偏移3，刚好就是 flag，以此类推，最终结果就是 flag3{06f95afd}。

flag4

flag4 比较鸡贼，没在视频里，而是藏在视频作者的签名里（鼠标无意间瞎晃找到的），解密发现是 Base64，最终结果为 flag4{9cb91117}。

flagA

视频里给了一个网址 2023challenge.52pojie.cn，提示说了这个网站似乎无法访问，但网站的确在运行，它和吾爱破解主站是同一台服务器，可能是域名解析的问题。

既然都说了是域名解析问题，那我们就分别在线检测一下 2023challenge.52pojie.cn 和主站 52pojie.cn 的解析设置，首先可以发现 2023challenge.52pojie.cn 的 TXT 记录里有个 flagB，这个后面再说，与主站对比发现 A 记录里少了 124.232.185.97，提示也说了和主站是同一台服务器，所以我们可以在本地 host 里加上这个记录即可访问。

访问网站 https://2023challenge.52pojie.cn/，可以在 Response Header 里找到一个 X-Dynamic-Flag，也就是动态 flagA，如下图所示：

既然是动态的，那就不可能直接是 flagA{Header X-52PoJie-Uid Not Found}，很明显给的提示是 Header 里缺少了 X-52PoJie-Uid，所以我们在请求的时候 Header 里加上这个字段试试，Python 代码如下：

import requestsheaders = {    "X-52PoJie-Uid": "2002241",  # 你的吾爱破解 UID    "Host": "2023challenge.52pojie.cn",    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36"}url = "https://2023challenge.52pojie.cn/"response = requests.get(url, headers=headers)flagA = response.headers["X-Dynamic-Flag"]print(flagA)

查看返回的 Header 里的 X-Dynamic-Flag，就是正确的 flagA，有个过期时间，在过期前提交即可。

中级难度

flag5

在视频第30秒左右的时候，会出现类似发电报的声音，这就是摩斯密码（摩尔斯电码），对着下表听就完事儿了，当然还有更准确的方法，那就是分析音频的频谱图，更加直观，音频的分析后文 flag8 再说，这里的正确答案是 flag5{eait}。

flag6

flag6 比较直观，视频开头就直接给出了，电话拨号声就是 flag6。

重点在于如何识别拨号的数字，这里涉及到一个双音多频信号（DTMF）的概念，双音多频由高频群和低频群组成，高低频群各包含4个频率。一个高频信号和一个低频信号叠加组成一个组合信号，代表一个数字。可以使用 Python 读取音频来识别，也有现成的工具 DTMF2NUM 可以识别，具体介绍参考：https://bbs.qsnctf.com/thread-318-1-1.html ，里面有下载链接。使用录音工具将这段拨号音录成 wav 格式，然后通过工具识别得到 flag6{590124}。

flag7

视频中，第22秒左右，上方出现的一串 0101 的东西，这就是 flag7，实际上是二进制形式的 ASCII 码，八位一个字符，例如 01100110 对应的 ASCII 码就是 f，找个在线工具转换一下就可以得到 flag7{5d06be63}。

01100110 01101100 01100001 01100111 00110111 01111011 00110101 01100100 00110000 00110110 01100010 01100101 00110110 00110011 01111101

flag8

flag8 藏在这个视频的音频里，同样将音频录下来，用 Audacity 软件打开此音频，选择频谱图，就可以看到 flag8{c394d7}，同样前面的 flag5 其实除了直接用耳朵听以外，也可以通过这个频谱图查看。

flagB

flagB 在前面推理 flagA 的时候已经遇到了，线索在 2023challenge.52pojie.cn 的域名解析，TXT 记录里，计算方法就是自己的 uid 加上字符串 _happy_new_year_ 加上时间戳除以 600 并向下取整后的值，经过 md5 加密后，取前八位即可。

flagB{substr(md5(uid+\_happy_new_year_\+floor(timestamp/600)),0,8)}

高级难度

flag9

仔细听这个视频，在结尾，也就是大概40秒的时候，依稀有一段杂音，单独将这一段录下来，反向播放，就会发现说的正是 flag9，正确答案是 flag9{21c5f8}。

flag10

flag10 太难了没找到，有知道的小伙伴可以分享一下。

flag11

视频里，底下一串 ++++[> 的东西就是 flag11，这一串是 Brainfuck 语言，是一种非常接近图灵机的编程语言。可以直接使用在线工具转换即可：https://www.splitbrain.org/services/ook ，正确答案是 flag11{63418de7}。

++++++++++[>++++++++++>++++++++++>+++++>++++++++++++<<<<-]>++.++++++.>---.<-----.>>-..>+++.<+++++.---.+.---.+++++++.<+++.+.>-.>++.

flag12

仔细观察视频你会发现，开头的背景是灰色的，在第20秒左右，颜色就加深了，其实开始的背景图是有猫腻的，用到了图片盲水印技术，flag12 就藏在背景图片里，原理就是使用傅里叶变换把原图变为频谱图，再叠加水印，将含水印的频谱图进行傅里叶逆变换得到含水印的图像。蚁景网络安全的这篇文章有详细的介绍：https://blog.csdn.net/YJ_12340/article/details/127087949 ，我们直接使用文中的方法，使用 Python 处理图片后即可得到 flag12{3ac97e24}。

import cv2import numpy as npimport matplotlib.pyplot as plt# 读取为灰度图像，52pj.png 为视频开头的背景截图img = cv2.imread('52pj.png', 0)f = np.fft.fft2(img)# 将图像中的低频部分移动到图像的中心fshift = np.fft.fftshift(f)# 取绝对值：将复数变化成实数，目的为了将数据变化到较小的范围（比如0-255）s1 = np.log(np.abs(f))s2 = np.log(np.abs(fshift))plt.subplot(121), plt.imshow(s1, 'gray'), plt.title('original')plt.subplot(122), plt.imshow(s2, 'gray'), plt.title('center')plt.show()

下图可能平台会有压缩看不清，自己照着处理一下即可。

flagC

flagC 是动态的，还得回到 https://2023challenge.52pojie.cn/ 这个网站上来。

点击登陆后，来到 login 页面，让我们提交 UID，但是这个输入框无法输入，修改一下源码，将 disabled 删除即可。

然后输入我们的 UID，提示您不是 admin，你没有权限获取 flag。

抓包分析一下，发现在点击提交后，Response Headers 有个 Set-Cookie，而这个 cookie 由三段组成，以 . 分隔，很明显是一个 JWT（JSON Web Token）。

JWT 是可以解密的，来到 jwt.io 这个网站，解密后可以发现 payload 部分包含了我们的 uid 和 role 角色信息，此刻我们是普通的 user，直接将其改为 admin 即可，将生成的新 JWT 拿来重新提交，即可拿到正确的 flagC。

极验业务安全，深知 V2 业务风控逆向分析

2023-01-16T12:42:00.000Z

欢迎加入爬虫逆向微信交流群：添加微信 IT-BOB（备注交流群）

文章目录

声明
逆向目标
深知简介
抓包分析
逆向分析
结果验证

声明

逆向目标

目标：某验深知 V2 业务风控逆向分析
主页：aHR0cHM6Ly93d3cuZ2VldGVzdC5jb20vZGVtby9kay12Mi5odG1s

深知简介

某验深知通过无感采集客户端数据，对用户的环境、标识、行为操作等进行智能化分析，结合业务场景有效识别有潜在风险的用户。整个识别过程不干扰用户，不打断业务既有流程。完整通讯流程如下：

抓包分析

访问首页，会引入一个 v2.sense.js，后面接了个 id，需要将其提取出来，后续有用到，当然一般情况下，同一个业务这个 id 应该是一样的，直接复制下来写死也行。

接着有个 gettype 的请求，这里主要返回一些资源路径，其中有个 gct.xxx.js，这个 JS 名称每隔一段时间就会变化，这个 JS 会生成一个键值对，例如 {'xnbw': '1158444372'}，JS 变化，这个键值对也会变化，这个键值对参与了后面加密参数的生成，在某验系列产品中都有这个东西，少量测试将其固定发现也可以通过验证，盲猜大量请求或者某些校验严格的网站可能有影响，建议还是动态去请求这个 JS 来获取最新的键值对，这个后文具体再说。

然后是 judge 的请求，这个请求页面一加载就完成了，不需要手动点击请求，其中 Query String Parameters 里有个 app_id 就是我们前面提到的 id，Request Payload 就是一串超长的字符串，这个也是我们需要逆向的参数。该请求如果验证成功，会返回一个 session_id。

然后就是业务接口了，本例中业务接口是 verify-dk-v2，也就是一个登录接口，带上前面 judge 接口返回的 session_id 即可请求成功。

逆向分析

由于我们逆向的参数 Request Payload 没有键名导致不能直接搜索关键字，所以只能跟栈或者下个 XHR 断点，跟栈可以在 sense.2.3.0.js 第 6144 行找到一个 e + h[AUJ_(1173)]，这个就是正确的 Request Payload 值。

上图中其实核心代码就四行，后文也是围绕这四行代码来分析的：

var h = o[AUJ_(1156)]()  , e = CoUE[ymDv(24)](NFeB)  , l = EbF_[ymDv(409)](e, h[ymDv(1194)])  , e = DWYi[ymDv(1137)](l)

获取 h 值

先来看 h 的值，由一个方法生成一个对象，对象里面分别是 aeskey 和 rsa，每次也都是随机变化的。

继续跟到这个方法里，重点在于 e 和 t 的值，最后返回的就是 {aeskey: e, rsa: t}。

先看这个 e 的值，也就是 RwyT() 方法，搞过某验其他产品的就知道这里是 16 位随机值。

然后 t 的值，和某验其他系列产品一样，用到了 RSA 加密算法，这里图中 BPqG() 就是 RSA 算法，t 的值就是 RSA 加密后的结果，扣的时候注意找到算法开头的地方，将整个 BPqG() 方法扣下来即可。

获取 e 值

接下来是 e 的值，e = CoUE[ymDv(24)](NFeB)，很明显是将 NFeB 的值进行了处理，NFeB 是个对象，里面有一些 data、id 等信息，如下图所示：

所以我们得先找一下 NFeB 这个值是怎么来的，直接搜索发现只有四个地方，在第 6109 行就是定义的地方，挨个看，首先有个 s 参数，将 id 传入到一个函数进行处理，函数没啥特别的，直接扣就行，通常经过处理后，s 的值为空，即 s=""。

再来看有个 u 值，由一个方法生成了一大串包含很多感叹号的字符串，本案例实际测试中，直接将这个值置空也行，可能其他校验严格或者大批量请求的情况下，说不定也会校验的，所以我们最好也跟进去找一下生成逻辑。

跟进这个方法，里面是一些浏览器环境的值，比如屏幕高宽、canvas、ua、浏览器插件、时间、时区、语言等等，基本上都能写死，后续会将这些值以 !! 相连接最终生成 u 的值。

然后继续看，接下来是 c 值，是一个对象，值为 {"key":0,"value":[]}，我这里直接写死了。

再往下就是 NFeB 了：

Unicode 转换一下，简单解一下混淆，就长下面这样：

NFeB = {    "id": a["id"],    "page_id": a["page_id"],    "lang": a["lang"] || AUJ_(31),    "data": {        "insights": u || null,        "track_key": c["value"] ? c["key"] : null,        "track": c["value"] || null,        "ep": o["KZrg"](i),        "eco": window["GEERANDOMTOKEN"] || "",        "ww3": ""    }};

id 不用说，page_id 就是个时间戳，lang 中文就是 zh-cn，insights 是前面得到的 u 值，track_key、track 取 c 的键和值，ep 将 i 传入了一个函数进行处理，i 是固定的字符串 client，这个 KZrg 方法可以跟进去看看，里面其实有很多都是定值，唯一需要注意的是 t["tm"] 这个值，和某验其他系列一样，是 window.performance.timing 的值，自己获取一下时间戳随机加减伪造一下就行了。

然后就是 eco 的值，取的 window.GEERANDOMTOKEN，打印一下 window，除了有这个 token 以外，还可以看到 localStore、session 里面也有这个值。

由于某验的 JS 都是混淆后的，不太好定位这个值生成的地方，所以拿出我们的 Hook 大法，先清除一下缓存，不然的话是 Hook 不到值的，Hook 代码如下：

(function() {    var token = "";    Object.defineProperty(window, 'GEERANDOMTOKEN', {        set: function(val) {            console.log('GEERANDOMTOKEN->', val);            debugger;            token = val;            return val;        },        get: function(){            return token;        }    });})();

断下后往前跟栈，window[o] = t，o 就是 GEERANDOMTOKEN，t 就是我们想要的值。

往上就可以找到 t 的生成方法，核心就是生成一个 32 位的随机字符串，然后加上时间戳，再进行 MD5 加密得到最终值，生成位置以及实现的代码如下：

var MD5 = require("md5")function getToken(){    var t = MD5(function(e) {        for (var t = ["0","1","2","3","4","5","6","7","8","9","A","B","C","D","E","F","G","H","I","J","K","L","M","N","O","P","Q","R","S","T","U","V","W","X","Y","Z","a","b","c","d","e","f","g","h","i","j","k","l","m","n","o","p","q","r","s","t","u","v","w","x","y","z"], n = "", r = 0; r < e; r++)            n += t[parseInt(61 * Math.random(), 10)];        return n;    }(32) + new Date().getTime());    return t;}

当你把以上这些参数都搞完了，你可能认为都齐了，其实不然，后面接着还有一句 Yvwp(NFeB, r)，将 r 的值增加到了 NFeB 里，这个 r 的值类似于 {olbo: "1588069361"}，这个键值对都是每隔一段时间会变的，这个在某验系列其他文章里也提过。

进一步分析，这个 r 是传进来的，所以往上跟栈，有个 r[psPG(1183)]() 方法就生成了这个对象：

继续跟到这个方法里去，首先定义了 e 这个对象，然后赋值 e = {ep: "test data", lang: "zh"}，然后经过 window[tYlM(1126)]() 方法处理后，e 里面就新增了 {olbo: "1588069361"}，后续将 ep 和 lang 两个值删除后返回。

所以我们继续跟进 window[tYlM(1126)]() 方法，会跳转到 gct.xxxx.js 里，这个 JS 就是我们开头讲过的，他的名称会每隔一段时间变化，内容也会变，所以导致生成的键值对也会变化，继续跟，有个 t[e] = xxx 的语句，其中 e 和等号右边的值，就是我们需要的键值对。

这个键值对在我们本地也可以动态获取，只需要请求正确的 JS 文件，将要调用的方法全局导出就行了，以下给一个我的处理方法示例（注意里面请求 url 已经脱敏处理，所以不可直接运行，自行抓包补上）：

import reimport timeimport jsonimport execjsimport requestsfrom loguru import loggerheaders = {    "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36",}def get_gct():    url = "https://dkapi.脱敏处理.com/deepknow/v2/gettype"    params = {        "callback": "脱敏处理_" + str(int(time.time() * 1000))    }    response = requests.get(url, headers=headers, params=params).text    response = json.loads(re.findall(r"geetest_\d+\((.*?)\)", response)[0])    # gettype 接口返回的 gct.xxx.js 的地址    gct_path = "https://static.脱敏处理.com" + response["gct_path"]    logger.info("gct_path: %s" % gct_path)    gct_js = requests.get(gct_path, headers=headers).text    # 正则匹配需要调用的方法名称    function_name = re.findall(r"\)\)\{return (.*?)\(", gct_js)[0]    # 查找需要插入全局导出代码的位置    break_position = gct_js.find("return function(t){")    # window.gct 全局导出方法    gct_js_new = gct_js[:break_position] + "window.gct=" + function_name + ";" + gct_js[break_position:]    # 添加自定义方法调用 window.gct 获取键值对    gct_js_new = "window = global;" + gct_js_new + """    function getGct(){        var e = {"lang": "zh", "ep": "test data"};        window.gct(e);        delete e["lang"];        delete e["ep"];        return e;    }"""    gct = execjs.compile(gct_js_new).call("getGct")    logger.info("gct: %s" % gct)    return gct

到这里我们 NFeB 就生成完毕了，回到 e 的值，这里其实就是把 NFeB 转成字符串，直接 JSON.stringify() 即可。

获取 l 值

l 的值比较简单，就是将前面生成的 h["aeskey"] 作为 key，e 作为待加密字符串，经过 AES 加密后即可得到 l 的值。

本地复现如下（有些变量名称不一样无影响，我是直接复用的某验其他产品的方法）：

var CryptoJS = require("crypto-js")function aesEncrypt(e, i) {    var key = CryptoJS.enc.Utf8.parse(i),    iv = CryptoJS.enc.Utf8.parse("0000000000000000"),    srcs = CryptoJS.enc.Utf8.parse(e),    encrypted = CryptoJS.AES.encrypt(srcs, key, {        iv: iv,        mode: CryptoJS.mode.CBC,        padding: CryptoJS.pad.Pkcs7    });    for (var r = encrypted, o = r.ciphertext.words, i = r.ciphertext.sigBytes, s = [], a = 0; a < i; a++) {        var c = o[a >>> 2] >>> 24 - a % 4 * 8 & 255;        s.push(c);    }    return s;}

进一步处理 l

最后一步 e = DWYi[ymDv(1137)](l)，将 l 的值经过了 tc_t 这个方法进行处理，就会得到最终 Request Payload 的一部分。

跟进这个 tc_t 方法，又是熟悉的 return e["res"] + e["end"]，同样和某验其他产品一样的。

跟到处理 e 的这个方法里，最后返回的是 {"res": a, "end": s}，没啥特别的，直接扣即可，这里注意和某验其他产品里的方法有些小区别，里面有些常量的值是不一样的，最开始我直接复用了其他产品的方法，发现结果是错的。

自此整个流程分析完毕，最终 e + h[AUJ_(1173)] 的值与 Request Payload 的值一致。

结果验证

极验行为验证，四代滑块验证码逆向分析

2023-01-03T13:30:00.000Z

欢迎加入爬虫逆向微信交流群：添加微信 IT-BOB（备注交流群）

文章目录

声明
逆向目标
通讯流程
验证码流程分析
逆向分析
结果验证

声明

逆向目标

目标：某验四代滑块验证码，w 参数逆向
主页：aHR0cHM6Ly9ndDQuZ2VldGVzdC5jb20v
加密算法：RSA、AES

通讯流程

验证码流程分析

进入网页后，打开开发者人员工具进行抓包，点击滑动拼图验证，此时还未点击按钮开始验证，抓到了一个名为 load?captcha_id=xxx 的包，Query String Parameters 包含了一些参数：

captcha_id：验证码 id，固定值，由 adaptive-captcha-demo.js 文件生成，后文分析；
challenge：动态变化，由 gtc4.js 文件生成，后文分析；
client_type：表示 web 端；
risk_type：验证码类型，例如滑块为 slide，无感为 ai；
lang：语言；
callback：geetest_ + 时间戳，主要作用是防止缓存。

响应预览中返回的关键内容如下，相较于三代，底图未做混淆：

bg：背景图片地址；
captcha_type：验证码类型；
gct_path：gct4 文件路径；
lot_number：后续生成 pow_msg、w 的关键参数；
payload：后续 verify 请求接口需要的参数；
datetime：ISO 8601扩展格式的日期，后续生成 pow_msg 的关键参数；
process_token：后续 verify 请求接口需要的参数；
slice：滑块图片地址。

点击按钮开始验证，弹出滑块验证码，滑动滑块，抓包到 verify?captcha_id=xxx，Query String Parameters 同样包含了一些参数：

captcha_id：与 load 接口请求头中的 captcha_id 一致；
client_type：表示 web 端；
lot_number：load 接口返回的；
risk_type：与 load 接口中的一致，表示验证码类型；
payload：load 接口返回的；
process_token：load 接口返回的；
w：加密参数，由轨迹、滑动时间、滑动距离、userresponse、device_id、pow_msg 等参数加密得到；
callback：geetest_ + 时间戳，主要作用是防止缓存。

响应预览中返回的内容如下，result 值为 fail 即校验失败，success 为校验通过，通过后携带 seccode 下的参数进行后续业务请求：

逆向分析

captcha_id 参数

全局搜索 captcha_id，跟进到 gt4.js 文件中：

进去后在第 307 行打上断点，刷新页面即会断住，此时 captcha_id 参数的值已经生成，同时 challenge 参数定义在下一行：

向上跟栈到 value，即 adaptive-captcha-demo.js 文件中，会发现其是个固定值，实际上这个值是每个网站不一样，是管理员在极验后台申请得到的：

challenge 参数

前面提到，challenge 参数定义在 captcha_id 参数的下一行，在 gt4.js 文件的第 309 行打下断点：

可以看到，challenge 参数的值由 uuid 函数生成，扣出即可。

w 参数

从 verify?captcha_id=xxx 接口的堆栈处跟栈进去：

打下断点滑动滑块断住后，向上跟栈到 s 处，如果做过某验三代滑块的话，第 6249 行有个很熟悉的东西，"\u0077": r，"\u0077" 即字母 w 的 Unicode 值，r 即 w 参数的值：

r 参数定义在第 6237 行，e 也是跟三代类似的参数，r 是将 i 参数和转为字符串的 e 参数加密得到的：

向上跟栈，找到 e 参数中各部分定义生成的位置，跟到 $_BHIH 中，_ 中先生成了四个键值对：

passtime 和 track 是熟悉的滑动时间和轨迹，setLeft 为识别出来的缺口距离，userresponse 定义在 19593 行， a 为 setLeft 参数的值，t[$_GDFCG(1909)] 为定值 1.0059466666666665：

a / t[$_GDFCG(1909)] + 2

接着跟到 $_BCFj 中，e 定义在第 6201 行，下面几行定义了 e 中的 device_id、lot_number、pow_msg、pow_sign：

device_id 同一个网站是固定值，lot_number 是 load 响应返回的，控制台打印一下 pow_msg、pow_sign 的结果：

pow_msg 很明显是由几部分组成的，pow_sign 经过加密，向上跟栈到 init 中，分别定义在第 5837 行和第 5838 行，为 d 字典的键，根据键名取值：

d 定义在第 5835 行，这部分还原一下就很明显了：

var c = t["toDataURL"]()["replace"]("data:image/png;base64,", "")    , _ = new w["default"]["MD5"]()["hex"](c);a["options"]["deviceId"] = _;var h = a["options"]    , l = h["powDetail"]    , p = h["lotNumber"]    , f = h["captchaId"]    , d = v["default"](p, f, l["hashfunc"], l["version"], l["bits"], l["datetime"], "")

跟进到 v["default"] 中，函数定义在第 6945 行，于 6978 行打下断点：

pow_msg 由 _ + h 得到，_ 定义在第 6960 行：

_ = i + "|" + r + "|" + n + "|" + s + "|" + t + "|" + e + "|" + o + "|";

i：l["version"]
r：l["bits"]
n：l["hashfunc"]
s：l["datetime"]
t：f, h["captchaId"]
e：p, h["lotNumber"]
o：""

h 定义在第 6269 行，跟进去是 16 位随机数字符串，pow_sign 为 p，就是 pow_msg 经过 MD5 加密得到的：

至此这四个也分析完了，还差以下这部分：

em 等定值就不分析了，注意 kqg5："1557244628"，这个参数值和三代滑块中一样，每隔几个小时会改变，向上跟栈到 $_BCFj 中，在第 6207 行打下断点，此时 e 中这个值还未生成：

下一行打下断点，下步断点，即执行完 n[$_CBHIE(791)](e); 后，这个参数值就生成了，证明是 n[$_CBHIE(791)] 方法生成的，跟进去：

跳转到第 5766 行，在第 5779 行打下断点，此时的 n 中还未生成此参数：

执行了 _gct(n) 后即生成：

可见其生成位置在 _gct 方法中，跟进去后到 gct4.js 文件，和三代大差不差：

可以将值导出，至此 e 就分析完了，接着回到第 6238 行，跟进到加密函数 d[$_CBHHO(84)] 中，定义在第 11669 行，d[$_DIEHS(177)](c) + u 即 r 参数的值，c 为一个大数组，u 明显也经过加密了，所以 r 参数的值就是数组 c 加密后再加上 u 得到的：

先跟进到 u，其定义在第 11705 行，解混淆后如下：

u = new l["default"]()["encrypt"](i);

所以 u 是 i 经过加密后得到的，i 定义在第 11702 行：

i = (0,d[$_DIEIq(103)])()

跟进到 d[$_DIEIq(103)] 中，定义在第 852 行，又是熟悉的 16 位随机数：

i 是随机数，跟进到加密函数 l[($_DIEHS(84))] 中，在第 12725 行，于 12741 行打下断点，可以看到这里就是个 RSA 加密，扣代码或者直接引库即可：

回到 c 参数，c 参数的值为一个大数组，其定义在第 11705 行，解混淆后内容如下：

var c = s[a]["symmetrical"]["encrypt"](e, i);

e 之前分析完了，i 为随机数，两个参数已经分析完了，跟进到加密方法中，在第 12174 行，于 12186 行打下断点，控制台打印一下混淆部分内容，很熟悉的东西，这里就是 AES 加密，iv 为初始向量，加密模式为 CBC：

c 参数最后又被 d[$_DIEHS(177)] 函数加密，跟进后，定义在第 547 行，直接扣下来改改即可：

结果验证

极验行为验证，三代滑块验证码逆向分析

2022-12-21T11:00:00.000Z

欢迎加入爬虫逆向微信交流群：添加微信 IT-BOB（备注交流群）

文章目录

声明
逆向目标
通讯流程
抓包分析
逆向分析

声明

逆向目标

目标：某验三代滑块验证码，底图还原及 w 参数逆向
验证码 demo 列表：aHR0cHM6Ly93d3cuZ2VldGVzdC5jb20vZGVtby8=
滑块验证码：aHR0cHM6Ly93d3cuZ2VldGVzdC5jb20vZGVtby9zbGlkZS1mbG9hdC5odG1s
加密算法：RSA、AES、MD5

通讯流程

接口相关：

完整流程：

抓包分析

进入网页后，打开开发者人员工具进行抓包

1.未点击按钮进行验证之前，Network 中抓包到了以下信息：

register-slide?t=xxx：注册滑块请求，响应预览中返回的信息中重要的是 gt 和 challenge，gt 是固定值，不同网页对应不同的 gt 值，类似于特征码，challenge 的值每次刷新页面都会变化，gt 参数会通过 url string 的形式传递给 gettype.php：

gettype.php?gt=xxx&callback=xxx：获取验证码，HTTP 请求中不同的请求方式和设置不同的 Content-Type 时，参数传递的方式会不一样，一般为 Query String Parameters、Form Data、Request Payload，这里是 Query String Parameters，在 GET 请求时，参数会以 url string 的形式进行传递，即 ? 后的字符串则为其请求参数，并以 & 作为分隔符，这里传递了 gt 参数的值以及 callback，callback 为 geetest_ + 时间戳：

响应预览中返回了一些 js 文件及对应的版本号：

第一个 get.php?xxx，url 中传递了一些参数，关键部分如下：

gt：register-slide 响应返回的 gt 值；
challenge：register-slide 响应返回的 challenge 值；
w：对轨迹、滑动时间等进行加密后的参数，该网站第一个 w 值可以直接置空；
callback：geetest_ + 时间戳。

响应内容如下，这里没什么需要注意的，feedback 就是某验的帮助中心：

2.点击按钮进行验证之后，Network 中抓包到了以下信息：

第一个 ajax.php?xxx，url 中传递了一些参数，关键部分如下：

gt：register-slide 响应返回的 gt 值；
challenge：register-slide 响应返回的 challenge 值；
w：对轨迹、滑动时间等进行加密后的参数，该网站第二个 w 值也可以直接置空；
callback：geetest_ + 时间戳。

响应返回验证码模式，滑块验证码为 slide，点选验证码为 click：

第二个 get.php?xxx，url 中传递了一些参数，关键部分如下：

gt：register-slide 响应返回的 gt 值；
challenge：register-slide 响应返回的 challenge 值；
callback：geetest_ + 时间戳。

这个响应返回了很多关键内容：

bg：被打乱的带缺口背景图，需要还原，372fe236d.webp

fullbg：被打乱的完整背景图，需要还原，7bfaaa72b.webp

slice：滑块图片，不需要还原，372fe236d.png

c：关键参数，与后面 aa 参数的值有关，固定值；
s：关键参数，与后面 aa 参数的值有关。

第二个 ajax.php?xxx，url 中传递了一些参数，关键部分如下：

gt：register-slide 响应返回的 gt 值；
challenge：register-slide 响应返回的 challenge 值 + 两位字符串，注意多了两位，是第二个 get.php?xxx 返回值中得到的；
w：对轨迹、滑动时间等进行加密后的参数，需要通过逆向得到；
callback：geetest_ + 时间戳。

滑动滑块验证通过即会返回以下内容：

失败则会返回：

逆向分析

w 参数

跟到 w 参数的值方法很多，以下讲两种：

1.很简便，w 参数在 js 文件中有特征码，点击按钮进行验证之后，ctrl + shift + f 全局搜索 "\u0077"，因为 \u0077 就是 w 的 Unicode 编码，然后点击进入 slide.7.8.9.js 文件中，7.8.9 为当前版本，注意没点击验证的话是不会有这个 js 文件的：

进入后点击左下角 {} 大括号，格式化文件，再 ctrl + f 局部搜索 "\u0077"，只有一个结果，在第 6086 行，在第 6088 行打下断点，滑动滑块即会断住，h + u 即为 w 参数的值：

2.通过 Initiator 跟栈，跟进到 $_CId 中：

进去同样格式化后，会跳转到第 4583 行，在该行打下断点：

向上跟栈到 $_CCBv 中同样会找到刚刚的位置：

由以上分析可知，w 参数是 h 和 u 相加得到的，所以找到定义的位置，看看是怎么构造生成的，u 参数定义在第 6077 行，h 参数定义在第 6079 行，内容如下：

var u = r[$_CAIAt(754)](), l = V[$_CAIAt(353)](gt[$_CAIAt(218)](o), r[$_CAIAt(756)]()), h = m[$_CAIAt(782)](l)

可以看到，h 参数是传入了 l 参数后经过 m[$_CAIAt(782)] 方法处理后得到的，所以依次往下分析，现在看看 u 参数是怎么生成的：

u 参数

u 参数通过 r[$_CAIAt(754)] 方法生成，选中后跟进到方法定义位置：

会跳转到第 6218 行，在 6227 行 return 处打下断点，重新拖动滑块，即会断住：

e 为 u 参数的值，其定义在第 6266 行：

e = new U()[$_CBGAZ(353)](this[$_CBGAZ(756)](!0));

在控制台中打印输出一下各部分内容：

e = new U()["encrypt"](this["$_CCEc"](!0));

从打印出来的结果可以看出，e 参数的值可能是将 16 位的随机字符串加密后得到的，跟进到 this[$_CBGAZ(756)] 中验证一下：

跳转到第 6208 行，在第 6214 行 return 处打下断点：

Ot 即 16 为字符串，Ot = rt()，跟进到 rt 函数中，在第 4213 行，于第 4219 行打下断点后会发现，16 位字符串是由四个 t() 方法的结果相加得到的：

跟进到 t() 方法的定义位置，在第 4203 行，第 4208 行即为随机字符串算法：

还原混淆后内容如下，Math.random() 是随机选取大于等于 0.0 且小于 1.0 的伪随机 double 值，toString(16) 为十六进制字符串：

(65536 * (1 + Math["random"]()) | 0)["toString"](16)["substring"](1)

JavaScript 复现：

function random() {    var random_str = "";    for (var index = 0; index < 4; index++) {        random_str += (65536 * (1 + Math["random"]()) | 0)["toString"](16)["substring"](1);    }    return random_str;}

this["$_CCEc"] 分析完了，那 new U()["encrypt"] 是什么呢，选中 new U() 后，从原型链中可以看到 setPublic，根据经验很有可能就是 RSA 加密设置公钥，加解密相关算法可以查看往期文章 CTF&爬虫：掌握这些特征，一秒识别密文加密方式：

跟进去查看一下：

跳转到第 2908 行，在第 2922 行断住后，$_BACAs(332) 的值为 "Invalid RSA public key"：

第 2908 行，ut 函数传入了两个值，t 为公钥值，e 为公钥模数，都是固定值：

t："00C1E3934D1614465B33053E7F48EE4EC87B14B95EF88947713D25EECBFF7E74C7977D02DC1D9451F79DD5D1C10C29ACB6A9B4D6FB7D0A0279B6719E1772565F09AF627715919221AEF91899CAE08C0D686D748B20A3603BE2318CA6BC2B59706592A9219D0BF05C9F65023A21D2330807252AE0066D59CEEFA5F2748EA80BAB81"
e："10001"

这里可以直接引库复现，也可以选择将算法部分扣下来，局部搜索 var U = function，在第 2043 行，将整个自执行函数扣下来，这里随机数后期写成固定值，后面也有随机数，不然会造成传参不匹配：

var U = function () {    // 此处过长，省略}();// 随机数, 一组四个数function t() {    random_str = (65536 * (1 + Math["random"]()) | 0)["toString"](16)["substring"](1);    return random_str;}// 随机数, 四个数一组, 四组function getRandomStr() {    return t() + t() + t() + t();}// u 值var u = new U()['encrypt'](getRandomStr());console.log('u 参数的值为:', u);

运行后报错提示，QBLnx is not defined：

其定义在第 136 行，是个函数对象，补上即可：

function QBLnx() {};

运行后报错提示，$_IBAe is not a function：

搜索后可知，其定义在第 128 行：

跟进过去将该部分扣下来：

QBLnx.$_CM = function() {    return typeof QBLnx.$_Ak.$_DBGGT === 'function' ? QBLnx.$_Ak.$_DBGGT.apply(QBLnx.$_Ak, arguments) : QBLnx.$_Ak.$_DBGGT;};

接着报错提示，Cannot read property '$_DBGGT' of undefined：

定义在第 7 行，直接将 QBLnx.$_Ak 整个扣下来即可，然后会报错提示，window 和 ht 未定义，ht 为 navigator：

var window = {    "navigator": {        "appName": "Netscape",    },}ht = window["navigator"];

又报错提示，QBLnx.$_Db is not a function：

其定义在第 132 行，扣下来补上：

QBLnx.$_Db = function() {    return typeof QBLnx.$_BP.$_DBHGJ === 'function' ? QBLnx.$_BP.$_DBHGJ.apply(QBLnx.$_BP, arguments) : QBLnx.$_BP.$_DBHGJ;};

报错提示，Cannot read property '$_DBHGJ' of undefined：

通过搜索，其定义在第 68 行，将 QBLnx.$_BP 整个扣下来即可，至此，u 参数成功复现：

l 参数

u 参数解决后，接着需要分析 l 参数，内容如下：

// 混淆l = V[$_CAIAt(353)](gt[$_CAIAt(218)](o), r[$_CAIAt(756)]());// 未混淆l = V["encrypt"](gt["stringify"](o), r["$_CCEc"]());

可以知道，l 参数的结果是将 gt["stringify"](o) 和 r["$_CCEc"]() 加密后得到的，先来分析 r["$_CCEc"]() ，选中后跟进进去，跳转到了熟悉的第 6208 行，就是之前的 16 位随机字符串：

将这里写成跟之前一样的固定值， gt["stringify"](o) 返回的是 JSON 格式的数据，由 o 参数生成：

对比分析以下 o 参数中，哪些是定值，哪些是动态变化的，可以看到箭头所指的值都不一样了：

userresponse：滑动距离 + challenge 的值；
passtime：滑块滑动时间；
imgload：图片加载时间；
aa：轨迹加密；
ep-tm：window["performance"]["timing"] 相关；
mocq：每天 key、value 会变，后文分析；
rp：gt + 32 位 challenge + passtime，再经过 MD5 加密。

接下来对关键值进行分析，先来分析下 userresponse，o 定义在第 6012 行：

var o = {    "lang": i[$_CAIAt(116)] || $_CAHJd(103),    "userresponse": H(t, i[$_CAHJd(182)]),    "passtime": n,    "imgload": r[$_CAIAt(750)],    "aa": e,    "ep": r[$_CAHJd(714)]()};

userresponse 定义在第 6014 行，需要分析 H(t, i[$_CAHJd(182)])，控制台打印一下：

t 为滑动滑块的距离，需要注意的是 i[$_CAHJd(182)] 为第二个 ajax.php?xxx 传递的 challenge，比注册请求时的 challenge 长两位，再将 H 参数扣下来即可，其定义在第 704 行，报错提示，$_CJFA is not defined：

定义在第 159 行：

var $_CJEl = QBLnx.$_CM, $_CJDa = ['$_CJHo'].concat($_CJEl), $_CJFA = $_CJDa[1];

至此，userresponse 成功复现，接下来看 passtime，n 值此时已经生成了，为 1010，向上跟栈到 $_CGlj 中：

n[$_DAAAV(871)] 为 passtime 值，定义在第 8164 行，为滑动结束时间 - 开始时间：

接下来分析下 aa 参数，其定义在第 6017 行，值由参数 e 传递，同样向上跟栈到 $_CGlj 中，为第 8168 行的 l 值，l 定义在第 8167 行，三个参数加密后得到：

n[$_DAAAV(913)][$_CJJJb(1066)]() ：轨迹加密后的结果；
n[$_DAAAV(69)][$_CJJJb(1097)] ：c 值，在第二个 get.php?xxx 返回的响应中得到；
n[$_DAAAV(69)][$_CJJJb(319)] ：s 值，在第二个 get.php?xxx 返回的响应中得到。

接下来跟进到 n[$_DAAAV(913)][$_CJJJb(1066)] 中，分析下轨迹是如何加密的，在第 4065 行，于第 4133 行打下断点，第 4108 行的 this[$_BEHAL(343)] 即为轨迹值，关于轨迹算法后面会专门出一期文章：

将整个算法部分抠出来，先将轨迹值固定，写成参数传递进去，不然会报错提示，Cannot read property 'length' of undefined，因为轨迹值是别的算法生成的，不传值即为空，运行程序，会报错提示，ct is not defined：

ct 定义在第 4223 行，扣下来，报错提示，(intermediate value)[$_BEHAL(...)] is not a function：

定义在第 4326 行，补上以下内容，即可复现：

ct["prototype"] = {"\u0024\u005f\u0043\u0041\u0051": function(t) {        var $_BFFJi = QBLnx.$_CM            , $_BFFIX = ['$_BFGCq'].concat($_BFFJi)            , $_BFGAT = $_BFFIX[1];        $_BFFIX.shift();        var $_BFGBV = $_BFFIX[0];        var e = this[$_BFFJi(461)];        if (e[$_BFGAT(419)])            return new ct(e[$_BFFJi(419)](t));        for (var n = [], r = 0, i = e[$_BFGAT(125)]; r < i; r += 1)            n[r] = t(e[r], r, this);        return new ct(n);    },};

结果对比一致：

后面三个参数的值都分析完了，回到第 8167 行 l 处，跟进到 n[$_DAAAV(913)][$_DAAAV(1059)] 中，在第 4135 行，扣下来即可：

function getAA(t, e, n) {    var $_BEIJl = QBLnx.$_CM      , $_BEIIt = ['$_BEJC_'].concat($_BEIJl)      , $_BEJAy = $_BEIIt[1];    $_BEIIt.shift();    var $_BEJBr = $_BEIIt[0];    if (!e || !n)        return t;    var r, i = 0, o = t, s = e[0], a = e[2], _ = e[4];    while (r = n[$_BEIJl(229)](i, 2)) {        i += 2;        var c = parseInt(r, 16)          , u = String[$_BEJAy(237)](c)          , l = (s * c * c + a * c + _) % t[$_BEJAy(125)];        o = o[$_BEJAy(229)](0, l) + u + o[$_BEJAy(229)](l);    }    return o;};

将 c 和 s 写为固定值，对比结果一致：

aa 参数分析完成，接下来分析 rp 参数，定义在第 6076 行：

// 混淆o[$_CAIAt(791)] = X(i[$_CAIAt(104)] + i[$_CAIAt(182)][$_CAHJd(139)](0, 32) + o[$_CAHJd(704)]);// 未混淆o["rp"] = X(i["gt"] + i["challenge"]["slice"](0, 32) + o["passtime"]);

后面三个参数都很明显了，跟进到 X 函数中，在第 1876 行，扣下来即可，对比结果一致：

这里是 MD5 加密，也可以直接通过引库复现：

ep 定义在第 6018 行，跟进到 r[$_CAHJd(714)] 中，tm 参数定义在第 6239 行：

跟进 new bt()[$_CBGEC(760)] 中，在第 5268 行打下断点，tm 结果如下：

o 中这个键值对内容每天都会变化：

在第 6021 行打下断点，此时的 o 中还没有生成以上键值对：

接着往下找，第 6026 行 a = window[$_CAHJd(744)](s) 执行之后 s 中生成了以上的键值对，所以跟进到 window[$_CAHJd(744)] 中，会跳转到 gct.xxxxxxxx.js 文件中，这个文件的路径可以从 get.php 接口获取到：

在该文件的第 1253 行打下断点，可以看到此时的 t 中已经生成了 h9s9: "1803797734" ：

跟进到 StJC 方法中，其定义在第 1202 行，在第 1208 行打下断点，键值对在此处生成，可以通过全局导出调用：

至此，参数 o 复现完毕，回到第 6078 行，分析完 V[$_CAIAt(353)] l 即完成，跟进，定义在第 3218 行，在第 3230 行打下断点，这里为 AES 加密，初始向量 iv 值为 "0000000000000000"：

直接引库复现：

function aesV(o_text, random_str) {    var key = CryptoJS.enc.Utf8.parse(random_str);    var iv = CryptoJS.enc.Utf8.parse("0000000000000000");    var srcs = CryptoJS.enc.Utf8.parse(o_text);    var encrypted = CryptoJS.AES.encrypt(srcs, key, {        iv: iv,        mode: CryptoJS.mode.CBC,        padding: CryptoJS.pad.Pkcs7    });    for (var r = encrypted, o = r.ciphertext.words, i = r.ciphertext.sigBytes, s = [], a = 0; a < i; a++) {        var c = o[a >>> 2] >>> 24 - a % 4 * 8 & 255;        s.push(c);    }    return s;};

对比结果一致：

l 参数分析完毕，终于只剩下一个 h 了，m[$_CAIAt(782)](l) 即将 l 加密后得到的，跟进 m[$_CAIAt(782)]，定义在第 1568 行，在第 1575 行打下断点，为 e 中两个 value 值相加：

e 定义在第 1574 行，t 为传入的 l 参数，跟进到 this[$_GFJn(264)] 中，在第 1523 行，复现如下：

校验结果一致：

w 参数至此终于全部复现完成！

底图还原

前文说过，拿到的完整背景图以及带缺口背景图都是被打乱了的，这里需要还原才能计算滑动距离以及轨迹等，极验的底图是通过 Canvas 绘制出来的，直接打下事件断点：

点击按钮进行验证即会断住，格式化后跳转到第 295 行，

简单解一波混淆，会清晰一些：

function $_BEG(t, e) {    var $_DAHHo = QBLnx.$_Db()[12][19];    for (; $_DAHHo !== QBLnx.$_Db()[15][16];) {        switch ($_DAHHo) {            case QBLnx.$_Db()[15][19]:                t = t["$_CGz"],                e = e["$_CGz"];                var n = t["width"]                    , r = t["height"]                    , i = h["createElement"]("canvas");                i["width"] = n,                i["height"] = r;                $_DAHHo = QBLnx.$_Db()[3][18];                break;            case QBLnx.$_Db()[0][18]:                var o = i["getContext"]("2d");                o["drawImage"](t, 0, 0);                var s = e["getContext"]("2d");                $_DAHHo = QBLnx.$_Db()[0][17];                break;            case QBLnx.$_Db()[12][17]:                e["height"] = 160,                e["width"] = 260;                for (var a = r / 2, _ = 0; _ < 52; _ += 1) {                    var c = Ut[_] % 26 * 12 + 1                        , u = 25 < Ut[_] ? a : 0                        , l = o["getImageData"](c, u, 10, a);                    s["putImageData"](l, _ % 26 * 10, 25 < _ ? a : 0);                }                $_DAHHo = QBLnx.$_Db()[15][16];                break;        }    }}

控制流平坦化混淆，可以通过 AST 技术解混淆，AST 相关可以看往期文章：逆向进阶，利用 AST 技术还原 JavaScript 混淆代码，这里就不对此进行讲解了，这里就是 Canvas 绘图的过程，关键乱序算法部分在 QBLnx.$_Db()[12][17] 中：

e["height"] = 160,e["width"] = 260;for (var a = r / 2, _ = 0; _ < 52; _ += 1) {    var c = Ut[_] % 26 * 12 + 1        , u = 25 < Ut[_] ? a : 0        , l = o["getImageData"](c, u, 10, a);    s["putImageData"](l, _ % 26 * 10, 25 < _ ? a : 0);}

原图比例为 312 x 160，宽为 320，长为 160：

e["height"] = 160、e["width"] = 260 指还原后的图片比例为 260 x 160，a 的值为 r / 2 即 80，就是将整张图片分为了上下两等分，再将图片纵向切割为了 26 等份，Ut 数组的长度为 52，Ut[_] 即依次取数组中的元素，Ut 数组即为图片还原的顺序，是固定的，25 < Ut[_] ? a : 0 判断图片是上半部分还是下半部分，_ % 26 * 10 表示每个小块取 10 px 像素，正确图片的顺序为：

[39,38,48,49,41,40,46,47,35,34,50,51,33,32,28,29,27,26,36,37,31,30,44,45,43,42,12,13,23,22,14,15,21,20,8,9,25,24,6,7,3,2,0,1,11,10,4,5,19,18,16,17]

示例：

Python 复现：

def restore_picture():    img_list = ["./乱序缺口背景图.png", "./乱序背景图.png"]    for index, img in enumerate(img_list):        image = Image.open(img)        s = Image.new("RGBA", (260, 160))        ut = [39, 38, 48, 49, 41, 40, 46, 47, 35, 34, 50, 51, 33, 32, 28, 29, 27, 26, 36, 37, 31, 30, 44, 45, 43,42,12, 13, 23, 22, 14, 15, 21, 20, 8, 9, 25, 24, 6, 7, 3, 2, 0, 1, 11, 10, 4, 5, 19, 18, 16, 17]        height_half = 80        for inx in range(52):            c = ut[inx] % 26 * 12 + 1            u = height_half if ut[inx] > 25 else 0            l_ = image.crop(box=(c, u, c + 10, u + 80))            s.paste(l_, box=(inx % 26 * 10, 80 if inx > 25 else 0))        if index == 0:            s.save("./缺口背景图片.png")        else:            s.save("./背景图片.png")

还原后如下：

错误结果

// challenge 不对geetest_xxxxxxxxxxxxx({"status": "error", "error": "illegal challenge", "user_error": "\u7f51\u7edc\u4e0d\u7ed9\u529b", "error_code": "error_23"})// w 不对geetest_xxxxxxxxxxxxx({"status": "error", "error": "param decrypt error", "user_error": "\u7f51\u7edc\u4e0d\u7ed9\u529b", "error_code": "error_03"})// 无轨迹geetest_xxxxxxxxxxxxx({"status": "error", "error": "not proof", "user_error": "\u7f51\u7edc\u4e0d\u7ed9\u529b", "error_code": "error_21"})// 轨迹、缺口距离、参数问题geetest_xxxxxxxxxxxxx({"success": 0, "message": "fail"})geetest_xxxxxxxxxxxxx({"success": 0, "message": "forbidden"})

结果验证

100 次大概 95% 的成功率：

极验行为验证，二代滑块验证码逆向分析

2022-12-18T12:00:00.000Z

欢迎加入爬虫逆向微信交流群：添加微信 IT-BOB（备注交流群）

文章目录

声明
逆向目标
抓包情况
逆向分析
结果验证

声明

逆向目标

目标：某验二代滑块验证码逆向分析
主页：aHR0cDovL3d3dy5qc2dzai5nb3YuY246NTg4ODgvbWluaS9uZXR3ZWIvU01MaWJyYXJ5LmpzcA==
说明：大多数逻辑其实和三四代都一样，相同的就简写了，有疑惑的地方可以看以前的文章
某验行为验证，三代滑块验证码逆向分析
某验行为验证，四代滑块验证码逆向分析

抓包情况

主页点击搜索就会跳出二代的验证码，netWebServlet.json 的请求，会返回 challenge 和 gt。

有个 get.php 的请求，返回了一个新的 challenge，这个请求之后的操作，都要用这个新的 challenge，不然是验证不成功的，其他的还有验证码背景图片、乱序图片地址、c、s 等值，之前写过三代的文章，都是类似的，这里就不一一分析了。

然后是 ajax.php 验证是否通过，通过之后返回一个 validate，请求里同样是需要我们逆向的 w 参数：

然后同样还是 netWebServlet.json 接口，带上 get.php 请求返回的 challenge 以及 ajax.php 返回的 validate，请求拿到一个 name 的字段。

后续的搜索数据，带上这个 name 就行了：

逆向分析

搞过三、四代的都知道我们可以直接搜索 w 的 Unicode 值 \u0077 即可定位，但是二代则不是 Unicode，而是16进制的编码，搜索 \x77 即可定位，当然按照正常流程，跟栈也能很容易找到加密的位置。

获取 H7z 值

从上图中可以知道 w 的值为 r7z + H7z，先看 H7z。

跟进这个方法，来到一大串控制流，这里还是推荐用 AST 还原一下，后续可能有一些循环啥的，硬跟的话容易出错，当然直接全部扣一把梭也是可以的，H7z 的核心其实就是 RSA 加密随机字符串，三代四代都有，这里就不细讲了。

获取 r7z 值

然后就是 r7z，主要由以下两句代码生成：

q7z = n0B[M9r.R8z(699)](h7B[M9r.C8z(105)](Y7z), V7z[M9r.R8z(818)]())r7z = p7B[M9r.R8z(260)](q7z)

可以看到其中有个变量 Y7z 参与了计算，先来看看他是怎么来的，直接搜索即可定位，可以发现同样是16进制的编码，由五个值组成：userresponse、passtime、imgload、aa、ep

获取 userresponse 值

挨个分析，首先是 userresponse，将滑动距离和 challenge 的值传入一个方法，得到一个 9 位字符串：

上图中 g7z 就是滑动距离，搜索可以看到定义的地方，尺子量一下对比一下，和滑动的距离是一致的：

然后再来看看那个方法，跟进去之后也是一大串 switch-case 控制流：

还原一下代码如下：

function getUserResponse(L0z, o0z) {    for (var j0z = o0z.slice(32), c0z = [], X0z = 0; X0z < j0z.length; X0z++){        var K0z = j0z.charCodeAt(X0z);        c0z[X0z] = K0z > 57 ? K0z - 87 : K0z - 48;    }    j0z = 36 * c0z[0] + c0z[1];    var k0z = Math.round(L0z) + j0z;    o0z = o0z.slice(0, 32);    var n0z, f0z = [[], [], [], [], []], Q0z = {}, N0z = 0;    X0z = 0;    for (var i0z = o0z.length; i0z > X0z; X0z++){        n0z = o0z.charAt(X0z), Q0z[n0z] || (Q0z[n0z] = 1, f0z[N0z].push(n0z), N0z++, N0z = 5 == N0z ? 0 : N0z);    }    var y0z, v0z = k0z, B0z = 4, x0z = "", I0z = [1, 2, 5, 10, 50];    while ( v0z > 0) {        v0z - I0z[B0z] >= 0 ? (y0z = parseInt(Math.random() * f0z[B0z].length, 10),        x0z += f0z[B0z][y0z], v0z -= I0z[B0z]) : (f0z.splice(B0z, 1),        I0z.splice(B0z, 1), B0z -= 1);    }    return x0z;}

获取 passtime 值

passtime 不用考虑是怎么通过函数获取的，含义就是滑动完成所花费的时间，直接取轨迹的最后一个值即可，这个也和三四代是一样的，获取语句为：var passtime = track[track.length - 1][2]，如下图所示，轨迹的最后一个值时间为 871，passtime 的值同样也为 871。

获取 imgload 值

imgload 也没啥特别的，从字面意思猜测应该是图片加载耗时，实测直接写死即可，或者整个随机值就行。

获取 aa 值

aa 的值就是 F7z，如下图所示：

搜索 F7z，定位到下图所示的地方，向一个方法中传入了一个时间戳：

跟进去同样是 switch-case 控制流，需要注意的是下图中 c7B[M9r.R8z(781)](M9r.R8z(764), K1z) 的值其实就是轨迹。

这段控制流还原一下就变成这样了：

function getF7z(track){    var o5r = 6;    for (var N1z, X1z = s6z(track), f1z = [], B1z = [], o1z = [], t1z = 0, j1z = X1z.length; t1z < j1z; t1z++){        if (o5r * (o5r + 1) % 2 + 8) {            N1z = u6z(X1z[t1z]),            N1z ? B1z.push(N1z) : (f1z.push(O6z(X1z[t1z][0])),            B1z.push(O6z(X1z[t1z][1]))),            o1z.push(O6z(X1z[t1z][2]));            o5r = o5r >= 17705 ? o5r / 3 : o5r * 3;        }    }    return f1z.join("") + "!!" + B1z.join("") + "!!" + o1z.join("");}function s6z(F6z){    for (var Y6z, g6z, a6z, E6z = [], D6z = 0, P6z = [], J6z = 0, l6z = F6z.length - 1; J6z < l6z; J6z++) {        Y6z = Math.round(F6z[J6z + 1][0] - F6z[J6z][0]),        g6z = Math.round(F6z[J6z + 1][1] - F6z[J6z][1]),        a6z = Math.round(F6z[J6z + 1][2] - F6z[J6z][2]),        P6z.push([Y6z, g6z, a6z]),        0 == Y6z && 0 == g6z && 0 == a6z || (0 == Y6z && 0 == g6z ? D6z += a6z : (E6z.push([Y6z, g6z, a6z + D6z]), D6z = 0));    }    return 0 !== D6z && E6z.push([Y6z, g6z, D6z]), E6z;}function O6z(r6z){    var d6z = "()*,-./0123456789:?@ABCDEFGHIJKLMNOPQRSTUVWXYZ_abcdefghijklmnopqr"      , m6z = d6z.length      , Z6z = ""      , H6z = Math.abs(r6z)      , W6z = parseInt(H6z / m6z);    W6z >= m6z && (W6z = m6z - 1), W6z && (Z6z = d6z.charAt(W6z)), H6z %= m6z;    var q6z = "";    return r6z < 0 && (q6z += "!"), Z6z && (q6z += "$"), q6z + Z6z + d6z.charAt(H6z);}function u6z(R6z){    for (var z6z = [[1, 0], [2, 0], [1, -1], [1, 1], [0, 1], [0, -1], [3, 0], [2, -1], [2, 1]], h6z = 0, C6z = z6z.length; h6z < C6z; h6z++){        if (R6z[0] == z6z[h6z][0] && R6z[1] == z6z[h6z][1]){            return "stuvwxyz~"[h6z]        }    }    return 0;}

以上只是 F7z 第一次生成的地方，后面还有二次处理，如下图所示：

同样跟进去，三个传入的参数分别是第一次生成的 F7z、get.php 请求返回的 c 和 s 参数。

同样是一段控制流，还原后如下：

function getF7z2(Q1z, v1z, T1z){    var i1z, x1z = 0, c1z = Q1z, y1z = v1z[0], k1z = v1z[2], L1z = v1z[4];    while (1){        if (i1z = T1z.substr(x1z, 2)){            x1z += 2;            var n1z = parseInt(i1z, 16)              , M1z = String.fromCharCode(n1z)              , I1z = (y1z * n1z * n1z + k1z * n1z + L1z) % Q1z.length;            c1z = c1z.substr(0, I1z) + M1z + c1z.substr(I1z);        }else {            return c1z        }    }    return Q1z}

至此 aa 参数分析完毕！

获取 ep 值

ep 的值就是一个版本号，此处是 {'v': '6.0.9'}，写死即可。

获取 rp 值

自此 Y7z 的第一步生成就分析完毕了，注意接下来还有一步，向 Y7z 里新增了一个 rp 参数：

这个值的组成看起来很长，实际上是将 gt、challenge 前 32 位以及 passtime 相加经过 MD5 加密后得到的。

Y7z["rp"] = md5(gt + challenge.slice(0, 32) + passtime)

上图中 I0B 就是 MD5 方法，跟进去其实是可以看到很多 MD5 特征的，如下图所示：

自此 Y7z 的值就搞定了，然后接着前面的看，也就是 q7z 的值，同样和三四代一样的，encrypt 是 AES 加密，Y7z 经过 JSON.stringify() 处理为字符串作为待加密对象，后面是 16 为随机字符串作为 AES 的 Key，注意这里的随机字符串应该和获取 H7z 值时的随机字符串一致，不然是验证不成功的。

然后下一步就是获取 r7z 的值，将上一步得到的 q7z 经过一个方法进行处理，跟进方法，又是和三四代一样的，熟悉的 res + end，如下图所示：

直接扣代码，或者直接使用三代的代码即可：

function $_GJF(e) {    var t = "ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789()";    return e < 0 || e >= t["length"] ? "." : t["charAt"](e);}function $_HBO(e, t) {    return e >> t & 1;}function $_HCX(e, o) {    var i = this;    o || (o = i);    for (var t = function(e, t) {        for (var n = 0, r = 24 - 1; 0 <= r; r -= 1)            1 === $_HBO(t, r) && (n = (n << 1) + $_HBO(e, r));        return n;    }, n = "", r = "", s = e.length, a = 0; a < s; a += 3) {        var c;        if (a + 2 < s)            c = (e[a] << 16) + (e[a + 1] << 8) + e[a + 2],            n += $_GJF(t(c, 7274496)) + $_GJF(t(c, 9483264)) + $_GJF(t(c, 19220)) + $_GJF(t(c, 235));        else {            var _ = s % 3;            2 == _ ? (c = (e[a] << 16) + (e[a + 1] << 8),            n += $_GJF(t(c, 7274496)) + $_GJF(t(c, 9483264)) + $_GJF(t(c, 19220)),            r = ".") : 1 == _ && (c = e[a] << 16,            n += $_GJF(t(c, 7274496)) + $_GJF(t(c, 9483264)),            r = "." + ".");        }    }    return {        "res": n,        "end": r    };}

获取 w 值

自此 w 的就已经出来了，r7z + H7z 即为 w 的值。

结果验证

测试过掉验证码抓取数据成功：

云片行为验证，滑动验证码、点选验证码逆向分析

2022-11-26T08:51:00.000Z

欢迎加入爬虫逆向微信交流群：添加微信 IT-BOB（备注交流群）

文章目录

声明
逆向目标
抓包分析
逆向分析
- 图片接口
- 验证接口
结果验证

声明

逆向目标

目标：某片的滑动验证码和点选验证码逆向
主页：aHR0cHM6Ly93d3cueXVucGlhbi5jb20vcHJvZHVjdC9jYXB0Y2hh

抓包分析

验证码图片获取接口，GET 请求，包含四个参数：cb、i、k、captchaId，有时候可能也会有 token 参数，那是因为不是第一次加载图片，比如刷新图片，会将之前接口的 token 值带上。

接口返回，如果是滑动验证码，则 bg 是背景图，front 是滑块图，还有个 token 值后续会用到。

如果是点选验证码，则 captchaImage 是底图，wordsImage 是需要点击的文字，同样的有个 token 值后续会用到。

验证接口，包含五个参数：cb、i、k、token、captchaId，其中 token 就是获取验证码接口返回的。

逆向分析

图片接口

先来看看获取验证码图片的接口，全局搜索关键字 captchaId 即可定位到 key 为 jsonpRequest 的地方，下图中的 t 就是完整的接口 URL 了：

往上挨个找，先看看 captchaId，其实就是 this.APP_ID，多次刷新你会发现，对于滑块来讲，是定值 974cd565f11545b6a5006d10dc324281，对于点选来讲，是定值 e1e7be036f9242c7aed023438af66f46，这两个值在一个 JS 里是写死的，如下图所示：

再往上看，HOSTS 啥的是定值就不用说了，cb 就是 r，i 就是 a.i，k 就是 a.k，通过 concat() 方法连接起来，所以只需要搞定 r 和 a 的值就行了，如下图所示：

a 的值是通过 encrypt(e) 得到的，e 里面有 fp、address、yp_riddler_id 等值，如下图所示：

先看看这个 encrypt 方法，最终返回的是 i 和 k，瞧瞧这熟悉的 iv、parse，一看就是 AES、DES 之类的，试一下就知道了，或者跟进 lt.a.encrypt() 看看他的源码，对比一下标准算法里的源码，就可以发现是 AES，k 就很明显了，RSA 加密，公钥啥的一搜就有。

然后往上有个 yp_riddler_id，貌似是从 cookie 中拿的，直接搜索这个关键字，可以找到其设置值的地方，就是一个 UUID，其中有个 window.performance.now() 方法，其作用是返回一个当前页面执行的时间的时间戳，用来精确计算程序执行时间，在 node 实现方法如下：

var perf = require('perf_hooks');performance = perf.performance.now()console.log(performance);

然后再往上有个 e.fp = this.fingerprint，这里用到的应该是一个指纹库：https://github.com/fingerprintjs/fingerprintjs ，感兴趣的可以了解一下，同一个浏览器得到的指纹是一样的，这里固定即可。

然后就是 r 的值，preAdd 方法，直接扣就行了

然后这个 e 的值，再传到 jsonpRequest 之前就已经有一些值了，所以我们还得往前跟栈看看：

来到 getCaptcha 这里，没啥特别的，扣就完事儿了，其中有个 browserInfo 是浏览器的一些东西，copy 下来就行了。

验证接口

验证接口最后也是走的 jsonpRequest，和前面的获取图片接口类似，不同之处就是传入的 e 里面包含的值不一样，先来看看滑块：

包含 distanceX 和 points，很明显 points 就是轨迹了，再往前跟看看，如下图所示，我们只需要 i 和 r 参数就行了，参数是一些图片高宽，固定就行，offsetX 是滑动的距离。

主要看看这个轨迹 i = this.reducePoints()，跟进 reducePoints() 方法里，this.position 是轨迹信息，这个方法对轨迹做了一些处理再返回的，直接把逻辑扣下来即可。

滑块就到这儿了，再来看看点选验证，同样的还是 jsonpRequest，传入的 e 包含了三个点的坐标。

同样往上跟栈，这里的 this.position 才是真实坐标，后面每个坐标分别对 x 和 y 与图片的宽和高进行相除，如下图所示：

结果验证

安居客滑动验证码逆向分析

2022-11-08T09:35:00.000Z

欢迎加入爬虫逆向微信交流群：添加微信 IT-BOB（备注交流群）

文章目录

声明
逆向目标
抓包分析
dInfo 生成
getInfoTp 解密
data 生成
轨迹处理
结果验证

声明

逆向目标

目标：安某客滑动验证码逆向分析
主页：aHR0cHM6Ly93d3cuYW5qdWtlLmNvbS9jYXB0Y2hhLXZlcmlmeS8/Y2FsbGJhY2s9c2hpZWxkJmZyb209YW50aXNwYW0=

抓包分析

首页请求，有个初始化函数，其中有个 sessionId 后续会用到。

然后有个 getInfoTp 的请求，Form Data 里有个 dInfo 是加密参数，返回值里 info 也是加密的，包含了图片信息，返回值 responseId 在后续的请求也会用到。

滑动之后，有个 checkInfoTp 请求，Form Data 里有个 data 是加密参数，包含了轨迹信息，返回值 message 可以看到是否校验成功。

整体流程就是：请求首页获取 sessionId，请求 getInfoTp 获取图片信息和 responseId，请求 checkInfoTp 校验是否成功，中间涉及到 dInfo 和 data 两个加密参数，以及 getInfoTp 返回得到的 info 的解密。

dInfo 生成

先来看 getInfoTp 请求的 dInfo 参数，直接搜索可定位，刷新断下，大致就可以看出是 AES 加密，传入了 sessionId 和一个 _taN() 函数的返回值：

_taN() 函数是一些 URL，UA 之类的信息，可以写死：

往里跟就可以看到 AES 算法了：

这里简简单单扣一下，JavaScript 代码如下：

/* ==================================# @Time    : 2021-12-14# @Author  : ITBOB.CN# @FileName: ajk.js# @Software: PyCharm# ================================== */var CryptoJS = require('crypto-js')function AESEncrypt(_cRV, _2undefinedp) {    _2undefinedp = _2undefinedp.split("").reduce(function(_PUi, _JrX, _JP9) {        return _JP9 % 2 == 0 ? _PUi + "" : _PUi + _JrX;    }, "");    _2undefinedp = CryptoJS.enc.Utf8.parse(_2undefinedp);    _cRV = "string" == typeof _cRV ? _cRV : JSON.stringify(_cRV);    _cRV = CryptoJS.AES.encrypt(_cRV, _2undefinedp, {        iv: _2undefinedp,        mode: CryptoJS.mode.CBC,        padding: CryptoJS.pad.Pkcs7    });    return encodeURIComponent(_cRV.toString())}function u() {    return {        "sdkv": "3.0.1",        "busurl": "https://www.脱敏处理.com/captcha-verify/?callback=shield&from=antispam",        "useragent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36",        "clienttype": "1"    }}function getDInfo(sessionId){    return AESEncrypt(u(), sessionId)}// 测试样例var sessionId = "a8b339ec0c26459598786fee1cce8dc2"console.log(getDInfo(sessionId))

这段逻辑也可以用 Python 来实现，关键代码如下（脱敏处理，不能直接运行）：

# ==================================# --*-- coding: utf-8 --*--# @Time    : 2021-12-14# @Author  : ITBOB.CN# @FileName: ajk.py# @Software: PyCharm# ==================================import jsonimport base64import requestsfrom lxml import etreefrom loguru import loggerfrom urllib.parse import quote_plusfrom Crypto.Cipher import AESfrom Crypto.Util.Padding import pad, unpadclass AESAlgorithm:    @staticmethod    def encrypt(aes_key_iv, text):        """ 对明文进行加密 """        cipher = AES.new(key=bytes(aes_key_iv, encoding='utf-8'), mode=AES.MODE_CBC, iv=bytes(aes_key_iv, encoding='utf-8'))        result = base64.b64encode(cipher.encrypt(pad(text.encode('utf-8'), 16))).decode('utf-8')        result = quote_plus(result)        return result    @staticmethod    def decrypt(aes_key_iv, text):        """ 对密文进行解密 """        cipher = AES.new(key=bytes(aes_key_iv, encoding='utf-8'), mode=AES.MODE_CBC, iv=bytes(aes_key_iv, encoding='utf-8'))        result = unpad(cipher.decrypt(base64.b64decode(text)), 16).decode('utf-8')        return resultclass AJKSlide:    def __init__(self, index_url, user_agent):        self.aes = AESAlgorithm()        self.index_url = index_url        self.user_agent = user_agent        self.headers = {"user-agent": self.user_agent}    def get_session_id(self):        """ 获取 sessionId """        response = requests.get(url=self.index_url, headers=self.headers).text        session_id = etree.HTML(response).xpath("//input[@name='sessionId']/@value")[0]        logger.info(f"sessionId ==> {session_id}")        return session_id    @staticmethod    def get_aes_key_iv(session_id):        """设置 AES key 和 iv"""        aes_key_iv = ''        for index, value in enumerate(session_id):            if index % 2 != 0:                aes_key_iv += value        logger.info(f"处理 sessionId 获取 aes key iv ==> {aes_key_iv}")        return aes_key_iv    def get_d_info(self, aes_key_iv):        """获取 dInfo"""        sdk_info = {            "sdkv": "3.0.1",            "busurl": self.index_url,            "useragent": self.user_agent,            "clienttype": 1        }        d_info = self.aes.encrypt(aes_key_iv, json.dumps(sdk_info))        logger.info(f'dInfo ==> {d_info}')        return d_info    def run(self, session_id=None):        if not session_id:            session_id = self.get_session_id()        aes_key_iv = self.get_aes_key_iv(session_id)        self.get_d_info(aes_key_iv)if __name__ == '__main__':    UA = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36"    index_url_ = "https://www.脱敏处理.com/captcha-verify/?callback=shield&from=antispam"    ajk_slide = AJKSlide(index_url_, UA)    ajk_slide.run()

getInfoTp 解密

getInfoTp 这个接口返回的 info 的值是加密的，前面我们已经知道用到了 AES 加密算法，这里可以直接猜测也是用的的 AES 来解密的，找到 AESDecrypt 这个方法，下个断点，刷新发现断下之后传入了两个参数，第一个正是 info 的内容，第二个则是 sessionId。

解密结果可以看到滑块的图片地址等信息：

data 生成

接下来就是 checkInfoTp 提交验证了，要搞清楚提交的 data 是什么东西，同样搜索打断点，如下图所示 _5DD 就是 data 值，传过来的。

往上跟栈，可以看到 _Ug0 里面有个 track 参数，这明显就是轨迹了，同样最后的结果经过了 AES 加密。

再往上跟，可以看到 _Ug0 由三个参数组成，x 是水平滑动的距离，track 是轨迹，p 是定值。

轨迹处理

轨迹生成前，得先识别缺口得到要滑动的距离，方式有很多，比如 OpenCV、开源的 ddddocr，或者直接打码平台都行，这里唯一要注意的一点就是图片是有缩放的，原始尺寸 480 × 270 px 渲染后的尺寸 280 × 158 px，比例大概是 1:0.5833333333333333，可以先将图片进行缩放后再识别，也可以先识别距离后再将距离进行缩放。

轨迹的处理，该站点校验并不太严格，所以可以自己写一下，关于滑块的轨迹处理，主要有缩放法、本地轨迹库、根据一些函数来生成轨迹，如缓动函数、贝塞尔曲线等，以后再单独写一篇文章来介绍，本例中可以使用缩放法，先采集一条正常的，手动滑出来的轨迹，然后根据识别出的实际距离和样本轨迹中的距离相比，得到一个比值，然后将样本中的 x 值和时间值都做一个对应的缩放，生成新的轨迹，主要代码如下：

def generate_track(distance):    """生成轨迹，样本距离为 126"""    ratio = distance / 126    new_track = ""    base_track = "29,11,0|29,11,11|29,11,26|33,11,56|34,11,66|36,11,67|39,11,76|41,11,83|43,11,86|46,11,92|49,11,98|50,11,102|52,11,106|53,11,111|55,11,116|57,11,118|59,11,123|60,11,126|62,11,132|64,12,134|65,12,138|66,12,142|68,12,148|69,12,151|70,13,155|71,13,158|72,13,164|74,13,166|75,13,170|76,14,174|77,14,180|79,14,182|81,14,186|82,14,196|84,14,198|86,14,207|87,15,212|89,15,219|90,15,223|92,15,230|93,15,234|94,15,239|95,15,243|98,15,246|100,15,250|102,15,260|105,15,262|106,15,266|108,15,270|109,16,276|111,16,278|113,16,283|115,16,286|117,16,291|118,16,294|119,16,298|121,16,302|123,16,309|124,16,311|125,16,315|126,16,319|129,16,324|130,16,327|131,16,331|132,16,334|132,16,388|132,16,522|133,16,566|134,16,574|135,16,575|136,16,594|137,16,620|138,16,625|139,16,652|140,16,657|141,17,676|141,18,680|142,18,684|143,18,688|144,18,716|145,18,724|146,18,796|147,19,828|148,19,860|149,19,888|149,19,890|150,19,916|151,20,932|152,20,936|152,20,1021|153,20,1150|154,20,1152|155,20,1236|155,20,1388|155,20,1522|155,20,1717|"    base_track = base_track.split("|")[:-1]    for track in base_track:        t = track.split(",")        new_track += str(int(int(t[0]) * ratio)) + "," + str(t[1]) + "," + str(int(int(t[2]) * ratio)) + "|"        logger.info(f"new_track ==> {new_track}")        return new_track

结果验证

整个过程比较简单，验证成功。

抖音短视频 X-Bogus 逆向分析，JSVMP 纯算法还原

2022-10-16T11:00:00.000Z

欢迎加入爬虫逆向微信交流群：添加微信 IT-BOB（备注交流群）

文章目录

声明
逆向目标
什么是 JSVMP？
JSVMP 有哪些学习资料？
JSVMP 逆向方法有哪些？
抓包情况
逆向分析
插桩分析
28个字符生成逻辑
乱码字符串生成逻辑

声明

逆向目标

目标：某音短视频网页端用户信息接口 X-Bogus 参数
接口：aHR0cHM6Ly93d3cuZG91eWluLmNvbS9hd2VtZS92MS93ZWIvdXNlci9wcm9maWxlL290aGVyLw==

什么是 JSVMP？

JSVMP 全称 Virtual Machine based code Protection for JavaScript，即 JS 代码虚拟化保护方案。

JSVMP 的概念最早应该是由西北大学2015级硕士研究生匡开圆，在其2018年的学位论文中提出的，论文标题为：《基于 WebAssembly 的 JavaScript 代码虚拟化保护方法研究与实现》，同年还申请了国家专利，专利名称：《一种基于前端字节码技术的 JavaScript 虚拟化保护方法》，网上可以直接搜到，也可点击此链接（密码6666），免费获取原版高清无水印的论文和专利。本文就简单介绍一下 JSVMP，想要详细了解，当然还是建议去读一下这篇论文。

JSVMP 的核心是在 JavaScript 代码保护过程中引入代码虚拟化思想，实现源代码的虚拟化过程，将目标代码转换成自定义的字节码，这些字节码只有特殊的解释器才能识别，隐藏目标代码的关键逻辑。在匡开圆的论文中，利用 WebAssembly 技术实现了特殊的虚拟解释器，通过编译隐藏解释器的执行逻辑。JSVMP 的保护流程如下图所示：

一个完整的 JSVMP 保护系统，大致的架构应该是这样子的：服务器端读取 JavaScript 代码 —> 词法分析 —> 语法分析 —> 生成AST语法树 —> 生成私有指令 —> 生成对应私有解释器，将私有指令加密与私有解释器发送给浏览器，然后一边解释，一边执行。

JSVMP 有哪些学习资料？

除了匡开圆的论文以外，还有以下文章也值得学习：

JSVMP 逆向方法有哪些？

就目前来讲，JSVMP 的逆向方法有三种（自动化不算）：RPC 远程调用，补环境，日志断点还原算法，其中日志断点也称为插桩，找到关键位置，输出关键参数的日志信息，从结果往上倒推生成逻辑，以达到算法还原的目的，RPC 技术以前写过文章，补环境的方式以后有时间再写，本文主要介绍如何使用插桩来还原算法。

抓包情况

随便来到某个博主主页，抓包后搜索可发现一个接口，返回的是 JSON 数据，里面包含了博主某音号，认证信息、签名，关注、粉丝、获赞等，请求 Query String Parameters 里包含了一个 X-Bogus 参数，每次请求会改变，此外还有 sec_user_id 是博主主页 URL 后面那一串，webid 直接请求主页返回内容里就有，msToken 与 cookie 有关，清除 cookie 访问，就没这个参数了，实测该接口不验证 webid 和 msToken，直接置空即可。

逆向分析

这条请求是 XHR 请求，所以直接下个 XHR 断点，当 URL 中包含 X-Bogus 参数时就断下：

往前跟栈，来到一个叫 webmssdk.js 的 JS 文件，这里就是生成参数的主要 JS 逻辑了，也就是 JSVMP，整体上做了一个混淆，这里可以使用 AST 来解混淆，以前同样也写过 AST 的文章，这里还原混淆不是重点，咱们直接使用 V 佬的插件 v_jstools 来还原：

还原后使用浏览器的 Overrides 替换功能将 webmssdk.js 替换掉，往上跟栈，如下图所示，到 W 这里就已经生成了 X-Bogus 了，this.openArgs[1] 就是携带了 X-Bogus 的完整 URL，仔细观察这段代码，有很多三元表达式，当 M 的值为 15 时，就会走到这段逻辑，U 的值生成之后，有一个 S[C] = U 的操作。

再往上看代码，S 是一个数组，单步调试的话会发现代码会一直走这个 if-else 的逻辑，几乎每一步都有 S 数组的参与，不断往里面增删改查值，for 循环里面的 I 值，决定着后续 if 语句的走向，这里也就是插桩的关键所在，如下图所示：

插桩分析

大的 for 循环和 if-else 逻辑有两个地方，为了保证最后的日志更加详细完整，在这两个地方都下个日志断点（右键 Add logpoint），断点内容为：

"位置 1", "索引I", I, "索引A", A, "值S: ", JSON.stringify(S, function(key, value) {if (value == window) {return undefined} return value})"位置 2", "索引I", I, "索引A", A, "值S: ", JSON.stringify(S, function(key, value) {if (value == window) {return undefined} return value})

插桩输出 S 的时候为什么要写这么长一串呢？首先 JSON.stringify() 方法的作用是将 JavaScript 值转换为 JSON 字符串，基础语法是 JSON.stringify(value[, replacer [, space]])，如果不将其转换成 JSON，那么 S 的值，输出可能是这样的：[empty, Array(26), 1, Array(0)]，你看不到 Array 数组里面具体的值，该方法有个可选参数 replacer，如果 replacer 为函数，则 JSON.stringify 将调用该函数，并传入每个成员的键和值，在函数中可以对成员进行处理，最后返回处理后的值，如果此函数返回 undefined，则排除该成员，举个例子：

var obj1 = {key1: 'value1', key2: 'value2'}function changeValue(key, value) {    if (value == 'value2') {        return 'ITBOB'    } return value}var obj2 = JSON.stringify(obj1, changeValue)console.log(obj2)// 输出：{"key1":"value1","key2":"ITBOB"}

上面的代码中 JSON.stringify 传入了一个函数，当 value 为 value2 的时候就将其替换成字符串 ITBOB，接下来我们演示一下当 value 为 window 时，会发生什么：

根据报错我们可以看到这里由于循环引用导致异常，要知道在插桩的时候，如果插桩内容有报错，就会导致不能正常输出日志，这样就会缺失一部分日志，这种情况我们就可以加个函数处理一下，让 value 为 window 的时候，JSON 处理的时候函数返回 undefined，排除该成员，其他成员正常输出，如下图所示：

以上就是日志断点为什么要这样写的原因，下好日志断点后，注意前面我们下的 XHR 断点不要取消，然后刷新网页，控制台就开始打印日志了，因为有很多 XHR 请求都包含了 X-Bogus，如果你 XHR 断点取消了，日志就会一直打印直到卡死。日志输出完毕后，大约有8千多条，搜索就能看到最后一条日志 X-Bogus 已经生成了：

28个字符生成逻辑

直接在打印的日志页面右键 save as..，将日志导出到本地进行分析。X-Bogus 由28个字符组成，现在要做的就是看 DFSzswVOAATANH89SMHZqF9WX7n6 这28个字符是怎么来的，在日志里搜索这个字符串，找到第一次出现的地方，观察一下可以发现，他是逐个字符依次生成的，如下图红框所示：

在上图中，第8511行，X-Bogus 字符串的下一个元素是 null，到了第8512行，就生成数字6了，那么在这两步之间就是数字6的生成逻辑，这个时候我们看第8511行的日志断点是 位置 2 索引I 16 索引A 738，那么我们回到原网页，在位置2，下一个条件断点（右键 Add conditional breakpoint），当 I == 16 && A == 738 && S[7] && S[7] == 21 时就断下。之所以要加 S[7] 是因为 索引I 16 索引A 738 的位置有很多，在日志里搜一下大概有40多个，多加个限制条件就可以缩小范围，当然有可能加了多个条件仍然有多个位置都满足，这就需要你细心观察了，通过断点断下的时候看看控制台前面输出的日志来判断是不是我们想要的位置。这也是一个小细节，一定要找准位置，千万别搞混了。（提示一下，像我这样下断点的话，一般情况下会断下两次，第二次是满足要求的）

（注意：本文描述的日志的多少行、断点的具体位置、变量的具体值，可能会有所变化，以你的实际情况为准，但思路是一样的）

刷新网页，断下之后开始单步跟，来到下图所示的地方：

到这里之后，就不要下一步了，再下一步有可能整个语句就执行完毕了，其中的细节你看不到，所以这里我们在控制台挨个输入看看：

可以看到实际上的逻辑就是返回指定位置的字符，y 的值就是 S[5]，m 的值就是 S[4]，经过多次调试发现 m 的值是固定的，M 就是 charAt() 方法，我们再看看我们本地的日志，S[5] 的值为 [20]，charAt() 取值出来就是6，逻辑完全正确。

现在我们还需要知道这个20是怎么来的，继续往上看，找到20第一次出现的地方，在第8510行，那么我们就要使其在上一步断下，也就是第8509行，如下图所示：

第8509行的索引信息为 位置 2 索引I 47 索引A 730，同样的下条件断点观察怎么生成的：

可以看到逻辑是 S[5] & S[6]，再看我们本地 S[5] = 5647508、S[6] = 63 ，5647508 & 63 = 20，逻辑正确，20就是这么来的。接下来又开始找 5647508 和 63 是怎么生成的，同样在生成的上一步，也就是8508行下个条件断点，这行的索引为 位置 2 索引I 72 索引A 726。

可以看到 63 是直接 q[A] 生成的，q 是一个大数组，A 就是索引为 726，q 这个大数组怎么来的先不用管，而 5647508 这个大数字，搜索一下，发现有很多，咱们也先放着，到这里咱们可以总结一下最后一个字符的生成步骤如下：

short_str = "Dkdpgh4ZKsQB80/Mfvw36XI1R25-WUAlEi7NLboqYTOPuzmFjJnryx9HVGcaStCe="q[726] = 635647508 & 63 = 20short_str.charAt(20) = '6'

然后接日志着往上看，看倒数第二个字母是怎么来的，方法也和前面演示的一样，不断往前下条件断点，这里就不再逐步演示了，当你找完四个数字后，就可以开始看 5647508 这个大数字怎么来的了，搜索这个数字，同样的找到第一次出现的地方，在其前一步下条件断点，步骤捋出来会发现有一个乱码字符串经过 charCodeAt() 操作，再加上一些位运算得到的，乱码字符串类似下图所示：

至于这个乱码字符串怎么来的，我们后面再讲，到这里先总结一下，首先我们的 X-Bogus = DFSz swVO AATA NH89 SMHZ qF9W X7n6，将其看成每四个为一组，之所以这么分组，是因为你经过分析后会发现，每一组的每一个字符生成流程都是一样的，这里以最后两组为例，流程大致如下：

short_str = "Dkdpgh4ZKsQB80/Mfvw36XI1R25-WUAlEi7NLboqYTOPuzmFjJnryx9HVGcaStCe="X-Bogus = DFSz swVO AATA NH89 SMHZ qF9W X7n6============== 第6组【qF9W】=============="\u0002ÿ-%.*yê^s6ðýÇýV,".charCodeAt(15) = 158q[342] = 16158 << 16 = 10354688"\u0002ÿ-%.*yê^s6ðýÇýV,".charCodeAt(16) = 253q[408] = 8253 << 8 = 6476810354688 | 64768 = 10419456"\u0002ÿ-%.*yê^s6ðýÇýV,".charCodeAt(17) = 156156 | 10419456 = 10419612q[520] = 1651507210419612 & 16515072 = 10223616q[532] = 1810223616 >> 18 = 39short_str.charAt(39) = 'q'q[590]= 25804810419612 & 258048 = 192512q[602] = 12192512 >> 12 = 47short_str.charAt(47) = 'F'q[660] = 403210419612 & 4032 = 3456q[668] = 63456 >> 6 = 54short_str.charAt(54) = '9'q[726] = 6310419612 & 63 = 28short_str.charAt(28) = 'W'============== 第7组【X7n6】=============="\u0002ÿ-%.*yê^s6ðýÇýV,".charCodeAt(18) = 86q[342] = 1686 << 16 = 5636096"\u0002ÿ-%.*yê^s6ðýÇýV,".charCodeAt(19) = 44q[408] = 844 << 8 = 112645636096 | 11264 = 5647360"\u0002ÿ-%.*yê^s6ðýÇýV,".charCodeAt(20) = 148148 | 5647360 = 5647508q[520] = 165150725647508 & 16515072 = 5505024q[532] = 185505024 >> 18 = 21short_str.charAt(21) = 'X'q[590] = 2580485647508 & 258048 = 139264q[602] = 12139264 >> 12 = 34short_str.charAt(34) = '7'q[660] = 40325647508 & 4032 = 3200q[668] = 63200 >> 6 = 50short_str.charAt(50) = 'n'q[726] = 635647508 & 63 = 20short_str.charAt(20) = '6'

将流程对比一下就可以发现，每个步骤 q 里面的取值都是一样的，这个可以直接写死，不同之处就在于最开始的 charCodeAt() 操作，也就是返回乱码字符串指定位置字符的 Unicode 编码，第7组依次是 18、19、20，第6组依次是15、16、17，以此类推，第1组刚好是0、1、2，如下图所示：

每一组的逻辑都是一样的，我们就可以写个通用方法，依次生成七组字符串，最后拼接成完整的 X-Bogus，代码如下：（乱码字符串的生成后文会讲）

function getXBogus(originalString){    // 生成乱码字符串    var garbledString = getGarbledString(originalString);    var XBogus = "";    // 依次生成七组字符串    for (var i = 0; i <= 20; i += 3) {        var charCodeAtNum0 = garbledString.charCodeAt(i);        var charCodeAtNum1 = garbledString.charCodeAt(i + 1);        var charCodeAtNum2 = garbledString.charCodeAt(i + 2);        var baseNum = charCodeAtNum2 | charCodeAtNum1 << 8 | charCodeAtNum0 << 16;        // 依次生成四个字符        var str1 = short_str[(baseNum & 16515072) >> 18];        var str2 = short_str[(baseNum & 258048) >> 12];        var str3 = short_str[(baseNum & 4032) >> 6];        var str4 = short_str[baseNum & 63];        XBogus += str1 + str2 + str3 + str4;    }    return XBogus;}

乱码字符串生成逻辑

在进行下一步之前，我们要注意两点：

文章演示有些变量前后不对应，因为每次插桩的值都是会变的，看流程就行了，流程是正确的；
我们日志输出是经过 JSON.stringify 处理了的，有些步骤是向某个函数传入乱码字符串进行处理，你会发现处理后的结果和日志不一致，这是正常的。

乱码字符串的生成相对来说稍微复杂一点，但思路仍然一样，这里就不一一截图展示了，直接用日志描述一下关键步骤，注意以下日志是正向的步骤，就不逆着推了，建议自己先逆着把流程走一走，再来看这个步骤就看得懂了。

Step1：首先对 URL 后面的参数，也就是 Query String Parameters 进行两次 MD5、两次转 Uint8Array 处理，最后得到的 Uint8Array 对象在后面的步骤中用得到，步骤如下：

位置 1 索引I 4  索引A 134：将 URL 后面的参数进行 MD5 加密得到字符串位置 1 索引I 16 索引A 460：将上一步的字符串转换为 Uint8Array 对象位置 1 索引I 4  索引A 134：将上一步的 Uint8Array 对象进行 MD5 加密，得到字符串位置 1 索引I 29 索引A 472：将上一步的字符串转换为 Uint8Array 对象

上述步骤中，我们将最终得到的结果命名为 uint8Array，关键代码实现如下：

var md5 = require("md5");// 字符串转换为 Uint8Array 对象，缺失的变量自行补齐_0x5960a2 = function(a) {    for (var c = a.length >> 1, e = c << 1, b = new Uint8Array(c), d = 0, f = 0; f < e; ) {        b[d++] = _0x511f86[a.charCodeAt(f++)] << 4 | _0x511f86[a.charCodeAt(f++)];    }    return b;}// originalString: URL 后面的原始参数var uint8Array = _0x5960a2(md5(_0x5960a2(md5(originalString))));

Step2：生成两个大数，一个是时间戳，我们称之为 fixedString1，另一个调用某个方法生成，我们称之为 fixedString2。

fixedString1位置 1 索引I 43 索引A 806：1663385262240 / 1000 = 1663385262.24fixedString2位置 1 索引I 16 索引A 834：M.apply(null, []) = 536919696

上述步骤中，M 对应以下方法，缺失的方法自行补齐（其中 _0x229792 是创建 canvas）：

function _0x2996f8() {    try {        return _0x4b3b53 || (_0xb55f3e.perf ? -1 : (_0x4b3b53 = _0x229792(3735928559), _0x4b3b53));    } catch (a) {        return -1;    }}

Step3：先后生成两个数组，我们称之为 array1、array2，array2 就是由 array1 的元素位置变换后得来的，严格来讲，array1 不是一个完整的数组，而是一个个数字，这一点可以在日志中体现出来，为了方便我们就直接将其视为一个数组，两个数组都有19个元素，步骤如下：

array1[0] 至 array1[3] 为定值array1[4]位置 1 索引I 25 索引A 946：uint8Array[14]array1[5]位置 1 索引I 25 索引A 970：uint8Array[15]array1[6] 至 array1[7] 与 post 提交的 form data 有关array1[8] 至 array1[9] 与 ua 有关，与 Step1 类似array1[10]位置 1 索引I 52 索引A 1090：fixedString1 >> 24 = 99位置 1 索引I 47 索引A 1098：99 & 255 = 99array1[11]位置 1 索引I 52 索引A 1122：fixedString1 >> 16 = 25417位置 1 索引I 47 索引A 1130：25417 & 255 = 73array1[12]位置 1 索引I 52 索引A 1154：fixedString1 >> 8 = 6506755位置 1 索引I 47 索引A 1162：6506755 & 255 = 3array1[13]位置 1 索引I 52 索引A 1186：fixedString1 >> 0 = 241位置 1 索引I 47 索引A 1194：241 & 255 = 241array1[14]位置 1 索引I 52 索引A 1218：fixedString2 >> 24 = 32位置 1 索引I 47 索引A 1226：32 & 255 = 32array1[15]位置 1 索引I 52 索引A 1250：fixedString2 >> 16 = 8192位置 1 索引I 47 索引A 1258：8192 & 255 = 0array1[16]位置 1 索引I 52 索引A 1282：fixedString2 >> 8 = 2097342位置 1 索引I 47 索引A 1290：2097342 & 255 = 190array1[17]位置 1 索引I 52 索引A 1314：fixedString2 >> 0 = 536919696位置 1 索引I 47 索引A 1322：536919696 & 255 = 144array1[18]位置 1 索引I 27 索引A 1352：array1.reduce(function(a, b) { return a ^ b; }); = 100array1 完整值如下位置 1 索引I 27 索引A 1538：64,1.00390625,1,8,9,185,69,63,74,125,99,73,3,241,32,0,190,144,100array2 由 array1 元素交换位置而来：array2 = [array1[0], array1[2], array1[4], array1[6], array1[8], array1[10], array1[12], array1[14], array1[16], array1[18], array1[1], array1[3], array1[5], array1[7], array1[9], array1[11], array1[13], array1[15], array1[17]]array2 完整值如下array2 = [64,1,9,69,74,99,3,32,190,100,1.00390625,8,185,63,125,73,241,0,144]

Step4：将 Step3 得到的 array2 经过转换得到乱码字符串，步骤如下：

位置 1 索引I 16 索引A 1706：_0x2f2740.apply(null, array2) = "@\u0000\u0001\u000eíxE?\u0016c%>® \u0000¾ó"位置 1 索引I 16 索引A 1760：_0x46fa4c.apply(null, ["ÿ", "@\u0000\u0001\u000e\t¹E?J}cI\u0003ñ \u0000¾d"]) = "\u0002ÿ-%.*yê^s6ðýÇýV,"位置 1 索引I 16 索引A 1812：_0x2b6720.apply(null, [2, 255, "\u0002ÿ-%.*yê^s6ðýÇýV,"]) = "\u0002ÿ-%.*yê^s6ðýÇýV,"

其中用到的函数：

function _0x2f2740(a, c, e, b, d, f, t, n, o, i, r, _, x, u, s, l, v, h, g) {    let w = new Uint8Array(19);    return w[0] = a,    w[1] = r,    w[2] = c,    w[3] = _,    w[4] = e,    w[5] = x,    w[6] = b,    w[7] = u,    w[8] = d,    w[9] = s,    w[10] = f,    w[11] = l,    w[12] = t,    w[13] = v,    w[14] = n,    w[15] = h,    w[16] = o,    w[17] = g,    w[18] = i,    String.fromCharCode.apply(null, w);}function _0x46fa4c(a, c) {    let e, b = [], d = 0, f = "";    for (let a = 0; a < 256; a++) {        b[a] = a;    }    for (let c = 0; c < 256; c++) {        d = (d + b[c] + a.charCodeAt(c % a.length)) % 256,        e = b[c],        b[c] = b[d],        b[d] = e;    }    let t = 0;    d = 0;    for (let a = 0; a < c.length; a++) {        t = (t + 1) % 256,        d = (d + b[t]) % 256,        e = b[t],        b[t] = b[d],        b[d] = e,        f += String.fromCharCode(c.charCodeAt(a) ^ b[(b[t] + b[d]) % 256]);    }    return f;}function _0x583250(a) {    return String.fromCharCode(a);}function _0x2b6720(a, c, e) {    return _0x583250(a) + _0x583250(c) + e;}

自此，整个流程就走完了。可以用 JavaScript 来实现整个算法，用 Python 也可以，完善代码后随便请求一个博主主页，简单解析几个数据，输出正常：

APP 逆向，Frida 初体验，root 检测与加密字符串定位

2022-09-12T10:00:00.000Z

欢迎加入爬虫逆向微信交流群：添加微信 IT-BOB（备注交流群）

文章目录

声明
逆向目标
安装 ADB
安装 Frida
逆向分析
- 结合 Python 使用
- frida 命令

声明

逆向目标

设备：Google Pixel4，Android 10，已 root
APP：UnCrackable-Level1.apk（来源：https://github.com/OWASP/owasp-mastg/tree/master/Crackmes ）
APP 检测了 root，如果手机 root 了，会强制退出 APP，过了 root 检测后，还需要输入一个字符串进行校验。

安装 ADB

adb（Android Debug Bridge）即安卓调试桥，安装后可以在电脑上与手机进行交互，Android Studio 等工具里面会自带 adb，有时候我们并不想下载这么大的工具，所以这里介绍一下 Android SDK Platform-Tools，它是 Android SDK 的一个组件，它包括与 Android 平台交互的工具，主要是 adb 和 fastboot，官方下载地址：https://developer.android.com/studio/releases/platform-tools ，下载完成后将该目录添加到环境变量，USB 连接手机，手机上设置允许 USB 调试，使用命令 adb version 可查看版本信息，adb devices 可以查看当前连接的设备，如下图所示：

安装 Frida

Frida 是一款基于 Python + JavaScript 的 Hook 与调试框架，首先电脑端使用命令 pip install frida-tools 安装 frida 模块（此命令默认会安装最新版的 frida 和 frida-tools，如），然后下载 frida-server，下载地址：https://github.com/frida/frida/releases

frida-server 要根据你电脑端安装的 frida 版本和手机的 CPU 架构来选择对应的，使用命令 frida --version 可以查看 frida 版本，使用命令 adb shell 进入手机，输入 getprop ro.product.cpu.abi 查看 CPU 架构，如下图所示，我这里 frida 是 15.2.2 版本，手机 CPU 为 arm64，所以我下载的是 frida-server-15.2.2-android-arm64.xz。

某些 Android 低版本使用高版本 frida 可能有问题，遇到问题可尝试降低 frida 版本来解决。

将下载好的 frida-server 使用 adb push 命令传到手机的 /data/local/tmp/ 目录下，并给予 777 读、写、执行的权限，然后直接运行 frida-server，正常不会有任何输出，当然也可以使用 & 等方式让其在后台运行。

然后另开一个 cmd 使用命令 frida-ps -U 可查看手机进程，有输出则正常。

逆向分析

使用 adb install 命令安装 UnCrackable-Level1.apk，打开该 APP，会检测到 root，出现 Root detected! 的提示，如下图所示：

使用 JEB、JADX、GDA 等工具反编译 apk，直接搜索关键字 Root detected! 即可定位到检测的地方：

可以看到图中有三个检测方法 c.a()、c.b()、c.c()，其中一个返回为真，则弹出 Root detected!，然后前面还有一个 onClick 方法，如果点击 OK 按钮，则触发 System.exit(0);，即退出 APP，先点进三个检测方法看看：

a() 方法通过检测 Android 系统环境变量中是否有 su 文件来判断是否被 root；

b() 方法通过检测 Build.TAGS 中是否包含字符串 test-keys 来判断是否被 root；

c() 方法通过检测指定路径下是否包含指定的文件来判断是否被 root。

所以我们这里就有多种过掉检测的方法：

方法一：Hook 三个检测方法，让它们都返回 false，不再执行后续的 a 方法，就不会退出 APP 了：

Java.perform(    function(){        console.log("[*] Hook begin")        var vantagePoint = Java.use("sg.vantagepoint.a.c")        vantagePoint.a.implementation = function(){            console.log("[*] Hook vantagepoint.a.c.a")            this.a();            return false;        }        vantagePoint.b.implementation = function(){            console.log("[*] Hook vantagepoint.a.c.b")            this.b();            return false;        }        vantagePoint.c.implementation = function(){            console.log("[*] Hook vantagepoint.a.c.c")            this.c();            return false;        }    })

方法二：Hook a() 方法，置空，什么都不做，不弹出对话框，也不退出 APP：

Java.perform(    function(){        console.log("[*] Hook begin")        var mainActivity = Java.use("sg.vantagepoint.uncrackable1.MainActivity");        mainActivity.a.implementation = function(){            console.log("[*] Hook mainActivity.a")        }    })

方法三：Hook onClick() 方法，点击 OK 后不让其退出 APP，注意这里是内部类的 Hook 写法：

Java.perform(    function(){        console.log("[*] Hook begin")        var mainActivity$1 = Java.use("sg.vantagepoint.uncrackable1.MainActivity$1");        mainActivity$1.onClick.implementation = function(){            console.log("[*] Hook mainActivity$1.onClick")        }    })

方法四：Hook System.exit() 方法，点击 OK 后不让其退出 APP：

Java.perform(    function(){        console.log("[*] Hook begin")        var javaSystem = Java.use("java.lang.System");        javaSystem.exit.implementation = function(){            console.log("[*] Hook system.exit")        }    })

root 检测过掉之后，APP 还要输入一个字符串，输入错误会提示 That's not it. Try again.，如下图所示：

分析 Java 代码，有一个 if-else 判断，obj 为输入的字符串，a.a(obj) 判断为真，就表示输入正确。

跟到 a.a() 方法，可以看到 bArr 是内置的字符串，通过 equals() 方法比较输入的 str 是否和 bArr 相等：

bArr 的值，主要经过 sg.vantagepoint.a.a.a() 方法处理后得到，继续跟进去可以发现是 AES 加密算法：

这里就可以直接 Hook sg.vantagepoint.a.a.a()，直接拿到加密后的值，也就是我们要的正确字符串，由于这里返回的是 ASCII 码，所以我们还需要在 JavaScript 代码中使用 String.fromCharCode() 将其转换成正常字符，Hook 代码如下：

Java.perform(    function(){        var cryptoAES = Java.use("sg.vantagepoint.a.a");        cryptoAES.a.implementation = function(bArr, bArr2){            console.log("[*] Hook cryptoAES")            var secret = "";            var decryptValue = this.a(bArr, bArr2);            console.log("[*] DecryptValue:", decryptValue)            for (var i=0; i < decryptValue.length; i++){              secret += String.fromCharCode(decryptValue[i]);            }            console.log("[*] Secret:", secret)            return decryptValue;        }    })

运行 Hook 脚本有两种方式，一是结合 Python 使用，二是直接通过 frida 命令使用脚本，注入 Hook 代码也有个时机问题，有时候需要在 APP 启动就开始 Hook，有时候可以等 APP 启动加载完毕了再 Hook，本例中，过 root 检测的时候，如果采用第一、二种方法，即 Hook 三个检测方法或者 a 方法，那就需要在 APP 启动的时候就 Hook，如果采用第三、四种方法，即 Hook onClick() 或者 System.exit() 方法，那么等 APP 启动了再 Hook 也可以。

结合 Python 使用

首先来看一下结合 Python 怎么使用，JavaScript 代码如下（frida-hook.js）：

/* ==================================# @Time    : 2022-08-29# @Author  : ITBOB.CN# @FileName: frida-hook.js# @Software: PyCharm# ================================== */Java.perform(    function(){        console.log("[*] Hook begin")        // 方法一：Hook 三个检测方法，让它们都返回 false，不再执行后续的 a 方法，就不会退出 APP 了        // var vantagePoint = Java.use("sg.vantagepoint.a.c")        // vantagePoint.a.implementation = function(){        //     console.log("[*] Hook vantagepoint.a.c.a")        //     this.a();        //     return false;        // }        // vantagePoint.b.implementation = function(){        //     console.log("[*] Hook vantagepoint.a.c.b")        //     this.b();        //     return false;        // }        // vantagePoint.c.implementation = function(){        //     console.log("[*] Hook vantagepoint.a.c.c")        //     this.c();        //     return false;        // }        // 方法二：Hook a() 方法，置空，什么都不做，不弹出对话框，也不退出 APP        // var mainActivity = Java.use("sg.vantagepoint.uncrackable1.MainActivity");        // mainActivity.a.implementation = function(){        //    console.log("[*] Hook mainActivity.a")        // }        // 方法三：Hook onClick() 方法，点击 OK 后不让其退出 APP        // var mainActivity$1 = Java.use("sg.vantagepoint.uncrackable1.MainActivity$1");        // mainActivity$1.onClick.implementation = function(){        //     console.log("[*] Hook mainActivity$1.onClick")        // }        // 方法四：Hook System.exit 方法，点击 OK 后不让其退出 APP        var javaSystem = Java.use("java.lang.System");        javaSystem.exit.implementation = function(){            console.log("[*] Hook system.exit")        }        var cryptoAES = Java.use("sg.vantagepoint.a.a");        cryptoAES.a.implementation = function(bArr, bArr2){            console.log("[*] Hook cryptoAES")            var secret = "";            var decryptValue = this.a(bArr, bArr2);            console.log("[*] DecryptValue:", decryptValue)            for (var i=0; i < decryptValue.length; i++){              secret += String.fromCharCode(decryptValue[i]);            }            console.log("[*] Secret:", secret)            return decryptValue;        }    })

Python 代码如下（frida-hook.py）：

# ==================================# --*-- coding: utf-8 --*--# @Time    : 2022-08-29# @Author  : ITBOB.CN# @FileName: frida-hook.py# @Software: PyCharm# ==================================import sysimport fridadef on_message(message, data):    if message['type'] == 'send':        print("[*] {0}".format(message['payload']))    else:        print(message)with open("./frida-hook.js", "r", encoding="utf-8") as fp:    hook_string = fp.read()# 方式一：attach 模式，已经启动的 APPprocess = frida.get_usb_device(-1).attach("Uncrackable1")script = process.create_script(hook_string)script.on("message", on_message)script.load()sys.stdin.read()# 方式二，spawn 模式，重启 APP# device = frida.get_usb_device(-1)# pid = device.spawn(["owasp.mstg.uncrackable1"])# process = device.attach(pid)# script = process.create_script(hook_string)# script.on("message", on_message)# script.load()# device.resume(pid)# sys.stdin.read()

Python 代码中，attach 模式 Hook 已经存在的进程，spawn 模式会重启 APP，启动一个新的进程并挂起，在启动的同时注入 frida 代码，适用于在进程启动前的一些 Hook，attach 模式传入的是 APP 名称，spawn 模式传入的是 APP 包名，查看 APP 名称和包名的方法有很多，这里介绍两个 frida 命令，frida-ps -Uai：列出安装的程序，frida-ps -Ua：列出正在运行中的程序，如下图所示，本例中 Uncrackable1 就是 APP 名称，owasp.mstg.uncrackable1 就是包名：

运行 Python 代码，注意手机端也要启动 frida-server，过掉 root 检测后，先随便输入字符串，点击 VERIFY 就会 Hook 到正确的字符串为 I want to believe，再次输入正确的字符串，即可验证成功。

frida 命令

不使用 Python，也可以直接使用 frida 命令来实现，和前面 Python 一样也有两种模式，同样的一个是 APP 名一个是包名：

frida -U Uncrackable1 -l .\frida-hook.js：attach 模式，APP 启动后注入 frida 代码；

frida -U -f owasp.mstg.uncrackable1 -l .\frida-hook.js --no-pause：spawn 模式，重启 APP，启动的同时注入 frida 代码。

至此，我们完美绕过了 root 检测，并成功找到了正确的字符串。

人均瑞数系列，瑞数 5 代 JS 逆向分析

2022-09-01T05:00:00.000Z

欢迎加入爬虫逆向微信交流群：添加微信 IT-BOB（备注交流群）

文章目录

声明
前言
Cookie 入口定位
VM 代码以及 $_ts 变量获取
善用 Watch 跟踪功能
跟栈分析
后缀生成
指纹生成

声明

前言

瑞数动态安全 Botgate（机器人防火墙）以“动态安全”技术为核心，通过动态封装、动态验证、动态混淆、动态令牌等技术对服务器网页底层代码持续动态变换，增加服务器行为的“不可预测性”，实现了从用户端到服务器端的全方位“主动防护”，为各类 Web、HTML5 提供强大的安全保护。

在往期的文章《国内 Web 防护天花板，瑞数 4 代 JS 逆向分析》中，详细介绍了瑞数的特征、如何区分不同版本、瑞数的代码结构以及各自的作用，本文就不再赘述了，不了解的同志可以先去看看之前的文章。

Cookie 入口定位

本文案例中瑞数 5 代网站为：aHR0cHM6Ly93d3cubm1wYS5nb3YuY24vZGF0YXNlYXJjaC9ob21lLWluZGV4Lmh0bWw=

定位 Cookie，首选 Hook 来的最快，通过 Fiddler 插件、油猴脚本、浏览器插件等方式注入以下 Hook 代码：

(function() {    // 严谨模式 检查所有错误    'use strict';    // document 为要hook的对象 这里是hook的cookie    var cookieTemp = "";    Object.defineProperty(document, 'cookie', {        // hook set方法也就是赋值的方法         set: function(val) {                // 这样就可以快速给下面这个代码行下断点                // 从而快速定位设置cookie的代码                console.log('Hook捕获到cookie设置->', val);                debugger;                cookieTemp = val;                return val;        },        // hook get 方法也就是取值的方法         get: function(){            return cookieTemp;        }    });})();

断下之后往上跟栈，可以看到组装 Cookie 后赋值给 document.cookie 的代码，类似如下结构：

继续往上跟栈，和4代瑞数类似，(772, 1) 的位置是入口，4代有一次生成假 cookie 的过程，5代就没有了，如下图所示：

再往前跟栈，来到首页代码，这里就是我们熟悉的 call 位置了，图中 _$ug 实际上是 eval 方法，传入的第一个参数 _$Cs 是 Window 对象，第二个对象 _$Dm 是我们前面看到的 VM 虚拟机中的 IIFE 自执行代码。

VM 代码以及 $_ts 变量获取

获取 VM 代码和 $_ts 变量是第一步，和4代类似，复制外链 JS（例如 fjtvkgf7LVI2.a670748.js）的代码和 412 页面的自执行代码到文件，本地直接运行即可，需要轻度补一下环境，缺啥补啥，大致补一下 window、location、document 就行了，补的具体内容可以直接在浏览器控制台使用 copy() 命令复制过来，然后 VM 代码我们就可以直接 Hook eval 的方式得到，这里 $_ts 变量的获取和4代有点儿区别，4代我们的做法是运行完代码后直接取 window.$_ts 就行了，5代运行完代码后会有一个清空 $_ts 的操作，可以自己跟栈看一下逻辑，要么把清空的逻辑删了，要么定义一个全局变量，然后直接在 call 的地方将 $_ts 的值导出来：

大致的补环境代码如下：

var eval_js = ""var rs_ts = ""window = {    $_ts: {},    eval: function (data) {        eval_js = data    }}location = {    "ancestorOrigins": {},    "href": "https://脱敏处理/datasearch/home-index.html",    "origin": "https://脱敏处理",    "protocol": "https:",    "host": "www.脱敏处理.cn",    "hostname": "www.脱敏处理.cn",    "port": "",    "pathname": "/datasearch/home-index.html",    "search": "",    "hash": ""}document = {    "scripts": ["script", "script"]}

获取 VM 代码以及 $_ts 变量：

善用 Watch 跟踪功能

在跟栈分析之前，有必要了解一下浏览器开发者工具的 Watch 功能，它能够持续跟踪某个变量的值，对于瑞数这种控制流很多的情况，设置相应的变量跟踪，能够让你知道你现在处于哪个控制流中，以及生成的数组的变化，不至于跟着跟着不知道到哪一步了。如下图所示，_$S8 表示目前正处于第 279 号大控制流，_$5x 表示大控制流下的哪个分支，_$mz 表示 128 位大数组。

跟栈分析

老样子，本地替换一套 412 页面的代码，固定下来，然后开始跟栈分析。直接从 (772, 1) 开始跟（文中说的第多少号控制流、第几步均为作者自己的叫法，第多少步并不代表实际上的步骤，仅表示关键步骤）：

单步进来，_$qh 是传进来的参数 1，即将进入 742 号控制流：

进入 742 号控制流，第 1 步通过一个方法获取了一个时间戳，进入这个方法内部，对时间戳进行了差值计算，会发现有两个变量 _$tb 和 _$t1 已经生成了值：

这两个值也是时间戳，怎么来的？直接搜索这两个变量，搜索结果有几个全部打上断点，刷新断下后往前跟栈，会发现是最开始走了一遍 703 号控制流：

先单步跟一遍 703 号控制流，703 号控制流第 1 步是进入 699 号控制流，返回一个数组，没有特别的，直接扣代码即可：

703 号控制流第 2、3 步分别取数组的值：

703 号控制流第 4、5、6 步生成两个时间戳并赋值给前面提到的 _$tb、_$t1 变量，涉及到的方法也没有什么特别的，缺啥搜啥补啥即可：

703 号控制流第 7 步，这里修改了 $_ts 的某个值（VM 代码中，$_ts 被赋值给了另一个变量，下图中是 _$iw），_$iw._$uq 原本的值是 _$ou，修改后的值是 181，这个值也是后面关键 4 位数组中的其中一个，具体逻辑后面再讲。

703 号控制流结束，我们继续前面的 742 号控制流，742 号控制流第 2 步，将前面生成的时间戳赋值给另一个变量。

742 号控制流第 3 步，进入 279 号控制流，279 号控制流是生成 128 位数组的关键。

进入 279 号控制流，第 1 步定义了一个变量：

279 号控制流，第 2 步，进入 157 号控制流，157 号控制流主要是做自动化检测

279 号控制流，第 3、4、5 步，做了一些运算，一些全局变量的值会改变，后续的数组里会用到。

279 号控制流，第 6 步，初始化了一个 128 位的空数组，后续的操作都是为了往这个数组里面填充值。

279 号控制流，第 7 步，进入 695 号控制流，生成一个 20 位的数组。

进入 695 号控制流看一下，第 1 步，取 $_ts 的一个值，生成 16 位数组。

695 号控制流，第 2 步，取 $_ts 里的四个值，与前面的 16 位数组一起组成 20 位数组。

这里注意这四个值怎么来的，以第二个值 _$iw._$KI 为例，搜索发现有一条语句 _$iw._$KI = _$iw[_$iw._$KI](_$bl, _$n2);，首先等号右边取 _$iw._$KI 的值为 _$Mo，然后 _$iw["_$Mo"] 实际上就是 _$iw._$Mo，前面的定义 _$iw._$Mo = _$1D，_$1D 是个方法，所以原语句相当于 _$iw._$KI = _$1D(_$bl, _$n2)，其他三个值的来源也是类似的。

695 号控制流结束，回到 279 号控制流，第 8 步，将前面的时间戳转换成了一个 8 位数组。

279 号控制流，第 9 步，往 128 位数组里面添加了一个值。

_$ae 这个值怎么来的？搜索下断点并跟栈，发现是开头走了第 178 号控制流得来的，跟着走一遍即可。

279 号控制流，第 10 步，又往 128 位数组里面添加了一个值，这个值是开始 279 号控制流传过来的。

279 号控制流，第 11、12、13、14 步，时间戳相关计算，然后生成两个 2 位数组。注意这里面的两个变量，_$ll 和 _$ed，在刷新 cookie、生成后缀的时候可能是有值的，仅访问主页没有值不影响。

279 号控制流，第 15 步，往 128 位数组里面添加了一个 4 位数组 _$bl，搜索也可以找到是通过 723 号控制流得来的。

这里的 723 号控制流，实际上是取了 $_ts 某个值进行运算，生成 16 位数组，然后截取前 4 位数组返回的。

279 号控制流，第 16 步，往 128 位数组里面添加了一个 8 位数组 _$Yb。

8 位数组 _$Yb 同样搜索打断点，可以在一个赋值语句断下：

可以看到 _$EJ 的值就是 _$Yb，往前跟栈，会发现先后经过了 657 号、10 号、777 号控制流，其中 777 号控制流是入口：

如果单步跟 777 号控制流，你会发现步骤较多，中间有些语句不好处理，且容易跟丢，所以我们这里就直接关注 657 号控制流就行了，777 号控制流直接到 10 号控制流，再到 657 号控制流，中间的一些过程暂时不管，跟到缺什么的时候再说（后续有很多取值赋值等操作都是在 777 号控制流里实现的，可以注意一下），这段逻辑在本地表现的代码如下图所示：

这里直接单步跟一下 657 号控制流，第 1、2 步 new 了一个方法。

这里就要注意了，容易跟丢，先进入 _$bH 方法打上断点，然后下一个断点就走到里面了，接着在单步调试，会进到另一个小的控制流里面，如下图所示：

开始单步跟第 96 号小控制流，第 1 步定义了一个变量。

96 号小控制流，第 2 步将 _$PI 的值赋值给了 _$fT，而 _$PI 的值其实是 window.localStorage.$_YWTU，window.localStorage 里面有很多值，这个东西我们文章最后再讲，其中一些值与浏览器指纹相关，这里先知道他是取值就行了。

96 号小控制流，第 3 步，进入第 94 号小控制流，最终生成的是一个 8 位数组，这个其实就是前面我们想要的 _$Yb 的值了。

后面没有什么特别的，中间几步我就省略了，照着扣代码就行了，然后 96 号小控制流，第 4 步，就将 _$EJ 的值赋值给 _$Yb 了。

到这里先别急着结束，后面还有关键的几步，96 号小控制流，第 5 步，又遇到了和前面类似的写法。

同样的，先进 _$pu 打断点，再单步跟。

来到另一个小控制流，如下图所示：

10 号小控制流第 1 步，取 window.localStorage.$_cDro 的值，转为 int 类型，赋值给 _$5s，这个 _$5s 后续也会加到 128 位大数组里面。

10 号小控制流后续还有几步，没啥用可以省略，最后一步返回 96 号小控制流。

然后 96 号小控制流后续也没啥了，返回 657 号控制流。

此时我们已经拿到 _$Yb 了，777 号控制流就先不管了，后续还有些代码先不管不用扣，等用到的时候再说，返回 279 号控制流，接着前面的步骤，来到第 17 步，变量 _$5s 经过 264 号控制流后，生成了一个值并添加到 128 位大数组里面，而 _$5s 的值正是前面我们跟 _$Yb 时，通过 777 号控制流拿到的，实际上也就是取 window.localStorage.$_cDro 的值，转为了 int 类型。

279 号控制流，第 18、19、20 步，往 128 位数组里面添加了两个定值、一个 8 位数组。

279 号控制流，第 21 步，往 128 位数组里面添加了一个 undefined 占位，后续会有操作将其填充值。

279 号控制流，第 22 步，进入 58 号控制流，58 号控制流与 window.localStorage.$_fb 的值有关，如果有这个值，就会生成 20 位数组，如果没有就是 undefined。58 号控制流就只有一步，返回一个变量，本文中是 _$0g。

这个 _$0g 是咋来的呢？同样的直接搜索，下断点，发现是通过 112 号控制流得来的，往前跟栈，同样是先经过了 777 号控制流，和之前的情况类似，中间的过程就不看了，直接看这个 112 号控制流。

本文中，112 号控制流传的参是 _$bd[279] 即 $_fb，112 号控制流第 1 步，进入 247 号控制流。

247 号控制流就 3 步，先将 window.localStorage 赋值给一个变量，然后取其中 $_fb 的值再返回。

112 号控制流第 2、3 步，一个 try-catch 语句，取 window.localStorage.$_fb 计算得到 25 位数组，然后取前 20 位并返回，这就是前面我们需要的 _$0g 的值了。

279 号控制流，第 23 步，将前面 window.localStorage.$_fb 计算得到的 20 位数组添加到 128 位大数组里面，注意这一步如果没有 window.localStorage.$_fb 值的话，是不会添加的。

279 号控制流，第 24 步，对一个变量进行位运算，然后取 window.localStorage.$_f0 进行运算，如果 $_f0 为空的话是不会往 128 位大数组里添加值的。

279 号控制流，第 25 步，对一个变量进行位运算，然后取 window.localStorage.$_fh0 进行运算，如果 $_fh0 为空的话是不会往 128 位大数组里添加值的。

279 号控制流，第 26 步，对一个变量进行位运算，然后取 window.localStorage.$_f1 进行运算，如果 $_f1 为空的话是不会往 128 位大数组里添加值的。

279 号控制流，第 27 步，进入 611 号控制流，611 号控制流主要是检测 window.navigator.connection.type，即 NetworkInformation 网络相关信息，里面判断了 type 是不是 bluetooth、cellular、ethernet、wifi、wimax，正常的话应该返回 0。

279 号控制流，接下来几步都是类似的，这里就直接统称第 28 步了，首先对一个变量进行位运算，然后分别取 window.localStorage.$_fr、 window.localStorage.$_fpn1 、 window.localStorage.$_vvCI、 window.localStorage.$_JQnh 进行运算，同样如果这些变量为空的话，也是不会往 128 位大数组里添加值的。

279 号控制流，第 29 步，往 128 位大数组里添加了一个定值 4，本文中该变量名是 _$kW。

_$kW 这个变量是咋来的，和前面的套路类似，直接搜索下断，同样是经过开头的 777 号控制流得来的，如下图所示：

继续 279 号控制流，中间有一些变量位运算之类的就省略了，第 30、31 步，取了一个 https:443 的长度进行计算，先后往 128 位大数组里添加了一个定值和一个 9 位数组。

279 号控制流，接下来几步都是在取值，都差不多，就统称为第 32 步了。

279 号控制流，第 33 步，之前 128 位大数组第 12 位是个 undefined，这里就将第 12 位填充上了一个 4 位数组，其中有个变量 _$8L，前面我们跟步骤的时候就有一个变量一直在做位运算，此处的 _$8L 就是这么来的。

279 号控制流，最后两步，原来的 128 位大数组，只取有值的前 21 位，一共有多少位与 window.localStorage 的某些值有关，有值的话就长一些，没有就短一些，然后再将数组的每个元素合并成最终的一个大数组并返回，279 号控制流就结束了。

返回到文章开头的逻辑，279 号控制流结束，返回到 742 号控制流，第 2 步，定义了一个变量并生成了一个 32 位数组。

742 号控制流，第 3 步，取 $_ts 里面的某个值并赋值给一个变量。

742 号控制流，第 4 步，将前面 279 号控制流得到的大数组与上一步 $_ts 里面的某个值进行合并，合并后计算得到一个值。

742 号控制流，第 4 步，将上一步得到的值进一步计算得到一个 4 位数组，再将其和大数组合并。

742 号控制流，接下来几步是对时间戳进行各种操作，这里统称为第 5 步。

742 号控制流，第 6 步，将上一步得到的 4 个时间戳进行计算，得到一个 16 位数组。

742 号控制流，第 7 步，将上一步得到的 16 位数组进行异或运算。

742 号控制流，第 8 步，将上一步的 16 位数组进行计算，得到一个字符串。

742 号控制流，第 9 步，正式生成 cookie 值，其中 _$bd[274] 定值，一般视为版本号，将上一步得到的字符串、之前得到的大数组和一个 32 位数组进行计算、组合，得到最终结果。

742 号控制流结束，返回 772 号控制流，利用了一个方法，组装 cookie，然后赋值给 document.cookie，整个流程就结束了。

代码中用到的 $_ts 的值需要我们自己去匹配出来，动态替换，这些步骤和 4 代是类似的，本文就不再重复叙述，可以参考 4 代的那篇逆向文章进行处理即可。

后缀生成

本例中，请求头中有个 sign 参数，Query String Parameters 有两个后缀参数，这两个后缀和 4 代类似，都是瑞数生成的。

和 4 代的处理方法一样，我们下一个 XHR 断点，先让网页加载完毕，然后打开开发者工具，过掉无限 debugger 后，点击搜索就会断下，如下图所示：

往上跟栈到 hasTokenGet，是一个 sojson 旗下的 jsjiami v6 混淆，不值一提，重点是 jsonMD5ToStr 方法，先对传进去的参数做了一些编码处理，最后返回的是 hex_md5，和在线 MD5 加密的结果是一样的，说明是标准的 MD5。

重点来看瑞数的两个后缀生成方式，和 4 代一样，XMLHttpRequest.send 和 XMLHttpRequest.open 被重写了，如下图所示，在 XMLHttpRequest.open 下个断点，也就是图中的 _$RQ 方法，arguments[1] 就是原始 URL，经过图中的 _$tB 方法处理后就能拿到后缀。

跟进图中的 _$tB 方法，_$tB 方法里嵌套了一些其他方法，走一遍逻辑，到图中的 _$5j 方法里，前面的一部分都是在对传入的 URL 做处理。

接下来是生成了一个 16 位数组：

然后这个 16 位数组经过一个方法后就生成了第一个后缀，如下图所示，本文中这个方法是 _$ZO。

跟进 _$ZO 方法，主要有以下 5 步：

第 1 步：生成了一个 32 位数组；

第 2 步：将之前的 16 位数组以及两个变量拼接生成一个 50 位的数组；

第 3 步：进入 744 控制流，这里你会发现和之前我们跟 cookie 时的 742 号控制流是一样的，重复走了一遍，所以这里就不再跟了；

第 4 步：将生成的第一个后缀值进行处理，得到一个两位的字符串，这个字符串在获取第二个后缀的时候会用到；

第 5 步：将第一个后缀名称和值进行拼接并返回，此时，第一个后缀 hKHnQfLv 就生成了。

接着前面的 _$5j 方法，图中的 _$5j 这一步，就是获取第二个后缀 8X7Yi61c 的值：

主要是看一下图中的 _$UM 方法，先将前面生成的两位的字符串与 URL 参数进行拼接，然后会经过一个 _$Nr 方法就能得到第二个后缀的值了。

再来看一下 _$Nr 方法，先生成一个类似 53924 的值，然后一个 try 语句，注意这里有个方法，图中的 _$Js 方法，里面用到了 $_ts 里面的某个值，后面又生成了一个由数字组成的字符串，再次经过组合、计算后得到最终的值。

回到前面的 _$UM 方法，前缀 8X7Yi61c 与值组合，自此，两个后缀都拿到了：

指纹生成

我们前面已经分析了，在往 128 位数组里添加值的时候，会有取 window.localStorage 里面的某些值进行计算的步骤，这些值就是取浏览器 canvas 等指纹生成的，指纹随机就能并发，通常访问单独的一个 html 页面是不校验指纹的，生成的短 cookie 就能通过，但是一些查询数据接口会校验指纹，通过触发 load 事件来向 cookie 里添加指纹，使得 cookie 长度变长，怎么查找指纹在哪里生成的，这里推荐直接看视频资料，已经讲得很清楚了，篇幅太长，本文就不再赘述了，资料链接：https://mp.weixin.qq.com/s/DEUc1K8WaO_Cq1a2r0Ge5g

人均瑞数系列，瑞数 4 代 JS 逆向分析

2022-07-01T04:00:00.000Z

欢迎加入爬虫逆向微信交流群：添加微信 IT-BOB（备注交流群）

文章目录

声明
前言
瑞数特征以及不同版本的区别
Cookie 入口定位
文件结构与逻辑
VM 代码以及 $_ts 变量获取
扣代码
善用 Watch 跟踪功能
结果验证

声明

前言

瑞数 Botgate 多用于政企、金融、运营商行业，曾一度被视为反爬天花板，随着近年来逆向大佬越来越多，相关的逆向文章也层出不穷，真正到了人均瑞数的时代了，这里也感谢诸如 Nanda、懒神等逆向大佬，揭开了瑞数神秘的面纱，总结的经验让后来人少走了不少弯路。

过瑞数的方法基本上有以下几种：自动化工具（要隐藏特征值）、RPC 远程调用、JS 逆向（硬扣代码和补环境），本文介绍的是 JS 逆向硬扣代码，尽可能多的介绍各种细节。

瑞数特征以及不同版本的区别

对于绝大多数使用了瑞数的网站来说，有以下几点特征（可能有特殊版本不一样，先仅看主流的）：

1、打开开发者工具（F12）会依次出现两个典型的无限 debugger：

2、瑞数的 JS 混淆代码中，变量、方法名大多类似于 _$xx，有众多的 if-else 控制流，新版瑞数还可能会有 jsvmp 以及众多三目表达式的情况：

3、看请求，会有典型的三次请求，首次请求响应码是 202（瑞数3、4代）或者 412（瑞数5代），接着单独请求一个 JS 文件，然后再重新请求页面，后续的其他 XHR 请求中，都带有一个后缀，这个后缀的值是由 JS 生成的，每次都会变化，后缀的值第一个数字为瑞数的版本，比如 MmEwMD=4xxxxx 就是4代瑞数，bX3Xf9nD=5xxxxx 就是5代瑞数：

4、看 Cookie，瑞数 3、4 代有以 T 和 S 结尾的两个 Cookie，其中以 S 开头的 Cookie 是第一次的 201 那个请求返回的，以 T 开头的 Cookie 是由 JS 生成的，动态变化的，T 和 S 前面一般会跟 80 或 443 的数字，Cookie 值第一个数字为瑞数的版本（为什么可以通过第一个数字来判断版本？难道相同版本第一个数字不会变吗？这些问题我们在分析 JS 的时候可以找到答案），比如：

FSSBBIl1UgzbN7N80T=37Na97B.nWX3....：数字 80 是 http 协议的默认端口号，对应 http 请求，其值第一位为 3，表示 3 代瑞数；
FSSBBIl1UgzbN7N443T=4a.tr1kEXk.....：数字 443 是 https 协议的默认端口号，对应 https 请求，其值第一位为 4，表示 4 代瑞数。

瑞数 5 代也有以 T 和 S 结尾的两个 Cookie，但有些特殊的 5 代瑞数也有以 O 和 P 结尾的，同样的，以 O 开头的是第一次的 412 那个请求返回的，以 P 开头的是由 JS 生成的，Cookie 值第一个数字同样为瑞数的版本，和 3、4 代不同的是，5 代没有加端口号了，比如：

vsKWUwn3HsfIO=57C6DwDUXS.....：以 O 结尾，其值第一位为 5，表示 5 代瑞数；
WvY7XhIMu0fGT=53.9fybty......：以 T 结尾，其值第一位为 5，表示 5 代瑞数。

5、看入口，瑞数有个流程是在虚拟机 VM 中加载 1w+ 行的代码，加载此代码的入口，不同版本也不一样（这个入口具体在哪里？怎么定位？在后续逆向分析中再详细介绍），示例如下：

3 代：_$aW = _$c6[_$l6()](_$wc, _$mo);，_$c6 实际上是 eval，_$l6() 实际上是 call；

4 代：ret = _$DG.call(_$6a, _$YK);，_$DG 实际上是 eval，有关键字 ret，call 是明文；

5 代：5 代种类比较多了，最初和 4 代的类似，比如 ret = _$Yg.call(_$kc, _$mH);，有关键字 ret，call 是明文，也有没有 ret 关键字的版本，比如 _$ap = _$j5.call(_$_T, _$gp);，也有像 3 代那样全部混淆了的，比如：_$x8 = _$mP[_$nU[15]](_$z3, _$Ec);，_$mP 实际上是 eval，_$nU[15] 实际上是 call，混淆的 call 与 3 代的区别就是 5 代是在一个数组里取值得到的；

当然要想精准区分不同版本，得各个条件结合起来看，最主要的还是得看看内部的实现逻辑，以及页面的代码结构，比如 4 代有一个生成假 Cookie 的步骤，而 5 代没有，有的特殊版本虽然看起来是 5 代，但是加了 jsvmp 和三目表达式，和传统的 5 代又有区别，偶尔愚人节啥的突然来个新版本，也会不一样，各版本在分析一遍之后，就很容易区分了。

Cookie 入口定位

本文案例中瑞数 4 代网站为：aHR0cDovL3d3dy5mYW5nZGkuY29tLmNuL25ld19ob3VzZS9uZXdfaG91c2VfZGV0YWlsLmh0bWw=

首先过掉无限 debugger（过不过其实无所谓，后面的分析其实这个基本上没影响），直接右键 Never pause here 永不在此处断下即可：

定位 Cookie，首选 Hook 来的最快，通过 Fiddler 等抓包工具、油猴脚本、浏览器插件等方式注入以下 Hook 代码：

(function() {    // 严谨模式 检查所有错误    'use strict';    // document 为要hook的对象 这里是hook的cookie    var cookieTemp = "";    Object.defineProperty(document, 'cookie', {        // hook set方法也就是赋值的方法         set: function(val) {                // 这样就可以快速给下面这个代码行下断点                // 从而快速定位设置cookie的代码                console.log('Hook捕获到cookie设置->', val);                debugger;                cookieTemp = val;                return val;        },        // hook get 方法也就是取值的方法         get: function(){            return cookieTemp;        }    });})();

Hook 发现会有生成两次 Cookie 的情况，断下之后往上跟栈，可以看到组装 Cookie 的代码，类似如下结构：

仔细观察这两次 Cookie 生成的地方，分别往上跟栈，你就会发现两个 Cookie 分别是经过了两个不同方法得到的，如下图所示：

这里的代码存在于 VM 虚拟机中，且是 IIFE 自执行代码，我们还得往前跟栈看看这些 VM 代码是从哪里加载出来的，跟栈来到首页（202页面）带有 call 的位置：

我们在文章开头介绍的这个位置就是这么分析得来的，这个位置通常在分析瑞数的时候作为入口，图中 _$te 实际上是 eval 方法，传入的第一个参数 _$fY 是 Window 对象，第二个对象 _$F8 是我们前面看到的 VM 虚拟机中的 IIFE 自执行代码。

在知道了瑞数大致的入口之后，我们也可以使用事件监听中的 Script 断点，一直下一个断点（F8）就可以走到 202 页面，然后搜索 call 关键字就能快速定位到入口，Script 断点中的两个选项，第一个表示运行 JS 脚本的第一条语句时断下，第二个表示 JS 因为内容安全政策而被屏蔽时断下，一般选择第一个就可以了，如下图所示：

文件结构与逻辑

想要后续分析 Cookie 的生成，我们不得不要观察一下 202 页面的代码，meta 标签有个 content 内容，引用了一个类似于 c.FxJzG50F.dfe1675.js 的 JS 文件，接着跟一个自执行的 JS，如下图所示：

第1部分 meta 标签的 content 内容，每次都是变化的，第2部分引用的这个外部 JS 在不同页面也有所差别，但是同一个网站同一个页面 JS 里的内容一般是固定不会变的，第3部分自执行代码每次变化的只是变量名，整体逻辑不变，后续我们在扣代码的时候，也会用到这里的部分方法。自执行代码里同样也是有很多 if-else 控制流，开头的那个数组，比如上图中的 _$Dk 就是用来控制后续的控制流的。

引用的 c.FxJzG50F.dfe1675.js 直接打开看是乱码的，而自执行 JS 的主要作用是将这 JS 乱码还原成 VM 里的 1w+ 行的正常代码，并且定义了一个全局变量 window.$_ts 并赋了许多值，这个变量在后续 VM 中作用非常大，meta 标签的 content 内容同样也会在 VM 里用到。

由于很多值、变量都是动态变化的，肯定不利于我们的分析，所以我们需要固定一套代码到本地，打断点、跟栈都会更加方便，随便保存一份 202 页面的代码，以及该页面对应的外链 JS 文件，如 c.FxJzG50F.dfe1675.js 到本地，使用浏览器自带的 overrides 重写功能、或者浏览器插件 ReRes、或者抓包工具的响应替换功能（如 Fiddler 的 AutoResponder）进行替换。

VM 里面的代码是生成 Cookie 的主要代码，包含众多的 if-else 控制流，无疑增加了我们分析代码的成本，这里就可以使用 AST 技术做一下反混淆，比如 Nanda 就将 if-else 控制流转换成了 switch-case 的，同一个控制流下的代码放在了同一个 case 下，然后在 call 入口那个地方，将 VM 代码做一下本地替换，具体可以参考 Nanda 的文章：《某数4代逻辑分析》，感兴趣的可以试试，不了解 AST 的可以看看以前的文章《逆向进阶，利用 AST 技术还原 JavaScript 混淆代码》，后续有时间再写写 AST 还原瑞数代码的实战，本文咱们选择硬刚！

VM 代码以及 $_ts 变量获取

前面我们了解了 VM 代码和 $_ts 的重要性，所以我们第一步是要想办法拿到他们，至于在什么时候有用到，文章后续再说，复制外链 JS，即 c.FxJzG50F.dfe1675.js 的代码和 202 页面的自执行代码到文件，本地直接运行即可，需要轻度补一下环境，缺啥补啥，大致补一下 window、location、document 就行了，补的具体内容可以直接在浏览器控制台使用 copy() 命令复制过来，然后 VM 代码我们就可以直接 Hook eval 的方式得到，大致的补环境代码如下：

var eval_js = ""window = {    $_ts:{},    eval:function (data) {        eval_js = data    }}location = {    "ancestorOrigins": {},    "href": "http://www.脱敏处理.com.cn/new_house/new_house_detail.html",    "origin": "http://www.脱敏处理.com.cn",    "protocol": "http:",    "host": "www.脱敏处理.com.cn",    "hostname": "www.脱敏处理.com.cn",    "port": "",    "pathname": "/new_house/new_house_detail.html",    "search": "",    "hash": ""}document = {    "scripts": ["script", "script"]}

观察 $_ts 的 key 和 value，和浏览器中得到的是一样的：

注意事项：c.FxJzG50F.dfe1675.js 外链 JS 如果你直接下载下来用编辑器打开可能会被自动编码，和原始数据有出入，导致运行报错，这里建议直接在浏览器在线访问这个文件，手动复制过来，或者在抓包软件里将响应内容复制过来，观察以下两种情况，第一种情况就可能会导致运行出错，第二种是正常的：

扣代码

前面说了这么多，现在终于可以进入主题了，那就是扣代码，找个好椅子，准备把屁股坐穿，此时你的键盘只有 F11 有用，不断单步调试，只需要亿点点细节，就完事儿了！

扣代码步骤太多，不可能每一步都截图写出来，只写一下比较重要的，如有遗漏的地方，那也没办法，首先先在我们替换的 202 页面里，自执行代码开始的地方手动加个 debugger，一进入页面就断下，方便后续的分析：

通过前面我们的分析，已经知道了入口在 call 的地方，快速搜索并下断点：

通过前面我们的分析，我们也知道了有两次生成 Cookie 的地方，快速搜索 (5)，搜索结果第二个即为入口：

假 Cookie 生成逻辑

首先单步跟假 Cookie，虽然是假的，但是后续生成真 Cookie 中会用到，在跟的时候你会走到这个逻辑里面：

有一步会调用 _$8e() 方法，而 _$8e = _$Q9，_$Q9 又嵌套在 _$d0 里的，搜索一下哪里调用了 _$d0，发现是代码开头：

那么传入的参数 _$Wn 是啥呢？单步跟入，是一个方法，作用就是取 202 页面的 content 内容，那么我们在本地就直接删掉这个 _$Wn 方法，直接传入 content 的值即可，如下图所示：

另外，我们发现，代码有非常多的在数组里面按索引取值的情况，比如上图中的 _$PV[68] 的值，实际上就是字符串 content，很显然我们要把这个数组的来源找到，直接搜索 _$PV = ，可以找到疑似定义和赋值的地方：

所以我们得看看这个 _$iL 方法，传入了一个非常长的字符串，打断点进去看看，果然生成了 _$PV，是一个 725 位的数组：

接下来在扣代码的过程中，你会经常遇到一个变量，在本文中是 _$sX：

有没有很熟悉？这个值就是我们前面拿到的 $_ts 变量，在开头就可以看到是将 window.$_ts 赋值给了 _$sX：

继续走，会走到以下逻辑中：

这里会遇到六个数组，他们都已经有值了，所以我们得找到他们是咋来的，任意搜索其中一个数组名称，会找到定义和赋值的地方：

赋值明显是调用了 _$rv 方法，再搜 _$rv 方法，发现是开头就调用了：

后续没有什么特别的，一直单步，最后有个 join('') 操作，就生成了假 Cookie：

接下来是生成 Cookie 的名字 FSSBBIl1UgzbN7N80T，然后将 Cookie 赋值给 document.cookie，然后又向 localStorage 里面的 $_ck 赋了个值，localStorage 的内容可以直接复制下来，没有太大影响。

真 Cookie 生成逻辑

单步跟真 Cookie，在本文中也就是 _$ZN(768, 1);，可以看到开始进入了无穷无尽的 if-else 控制流：

这里本地应该怎样处理呢？我的做法是以 _$Hn 和其值命名函数，function _$Hn768(){} 就表示所有走 768 号控制流的方法，继续跟，生成真 Cookie 的方法基本上在 747 号控制流，后续我们主要以 747 号控制流的各个步骤来看，747 号控制流扣出来的代码大致如下：

取假 Cookie

单步跟 747 号控制流，会有个进入第 709 号控制流的步骤，会取先前生成的假 Cookie，经过一系列操作之后返回一个数组：

至此我们在本地同步扣的代码，如果正常的话，返回的数组也应该是一样的（后续的数据就不一样了，有一些时间戳之类的参数参与运算）：

自动化工具检测

继续跟 747 号控制流，会进入 268 号控制流，接着进入 154 号控制流，这里面会针对自动化工具做一些检测，如下图所示：

这里定义了一个变量 _$iL，检测不通过就是1，后续又把这个变量赋值给了 _$aW，所以我们本地保持一致，也为 false 即可（其实我们不用自动化工具的话，这一段检测就不用管直接返回 false 就行）：

20 位核心数组

继续跟 268 号控制流，会进入 668 号控制流，668 号控制流就两个操作，一是生成一个 16 位数组，二是取 $_ts 里面的 4 个变量，加到前面的 16 位后面，组成一个 20 位数组，这 20 位数组的最后 4 位是瑞数核心，其中的映射关系搞错了请求是通不过的，在五代中这部分的处理逻辑会更加复杂。

这里不是单纯的取 $_ts 里的键值对，你在扣代码的时候，你也许会发现怎么本地到这里取值的时候，取出来的不是数字，而是字符串呢？就像下面这种情况：

实际上我们最开始得到的 $_ts 值，是经过了二次处理的，我们以第一个 _$sX._$Xb 为例，直接搜索 _$sX._$Xb，可以发现这么一个地方：

很明显这里给 _$sX._$Xb 重新赋值了一遍，我们可以看到等号右边，先取了一次 _$sX._$Xb，其值为 _$Rm，这和我们初始 $_ts 里面对应的值是一样的，然后我们就得再看看 _$sX["_$Rm"] 又是何方神圣，直接搜索发现是开头赋值了一个方法，通过调用这个方法来生成新的值：

另外其他三个值也是同样的套路，赋值的代码分别为：

_$sX._$Xb = _$sX[_$sX._$Xb](_$BH, _$DP);_$sX._$oI = _$sX[_$sX._$oI](_$ZJ, _$DS)_$sX._$EN = _$sX[_$sX._$EN]();_$sX._$D9 = _$sX[_$sX._$D9](_$iL);

实际上应该是：

_$sX._$Xb = _$sX["_$Rm"](_$BH, _$DP);_$sX._$oI = _$sX["_$Nw"](_$ZJ, _$DS)_$sX._$EN = _$sX["_$Uh"]();_$sX._$D9 = _$sX["_$ci"](_$iL);

进一步来说，实际上是：

_$sX._$Xb = _$1k(_$BH, _$DP);_$sX._$oI = _$jH(_$ZJ, _$DS)_$sX._$EN = _$9M();_$sX._$D9 = _$oL(_$iL);

静态分析没问题，我们可以先固定下来，但是实际应用当中这些值都是动态的，那我们应该怎么处理呢？先来多看几个对比一下找找规律：

可以发现每次对应的位次都不一样，但是实际上相同位置的方法点进去都是一样的，也就是说，变的只有方法名和变量名，实现的逻辑是不变的，所以我们只要知道了这四个值分别对应的位置，就能够拿到正确的值，在本地，我们就可以这样做：

1、先利用正则匹配出这四个值，如：[_$sX._$Xb, _$sX._$oI, _$sX._$EN, _$sX._$D9]；

2、再匹配出 VM 代码开头的 20 个赋值的语句，如：_$sX._$RH = _$wI; _$sX._$i5 = _$n5; 等；

3、然后通过 $_ts 取这四个值对应的值，相当于：_$sX._$Xb = _$ts._$Xb = _$Rm；然后再找这四个值所定义的方法在 20 个赋值语句中的位置，相当于：查找 _$sX._$Rm = _$1k; 在 20 个赋值语句中的位置为 7（索引从 0 开始）

4、我们知道了这四个方法在 20 个赋值语句中的位置，那么我们直接匹配本地对应位置的名称，进行动态替换即可，当然前提是咱们本地已经扣了一套代码出来了：

经过这样处理后，就能够保证这四个值的准确性了。

其他用到 $_ts 值的地方

除了上面说的 20 位数组里用到了 4 个 $_ts 的值以外，还有其他地方有 7 个值也用到了，直接搜索就能定位，这 7 个值相对较简单，每次都是固定取 $_ts 里面的第 2、3、4、15、16、17、19 位的值，同样的，找到对应位置，进行动态替换即可：

注意事项

特别注意 VM 代码开头，会直接调用执行一些方法，某些变量的值就是通过这些方法生成的，当你一步一步跟的时候发现某些参数不对，或者没有，那么就得注意开头这些方法了，可能一开始就已经生成了。

后缀 MmEwMD 生成逻辑

后续的其他 XHR 请求中，都带有一个后缀，这个后缀的值同样是由 JS 生成的，每次都会变化，当然不同网站，后缀名不一定都是一样的，本例中是 MmEwMD，先下一个 XHR 断点，当 XHR 请求中包含了 MmEwMD= 时就断下，然后刷新网页：

可以看到后传入 l.open() 的 URL 还是正常的，断下后到 l.send() 就带有后缀了，再看 l.open() 其实就是 xhr.open()，明显和正常的有区别，同样这个方法也在 VM 代码里，应该是重写了方法，可以和正常的做对比：

跟到 VM 代码里去看看，经过了 _$sd(arguments[1]) 方法就变成了带有后缀的完整链接了：

跟进 _$sd 方法，前面都是对 url 做一些处理，后面有个进入第 779 号控制流的流程，实际上就是原来我们生成 Cookie 的步骤，跟一下就行了。

善用 Watch 跟踪功能

开发者工具的 Watch 功能能够持续跟踪某个变量的值，对于这种控制流很多的情况，设置相应的变量跟踪，能够让你知道你现在处于哪个控制流中，以及生成的数组的变化，不至于跟着跟着不知道到哪一步了。

结果验证

如果整个流程没问题，代码也扣得正确，携带正确的 Cookie 和正确的后缀，就能成功访问：

AST 脱混淆实战，某 ICP 备案号查询接口 jsjiami v6 分析

2022-05-25T06:01:00.000Z

欢迎加入爬虫逆向微信交流群：添加微信 IT-BOB（备注交流群）

文章目录

声明
逆向目标
第三方工具
抓包分析
加密定位
AST 脱混淆
完整代码

声明

逆向目标

目标：站 Z 之家网站 ICP 备案号查询
主页：aHR0cDovL2ljcC5jaGluYXouY29tLw==
接口：aHR0cDovL2ljcC5jaGluYXouY29tL2hvbWUvR2V0UGVyaW1pdEJ5SG9zdA==
逆向参数：hostToken、permitToken

本次主要是 AST 解混淆实战，本例中的 JS 混淆方式是 sojson 旗下的 jsjiami v6 版本，感兴趣的可以去官网体验一下：https://www.jsjiami.com/ ，如果你还不了解 AST，可以先看看上期的文章（非常详细）：《逆向进阶，利用 AST 技术还原 JavaScript 混淆代码》，本文部分 AST 还原代码直接使用了上期文章中的代码，所以细节方面不再赘述，有疑问的地方可以参考参考上期文章。

第三方工具

逆向领域大佬云集，市面上已经有很多大佬写好的解混淆工具了，除了我们自己手动去写 AST 解析代码以外，有时候直接使用工具会更加方便，当然并没有十全十美的工具，不过大部分情况下都能成功解混淆的，以下工具值得去体验一下：

蔡老板一键还原 OB 混淆：https://github.com/Tsaiboss/decodeObfuscator
哲哥 AST 混淆还原框架：https://github.com/sml2h3/ast_tools
V 神 Chrome 插件，内置 AST 混淆还原：https://github.com/cilame/v_jstools
jsjiami v6 专用解密工具：https://github.com/NXY666/JsjiamiV6-Decryptor

抓包分析

进入主题，首先抓包看看，来到 ICP 备案查询页面，查询结果中，其他信息都可以直接在相应的 html 源码中找到，只有这个备案号是通过接口传过来的，对应的请求和相关加密参数如下图所示：

加密定位

直接搜索关键字 hostToken 或者 permitToken 即可定位：

关键代码：

'data': {    'kw': kw,    'hostToken': _0x791532['IIPmq'](generateHostKey, kw),    'permitToken': _0x791532[_0x404f('‫1df', '7Gn4')](generateWordKey, kw)}

这里的混淆可以手动跟一下，还原后如下：

'data': {    'kw': kw,    'hostToken': generateHostKey(kw),    'permitToken': generateWordKey(kw)}

kw 是查询的域名，有用的就是 generateHostKey() 和 generateWordKey() 两个方法了，跟进去看，代码经过了 jsjiami v6 混淆：

AST 脱混淆

jsjiami 混淆的特征其实和 OB 混淆是类似的：

一般由一个大数组或者含有大数组的函数、一个数组位移操作的自执行函数、一个解密函数和加密后的函数四部分组成；
函数名和变量名通常以 _0x 或者 0x 开头，后接 1~6 位数字或字母组合；
数组位移操作的自执行函数里，有明显的 push、shift 关键字。

本例中，generateHostKey() 方法在 commo.js 里，generateWordKey() 方法在 generatetoken.js 里，结构如下图所示：

观察 generatetoken.js 文件，可以发现这里面也有 commo.js 里面的 generateHostKey() 和 getRandom() 方法，从方法名来看貌似是重复了，实际上混淆还原后方法是一样的，所以这里我们只需要还原 generatetoken.js 就可以了。

文件结构

混淆 JS 文件：generatetoken.js
AST 还原代码：generatetokenAst.js
还原后的代码：generatetokenNew.js

解密函数还原

在原来混淆后的 JS 里，解密函数是 _0x530e，首先观察整个 JS，调用了很多次解密函数，类似于：_0x530e('1', '7XEq')。

注意这里代码里面有一些特殊字符，类似于 RLE、RLO 之类的，如果在 VSCode 打开是一些 U+202B、U+202E 的字符，实际上这是 RTLO (Right-to-Left Override) 字符，U+202B 和 U+202E 的意思分别是根据内存顺序从左至右和从右至左显示字符，感兴趣的可以网上搜索了解一下。这里并不影响我们进行还原操作。但是如果直接复制过来的话就会导致前后文显示的顺序不对，所以本文中为了方便描述，粘贴的部分代码就手动去掉了这些字符。

所以第一步我们要还原一下解密函数，把所有 _0x530e 调用的地方直接替换成实际值，首先需要将大数组、自执行函数、加密函数和解密函数分割开，将代码放到 astexplorer.net 看一下，也就是将 body 的前四部分和后面剩余部分分割开来，如下图所示：

分割代码：

const fs = require("fs");const parse = require("@babel/parser").parse;const generate = require("@babel/generator").defaultconst traverse = require("@babel/traverse").defaultconst types = require("@babel/types")// 导入混淆代码并解析为 ASTconst oldCode = fs.readFileSync("generatetoken.js", {encoding: "utf-8"});const astCode = parse(oldCode);// 获取整个 AST 节点的长度let astCodeLength = astCode.program.body.length// 获取解密函数的名字 也就是 _0x530elet decryptFunctionName = astCode.program.body[3].id.name// 分割加密函数和解密函数，即 body 的前四部分和后面剩余部分let decryptFunction = astCode.program.body.slice(0, 4)let encryptFunction = astCode.program.body.slice(4, astCodeLength)// 获取加密函数和解密函数的方法多种多样，比如可以挨个取值并转换成 JS 代码// 这样做就不需要将解密函数赋值给整个 AST 节点了// let decryptFunction = "";// for(let i=0; i<4; i++){//     decryptFunction += generate(astCode.program.body[i], {compact: true}).code// }// eval(decryptFunction);

在上面的获取加密函数和解密函数的代码中，方法不是唯一的，多种多样，比如直接循环取 body 并转换成 JS 代码，比如直接人工把大数组、自执行函数和解密函数三部分，拿出来放到一个新文件里，然后导出解密方法，后续直接调用也可以。

在本例中，拿到解密函数后，需要将其赋值给整个 AST 节点，然后再将整个 AST 节点转换成 JavaScript 代码，这里注意有可能会检测代码是否格式化，所以建议转换要加一个 compact 参数，避免格式化，转换完成后 eval 执行一下，让数组位移操作完成，然后我们就可以直接调用解密函数，即 _0x530e()。

// 将解密函数赋值给整个 AST 节点astCode.program.body = decryptFunction// 将 AST 节点转换成 JS 代码，并 eval 执行一下decryptFunction = generate(astCode, {compact: true}).codeeval(decryptFunction);// 测试一下，直接调用 _0x530e 函数可以正确拿到结果// 输出 split// console.log(_0x530e('‮b', 'Zp9G'))

现在我们能直接调用解密函数 _0x530e() 了，接下来要做的就是怎么把混淆代码中所有调用 _0x530e() 的地方替换成真实值，在此之前，我们要把加密函数（generateKey()、generateHostKey()、generateWordKey() 和 getRandom()）赋值给整个 AST 节点，此时整个节点就没有大数组、自执行函数和解密函数了，解密函数 _0x530e() 已经被写入内存，所以后面不影响我们调用。

老样子，还是先在 astexplorer.net 看一下调用 _0x530e() 的地方，以 _0x530e('b', 'Zp9G') 为例，其真实值应该是 split，对比一下替换前后的结构，如下图所示：

可以看到节点由原来的 CallExpression 变成了 StringLiteral，所以我们可以遍历 CallExpression，如果函数名为解密函数名，那就通过 path.toString() 方法获取节点源码，也就类似 _0x530e('b', 'Zp9G') 的源码，然后 eval 执行一下获取其真实值，再使用 types.stringLiteral() 构建 StringLiteral 节点，最后通过 path.replaceInline() 方法替换节点，遍历代码如下：

// 将加密函数赋值给整个 AST 节点，此时整个节点就没有大数组、自执行函数和解密函数了astCode.program.body = encryptFunction// 调用解密函数，直接计算出类似以下方法的值并替换// 混淆代码：_0x530e('‮b', 'Zp9G')// 还原后：splitconst visitor1 = {    CallExpression(path){        if (path.node.callee.name === decryptFunctionName && path.node.arguments.length === 2){            path.replaceInline(types.stringLiteral(eval(path.toString())))        }    }}// 遍历节点traverse(astCode, visitor1)// 将 AST 节点转换成 JS 代码并写入到新文件里const result = generate(astCode, {concise:true}).codefs.writeFile("./generatetokenNew.js", result, (err => {console.log(err)}))

自此，第一步的解密函数还原就完成了，可以看一下还原前后的对比，如下图所示浅蓝色标记的地方，所有调用 _0x530e() 的地方都被还原了：

大对象还原

初步还原后我们的代码里就只剩下以下四个方法：

generateKey()
generateHostKey()
generateWordKey()
getRandom()

再观察代码，发现每个方法一开始都有个大的对象，他们分别是：

_0x3b79c6
_0x278b2d
_0x4115c4
_0xd8ec33

后续的代码也在不断调用这个对象的方法，比如 _0x3b79c6["esdtg"](_0x2e5848["length"], 0x4) 实际上就是 _0x2e5848["length"] != 0x4，如下图所示：

首先我们将这四个大的对象单独提取出来，还是保持原来的键值对样式，提取完成后删除这两个节点，遍历代码如下：

let functionName = {    "_0x3b79c6": {},    "_0x278b2d": {},    "_0x4115c4": {},    "_0xd8ec33": {}}// 单独提取出四个大对象const visitor2 = {    VariableDeclarator(path){        for (let key in functionName){            if (path.node && path.node.id.name == key) {                const properties = path.node.init.properties                for (let i=0; i// 写入对象后就可以删除该节点了                path.remove()            }        }    }}

这里要注意，大的对象里面，有 +、-、== 之类的二项式计算，也有直接为字符串的，还有变成函数调用的，如下所示：

var _0x3b79c6 = {    'MuRlB': function (_0x3ca134, _0x50ee94) {        return _0x3ca134 + _0x50ee94;    },     'Ucwyj': function (_0x32bfa3, _0x3b191b) {        return _0x32bfa3(_0x3b191b);    },     'YrYQW': '#IpValue'}

针对不同的情况有不同的处理方法，同时还要注意传参和 return 返回的参数位置，不要还原后把 a - b 搞成 b - a 了，当然在本例中传入和返回的顺序是一样的，就不需要考虑这个问题。

字符串还原

首先来看字符串，有以下几种情况：

以 _0x3b79c6['YrYQW'] 为例，实际上其值为字符串 '#IpValue'，观察其结构，是一个 MemberExpression，在一个列表里；
以 _0x278b2d['pjbyX'] 为例，实际上其值为字符串 '3|2|1|4|5|0|6'，观察其结构，是一个 MemberExpression，在一个字典里；
以 _0x278b2d['CnTaO'] 为例，虽然也是一个 MemberExpression，也在一个字典里。但实际上是二项式计算，所以要排除在外。

所以我们在写遍历代码时，同时要注意这三种情况，满足条件后直接取原来大对象对应的节点进行替换即可，遍历代码如下所示：

// 函数替换，字符串替换：将类似 _0x3b79c6['YrYQW'] 变成 '#IpValue'const visitor3 = {    MemberExpression(path) {        for (let key in functionName){            if (path.node.object && path.node.object.name == key && path.inList ) {                path.replaceInline(functionName[key][path.node.property.value])            }            if (path.node.object && path.node.object.name == key && path.parent.property && path.parent.property.value == "split") {                path.replaceInline(functionName[key][path.node.property.value])            }        }    }}

二项式计算替换

再来看看二项式计算的情况，以 _0x278b2d['CnTaO'](_0x691267["length"], 0x1) 为例，实际上是做减法运算，即 _0x691267["length"] - 0x1，看一下替换前后对比：

对于这种情况，我们可以直接提取两个参数，然后提取大对象里对应方法的操作符，然后将参数和操作符直接连接起来组成新的节点（binaryExpression）并替换即可，遍历代码如下：

// 函数替换，二项式计算：将类似 _0x278b2d['CnTaO'](_0x691267["length"], 0x1) 变成 _0x691267["length"] - 0x1const visitor4 = {    CallExpression(path){        for (let key in functionName) {            if (path.node.callee && path.node.callee.object && path.node.callee.object.name == key) {                let func = functionName[key][path.node.callee.property.value]                if (func.body.body[0].argument.type == "BinaryExpression") {                    let operator = func.body.body[0].argument.operator                    let left = path.node.arguments[0]                    let right = path.node.arguments[1]                    path.replaceInline(types.binaryExpression(operator, left, right))                }            }        }    }}

方法调用还原

以 _0x4115c4["PJbSm"](getRandom, 0x64, 0x3e7) 为例，实际上是 getRandom(0x64, 0x3e7)，看一下替换前后对比：

对于这种情况，传入的第一个参数为方法名称，后面的都是参数，那么可以直接取第一个元素为方法名称，使用 slice(1) 方法取后面所有的参数（因为后面的参数个数是不一定的），然后构造新的节点（callExpression）并替换即可，这部分遍历代码可以和前面二项式的替换相结合，代码如下：

// 函数替换，二项式计算：将类似 _0x278b2d['CnTaO'](_0x691267["length"], 0x1) 变成 _0x691267["length"] - 0x1// 函数替换，方法调用：将类似 _0x4115c4["PJbSm"](getRandom, 0x64, 0x3e7) 变成 getRandom(0x64, 0x3e7)const visitor4 = {    CallExpression(path){        for (let key in functionName) {            if (path.node.callee && path.node.callee.object && path.node.callee.object.name == key) {                let func = functionName[key][path.node.callee.property.value]                if (func.body.body[0].argument.type == "BinaryExpression") {                    let operator = func.body.body[0].argument.operator                    let left = path.node.arguments[0]                    let right = path.node.arguments[1]                    path.replaceInline(types.binaryExpression(operator, left, right))                }                if (func.body.body[0].argument.type == "CallExpression") {                    let identifier = path.node.arguments[0]                    let arguments = path.node.arguments.slice(1)                    path.replaceInline(types.callExpression(identifier, arguments))                }            }        }    }}

自此，第二步的大对象还原就完成了，可以看一下还原前后的对比，如下图所示浅蓝色标记的地方，所有调用四个大对象（_0x3b79c6、_0x278b2d、_0x4115c4、_0xd8ec33）的地方都被还原了：

switch-case 反控制流平坦化

经过前面几步的还原之后，我们发现 generateHostKey()、generateWordKey()、getRandom() 方法里都有一个 switch-case 的控制流，关于反控制流平坦化的讲解在我上期文章有很详细的介绍，不理解的可以看看上期文章，此处也不再赘述了，直接贴代码了：

// switch-case 反控制流平坦化const visitor5 = {    WhileStatement(path) {        // switch 节点        let switchNode = path.node.body.body[0];        // switch 语句内的控制流数组名，本例中是 _0x28073a、_0x2efb35、_0x187fb8        let arrayName = switchNode.discriminant.object.name;        // 获取控制流数组绑定的节点        let bindingArray = path.scope.getBinding(arrayName);        // 获取节点整个表达式的参数、分割方法、分隔符        let init = bindingArray.path.node.init;        let object = init.callee.object.value;        let property = init.callee.property.value;        let argument = init.arguments[0].value;        // 模拟执行 '3|2|1|4|5|0|6'['split']('|') 语句        let array = object[property](argument)        // 也可以直接取参数进行分割，方法不通用，比如分隔符换成 , 就不行了        // let array = init.callee.object.value.split('|');        // switch 语句内的控制流自增变量名，本例中是 _0x38c69e、_0x396880、_0x3b3dc7        let autoIncrementName = switchNode.discriminant.property.argument.name;        // 获取控制流自增变量名绑定的节点        let bindingAutoIncrement = path.scope.getBinding(autoIncrementName);        // 可选择的操作：删除控制流数组绑定的节点、自增变量名绑定的节点        bindingArray.path.remove();        bindingAutoIncrement.path.remove();        // 储存正确顺序的控制流语句        let replace = [];        // 遍历控制流数组，按正确顺序取 case 内容        array.forEach(index => {                let consequent = switchNode.cases[index].consequent;                // 如果最后一个节点是 continue 语句，则删除 ContinueStatement 节点                if (types.isContinueStatement(consequent[consequent.length - 1])) {                    consequent.pop();                }                // concat 方法拼接多个数组，即正确顺序的 case 内容                replace = replace.concat(consequent);            }        );        // 替换整个 while 节点，两种方法都可以        path.replaceWithMultiple(replace);        // path.replaceInline(replace);    }}

其他细节还原

到这里其实大部分混淆都已经还原了，已经很容易分析其逻辑了，还剩下一些细节，我们也还原一下，主要有以下细节：

十六进制、Unicode 编码等，转正常字符；
对象属性还原，比如 _0x3cbc20['length'] 转换成 _0x3cbc20.length；
表达式还原，比如 !![] 直接计算成 true；
删除未引用的变量，比如 _0xodD= "jsjiami.com.v6";；
删除冗余逻辑代码，只保留 if 为 true 的。

这些还原代码在我上期文章有详细讲过，结合代码，在 astexplorer.net 对照其结构看，也能理解，同样也不赘述了，直接贴代码：

const visitor5 = {    // 十六进制、Unicode 编码等，转正常字符    "StringLiteral|NumericLiteral"(path){        delete path.node.extra;    },    // _0x3cbc20["length"] 转换成 _0x3cbc20.length    MemberExpression(path){        if (path.node.property.type == "StringLiteral") {            path.node.computed = false            path.node.property = types.identifier(path.node.property.value)        }    },    // 表达式还原，!![] 直接计算成 true    "BinaryExpression|UnaryExpression"(path) {        let {confident, value} = path.evaluate()        if (confident){            path.replaceInline(types.valueToNode(value))        }    },    // 删除未引用的变量，比如 _0xodD = "jsjiami.com.v6";    AssignmentExpression(path){        let binding = path.scope.getBinding(path.node.left.name);        if (!binding) {            path.remove();        }    }}// 删除冗余逻辑代码，只保留 if 为 true 的const visitor6 = {    IfStatement(path) {        if(path.node.test.type == "BooleanLiteral") {            if(path.node.test.value) {                path.replaceInline(path.node.consequent.body)            } else {                path.replaceInline(path.node.alternate.body)            }        }    }}

自此 jajiami v6 混淆就还原完毕了，还原前后对比一下，代码量缩短了很多，逻辑也更加清楚了，如下图所示：

最后结合 Python 代码，携带生成的 hostToken 和 permitToken，成功拿到备案号：

完整代码

原混淆代码 generatetoken.js、AST 脱混淆代码 generatetokenAst.js、还原后的代码 generatetokenNew.js，以及 Python 测试代码均在 GitHub，均有详细注释，欢迎 Star。所有内容仅供学习交流，严禁用于商业用途、非法用途，否则由此产生的一切后果均与作者无关，在仓库中下载的文件学习完毕之后请于 24 小时内删除！

代码地址：https://github.com/TRHX/Python3-Spider-Practice

逆向进阶，利用 AST 技术还原 JavaScript 混淆代码

2022-04-25T09:00:00.000Z

欢迎加入爬虫逆向微信交流群：添加微信 IT-BOB（备注交流群）

文章目录

什么是 AST
AST 在编译中的位置
Babel 简介
常见混淆还原
参考资料
END

什么是 AST

AST（Abstract Syntax Tree），中文抽象语法树，简称语法树（Syntax Tree），是源代码的抽象语法结构的树状表现形式，树上的每个节点都表示源代码中的一种结构。语法树不是某一种编程语言独有的，JavaScript、Python、Java、Golang 等几乎所有编程语言都有语法树。

小时候我们得到一个玩具，总喜欢把玩具拆解成一个一个小零件，然后按照我们自己的想法，把零件重新组装起来，一个新玩具就诞生了。而 JavaScript 就像一台精妙运作的机器，通过 AST 解析，我们也可以像童年时拆解玩具一样，深入了解 JavaScript 这台机器的各个零部件，然后重新按照我们自己的意愿来组装。

AST 的用途很广，IDE 的语法高亮、代码检查、格式化、压缩、转译等，都需要先将代码转化成 AST 再进行后续的操作，ES5 和 ES6 语法差异，为了向后兼容，在实际应用中需要进行语法的转换，也会用到 AST。AST 并不是为了逆向而生，但做逆向学会了 AST，在解混淆时可以如鱼得水。

AST 有一个在线解析网站：https://astexplorer.net/ ，顶部可以选择语言、编译器、是否开启转化等，如下图所示，区域①是源代码，区域②是对应的 AST 语法树，区域③是转换代码，可以对语法树进行各种操作，区域④是转换后生成的新代码。图中原来的 Unicode 字符经过操作之后就变成了正常字符。

语法树没有单一的格式，选择不同的语言、不同的编译器，得到的结果也是不一样的，在 JavaScript 中，编译器有 Acorn、Espree、Esprima、Recast、Uglify-JS 等，使用最多的是 Babel，后续的学习也是以 Babel 为例。

AST 在编译中的位置

在编译原理中，编译器转换代码通常要经过三个步骤：词法分析（Lexical Analysis）、语法分析（Syntax Analysis）、代码生成（Code Generation），下图生动展示了这一过程：

词法分析

词法分析阶段是编译过程的第一个阶段，这个阶段的任务是从左到右一个字符一个字符地读入源程序，然后根据构词规则识别单词，生成 token 符号流，比如 isPanda('🐼')，会被拆分成 isPanda，(，'🐼'，) 四部分，每部分都有不同的含义，可以将词法分析过程想象为不同类型标记的列表或数组。

语法分析

语法分析是编译过程的一个逻辑阶段，语法分析的任务是在词法分析的基础上将单词序列组合成各类语法短语，比如“程序”，“语句”，“表达式”等，前面的例子中，isPanda('🐼') 就会被分析为一条表达语句 ExpressionStatement，isPanda() 就会被分析成一个函数表达式 CallExpression，🐼 就会被分析成一个变量 Literal 等，众多语法之间的依赖、嵌套关系，就构成了一个树状结构，即 AST 语法树。

代码生成

代码生成是最后一步，将 AST 语法树转换成可执行代码即可，在转换之前，我们可以直接操作语法树，进行增删改查等操作，例如，我们可以确定变量的声明位置、更改变量的值、删除某些节点等，我们将语句 isPanda('🐼') 修改为一个布尔类型的 Literal：true，语法树就有如下变化：

Babel 简介

Babel 是一个 JavaScript 编译器，也可以说是一个解析库，Babel 中文网：https://www.babeljs.cn/ ，Babel 英文官网：https://babeljs.io/ ，Babel 内置了很多分析 JavaScript 代码的方法，我们可以利用 Babel 将 JavaScript 代码转换成 AST 语法树，然后增删改查等操作之后，再转换成 JavaScript 代码。

Babel 包含的各种功能包、API、各方法可选参数等，都非常多，本文不一一列举，在实际使用过程中，应当多查询官方文档，或者参考文末给出的一些学习资料。Babel 的安装和其他 Node 包一样，需要哪个安装哪个即可，比如 npm install @babel/core @babel/parser @babel/traverse @babel/generator

在做逆向解混淆中，主要用到了 Babel 的以下几个功能包，本文也仅介绍以下几个功能包：

@babel/core：Babel 编译器本身，提供了 babel 的编译 API；
@babel/parser：将 JavaScript 代码解析成 AST 语法树；
@babel/traverse：遍历、修改 AST 语法树的各个节点；
@babel/generator：将 AST 还原成 JavaScript 代码；
@babel/types：判断、验证节点的类型、构建新 AST 节点等。

@babel/core

Babel 编译器本身，被拆分成了三个模块：@babel/parser、@babel/traverse、@babel/generator，比如以下方法的导入效果都是一样的：

const parse = require("@babel/parser").parse;const parse = require("@babel/core").parse;const traverse = require("@babel/traverse").defaultconst traverse = require("@babel/core").traverse

@babel/parser

@babel/parser 可以将 JavaScript 代码解析成 AST 语法树，其中主要提供了两个方法：

parser.parse(code, [{options}])：解析一段 JavaScript 代码；
parser.parseExpression(code, [{options}])：考虑到了性能问题，解析单个 JavaScript 表达式。

部分可选参数 options：

参数	描述
`allowImportExportEverywhere`	默认 `import` 和 `export` 声明语句只能出现在程序的最顶层，设置为 `true` 则在任何地方都可以声明
`allowReturnOutsideFunction`	默认如果在顶层中使用 `return` 语句会引起错误，设置为 `true` 就不会报错
`sourceType`	默认为 `script`，当代码中含有 `import` 、`export` 等关键字时会报错，需要指定为 `module`
`errorRecovery`	默认如果 babel 发现一些不正常的代码就会抛出错误，设置为 `true` 则会在保存解析错误的同时继续解析代码，错误的记录将被保存在最终生成的 AST 的 errors 属性中，当然如果遇到严重的错误，依然会终止解析

举个例子看得比较清楚：

const parser = require("@babel/parser");const code = "const a = 1;";const ast = parser.parse(code, {sourceType: "module"})console.log(ast)

{sourceType: "module"} 演示了如何添加可选参数，输出的就是 AST 语法树，这和在线网站 https://astexplorer.net/ 解析出来的语法树是一样的：

@babel/generator

@babel/generator 可以将 AST 还原成 JavaScript 代码，提供了一个 generate 方法：generate(ast, [{options}], code)。

部分可选参数 options：

参数	描述
`auxiliaryCommentBefore`	在输出文件内容的头部添加注释块文字
`auxiliaryCommentAfter`	在输出文件内容的末尾添加注释块文字
`comments`	输出内容是否包含注释
`compact`	输出内容是否不添加空格，避免格式化
`concise`	输出内容是否减少空格使其更紧凑一些
`minified`	是否压缩输出代码
`retainLines`	尝试在输出代码中使用与源代码中相同的行号

接着前面的例子，原代码是 const a = 1;，现在我们把 a 变量修改为 b，值 1 修改为 2，然后将 AST 还原生成新的 JS 代码：

const parser = require("@babel/parser");const generate = require("@babel/generator").defaultconst code = "const a = 1;";const ast = parser.parse(code, {sourceType: "module"})ast.program.body[0].declarations[0].id.name = "b"ast.program.body[0].declarations[0].init.value = 2const result = generate(ast, {minified: true})console.log(result.code)

最终输出的是 const b=2;，变量名和值都成功更改了，由于加了压缩处理，等号左右两边的空格也没了。

代码里 {minified: true} 演示了如何添加可选参数，这里表示压缩输出代码，generate 得到的 result 得到的是一个对象，其中的 code 属性才是最终的 JS 代码。

代码里 ast.program.body[0].declarations[0].id.name 是 a 在 AST 中的位置，ast.program.body[0].declarations[0].init.value 是 1 在 AST 中的位置，如下图所示：

@babel/traverse

当代码多了，我们不可能像前面那样挨个定位并修改，对于相同类型的节点，我们可以直接遍历所有节点来进行修改，这里就用到了 @babel/traverse，它通常和 visitor 一起使用，visitor 是一个对象，这个名字是可以随意取的，visitor 里可以定义一些方法来过滤节点，这里还是用一个例子来演示：

const parser = require("@babel/parser");const generate = require("@babel/generator").defaultconst traverse = require("@babel/traverse").defaultconst code = `const a = 1500;const b = 60;const c = "hi";const d = 787;const e = "1244";`const ast = parser.parse(code)const visitor = {    NumericLiteral(path){        path.node.value = (path.node.value + 100) * 2    },    StringLiteral(path){        path.node.value = "I Love JavaScript!"    }}traverse(ast, visitor)const result = generate(ast)console.log(result.code)

这里的原始代码定义了 abcde 五个变量，其值有数字也有字符串，我们在 AST 中可以看到对应的类型为 NumericLiteral 和 StringLiteral：

然后我们声明了一个 visitor 对象，然后定义对应类型的处理方法，traverse 接收两个参数，第一个是 AST 对象，第二个是 visitor，当 traverse 遍历所有节点，遇到节点类型为 NumericLiteral 和 StringLiteral 时，就会调用 visitor 中对应的处理方法，visitor 中的方法会接收一个当前节点的 path 对象，该对象的类型是 NodePath，该对象有非常多的属性，以下介绍几种最常用的：

属性	描述
`toString()`	当前路径的源码
`node`	当前路径的节点
`parent`	当前路径的父级节点
`parentPath`	当前路径的父级路径
`type`	当前路径的类型

PS：path 对象除了有很多属性以外，还有很多方法，比如替换节点、删除节点、插入节点、寻找父级节点、获取同级节点、添加注释、判断节点类型等，可在需要时查询相关文档或查看源码，后续介绍 @babel/types 部分将会举部分例子来演示，以后的实战文章中也会有相关实例，篇幅有限本文不再细说。

因此在上面的代码中，path.node.value 就拿到了变量的值，然后我们就可以进一步对其进行修改了。以上代码运行后，所有数字都会加上100后再乘以2，所有字符串都会被替换成 I Love JavaScript!，结果如下：

const a = 3200;const b = 320;const c = "I Love JavaScript!";const d = 1774;const e = "I Love JavaScript!";

如果多个类型的节点，处理的方式都一样，那么还可以使用 | 将所有节点连接成字符串，将同一个方法应用到所有节点：

const visitor = {    "NumericLiteral|StringLiteral"(path) {        path.node.value = "I Love JavaScript!"    }}

visitor 对象有多种写法，以下几种写法的效果都是一样的：

const visitor = {    NumericLiteral(path){        path.node.value = (path.node.value + 100) * 2    },    StringLiteral(path){        path.node.value = "I Love JavaScript!"    }}

const visitor = {    NumericLiteral: function (path){        path.node.value = (path.node.value + 100) * 2    },    StringLiteral: function (path){        path.node.value = "I Love JavaScript!"    }}

const visitor = {    NumericLiteral: {        enter(path) {            path.node.value = (path.node.value + 100) * 2        }    },    StringLiteral: {        enter(path) {            path.node.value = "I Love JavaScript!"        }    }}

const visitor = {    enter(path) {        if (path.node.type === "NumericLiteral") {            path.node.value = (path.node.value + 100) * 2        }        if (path.node.type === "StringLiteral") {            path.node.value = "I Love JavaScript!"        }    }}

以上几种写法中有用到了 enter 方法，在节点的遍历过程中，进入节点（enter）与退出（exit）节点都会访问一次节点，traverse 默认在进入节点时进行节点的处理，如果要在退出节点时处理，那么在 visitor 中就必须声明 exit 方法。

@babel/types

@babel/types 主要用于构建新的 AST 节点，前面的示例代码为 const a = 1;，如果想要增加内容，比如变成 const a = 1; const b = a * 5 + 1;，就可以通过 @babel/types 来实现。

首先观察一下 AST 语法树，原语句只有一个 VariableDeclaration 节点，现在增加了一个：

那么我们的思路就是在遍历节点时，遍历到 VariableDeclaration 节点，就在其后面增加一个 VariableDeclaration 节点，生成 VariableDeclaration 节点，可以使用 types.variableDeclaration() 方法，在 types 中各种方法名称和我们在 AST 中看到的是一样的，只不过首字母是小写的，所以我们不需要知道所有方法的情况下，也能大致推断其方法名，只知道这个方法还不行，还得知道传入的参数是什么，可以查文档，不过这里推荐直接看源码，非常清晰明了，以 Pycharm 为例，按住 Ctrl 键，再点击方法名，就进到源码里了：

function variableDeclaration(kind: "var" | "let" | "const", declarations: Array)

可以看到需要 kind 和 declarations 两个参数，其中 declarations 是 VariableDeclarator 类型的节点组成的列表，所以我们可以先写出以下 visitor 部分的代码，其中 path.insertAfter() 是在该节点之后插入新节点的意思：

const visitor = {    VariableDeclaration(path) {        let declaration = types.variableDeclaration("const", [declarator])        path.insertAfter(declaration)    }}

接下来我们还需要进一步定义 declarator，也就是 VariableDeclarator 类型的节点，查询其源码如下：

function variableDeclarator(id: BabelNodeLVal, init?: BabelNodeExpression)

观察 AST，id 为 Identifier 对象，init 为 BinaryExpression 对象，如下图所示：

先来处理 id，可以使用 types.identifier() 方法来生成，其源码为 function identifier(name: string)，name 在这里就是 b 了，此时 visitor 代码就可以这么写：

const visitor = {    VariableDeclaration(path) {        let declarator = types.variableDeclarator(types.identifier("b"), init)        let declaration = types.variableDeclaration("const", [declarator])        path.insertAfter(declaration)    }}

然后再来看 init 该如何定义，首先仍然是看 AST 结构：

init 为 BinaryExpression 对象，left 左边是 BinaryExpression，right 右边是 NumericLiteral，可以用 types.binaryExpression() 方法来生成 init，其源码如下：

function binaryExpression(    operator: "+" | "-" | "/" | "%" | "*" | "**" | "&" | "|" | ">>" | ">>>" | "<<" | "^" | "==" | "===" | "!=" | "!==" | "in" | "instanceof" | ">" | "<" | ">=" | "<=",    left: BabelNodeExpression | BabelNodePrivateName,     right: BabelNodeExpression)

此时 visitor 代码就可以这么写：

const visitor = {    VariableDeclaration(path) {        let init = types.binaryExpression("+", left, right)        let declarator = types.variableDeclarator(types.identifier("b"), init)        let declaration = types.variableDeclaration("const", [declarator])        path.insertAfter(declaration)    }}

然后继续构造 left 和 right，和前面的方法一样，观察 AST 语法树，查询对应方法应该传入的参数，层层嵌套，直到把所有的节点都构造完毕，最终的 visitor 代码应该是这样的：

const visitor = {    VariableDeclaration(path) {        let left = types.binaryExpression("*", types.identifier("a"), types.numericLiteral(5))        let right = types.numericLiteral(1)        let init = types.binaryExpression("+", left, right)        let declarator = types.variableDeclarator(types.identifier("b"), init)        let declaration = types.variableDeclaration("const", [declarator])        path.insertAfter(declaration)        path.stop()    }}

注意：path.insertAfter() 插入节点语句后面加了一句 path.stop()，表示插入完成后立即停止遍历当前节点和后续的子节点，添加的新节点也是 VariableDeclaration，如果不加停止语句的话，就会无限循环插入下去。

插入新节点后，再转换成 JavaScript 代码，就可以看到多了一行新代码，如下图所示：

常见混淆还原

了解了 AST 和 babel 后，就可以对 JavaScript 混淆代码进行还原了，以下是部分样例，带你进一步熟悉 babel 的各种操作。

字符串还原

文章开头的图中举了个例子，正常字符被换成了 Unicode 编码：

console['\u006c\u006f\u0067']('\u0048\u0065\u006c\u006c\u006f\u0020\u0077\u006f\u0072\u006c\u0064\u0021')

观察 AST 结构：

我们发现 Unicode 编码对应的是 raw，而 rawValue 和 value 都是正常的，所以我们可以将 raw 替换成 rawValue 或 value 即可，需要注意的是引号的问题，本来是 console["log"]，你还原后变成了 console[log]，自然会报错的，除了替换值以外，这里直接删除 extra 节点，或者删除 raw 值也是可以的，所以以下几种写法都可以还原代码：

const parser = require("@babel/parser");const generate = require("@babel/generator").defaultconst traverse = require("@babel/traverse").defaultconst code = `console['\u006c\u006f\u0067']('\u0048\u0065\u006c\u006c\u006f\u0020\u0077\u006f\u0072\u006c\u0064\u0021')`const ast = parser.parse(code)const visitor = {    StringLiteral(path) {        // 以下方法均可        // path.node.extra.raw = path.node.rawValue        // path.node.extra.raw = '"' + path.node.value + '"'        // delete path.node.extra        delete path.node.extra.raw    }}traverse(ast, visitor)const result = generate(ast)console.log(result.code)

还原结果：

console["log"]("Hello world!");

表达式还原

之前写过 JSFuck 混淆的还原，其中有介绍 ![] 可表示 false，!![] 或者 !+[] 可表示 true，在一些混淆代码中，经常有这些操作，把简单的表达式复杂化，往往需要执行一下语句，才能得到真正的结果，示例代码如下：

const a = !![]+!![]+!![];const b = Math.floor(12.34 * 2.12)const c = 10 >> 3 << 1const d = String(21.3 + 14 * 1.32)const e = parseInt("1.893" + "45.9088")const f = parseFloat("23.2334" + "21.89112")const g = 20 < 18 ? '未成年' : '成年'

想要执行语句，我们需要了解 path.evaluate() 方法，该方法会对 path 对象进行执行操作，自动计算出结果，返回一个对象，其中的 confident 属性表示置信度，value 表示计算结果，使用 types.valueToNode() 方法创建节点，使用 path.replaceInline() 方法将节点替换成计算结果生成的新节点，替换方法有一下几种：

replaceWith：用一个节点替换另一个节点；
replaceWithMultiple：用多个节点替换另一个节点；
replaceWithSourceString：将传入的源码字符串解析成对应 Node 后再替换，性能较差，不建议使用；
replaceInline：用一个或多个节点替换另一个节点，相当于同时有了前两个函数的功能。

对应的 AST 处理代码如下：

const parser = require("@babel/parser");const generate = require("@babel/generator").defaultconst traverse = require("@babel/traverse").defaultconst types = require("@babel/types")const code = `const a = !![]+!![]+!![];const b = Math.floor(12.34 * 2.12)const c = 10 >> 3 << 1const d = String(21.3 + 14 * 1.32)const e = parseInt("1.893" + "45.9088")const f = parseFloat("23.2334" + "21.89112")const g = 20 < 18 ? '未成年' : '成年'`const ast = parser.parse(code)const visitor = {    "BinaryExpression|CallExpression|ConditionalExpression"(path) {        const {confident, value} = path.evaluate()        if (confident){            path.replaceInline(types.valueToNode(value))        }    }}traverse(ast, visitor)const result = generate(ast)console.log(result.code)

最终结果：

const a = 3;const b = 26;const c = 2;const d = "39.78";const e = parseInt("1.89345.9088");const f = parseFloat("23.233421.89112");const g = "\u6210\u5E74";

删除未使用变量

有时候代码里会有一些并没有使用到的多余变量，删除这些多余变量有助于更加高效的分析代码，示例代码如下：

const a = 1;const b = a * 2;const c = 2;const d = b + 1;const e = 3;console.log(d)

删除多余变量，首先要了解 NodePath 中的 scope，scope 的作用主要是查找标识符的作用域、获取并修改标识符的所有引用等，删除未使用变量主要用到了 scope.getBinding() 方法，传入的值是当前节点能够引用到的标识符名称，返回的关键属性有以下几个：

identifier：标识符的 Node 对象；
path：标识符的 NodePath 对象；
constant：标识符是否为常量；
referenced：标识符是否被引用；
references：标识符被引用的次数；
constantViolations：如果标识符被修改，则会存放所有修改该标识符节点的 Path 对象；
referencePaths：如果标识符被引用，则会存放所有引用该标识符节点的 Path 对象。

所以我们可以通过 constantViolations、referenced、references、referencePaths 多个参数来判断变量是否可以被删除，AST 处理代码如下：

const parser = require("@babel/parser");const generate = require("@babel/generator").defaultconst traverse = require("@babel/traverse").defaultconst code = `const a = 1;const b = a * 2;const c = 2;const d = b + 1;const e = 3;console.log(d)`const ast = parser.parse(code)const visitor = {    VariableDeclarator(path){        const binding = path.scope.getBinding(path.node.id.name);        // 如标识符被修改过，则不能进行删除动作。        if (!binding || binding.constantViolations.length > 0) {            return;        }        // 未被引用        if (!binding.referenced) {            path.remove();        }        // 被引用次数为0        // if (binding.references === 0) {        //     path.remove();        // }        // 长度为0，变量没有被引用过        // if (binding.referencePaths.length === 0) {        //     path.remove();        // }    }}traverse(ast, visitor)const result = generate(ast)console.log(result.code)

处理后的代码（未使用的 b、c、e 变量已被删除）：

const a = 1;const b = a * 2;const d = b + 1;console.log(d);

删除冗余逻辑代码

有时候为了增加逆向难度，会有很多嵌套的 if-else 语句，大量判断为假的冗余逻辑代码，同样可以利用 AST 将其删除掉，只留下判断为真的，示例代码如下：

const example = function () {    let a;    if (false) {        a = 1;    } else {        if (1) {            a = 2;        }        else {            a = 3;        }    }    return a;};

观察 AST，判断条件对应的是 test 节点，if 对应的是 consequent 节点，else 对应的是 alternate 节点，如下图所示：

AST 处理思路以及代码：

筛选出 BooleanLiteral 和 NumericLiteral 节点，取其对应的值，即 path.node.test.value；
判断 value 值为真，则将节点替换成 consequent 节点下的内容，即 path.node.consequent.body；
判断 value 值为假，则替换成 alternate 节点下的内容，即 path.node.alternate.body；
有的 if 语句可能没有写 else，也就没有 alternate，所以这种情况下判断 value 值为假，则直接移除该节点，即 path.remove()

const parser = require("@babel/parser");const generate = require("@babel/generator").defaultconst traverse = require("@babel/traverse").defaultconst types = require('@babel/types');const code = `const example = function () {    let a;    if (false) {        a = 1;    } else {        if (1) {            a = 2;        }        else {            a = 3;        }    }    return a;};`const ast = parser.parse(code)const visitor = {    enter(path) {        if (types.isBooleanLiteral(path.node.test) || types.isNumericLiteral(path.node.test)) {            if (path.node.test.value) {                path.replaceInline(path.node.consequent.body);            } else {                if (path.node.alternate) {                    path.replaceInline(path.node.alternate.body);                } else {                    path.remove()                }            }        }    }}traverse(ast, visitor)const result = generate(ast)console.log(result.code)

处理结果：

const example = function () {  let a;  a = 2;  return a;};

switch-case 反控制流平坦化

控制流平坦化是混淆当中最常见的，通过 if-else 或者 while-switch-case 语句分解步骤，示例代码：

const _0x34e16a = '3,4,0,5,1,2'['split'](',');let _0x2eff02 = 0x0;while (!![]) {    switch (_0x34e16a[_0x2eff02++]) {        case'0':            let _0x38cb15 = _0x4588f1 + _0x470e97;            continue;        case'1':            let _0x1e0e5e = _0x37b9f3[_0x50cee0(0x2e0, 0x2e8, 0x2e1, 0x2e4)];            continue;        case'2':            let _0x35d732 = [_0x388d4b(-0x134, -0x134, -0x139, -0x138)](_0x38cb15 >> _0x4588f1);            continue;        case'3':            let _0x4588f1 = 0x1;            continue;        case'4':            let _0x470e97 = 0x2;            continue;        case'5':            let _0x37b9f3 = 0x5 || _0x38cb15;            continue;    }    break;}

AST 还原思路：

获取控制流原始数组，将 '3,4,0,5,1,2'['split'](',') 之类的语句转化成 ['3','4','0','5','1','2'] 之类的数组，得到该数组之后，也可以选择把 split 语句对应的节点删除掉，因为最终代码里这条语句就没用了；
遍历第一步得到的控制流数组，依次取出每个值所对应的 case 节点；
定义一个数组，储存每个 case 节点 consequent 数组里面的内容，并删除 continue 语句对应的节点；
遍历完成后，将第三步的数组替换掉整个 while 节点，也就是 WhileStatement。

不同思路，写法多样，对于如何获取控制流数组，可以有以下思路：

获取到 While 语句节点，然后使用 path.getAllPrevSiblings() 方法获取其前面的所有兄弟节点，遍历每个兄弟节点，找到与 switch() 里面数组的变量名相同的节点，然后再取节点的值进行后续处理；
直接取 switch() 里面数组的变量名，然后使用 scope.getBinding() 方法获取到它绑定的节点，然后再取这个节点的值进行后续处理。

所以 AST 处理代码就有两种写法，方法一：（code.js 即为前面的示例代码，为了方便操作，这里使用 fs 从文件中读取代码）

const parser = require("@babel/parser");const generate = require("@babel/generator").defaultconst traverse = require("@babel/traverse").defaultconst types = require("@babel/types")const fs = require("fs");const code = fs.readFileSync("code.js", {encoding: "utf-8"});const ast = parser.parse(code)const visitor = {    WhileStatement(path) {        // switch 节点        let switchNode = path.node.body.body[0];        // switch 语句内的控制流数组名，本例中是 _0x34e16a        let arrayName = switchNode.discriminant.object.name;        // 获得所有 while 前面的兄弟节点，本例中获取到的是声明两个变量的节点，即 const _0x34e16a 和 let _0x2eff02        let prevSiblings = path.getAllPrevSiblings();        // 定义缓存控制流数组        let array = []        // forEach 方法遍历所有节点        prevSiblings.forEach(pervNode => {            let {id, init} = pervNode.node.declarations[0];            // 如果节点 id.name 与 switch 语句内的控制流数组名相同            if (arrayName === id.name) {                // 获取节点整个表达式的参数、分割方法、分隔符                let object = init.callee.object.value;                let property = init.callee.property.value;                let argument = init.arguments[0].value;                // 模拟执行 '3,4,0,5,1,2'['split'](',') 语句                array = object[property](argument)                // 也可以直接取参数进行分割，方法不通用，比如分隔符换成 | 就不行了                // array = init.callee.object.value.split(',');            }            // 前面的兄弟节点就可以删除了            pervNode.remove();        });        // 储存正确顺序的控制流语句        let replace = [];        // 遍历控制流数组，按正确顺序取 case 内容        array.forEach(index => {                let consequent = switchNode.cases[index].consequent;                // 如果最后一个节点是 continue 语句，则删除 ContinueStatement 节点                if (types.isContinueStatement(consequent[consequent.length - 1])) {                    consequent.pop();                }                // concat 方法拼接多个数组，即正确顺序的 case 内容                replace = replace.concat(consequent);            }        );        // 替换整个 while 节点，两种方法都可以        path.replaceWithMultiple(replace);        // path.replaceInline(replace);    }}traverse(ast, visitor)const result = generate(ast)console.log(result.code)

方法二：

const parser = require("@babel/parser");const generate = require("@babel/generator").defaultconst traverse = require("@babel/traverse").defaultconst types = require("@babel/types")const fs = require("fs");const code = fs.readFileSync("code.js", {encoding: "utf-8"});const ast = parser.parse(code)const visitor = {    WhileStatement(path) {        // switch 节点        let switchNode = path.node.body.body[0];        // switch 语句内的控制流数组名，本例中是 _0x34e16a        let arrayName = switchNode.discriminant.object.name;        // 获取控制流数组绑定的节点        let bindingArray = path.scope.getBinding(arrayName);        // 获取节点整个表达式的参数、分割方法、分隔符        let init = bindingArray.path.node.init;        let object = init.callee.object.value;        let property = init.callee.property.value;        let argument = init.arguments[0].value;        // 模拟执行 '3,4,0,5,1,2'['split'](',') 语句        let array = object[property](argument)        // 也可以直接取参数进行分割，方法不通用，比如分隔符换成 | 就不行了        // let array = init.callee.object.value.split(',');        // switch 语句内的控制流自增变量名，本例中是 _0x2eff02        let autoIncrementName = switchNode.discriminant.property.argument.name;        // 获取控制流自增变量名绑定的节点        let bindingAutoIncrement = path.scope.getBinding(autoIncrementName);        // 可选择的操作：删除控制流数组绑定的节点、自增变量名绑定的节点        bindingArray.path.remove();        bindingAutoIncrement.path.remove();        // 储存正确顺序的控制流语句        let replace = [];        // 遍历控制流数组，按正确顺序取 case 内容        array.forEach(index => {                let consequent = switchNode.cases[index].consequent;                // 如果最后一个节点是 continue 语句，则删除 ContinueStatement 节点                if (types.isContinueStatement(consequent[consequent.length - 1])) {                    consequent.pop();                }                // concat 方法拼接多个数组，即正确顺序的 case 内容                replace = replace.concat(consequent);            }        );        // 替换整个 while 节点，两种方法都可以        path.replaceWithMultiple(replace);        // path.replaceInline(replace);    }}traverse(ast, visitor)const result = generate(ast)console.log(result.code)

以上代码运行后，原来的 switch-case 控制流就被还原了，变成了按顺序一行一行的代码，更加简洁明了：

let _0x4588f1 = 0x1;let _0x470e97 = 0x2;let _0x38cb15 = _0x4588f1 + _0x470e97;let _0x37b9f3 = 0x5 || _0x38cb15;let _0x1e0e5e = _0x37b9f3[_0x50cee0(0x2e0, 0x2e8, 0x2e1, 0x2e4)];let _0x35d732 = [_0x388d4b(-0x134, -0x134, -0x139, -0x138)](_0x38cb15 >> _0x4588f1);

参考资料

本文有参考以下资料，也是比较推荐的在线学习资料：

Youtube 视频，Babel 入门：https://www.youtube.com/watch?v=UeVq_U5obnE
官方手册 Babel Handbook：https://github.com/jamiebuilds/babel-handbook
非官方 Babel API 中文文档：https://evilrecluse.top/Babel-traverse-api-doc/

END

Babel 编译器国内的资料其实不是很多，多看源码、同时在线对照可视化的 AST 语法树，耐心一点儿一层一层分析即可，本文中的案例也只是最基本操作，实际遇到一些混淆还得视情况进行修改，比如需要加一些类型判断来限制等，后续会用实战来带领大家进一步熟悉解混淆当中的其他操作。