从校园实验室到京东零售:一位算法工程师的风控实战录

尤老娘
• 阅读 19

作者:京东零售 王晓婷

大家好,我是王晓婷,在京东零售研究广告反作弊算法设计、实现与优化,结合LLM、深度学习、强化学习赋能反作弊系统,用算法识别和打击数字广告领域的欺诈行为。本文与大家分享我从高校实验室到广告风控战场的蜕变,一场关于认知觉醒、技术探索与思维重构的旅程。

象牙塔与工业界的思维碰撞

在清华园求学期间,我开始接触数据挖掘竞赛,那时常沉浸于算法优化的世界里。和许多初学者一样,我认为模型指标就是解决问题的万能钥匙,一次一次在异常检测项目中投入大量精力,当在看到95%+准报率和低于0.35%的误报率时,那种纯粹的喜悦让我对技术产生了近乎理想化的信仰。

从校园实验室到京东零售:一位算法工程师的风控实战录



图1. 曾发表论文中算法取得的高准异常检测结果(误报率仅为0.35%以下)



实验室的环境确实为研究提供了理想条件:规整的数据集、清晰的问题边界、稳定的评估体系。这种纯粹的科研训练让我打下了扎实的基础,但也无形中构建了某种思维定式。



毕业后,我加入京东,投身于广告风控的实战战场,一场认知的风暴悄然来袭,在一次电商大促期间,现实给我上了深刻的一课。面对流量洪峰、以及洪峰中涌现的虚假流量,我曾引以为傲且平稳调度的模型出现了资源和作弊识别之间的掣肘,实验室里的“完美指标”、优秀的“AUC、TPR、FPR”,在海量流量面前凸显苍白,工业界需要的是能在混沌中能持续进化的解决方案。面对这样的挑战和日新月异的反作弊需求,迫使我重新审视技术应用的边界,在技术可能性、业务价值与实施成本之间寻找平衡点,这个过程至今仍在持续。




京东的“反作弊大脑”就像一位24小时在线的智能侦探,主要从多维度打击作弊行为:在用户端利用大模型识别假交易,通过智能算法自动揪出异常订单;在流量端分析每个广告点击的数百项特征,一旦发现异常行为,立刻拦截,保障广告主的每一分钱都花在真实用户身上。



技术侦探,用AI破解黑产的加密暗号



CPS模式本是为激励优质推广设计的共赢机制,在激励众多联盟伙伴积极推广的同时,也滋生了黑灰产的关注。在广告CPS中,黑灰产为了骗取平台佣金,极尽所能地在地址信息中藏匿各种暗号,这些暗号仿若隐秘的“密码”,在看似平常的地址文本中隐匿着其真实的不轨意图,损害平台利益,致使CPS佣金流失。



一种典型的作弊方式是,在用户下单时填写一个无法正常派送的“真假参半”地址。黑灰产为了实现不法目的,精心设计出各种暗号嵌入地址信息,给传统文本检测方法带来了巨大挑战。



面对这种新型作弊手段,我们持续观测数据,发现即便不断添加过滤规则,异常订单仍像地鼠般此起彼伏,基于正则表达式的策略方式无法适应日新月异的暗号变种。这让我意识到:必须突破文本表面特征,深入语义层面理解地址信息(详细细节见 文本异常检测:利用大模型侦测地址暗号 )。



在团队技术讨论中,我尝试将大模型引入检测系统。在NLP的世界里,大模型如同超级侦探通过深度的网络层和亿级参数,超前掌握语言的深层次结构和语义。在地址异常检测问题中,大模型的核心能力也能得到很好发挥。基于开源大语言模型并结合LoRA微调技术降低训练成本,让人工标注的数千条异常地址样本教会模型识别"异常模式"。



其次,在地址的生成式识别中,我基于人类反馈的强化学习框架(RHLF框架),在模型给予错误答案时及时纠偏,并会及时收集人类专家的判断,并将这些反馈纳入强化学习过程。



通过LLM+RHLF训练,模型逐渐学会了根据上下文来判断数字是否属于暗号的“生成式识别能力”。比如在类似”3栋78910单元1023室”、“3栋2单元1023室ATTTT233”这样的地址中,大模型通过生成式推理识别出"78910"、“ATTTT233”这类伪装地址,实现了异常订单地址的生成式精准抓取,这正是传统正则表达式无法企及的语义穿透力和识别能力。



经过了三个版本的迭代优化,这套系统实现了精准识别与高效运行的平衡,模型的误判率降至 ****0.3%,实现准确识别出各类显性暗号和隐蔽性暗号。这也是我第一次通过将大模型技术与CPS业务场景深度融合,构建了更加精准和高效的反作弊防护体系。



不做最炫的技术,只做最有效的方案



随着广告作弊手段的不断升级进化,反作弊技术正面临前所未有的挑战。从早期的单一IP代理,到如今的分布式攻击网络;从简单的机器群控,到精心设计的真人骗佣产业链,黑产集团正在以惊人的速度迭代他们的作弊手法。这种"道高一尺,魔高一丈"的对抗态势,让传统的基于统计规则的防御体系逐渐力不从心。就像一位经验丰富的老刑警突然面对一群装备精良的高智商罪犯,旧有的破案方法开始显得捉襟见肘。



在这样的背景下,我们尝试将大模型的上下文理解能力引入行为序列分析领域。基于LLM技术,我们构建了一套全新的反作弊系统(详细细节见 AIGC风控系统:大模型重塑广告安全新范式 )。这套系统就像一位拥有超强洞察力的侦探,通过深度解析用户行为轨迹中的矛盾点,识别隐藏在正常交互模式下的异常信号。

从校园实验室到京东零售:一位算法工程师的风控实战录





图2:基于LLM的流量多阶段防御



然而,面对京东主站的巨大流量,LLM虽然具备获得优秀的生成式识别能力,却很难在当前资源和耗时要求下实现实时在线推理。为了解决这个“既要精准又要快速”的难题,我采用了蒸馏技术:让大模型担任”资深教授”,小模型作为“尖子生”,通过特征层蒸馏,将大模型的“办案经验”提炼传授给小模型,经过十余个版本的迭代打磨,最终实现了精度与速度的完美平衡。



这个过程中,我深刻体会到:真正的技术创新,不是简单粗暴地把最新技术塞进业务场景,而是要在学术前沿与工业实践之间找到那个微妙的平衡点。像一位技艺精湛的工匠,既要知道最先进的工具怎么用,更要明白什么时候该用什么样的工具。这种平衡不仅需要对技术有深刻的理解,还需要对业务有深入的洞察。




在从学术研究到工业实践的跨越中,我深刻体会到广告风控的本质是一场多维度的复杂博弈。有三点核心认知与各位分享:



1. 成本意识驱动技术选型,技术人也要会算账

在公司海量流量和实战场景中,技术人不仅要关注技术本身的先进性,还需要从数据规模、计算成本和产出价值三个维度综合评估模型的应用。数据规模决定了模型的训练深度,而计算成本则直接影响到模型的实时性。最终,产出价值体现在误判率的降低和业务损失的减少上。



技术方案不是越fancy越好,现在每次做模型选型,我都会清晰评估,每提升1%准确率需要多少标注成本?降低10ms延迟能多拦截多少欺诈订单?这种量化思维帮助我们找到技术投入的黄金平衡点。



2. 持续进化知识体系,充分熟悉业务

在阅读《Attention Is All You Need》等专业文献时,我发现了Attention机制在异常检测中的巨大潜力,并成功将其应用于自部署大语言模型的优化。这一过程中,我学会了如何从大量的研究成果中筛选出对业务有价值的洞见和创新想法。这不仅需要对技术有深刻的理解,还需要具备敏锐的技术敏感度,能够快速识别和应用前沿技术。



此外,知识体系不仅包括上述的算法前沿,也包括业务洞察力的钻研能力,只有充分熟悉业务,才能快速通过算法赋能业务,为技术的迭代和创新制定坚实的基础。



3. 跨领域思考,拥有主动破局的力量

在面对黑产日新月异的攻击时,我们必须比对手进化得更快。在处理CPS佣金欺诈的场景中,我利用博弈论模型预测黑灰产可能使用的地址暗号设计模式,并提前调整检测prompt,以此来阻止他们的欺诈行为。这种方法就像是在一场智力游戏中,通过预测对手的下一步行动,提前布局,从而保持主动。



在面对黑产带来的虚假流量时,我借鉴了复杂系统理论中的耗散结构理论,应对“作弊熵增”的问题。黑产的攻击手段越来越复杂,像是一个不断变化的系统,为了应对这种变化,我在防御系统中引入了随机性和非线性反馈机制,使得我们的防御系统能够像一个活的有机体一样,具备自适应和进化的能力。



写在最后



技术人需要构建"T型能力":既要具备垂直领域的技术深度,又要拥有横向拓展的视野广度



这种能力结构不仅能有效应对当前的业务挑战,更能为未来的技术革新提供坚实基础。我也要求自己持续精进技术深度、敏锐培养商业敏感度、始终坚守人文关怀。不断探索大模型的技术潜力,深入理解业务的核心诉求,同时确保技术应用始终符合伦理规范和用户利益。



技术人的浪漫,或许就在于这种永不停歇的攻防之舞。每当看到凌晨的A/B test中降低的后链路作弊率,看板中实现的业务目标,上线带来的一次次可观价值,都是数字时代风控守护者的微小确幸。

点赞
收藏
评论区
推荐文章
Stella981 Stella981
3年前
KDD Cup 2020多模态召回比赛季军方案与搜索业务应用
!(https://oscimg.oschina.net/oscnet/up3dfe08d8eb870833544e64068ded9f78cc3.JPEG)背景美团到店广告平台搜索广告算法团队基于自身的业务场景,一直在不断进行前沿技术的深入优化与算法创新,团队在图学习、数据偏差、多模态学习三个前沿领域均有一定的算法研究与应用,并取得了不
「风控算法服务平台」高性能在线推理服务设计与实现
本文作者:郁昌存来自京东科技风险管理中心一、背景/目标1)风控智能化体系建设依赖大量深度学习/机器学习模型进行实时在线的风险识别、智能决策。要求可以将算法模型快速部署为在线服务,供决策引擎调用。2)风控决策引擎涵盖交易、支付、营
京东云开发者 京东云开发者
8个月前
京东广告投放平台整洁架构演进之路
作者:京东零售赵嘉铎前言从去年开始京东广告投放系统做了一次以领域驱动设计为思想内核的架构升级,在深入理解DDD思想的同时,我们基于广告投放业务的本质特征大胆地融入了自己的理解和改造。新架构是从设计思想到落地框架都进行了彻底的革新,涉及内容比较多,因此我们希
京东云开发者 京东云开发者
8个月前
大模型时代下的新一代广告系统
京东零售广告部承担着京东全站流量变现及营销效果提升的重要职责,广告研发部是京东最核心的技术部门,也是京东最主要的盈利来源之一。作为京东广告部的核心方向,我们基于京东海量的用户和商家数据,探索最前沿的深度学习等算法技术,创新并应用到业务实践中,赋能千万商家和
京东云开发者 京东云开发者
4个月前
行稳、致远 | 技术驱动下的思考感悟
作者:京东零售王家兴一、个人简介我是21届校招生,博士毕业于中国科学院自动化研究所。2021入职博士管培生,现任京东零售技术研发与数据中心智能平台部智能算法部商品图谱研发组算法应用工程师。当前我的工作焦点是低资源情况下大模型的训练与规模化应用。近期发表顶级
京东云开发者 京东云开发者
3个月前
探索无界:践行科学家精神与工程师文化
作者:京东零售孟祥主引言回首自己过去的科研与工程探索经历,仿佛是一场勇气与坚持的交响曲,伴随着科学家精神和工程师文化的和声。这段旅程,从我踏入数理统计的领域开始,到后来跨越到计算机技术,再到如今在京东担任用增算法部门的业务算法专家,每一步都充满了挑战和成长
京东云开发者 京东云开发者
3个月前
Agent应用实战:从广告智能助手落地到平台化赋能
作者:京东零售孟祥主引言回首自己过去的科研与工程探索经历,仿佛是一场勇气与坚持的交响曲,伴随着科学家精神和工程师文化的和声。这段旅程,从我踏入数理统计的领域开始,到后来跨越到计算机技术,再到如今在京东担任用增算法部门的业务算法专家,每一步都充满了挑战和成长
京东云开发者 京东云开发者
2个月前
【前瞻技术布局】京东零售广告创意:引入场域目标的创意图片生成
作者:京东零售冯伟WWW2025:CTRDrivenAdvertisingImageGenerationwithMultimodalLargeLanguageModels论文链接:代码链接:摘要:在电商平台中,广告图片对于吸引用户注意力和提高广告效果至关重
京东云开发者 京东云开发者
3星期前
【前瞻技术布局】打破"沙漏“现象→提高生成式搜索/推荐的上限
作者:京东零售王彗木\\\\东方若晓,莫道君行早EMNLP2024:BreakingtheHourglassPhenomenonofResidualQuantization:EnhancingtheUpperBoundofGenerativeRetriev
从校园实验室到京东零售:一位算法工程师的风控实战录
作者:京东零售王晓婷大家好,我是王晓婷,在京东零售研究广告反作弊算法设计、实现与优化,结合LLM、深度学习、强化学习赋能反作弊系统,用算法识别和打击数字广告领域的欺诈行为。本文与大家分享我从高校实验室到广告风控战场的蜕变,一场关于认知觉醒、技术探索与思维重
尤老娘
尤老娘
Lv1
我行殊未已,何日复归来。
文章
2
粉丝
0
获赞
0