把算法焊死在模型上系列-后端眼中的RAG平台架构

京东云开发者
• 阅读 5

作者:京东科技 管顺利

后端研发的 AI 突围

作为一名后端研发,开始AI之路已经2年,从Chat QA,到AI Agent的开发,在到Multi-Agent,AI-Native。

今年Q2开始结合保险业务场景,开始全面AI落地。我们的AI Agent的能力已跨过L1(Chatbot),在L2(Reasoner)全面爆发。

我内心是焦虑的,大模型发展的得太快,尤其是在Cursor、JoyCode等产品出来后。我想不止是后端研发,所有的业务研发都会焦虑,因为现在风口不在卷微服务、微前端的架构,全都开始卷AI了。 除了AI Infra外,模型开发也一样焦虑吧,单一的Agent也已是过去式。

我的解药是把微服务架构应用到AI上,什么Agent、Planning、RAG、Evaluation、MCP、LLM、Prompt、Memory、MultiModal都安排起来。

保险Eva的RAG架构经历了三个阶段,从基础RAG到Deepsearch,在到混合式检索架构(Graph RAG + DeepSearch + 持续的反思与验证 )****



RAG架构

历史:

首先我们回顾下什么是RAG?RAG(Retrieval-Augmented Generation - 检索增强生成 )是一种构建基于大模型(LLM)应用的创新技术,通过利用外部知识源为LLM提供相关上下文,从而减少幻觉现象,提高生成内容的准确性和可靠性。最早要追溯到2020年,是由Facebook AI Research(Meta AI)提出的论文《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》



基础 RAG 架构,朴素的知识管理员

基础 RAG 是所有RAG范式的基础,包括DeepResearch、Agentic RAG、Graph RAG都是在基础RAG上进化出来的。所以我们先熟悉下基础RAG的架构,它包含两个核心组件:生成组件(ETL Pipeline)和检索组件(Retrieval)引入下图为例: 把算法焊死在模型上系列-后端眼中的RAG平台架构

①,②,③,④步骤都是生成组件,它的核心就是文件提取、转换、加载, 我们来一步步分析。

把算法焊死在模型上系列-后端眼中的RAG平台架构

•文件提取(Extract):核心文件读取器,常用的有doc、pdf、excel、图片等文件,需要关注对中文支持和Execl单元格的处理。

把算法焊死在模型上系列-后端眼中的RAG平台架构

•文件转换(Transform):文件转换的核心有两个chunkembedding

****chunk阶段尤为关键是所有RAG范式的核心,就像切蛋糕一样,切之前就已分配好

把算法焊死在模型上系列-后端眼中的RAG平台架构

常用的分块策略有五种:固定大小分块,语义分块、递归分块,基于文档结构分块,基于大模型分块。 把算法焊死在模型上系列-后端眼中的RAG平台架构

****embedding: 向量化,向量是为了满足相似性查找的需求,比如表达“今天天气如何?”这类的询问方式有很多,这时我们需要将文本向量化,存入到向量库中

把算法焊死在模型上系列-后端眼中的RAG平台架构

数据加载(Load) 数据存储,我们用的Elasticsearch8+(ES)进行混合存储,当然也可以其他向量库和关系型数据库来存储。

把算法焊死在模型上系列-后端眼中的RAG平台架构

⑦,③,④,⑤,⑥步骤是检索组件,它分为预处理、检索、后处理

把算法焊死在模型上系列-后端眼中的RAG平台架构

预处理核心是Query:要不要做Query的扩充?扩充多少?带不带原始Query?需不需要对Query转译?预处理偏向于业务处理,根据需求来,相当于基础RAG的一扩展特性,Agentic RAG范式沿用了这一特性。

把算法焊死在模型上系列-后端眼中的RAG平台架构

检索的核心是算法:基础的检索算法“稀疏算法和稠密算法”

稀疏算法可以利用LLM提取关键词,embedding维度设为整个表中所有的关键词的维度,维度上的值是关键词在当前文本块中的TF-IDF值。当用户查询时,系统会将其转化为一个类似的TF-IDF向量,通过计算用户查询向量和所有文本块向量之间的cosine,找到得分最高或最相似的向量块。 稠密算法常用的是BM25,用户输入查询时,系统会使用LLM将查询转化为一个embedding向量,然后在向量数据库中进行cosine计算,找到最相似的向量块。



  1. 第③步中用相同的嵌入文本块模型,向量化用户的查询

把算法焊死在模型上系列-后端眼中的RAG平台架构

  1. 然后,将向量化的查询与数据库中现有的向量进行比较,以找到最相似的信息。常规的向量检索ANN算法,我们还支kNN算法,向量库的表结构的基础字段索引,向量块,原始文本块,原数据字段。

把算法焊死在模型上系列-后端眼中的RAG平台架构

  1. TopK,通过预设的k阈值,我们只获取最相似的k条原始文本块返回,这是rank的流程。

把算法焊死在模型上系列-后端眼中的RAG平台架构

后处理的核心是排序:在精排(Rerank)也就是二段检索,之后会进行文本拼接,把结果拼接到上下文中生成Prompt,最后由LLM生成最终答案(Generate)。

Rerank不是一个必选项,Rerank模型会结合查询对检索到的初始文本块列表进行评估,为每个文本块分配一个相关性分数。这一过程会重新排序。

把算法焊死在模型上系列-后端眼中的RAG平台架构

最后一步是生成结果,将原始的查询和检索到的文本块,拼接到Prompt中,由大模型生成最终的结果。

把算法焊死在模型上系列-后端眼中的RAG平台架构

以上是基础RAG的全流程和技术细节点。从原理上看搭建一套基础RAG框架是容易的,但实际上从业务角度出发,搭建一套高性能的框架是完全不同的挑战。

倒退到2022年,基础的RAG方案是很OK的。随之模型发展到现在的Agentic Agent,需要解决的往往是对复杂问题的深度检索,基础的RAG这时显得非常的无力,但也促使RAG演进了新的范式:Graph RAG,Agentic RAG,DeepResearch



我们的RAG架构

我们的RAG产品架构上包含了“保险知识库+记忆库+文件库+智能体+搜索+测评”,是技术驱动由算法,工程,数据一起完成的。

算法AgenticRAG:我们学习了通义DeepResearch的开源WebWeaver架构,微软的开源GraphRAG,结合现在火热的ZEP、REFRAG的论文

把算法焊死在模型上系列-后端眼中的RAG平台架构

架构上实现了混合式检索“Agentic RAG+DeepResearch”,记忆实现了“情景记忆+程序记忆+语义记忆+时间记忆”,RAG智能体矩阵实现了“RAG查询增强智能体,规划师智能体,工具选择器智能体,反思和验证智能体,基于图结构的智能体,深度研究型智能体”。

记忆设计:语义记忆图谱,程序记忆图谱,情景记忆图谱

把算法焊死在模型上系列-后端眼中的RAG平台架构

工程RAG平台:承上启下串联全流程,承接业务Agent的检索、查询的需求,提供标准接口让Agent专注于模型训练迭代

把算法焊死在模型上系列-后端眼中的RAG平台架构

工程架构分了四层:智能体层,业务逻辑层,检索层,数据层;技术栈:Spring AI ,Elasticsearch8+,Neo4j,Redis,京东云;技术能力支持上支持Python Code和RAG Agent Workflow。

数据架构:保险知识库+记忆库+任务中心 组成三角矩阵

保险知识库架构: 把算法焊死在模型上系列-后端眼中的RAG平台架构

任务中心: 把算法焊死在模型上系列-后端眼中的RAG平台架构

Chunck:学习Cognee参数调优的思想,提供了五种chunk策略。

记忆库:“语义记忆图谱,程序记忆图谱,情景记忆图谱”在此三类记忆上增加双时间字段,保证记忆的时效性。





为什么这样设计?

我们团队核心是一套由多智能体驱动业务的平台(Eva)

•我们是需要RAG是因为保险业务,保司的很多数据是网上没有的,并且内容很多,上百页甚至大几百页的文档比比皆是。

•我们是ToB业务,是围绕业务发展的Agent,直面经营结果(规模/利润)。

•我们的RAG平台隶属于Eva基础能力之一。

未来的RAG

不再过多揣测未来,乘风破浪即可。

•Agentic RAG里面包含了Deepsearch,Graph RAG,基础RAG,如果感兴趣我会像基础RAG一样,一层层剥开和大家交流

•Python Code和RAG Agent Workflow是工程端的自研核心,如果感兴趣我会像基础RAG一样,一层层剥开和大家交流

•记忆库除了“语义记忆图谱,程序记忆图谱,情景记忆图谱”我们还在研发时间记忆图谱,如果感兴趣我会像基础RAG一样,一层层剥开和大家交流

•Chunck绝对是核心,以至于让Cognee花了大半年时间在参数调优上,我们总结一份配置手册,如果感兴趣我会像基础RAG一样,一层层剥开和大家交流



大家可以把感兴趣的留在评论区,也可以提出你们疑问想法,我们多交流。

参考

https://ragflow.io/docs/dev/

https://github.com/Alibaba-NLP/DeepResearch/blob/main/README.md

https://arxiv.org/pdf/2505.24478

https://arxiv.org/pdf/2501.13956

https://arxiv.org/pdf/2509.01092

点赞
收藏
评论区
推荐文章
Kubrnete Kubrnete
4年前
基于活动选择问题的贪心算法
目录问题描述:(问题描述%3A)输入格式(输入格式)输出格式(输出格式)算法描述(算法描述与分析)算法分析(算法分析)算法图示(图解)问题描述:Coda从0时刻开始观看直播,到t时刻结束。一共有n场直播可被选择,已知所有直播场次的起止时间和主播名称,其中第i场直播从ai时刻开始,
Wesley13 Wesley13
4年前
4项探索+4项实践,带你了解华为云视觉预训练研发技术
摘要:本文主要讲述云原生时代华为云在AI基础研究、视觉预训练模型研发和行业实践,以及AI开发平台ModelArts的最新进展。近日,在Qcon全球软件开发大会(深圳站)上,华为云人工智能领域首席科学家、IEEEFELLOW田奇博士,发表了“云原生时代,视觉预训练大模型探索与实践”的主题演讲,介绍了云原生时代华为云在AI基础研究、视觉预训练模
20年编程,AI编程6个月,关于Copliot辅助编码工具,你想知道的都在这里
AI代码辅助工具尝试各种辅助编程的AI工具笔者是一个后端Coder,开发工具使用Idea和VsCode。在过去我一直尝试找到一款适合自己的智能代码辅助工具,来告别繁琐的重复性编码,好提高开发效率。直到AIGC和AIAgent的迅速发展,越来越多的AI编码辅
电商搜索革命:大模型如何重塑购物体验?
自我介绍:京东零售搜推算法部算法工程师,专注于大模型技术以及在AI助手搜推等领域的应用探索和实践。在AI助手,NLP和搜索领域有十多年研发实践经验,在AI/NLP领域申请超过15项发明专利并出版两部著作。随着电商行业的蓬勃发展,搜索技术作为连接用户与商品的
文盘rust--使用 Rust 构建RAG
作者:京东科技贾世闻RAG(RetrievalAugmentedGeneration)技术在AI生态系统中扮演着至关重要的角色,特别是在提升大型语言模型(LLMs)的准确性和应用范围方面。RAG通过结合检索技术与LLM提示,从各种数据源检索相关信息,并将其
京东云开发者 京东云开发者
11个月前
【转载】把大模型做实 把供应链做透: 京东推出言犀大模型
作者:张东7月13日,2023京东全球科技探索者大会暨京东云峰会在北京举行,全面推出京东言犀大模型、言犀AI开发计算平台、升级支撑大模型落地行业的产品及解决方案,服务千行百业拥抱产业智能。源于产业、服务产业。言犀大模型融合了70%的通用数据与30%京东数智
京东云开发者 京东云开发者
6个月前
给Ai-Agent重塑真身 ---浅谈如何优雅地拆解AI-Agent
作者:京东物流赵勇萍前言最近随着manus的火爆,其实大家更关注AIAgent的开发技术了.毕竟大模型是大脑,而AiAgent才是给最强大脑重塑真身的那个莲藕.而我也这多半年的时间里,研究了很多AIAgent框架.而在AIAgent开发中,其实也发现了一些
京东云开发者 京东云开发者
3个月前
企业和个人基于业务知识和代码库增强的大模型生成代码实践
作者:京东零售杨亚龙0.概览本文基于笔者在校招研发入职初起的真实困境出发,针对新人上手难,知识资产容易流失,运维耗时,以及基于AI结合的产研提效做了一系列工作,提出了产研分阶段应用大模型的策略,在第二阶段提出将大模型与系统知识库结合,以解决企业代码相关资产
京东云开发者 京东云开发者
2个月前
开源 Ai Agent 智能体,能用、能改、能学,美滋滋!
作者:福禄娃🧨25年以来,先是RAG知识库,再到MCP服务,越来越多的互联网公司掀起了Ai智能体的设计和落地。作为程序员👨🏻‍💻,我们是最早一波接触和使用了各类的AiAgent产品的暖水鸭🦆,包括;Coze、Dify、Claude,以及编程类软件
飞速创软发布「飞速AI智能体开发平台」:引领AI技术在企业级应用的新篇章
​随着科技的日新月异,人工智能(AI)已经渗透到我们生活的方方面面。3月12日,飞速创软公司宣布推出其革命性产品——「飞速AI智能体开发平台」,旨在推动AI前沿技术在企业级应用的普及与创新。这一平台不仅是飞速创软自主研发的核心AI技术的集中体现,更是为开发