浅谈API错误码设计

京东云开发者
• 阅读 84

作者:京东物流 冯志文

一、痛点

你是否曾遇到过以下问题?

1.API错误码形同虚设,无法提供有效帮助?

2.API错误码文档晦涩难懂,别说其他团队,连团队内同事都看不明白?

3.API错误码定义混乱,缺乏一致性?

4.链路上的错误码信息无法正确传递?

二、什么是错误码

根据亚马逊官方文档的定义,错误码是通过对错误进行抽象,帮助用户或开发者识别和理解异常性质的代号错误码与具体错误不是一对一的关系,而是错误类型的一种抽象表示。尽管错误码在系统中只是一个小模块,但它是不可或缺的



错误消息应该帮助用户轻松并快速地理解并解决API 错误,以下是一些设计原则:

  1. 不要假设用户非常了解你的API。用户可能是客户端开发者、运维人员、IT人员或者APP的普通用户。

  2. 不要假设用户了解服务实现的细节或熟悉错误上下文(例如日志分析)。

  3. 如果可能,应构建错误消息,以便技术用户(但不一定是API的开发人员)可以对错误进行响应并更正。

  4. 保持错误信息简短。如果需要,提供链接以便用户能够提出问题或获取更多信息。



错误码的设计应当直接解答核心问题:错误码的设计首要明确指出哪里出了问题(系统),其次细化到系统内部具体的模块或功能点。 这种精细化的信息有助于快速定位和解决问题。



三、错误码设计原则

错误码的设计原则:快速追踪溯源、简单、描述清晰。

1.快速追踪溯源: 一个好的错误码应该使开发者和运维人员能够迅速识别错误的根源(比如APP看到用户提示错误信息,见名思意即可快速定位是ABCDEF哪个系统的什么问题),避免在不同系统或文档之间来回查找。

2.简单清晰易记: 有效的错误码设计需要考虑其可读性和可比性,错误码应该有一个清晰的结构和逻辑,方便在代码中进行比较和处理。

3.信息描述清晰: 很多错误码message描述连团队内同事都看不懂,何况调用你API的开发人员呢,所以要把message描述的清晰明了。

这些设计原则有助于构建一个高效、可靠且易于使用的错误码。通过遵循这些原则,可以确保错误码在实际应用中发挥出最大的价值。

四、API-错误码设计

在服务器接口设计中,定义接口错误码是至关重要的一环。通常,服务端会设定一系列的错误码,以便于指导接口调用者或用户采取恰当的操作。这些错误码可能涉及诸如参数非法、配置出错、内部异常等多种情况,为用户提供明确的反馈。

1)Response响应

在Response响应方面,我们的 API 将返回一个结构化的 JSON 对象,该对象包含以下三个关键属性:

1.code(状态码): 这是一个标准化的数字代码,用于表明请求的处理结果。每个状态码都对应一个特定的情况,使得客户端可以快速识别请求的状态。

2.message(状态码描述): 该字段提供了一个简短且清晰的描述,解释了状态码的含义。这将帮助客户端了解请求成功与否,如果出现问题,它将提供足够的信息以指导进一步的行动。

3.data(响应数据): 这是实际的响应内容,包含了请求成功时所需的数据。这个数据对象的结构将根据具体的 API 调用而有所不同,但它总是以一种易于客户端解析和使用的格式提供。

字段 类型 描述
code String 业务状态码
message String 错误码描述,需要描述清晰明了
data Object 封装对象

案例如下:

public class PromiseResponse<T> {
    /**
     * 错误编码
     */
    private String code;

    /**
     * 提示信息
     */
    private String message;

    /**
     * 业务数据
     */
    private T data;
{
  "code": 200,
  "message": "成功",
  "data": {
    "transferTime": "Mon Jul 29 00:01:00 CST 2024",
    "endOrderTime": "Mon Jul 29 18:00:00 CST 2024",
    "outStoreTime": "Tue Jul 30 00:00:00 CST 2024",
    "jitEndDate": "Tue Jul 30 00:00:00 CST 2024",
    "storeDeliveryHandoverTime": "Tue Jul 30 01:00:00 CST 2024",
    "deliveryTime": "Thu Aug 01 22:00:00 CST 2024",
    "routeProductionResult": {
      "ruleType": null,
      "ruleName": null
    },
    "promiseControlResult": {
      "controlResultCode": 2,
      "suspendReasonCode": 0,
      "suspendReason": null,
      "abnormalLink": 0,
      "abnormalLinkName": null,
      "abnormalReason": null
    }
  }
}

2)错误重试

当发生可以重试的错误码时客户端应该以指数级增长的间隔来重试请求。除非文档中进行了说明。对于其他错误,重试操作可能并不可行,请先确保请求是幂等的并查看错误消息以获得指引。

3)错误传播

如果 API 服务依赖于其他服务,则不应盲目地将这些服务中的错误传播给客户端。翻译错误时,有如下建议:

•错误码转换,比如下游返回错误码A,需要转换你对外的错误码B

•错误码描述可追加下游错误码描述信息,让链路错误码描述清晰可见

•最终对用户肯定是需要隐藏下游实现细节和机密信息,让用户体验良好的错误提示信息

4)❌不合理案例

不合理的API错误码,不合理地方如下: 1、错误码无规则: 比较混乱。比如错误码一会1,一会-50,-1等,没有规则 2、错误码过细: 错误码定义过细过多、过度随意,将会导致调用方对错误处理的逻辑复杂,无法很好的对错误码进行转义或收敛。。比如入参错误定义了N个错误码,其实定义一个入参错误码即可,错误码描述可以描述具体的错误码信息。 3、错误码描述不清晰:一堆英文,他人看不懂 浅谈API错误码设计

5)✅****行业案例

业界错误码的规范很多,但是这些规范各不相同,甚至很多点相悖(比如Google****紧密依赖于HTTP状态码

5.1)京东云错误码

浅谈API错误码设计

浅谈API错误码设计

5.2)谷歌 API 错误码定义

谷歌API的错误码设计紧密依赖于HTTP状态码,采用全数字的错误码定义方式。然而,这种设计缺乏明确的错误分类体系,导致其快速识别和自解释能力相对较弱。

浅谈API错误码设计

五、错误码传递

1)现在场景链路错误码信息

现有应用基本都是没有错误码传递功能,比如下图 Y应用出现故障,需要排查对应的依赖服务ABC,服务B返回的是服务B自定义的错误码B,但通过B是无法快速定位故障应用是C2。服务B经过各种排查,最终定位是服务B2的问题,服务B2通过错误码B2也无法快速定位是故障应用C2,继续每个应用排查,最终定位是服务C2错误。

 浅谈API错误码设计

2)错误码传递(转换)

接收下层模块发来的错误码A,错误码A是当下层模块有故障分支时生成的;然后将自身生成的错误码B和所接收到的错误码A合成错误码AB,将错误码AB传递给上层模块。



接收单元,用于接收下层模块发来的错误码A,错误码A是当下层模块有故障分支时生成的;

合成单元,用于将自身生成的错误码B和所接收到的错误码A合成错误码AB;

发送单元,用于将所述错误码AB传递给上层模块。



错误码在传递的过程中携带各层模块的故障分支信息,这样,根据错误码就可以确定错误码的传递路径,以便精确的定位故障错误原因,提高可维护性。



团队日常咨询案例 错误码设计---未传播错误码 案例:冷链外单无妥投时间,目前链路是A---->B---->C系统。但错误码是各自封装,没有把根本原因传播出去,而是各自加工,导致最终看到的原因跟真实的原因千差万别。 导致整个链路牵扯 业务方--->A研发---->B研发---->C研发---->C业务同事 总共5个环节,如下图:

浅谈API错误码设计

具体咨询链路如下 1、业务联系A系统开发,告知系统异常提示如下



2、联系B系统小蜜,小蜜根据订单查询调用纯配接口出入参查询日志:



3、B系统联系C系统研发,周知出入参 4、C同事联系 C业务,告知路线没配,信息如下:{"code":0,"data":[],"message":"派送范围维护->未查找到配置数据XXXXX","tid":44845519852540539}

现状:整个链路牵扯ABCD系统研发业务,沟通成本大(技术&业务),效率低



改进方案:✅错误码信息--传播错误码信息 推动错误码封装,错误信息传递功能,让最终A系统用户清晰明了根本原因(D系统)是什么。减少ABCD中间过程,A直接联系D,直接可见即所得。 1、如果api在翻译错误时,需要把底层根本原因返回上去,比如上面案例,把没有妥投日期的根本原因【派送范围维护->未查找到配置数据XXXX","tid":44845519852540539】周知 2、改造后链路 A业务方---->C业务同事 总共2个环节(改造前5个环节),因为界面提示错误信息,所见即所得,减少了中间环节。提升了业务效率,减少了研发内部中间环节的排查成本。

浅谈API错误码设计



六、【探讨章节】全链路错误码系统设计

前面介绍了API的错误码设计及错误码传递,本章节探讨全链路错误码如何串联起来,不一定对,只是个人的思考,并且实践起来也是比较困难的不太现实



1)痛点:全链路排查问题慢

在京东复杂的系统架构中,故障诊断往往像是在迷宫中寻路。想象一下,一个由多达20+个相互依赖的系统组成的服务链路,从入口到底层的第N个服务,每个系统都是潜在的故障点。当前,一旦系统出现问题,都是上游拉群,定位问题拉下游N个系统,线上语音讨论是哪个出现的问题故障导致的,整个流程可能需要耗费长达1-2个小时甚至更长时间才能追踪到问题实际出现在M系统上。这个过程不仅耗时,而且效率低下。

现状故障处理流程:

浅谈API错误码设计

现有系统交互图如下:

浅谈API错误码设计



在这种复杂系统架构中,目前故障诊断的技术面临多个挑战和缺点,主要包括:

1、时间消耗长、效率低下:当系统出现问题时,故障诊断需要逐个检查各个系统,需要长时间才能定位到问题所在的系统,这直接影响了故障恢复时间和系统的整体可用性。

2、复杂性管理不足:在多个相互依赖的系统中,即使是小问题也可能迅速演变成复杂问题,现有的技术似乎没有很好地管理这种复杂性。

3、信息孤岛:系统间可能存在信息隔离,导致故障信息不能快速传递,增加了诊断时间。

4、依赖专业知识:可能过度依赖工程师的专业知识和经验进行故障排查,这不仅效率低,而且不利于知识传承和团队协作。

5、缺乏自动化:听起来这个过程很大程度上依赖于手动操作,缺乏自动化工具来快速识别和定位大概是哪个系统的问题。





API中如何设计一个号的错误码,链路调用错误码如何传递,线上故障如何通过错误码快速定位链路某个系统或者某个功能问题点

2)设计思想

如下图:如果服务C2有故障,则通过全链路traceId可快速查看Y的故障对应的错误码,根据错误码定位是因为C2应用故障导致的。

浅谈API错误码设计

日志错误码架构思路如下:

参考【京东基础技术统一平台XXX系统】--》【业务监控】每个应用无需接入错误码Agent,错误码Agent其实就是日志采集。跟业务监控一样,你只需要把你应用的业务指标错误信息打印到日志中即可,比如服务ABCDEF链路都打印日志,相关的应用logbook接入TOPIC-1,则通过TOPIC-1可拿到整个链路traceId以及每个应用的错误码信息(如果有)。





日志格式:traceId|应用错误码|错误码信息描述

1677474.49460.17235995037011944.3460091.193151.9140|WMS_10001|调用Promise(系统B)系统异常,缺少预计妥投时间



1677474.49460.17235995037011944.3460091.193151.9140|PROMIES_10002|Promise调用路由系统(系统C)异常,缺少预计妥投时间



1677474.49460.17235995037011944.3460091.193151.9140|ROUTE_20003|派送范围维护->未查找到配置数据,请排查派送范围维护,派送地址:四川-达州市-宣汉县-龙泉土家族乡,产品:生鲜特殊次晨,生鲜特惠次晨,生鲜标快



这样通traceId(17235995037011944.3460091.193151.9140)可拿到链路中的AB(B1,B2,B3)C系统的错误码,其中B1/B2/B3等系统无错误,则可不打错误码。



具体系统设计图如下:

浅谈API错误码设计

1)在应用程序中,使用日志打印功能记录接口对应的错误码及其详细信息,确保每次接口调用出现错误时都能捕获到相关数据。

2)错误码Agent会从日志中收集这些错误码信息,并将其发送到消息队列中,以便后续的处理和分析。

3)消费消息队列中的错误码信息,进行深入的数据分析,包括但不限于错误码的频率、分布和趋势等。

4)根据traceId,追踪并收集整个链路的数据,并将其存储到MySQL或Elasticsearch等数据库中,以便进行全链路的错误码信息查询和分析。

5)在应用程序的界面上,用户可以通过输入对应的traceId来查询整个链路的错误码信息,方便快速定位问题。

6)系统会自动对错误码信息进行实时的数据分析和趋势预测,帮助团队及时发现和解决潜在的故障。

7)如果错误码信息被识别为异常或高优先级事件,系统将自动触发报警服务,通过多种方式(如咚咚、电子邮件、京Me等)通知相关干系人。对于紧急情况,系统还可以通过电话等方式直接联系一线人员,确保问题得到及时处理。



3)挑战性:链路改造范围广

全链路错误码系统设计需要对现有系统进行大范围改造,确保每个系统都能记录和传递错误码。这不仅涉及大量的开发工作,还需要跨团队的协调和配合。此外,系统之间的日志格式和错误码标准需要统一,确保数据的可追溯性和一致性。



七、总结

设计一个好的API错误码是一个具有挑战性的任务,但它对于提高系统的可维护性和用户体验至关重要。本文抛砖引玉,希望提供的思路和实践能够帮助你在设计API错误码时更加得心应手。

如本文里面信息不对请指正,如有更好的知识点,欢迎评论交流完善补充。谢谢!

参考文献:

1、京东云错误码:https://docs.jdcloud.com/cn/face-compare/api/error-code

2、Google错误码:https://cloud.google.com/apis/design/errors?hl=zh-cn

点赞
收藏
评论区
推荐文章
一站式统一返回值封装、异常处理、异常错误码解决方案—最强的Sping Boot接口优雅响应处理器 | 京东云技术团队
GracefulResponse是一个SpringBoot体系下的优雅响应处理器,提供一站式统一返回值封装、异常处理、异常错误码等功能。使用GracefulResponse进行web接口开发不仅可以节省大量的时间,还可以提高代码质量,使代码逻辑更清晰。
Wesley13 Wesley13
3年前
HTTP,FTP,SMTP错误码
HTTP100Continue继续101SwitchingProtocols切换协议200OK正常201Created已创建202Accepted已接受203NonAuthoritativeInformation非权威性信息204NoContent无内容
Stella981 Stella981
3年前
Spring Boot validator参数验证restful自定义错误码响应
关于springweb应用中关于如何使用 Bean _Validation_ _API_和hibernatevalidator的文章已经很多,本文就不再重复叙述,今天要介绍的重点是在SpringBootrestful服务中如何根据不同验证错误响应不同的自定义错误码。下面直接上代码。一、定义restful统一结果返回
Stella981 Stella981
3年前
Nginx HTTP 413 Request Entity Too Large
nginx做代理上传文件时返回HTTP413错误码,提示信息如下:413RequestEntityTooLargeTherequestedresourcedoesnotallowrequestdatawiththerequestedmethodortheamountofdataprovide
Stella981 Stella981
3年前
Linux标准错误码(全)
Errors:LinuxSystemErrorsWhensystemrequestsfail,errorcodearereturned.Tounderstandthenatureoftheerrorthesecodesneedtobeinterpreted.Theyarerecorded
Wesley13 Wesley13
3年前
oracle存储过程迁移达梦心得
这几天把项目的存储过程从oracle迁移到了达梦8,记录一下心得。国产数据库做到这样,已经算很了不起了,跟oracle兼容性确实很高。但还是有一些细节没做好,主要是出错提示不友好,另外一个网上的资料也很少,出问题不好定位。(达梦的错误码比较简单,就是一个负数,不像oracle是ora错误码,在百度时输入一个负数搜索信息,跟一长串错误码搜索效率差很远)
京东云开发者 京东云开发者
11个月前
让错误码规范起来吧
一、前言1、不规范的错误码有什么问题?1)理解困难描述:如果错误码的命名或描述不清晰,可能导致其他开发人员难以理解其含义。举例:例如,一个错误码命名为“ERR1001”,没有进一步的注释或描述,可能导致其他开发人员不知道这个错误码代表的具体问题。2)不一致
融云IM即时通讯 融云IM即时通讯
1个月前
融云IM干货丨IM服务消息推送,推送通知失败时,SDK日志能提供哪些额外信息?
推送通知失败时,SDK日志可以提供以下额外信息帮助诊断问题:错误码和错误描述:SDK可能会返回具体的错误码和对应的错误描述,这些信息可以帮助开发者快速定位问题。例如,腾讯云推送服务的错误码列表中包含了各种错误码及其含义,如1008006表示Token无效,
融云IM即时通讯 融云IM即时通讯
1个月前
融云IM干货丨IM服务消息推送,如何解读SDK日志中的错误码?
解读SDK日志中的错误码通常涉及以下几个步骤:识别错误代码(ErrorCode):错误代码是标识错误类型的数字或字符串。它通常与API返回的错误代码一致,如果是SDK网络请求错误,则错误代码可能是特定的,比如“RequestError”。查看错误消息(Er
融云IM即时通讯 融云IM即时通讯
1个月前
融云IM干货丨IM服务,在开发过程中,如何自动化处理SDK日志中的错误码
在开发过程中,自动化处理SDK日志中的错误码可以通过以下几个步骤实现:错误码解析:利用SDK提供的错误码对照表,将错误码映射到具体的错误信息和解决方案。例如,阿里云日志服务提供了详细的错误码对照表及对应的解决方法。异常捕获与处理:SDK通常会抛出异常来处理