数字经济时代到来,深度学习技术推动人工智能进入到大规模应用阶段,对于大数据与算力的强依赖限制其快速发展。2022年底由OpenAI推出的ChatGPT迅速在社交媒体上走红,成为AI领域最炙手可热的话题,掀起了新一轮的人工智能浪潮。
ChatGPT本质上是一个基于大规模自然语言预训练的人工智能语言模型,自然语言理解(Natural Language Understanding, NLU)是所有支持机器理解文本内容的方法模型或任务的总称。NLU在文本信息处理处理系统中扮演着非常重要的角色,是推荐、问答、搜索等系统的必备模块。它会通过连接大量的语料库来被训练用于自然语言生成、对话系统、语言翻译、问题回答和文本摘要等任务,能够以非常接近自然语言的方式与人类交互。想完成如ChatGPT甚至更高级的人机交互,背后需要对海量数据处理分析及训练。
数十年来数据堂凭借自身优势,针对对话语义方面已设计制作了大量覆盖多领域的多轮对话文本训练数据集,以下为数据堂相关文本数据集:
医疗类多轮问答数据 超过20万组中文医疗场景下多轮问答数据,每组对话记录了患者和医生的对话过程,包括疾病类别和问答过程。
多轮对话文本数据 超过83万组的中文多轮对话文本数据,每组包含两个人之间的多轮对话,真实用户在手机端的交互类文本数据,数据本身已进行脱敏处理,消除了用户隐私信息。
交互场景单句意图标注数据 中文交互场景单句意图标注数据涵盖电话、导航、翻译、附属意图、闹钟、拍照、日程、设置、视频、提醒、天气、信息、页面控制、音乐、应用等15个领域的意图标注数据。
交互场景英文单句意图标注数据 英文单句意图标注数据涵盖电话、导航、翻译、附属意图、闹钟、拍照、日程、设置、视频、提醒、天气、信息、页面控制、音乐、应用、语音助手等16个领域的意图标注数据。
开放领域意图标注数据 涵盖出行、乘车、乘飞机、叫车、租车、行程购票、订机票、改签机票、订火车票、改签火车票、订宾馆、看电影、查询电影、定电影票、看综艺、看演唱会、查询地点位置、联系、打电话、发消息、寄快递、取快递、查询快递、充话费、充流量、开会、送人、接人、订餐馆、吃美食、看动漫等60个领域的意图标注数据。
除此之外,数据堂还提供文本数据的定制服务以及文本数据标注平台服务。文本数据定制服务可支持采集多语言、多领域的对话文本数据,并可根据不同的业务目标对不同类型的文本数据进行情感分析、主题分类、问答标注等任务。文本数据标注平台覆盖实体、实体关系、阅读理解、交互意图、文本属性、文档属性、文本问答等标注工具,是数据堂根据多年标注实施经验打造而成,每一个按钮都经过多次实战考验,致力将操作体验优化到极致。作为全球领先的人工智能的数据服务商,数据堂会持续制作新的对话语义训练数据集,为人工智能模型尽一份力。
欢迎各界人士访问数据堂的网站,了解我们的数据服务和解决方案,如果您对自然语言理解数据集有需求,欢迎联系数据堂,我们将竭诚为您服务。