自然语言,是指汉语、英语、法语等人们日常使用的语言,是人类发展过程中形成的一种信息交流的方式,也是人类学习生活的重要工具。在整个人类历史上,以语言文字形式记载和流传的知识占到知识总量的80%以上。
而自然语言处理(Natural Language Processing,简写NLP),则是利用计算机实现自然语言数据的智能化处理与分析,包括听、说、读、写、译等人类具备的语言能力,最终返回用户所期望的结果。它属于人工智能的一个分支,是计算机科学与语言学的交叉学科,又常被称为计算语言学。
从研究内容来看,自然语言处理包括语法分析、语义分析、篇章理解等。从应用角度来看,自然语言处理具有广泛的应用前景。特别是在信息时代,自然语言处理的应用包罗万象,例如:机器翻译、手写体和印刷体字符识别、语音识别及文语转换、信息检索、信息抽取与过滤、文本分类与聚类、舆情分析和观点挖掘等数据处理任务。
自然语言处理的传统应用研究也在不断延伸,细分领域更为庞大,并主要围绕自然语言理解(NLU)和自然语言生成(NLG)展开:
自然语言理解:让机器具有人的理解能力,对人类的自然语言进行表示、转换、计算,产生计算机可以理解和处理的形式,更侧重于如何理解文本,对应任务包括文本分类、命名实体识别、指代消歧、句法分析、机器阅读理解等。
自然语言生成:将计算机产生的结果转化为人类可以读懂的自然语言的过程,即理解文本后生成自然文本,涉及应用包括自动摘要、机器翻译、问答系统、对话机器人等。
目前,人们主要通过两种思路来进行自然语言处理,一种是基于规则的理性主义,另外一种是基于统计的经验主义。理性主义方法,就是聘请一批语言专家,用他们对语言的构成的知识来让计算机理解人类语言。而经验主义方法,则是让人工智能,在对大量数据的自主学习之下,慢慢模仿人类,并学习人类语言。
因此只要能够有足够多的语言数据,就能够理解人类语言。然而,当面对现实世界充满模糊与不确定性时,这两种方法都面临着各自无法解决的问题。例如,人类语言虽然有一定的规则,但是在真实使用中往往伴随大量的噪音和不规范性。我们平常说话并非一定会严格按照语法规范要求的主谓宾结构,很多年前就有这么一句广告:无兄弟,不篮球。那么用常规的语法结构就无法对这句广告进行分析。所以,理性主义方法的一大弱点就是鲁棒性差,只要与规则稍有偏离便无法处理。
而对于经验主义方法而言,又不能无限地获取语言数据进行统计学习,因此也不能够完美地理解人类语言。二十世纪八十年代以来的趋势就是,基于语言规则的理性主义方法不断受到质疑,大规模语言数据处理成为目前和未来一段时期内自然语言处理的主要研究目标。统计学习方法越来越受到重视,自然语言处理中越来越多地使用机器自动学习的方法来获取语言知识。
数据堂历经十余年,依靠自身技术优势,已设计制作了约20亿条自然语言处理数据集,包含多种场景的意图理解、实体关系、对话文本等数据集,数据质量经由全球AI头部企业考验。
超过20万组中文医疗场景下多轮问答数据,每组对话记录了患者和医生的对话过程,包括疾病类别和问答过程。
超过83万组的中文多轮对话文本数据,每组包含两个人之间的多轮对话,真实用户在手机端的交互类文本数据,数据本身已进行脱敏处理,消除了用户隐私信息。
中文交互场景单句意图标注数据涵盖电话、导航、翻译、附属意图、闹钟、拍照、日程、设置、视频、提醒、天气、信息、页面控制、音乐、应用等15个领域的意图标注数据。
英文单句意图标注数据涵盖电话、导航、翻译、附属意图、闹钟、拍照、日程、设置、视频、提醒、天气、信息、页面控制、音乐、应用、语音助手等16个领域的意图标注数据。
涵盖出行、乘车、乘飞机、叫车、租车、行程购票、订机票、改签机票、订火车票、改签火车票、订宾馆、看电影、查询电影、定电影票、看综艺、看演唱会、查询地点位置、联系、打电话、发消息、寄快递、取快递、查询快递、充话费、充流量、开会、送人、接人、订餐馆、吃美食、看动漫等60个领域的意图标注数据。
除此之外,数据堂还提供文本数据的定制服务以及文本数据标注平台服务。文本数据定制服务可支持采集多语言、多领域的文本数据,并可根据不同的业务目标对不同类型的文本数据进行实体关系、情感分析、主题分类、意图、问答标注等任务。
文本数据标注平台覆盖实体、实体关系、阅读理解、交互意图、文本属性、文档属性、文本问答等标注工具,每一个按钮都是数据堂根据多年标注实战经验打造而成。
欢迎各界人士访问数据堂的网站,了解我们的数据服务和解决方案,作为全球领先的人工智能的数据服务商,数据堂会持续制作新的对话语义训练数据集,为人工智能模型尽一份力,如果您对自然语言理解数据集有需求,欢迎联系数据堂,我们将竭诚为您服务。