【技术人必看】INTERSPEECH2025-MLC-SLM挑战赛:1500小时多语种语音数据集+双任务赛制,全面解锁语音AI新边界!

数据堂
• 阅读 67

大语言模型(LLMs)作为语言理解与生成的基础技术,其应用已扩展至语音处理领域,如语音识别、对话系统等新兴方向。然而,构建基于LLMs的语音对话系统面临核心挑战:真实多语种对话数据的稀缺性。这类数据需涵盖自然停顿、说话者重叠等复杂交互场景,对提升AI系统的多语种理解能力和长上下文处理能力至关重要,直接影响下一代人机交互的自然度与准确性。为推动这一研究发展,由数据堂主办,中国移动、Meta、Google、 Samsung、NAVER联合赞助的INTERSPEECH2025多语种对话语音语言模型(MLC-SLM)研讨会正式对外发布,本次研讨会将通过发布多语种对话语音数据集并举办MLC-SLM挑战赛,推动该领域的技术突破。

一、核心亮点

1. 双赛道任务,均要求参赛者探索基于 LLM 的语音模型的开发:

(1) 任务I:多语种对话语音识别

①目标:开发基于 LLM 的多语种 ASR 模型。 ②参赛者将获得每段对话的真实时间戳标注及说话者标签用于切分语音片段。 ③该任务的重点是优化多语种对话环境下的语音识别准确率。

(2) 任务II:多语种对话语音日志与识别

①目标:开发一个同时进行说话者日志(即识别谁在何时说话),又能进行语音识别(将语音转换为文本)的系统。 ②评估过程中不提供任何先验信息,如真实时间戳标注、预先切分的语音片段、说话者标签等
③该任务可以使用基于级联系统或端到端系统的方法。

对于任务 I,系统性能将基于不同语言的词错误率(WER)或字符错误率(CER)进行评估。 对于任务 II,性能将基于说话人日志错误率(DER)以及连接最小排列词错误率(cpWER)或字符错误率(cpCER)进行评估。DER用于确定在参考标注和日志结果之间的最佳说话人排列。然后,将同一说话人识别结果和参考进行连接,以计算cpWER或cpCER。所有提交将根据cpWER或cpCER进行排名。

2. 多语种对话语音数据集

11种语言:英语(细分美/英/澳/印/菲口音)、法、德、日、韩等,总时长1500小时。

(1) 数据特性:

①自然对话场景:每段录音均由两位说话者就随机分配的主题进行有意义的对话,需提供真实时间戳标注和说话者标签。
②高精度标注:日、韩语标注词准确率95%+,其他语言98%。
③多设备录制:使用iPhone等设备并于安静的室内环境采集,采样率16kHz。

(2) 数据集结构:

①训练集:英语500小时(分5种口音)+其他语言各100小时,任务I/II共享。
②开发集:每语种约4小时,任务I/II共享。
③评估集:每个任务使用不同的评估集,分别指定为 Eval_1 和 Eval_2。具体来说,Eval_1 包括真实时间戳标注和说话者标签,使用 WER/CER 进行评估。Eval_2 不提供时间戳或说话者标签,因此需要使用说话者日志系统在识别之前对较长的录音进行分段。

参与者可以通过签署数据使用协议并提交至报名表单来访问数据集(具体详情可前往数据堂官网或公众号-DatatangBJ 查看)。提交后,数据下载链接将发送到您的电子邮件。【技术人必看】INTERSPEECH2025-MLC-SLM挑战赛:1500小时多语种语音数据集+双任务赛制,全面解锁语音AI新边界!

3.学界与产业界双重背书

  • 组委会:冯俊兰(IEEE Fellow及首席科学家/中国移动)、Eng-Siong Chng(教授/南洋理工大学)、Shinji Watanabe(副教授/卡内基梅隆大学)、Khalid Choukri(秘书长/欧洲语言资源协会)等全球顶尖专家领衔。
  • 赞助商:中国移动、Meta、 Google、 Samsung、 Naver、数据堂

二、参赛价值

  • 奖金池20,000美金:单任务前三名分别获5,000/3,000/2,000美金。
  • 论文发表机会:优秀成果可入选INTERSPEECH研讨会,与顶级学者同台交流(参考下文“其他主题”)。
  • 技术自由度:允许使用外部数据集与预训练模型(需公开声明),支持数据增强。

注:参加研讨会的注册费 · 非会员注册费:60欧元 · 非会员学生注册费:45欧元 · ISCA会员注册费:50欧元 · ISCA学生会员注册费:35欧元

三、关键日程(AOT时间)

2025 年 3 月 10 日:注册开放 2025 年 3 月 15 日:训练数据发布 2025 年 4 月 1 日:开发集和基线系统发布 2025 年 5 月 15 日:评估集发布及 Leaderboard开放 2025 年 5 月 30 日:Leaderboard冻结,论文提交系统(CMT)开放 2025 年 6 月 15 日:论文提交截止 2025 年 7 月 1 日:论文录用通知 2025 年 8 月 18 日:荷兰鹿特丹研讨会(鹿特丹阿霍伊会议中心)

四、参赛必读

所有参与者必须遵守以下规则:

  • 外部资源使用:对于任务I 和 任务II,允许使用外部数据集和预训练模型(包括语音基础模型和大语言模型)。所有使用的外部资源必须是公开可获取的,并且在最终系统报告中应明确标明。
  • 数据增强:允许在发布的训练集上进行数据增强,可能包括但不限于添加噪声或混响、速度扰动和音调修改。
  • 禁止使用评估集:严禁以任何形式使用评估集。这包括但不限于使用评估集进行微调或训练模型。
  • 多系统融合:参与者不得在任务I和任务II中使用系统融合。提交的结果必须来自单个模型,而不是通过结果融合得出。
  • 提交要求:所有参赛者必须提交其系统。提交内容包括最终识别结果、模型以及能够直接进行推理并获得最终结果的Docker容器等文件。详细的提交说明将在基线系统发布后提供。请注意,我们将公开那些确认参与但未提交任何文件的团队及其所属机构的名称。
  • 主办方解释权:主办方对本规则拥有最终解释权,特殊情况由主办方酌情协调解释。

五、其他主题

除了挑战系统内容外,还鼓励参与者提交创新发和前瞻性研究论文。主题包括但不限于:

  • 新颖的架构和算法:开发用于训练语音语言模型的新架构和算法。
  • 音频数据处理管线:创新音频数据处理流程,促进多样化互联网数据的收集,以便训练语音语言模型。
  • 自然且情感丰富的语音生成:设计用于生成更加自然且富有情感表达的对话语音的算法,提升对话系统的表现。
  • 利用多轮对话历史:利用多轮对话历史来增强识别和分离结果的技术
  • 评估技术和基准:评估语音语言模型的创新评估技术或基准。
  • 新数据集:创建用于训练语音和音频语言模型的新数据集,包括真实数据和合成数据。

六、立即参与

注册通道:参与者需进行注册。请上传已签署的数据使用协议并填写注册表单(谷歌表单)【需挂VPN方可点击注册】,挑战赛将于2025年3月10日开始。

如需了解其他与注册相关的信息,请发送邮件至:mlc-slmw@nexdata.ai

数据协议:已注册的参与者将有权访问训练和测试数据集。他们必须签署数据使用协议(见下文)、同意保密并遵守数据保护协议。数据集仅用于本次研讨会竞赛,严禁重新分发或任何其他用途。参与者有责任保护数据免受未经授权的访问。

数据许可协议:Data use agreement- nexdata【点击下载】

七、结语

真实对话语音数据不仅对于技术进步至关重要,还在构建能够理解多语种和长上下文内容的人工智能系统方面发挥关键作用。本次研讨会通过发布高质量的多语种对话语音数据集,并举办MLC-SLM挑战赛,旨在为全球研究者和开发者提供一个开放的平台,促进该方向的研究。未来,随着更多创新技术的涌现,基于LLMs的语音对话系统将更加智能、贴近人类交流方式,为全球用户提供无缝的多语言沟通体验。让我们携手共进,开启人机交互的新篇章!

点赞
收藏
评论区
推荐文章
数据堂 数据堂
1年前
自然对话语音数据:人机交互的新纪元与挑战
自然对话语音数据是指以自然语言进行交流的语音数据,它代表着人机交互技术的巨大进步。随着人工智能和语音识别技术的飞速发展,我们正逐渐迈入一个可以通过声音与计算机进行自然对话的新时代。本文将深入探讨自然对话语音数据的重要性,技术原理以及面临的挑战,同时也展望其
数据堂 数据堂
1年前
语音数据集:为AI注入听觉的力量
一、引言在人工智能的多元领域中,语音技术占据了举足轻重的地位。而语音数据集则为其提供了成长与进步的养料。本文将深入探讨语音数据集的重要性、种类、挑战以及未来趋势。二、语音数据集的重要性提供丰富的语言信息:语音数据集包含了各种语言、口音和语速,为模型提供了丰
数据堂 数据堂
1年前
语音数据集:AI语音技术的基石
一、引言在人工智能领域,语音技术正逐渐成为研究的热点之一。语音数据集作为AI语音技术的基石,对于模型的训练和应用至关重要。本文将深入探讨语音数据集的重要性、构建方法、挑战以及未来的发展趋势。二、语音数据集的重要性语音识别:语音数据集是实现语音识别的关键。通
数据堂 数据堂
1年前
语音数据集:推动AI语音技术的核心力量
一、引言随着人工智能的快速发展,语音技术作为人机交互的重要手段,正发挥着越来越重要的作用。而语音数据集则是推动AI语音技术的核心力量。本文将详细介绍语音数据集的重要性、构建方法、面临的挑战以及未来的发展趋势。二、语音数据集的重要性提高语音识别和生成能力:语
数据堂 数据堂
1年前
语音数据集:AI语音技术的灵魂
一、引言在人工智能领域,语音技术被誉为“未来人机交互的入口”,而语音数据集则是AI语音技术的灵魂。本文将深入探讨语音数据集的重要性、构建方法、面临的挑战以及未来的发展趋势。二、语音数据集的重要性提升语音识别和生成能力:语音数据集为AI模型提供了丰富的语音样
数据堂 数据堂
1年前
语音数据集在人工智能中的应用与挑战
一、引言随着人工智能技术的快速发展,语音数据集在各种应用中发挥着越来越重要的作用。语音数据集是AI语音技术的基石,对于语音识别、语音合成、语音情感分析等任务具有重要意义。本文将详细介绍语音数据集在人工智能中的应用、面临的挑战以及未来的发展趋势。二、语音数据
数据堂 数据堂
1年前
语音数据集在智能语音助手中的应用与挑战
一、引言随着智能设备的普及和人工智能技术的不断发展,智能语音助手已经成为人们日常生活中不可或缺的一部分。语音数据集在智能语音助手中发挥着重要作用,它提供了丰富的语音样本,帮助训练出更准确的语音识别和语音合成模型。本文将详细介绍语音数据集在智能语音助手中的应
数据堂 数据堂
1年前
语音数据集:智能语音技术的基石与挑战
随着人工智能技术的飞速发展,语音技术已成为人机交互领域的重要突破口。语音数据集作为支撑语音技术研发的核心资源,对于提高语音识别、合成及自然语言处理等技术的性能具有至关重要的作用。本文将对语音数据集的发展历程、应用领域及面临的挑战进行探讨。一、语音数据集的发
数据堂 数据堂
1年前
语音数据集:推动智能语音技术发展的关键驱动力
随着人工智能技术的不断进步,智能语音技术已经成为我们日常生活中不可或缺的一部分。语音数据集作为智能语音技术的核心,对于推动其发展起到了至关重要的作用。本文将探讨语音数据集的重要性、应用、挑战以及未来发展方向。一、语音数据集的重要性语音数据集是智能语音技术的
数据堂 数据堂
1年前
语音数据集:开启智能语音技术的新篇章
随着人工智能技术的飞速发展,语音数据集在推动智能语音技术的进步中发挥着越来越重要的作用。语音数据集是训练和优化语音识别、语音合成等智能语音技术的关键资源,对于提高语音技术的准确性和自然度具有重要意义。一、语音数据集的重要性语音数据集是智能语音技术的基石。通
数据堂
数据堂
Lv1
数据堂(北京)科技股份有限公司,成立于2011年(股票代码:831428),专业的人工智能数据服务提供商,致力于为全球人工智能企业提供数据获取、处理及数据产品服务。 数据堂自主研发的基于“Human-in-the-loop人在回路”人机交互参与的人工智能数据加工平台,在实际的数据处理过程中,极大提高了数据生产效率,已实现人工智能数据的规模化生产,摒弃以往的纯手工作业模式。
文章
164
粉丝
1
获赞
2