在语音交互领域,语音合成是重要的一环,其技术也在不断发展。近年来,人们对情感合成的兴趣和需求越来越高。情感语音合成会让机器如真人一样和我们交流,它可以用愤怒的声音、开心的声音、悲伤的声音等不同情绪来表达,甚至是不同强度的不同情绪。
而情感语音转换技术可以在保持说话人身份和语言内容不变的前提下,将语音从一种情感状态转换为另一种情感状态。简单说就是在保持良好的目标说话人音色的同时,将情感表达从一个情感说话人适当地迁移到目标说话人。
情感语音合成技术 情感语音合成系统可以使用说话人及情感嵌入的模型方案。用情感做标签,即在原有网络基础上增加一个情感标签,这些情感的信息会通过网络得到学习。 说话人嵌入是通过神经网络来得到一个说话人向量,需要一定规模的多人数据库进行训练。 情感嵌入则需要情感数据结合说话人向量来实现情感语音合成的模型,所以需要高质量、多情感的数据。
情感语音转换技术 如跨说话人情感迁移可以利用情感和音色扰动,分别学习说话人和情感相关的语谱,为最终的语音生成提供显式的情感特征。说话人相关即保持目标说话人的音色,情感相关即捕捉源说话人的情感表达,因此需要多人多情感和多人无情感的数据来共同训练。
情感语音应用场景 虚拟形象:可以让虚拟的人物具有一定的情感表现能力。 短视频配音:可以为短视频的内容进行配音,使内容更加生动有趣。 游戏角色:可以让用户在游戏中有更好的体验。 影视动画:可以进行生动的解说。 智能客服:可以提高人机交互体验,让互动充满乐趣。
作为全球领先的人工智能的数据服务商,数据堂可以为客户提供丰富的情感语音数据,通过这些数据训练的人工智能,合成在情感和表达上更加丰富的语音,让合成的声音更加自然真实,更好的应用在不同的场景。