5秒克隆语音,我也能用周杰伦的声音唱歌了

Wesley13
• 阅读 1340

5秒克隆语音,我也能用周杰伦的声音唱歌了

Hi!大家好呀!我是你们努力的喵哥!

很多同学都对变声成为别人的声音比较感兴趣。毕竟,声音可是人的重要特征。而且,在没有重大的身体特征变化情况,声音的特征都会跟随我们一辈子。

换个声音,通常会有新的体验。通过变声,突然间给朋友个惊喜,感觉应该很不错的。

是的,说的就是柯南那种效果!

5秒克隆语音,我也能用周杰伦的声音唱歌了

变声也是现在恶搞最常用的方式之一。在短视频大行其道的今天,网上可以找到各式各样的恶搞视频。一些变声视频,娱乐效果满满。看游戏直播的同学,应该对这个场景并不陌生吧。萌萌的萝莉,屏幕后的抠脚大汉。乔碧萝?

5秒克隆语音,我也能用周杰伦的声音唱歌了

如果你是短视频作者,肯定也少不了这个主题。很多短视频 App 也会带有变声的玩法。

如果,那些语音助手 App 也能实现任意切换成任何人的语音,甚至能使用自己语音作为语音助手的声音,是不是非常酷?想想每天早上叫你起床的是你的某个女神的声音!是不是一天感觉都精神了很多。

最常用的变身方式是使用各类变声软件,去调节声音的各类数字特征,以输出特定风格的声音。这种方式,通常可以实现把男声转化为女声、把年轻人的声音转化为老人的声音等。所以,变声软件仅仅是声音风格的改变,很难实现模拟相同的声音。

5秒克隆语音,我也能用周杰伦的声音唱歌了

那么到这里,喵哥就又要开始推荐开源项目了。这个人工智能项目,可以实现人声的学习和模拟。比如,输入一段周杰伦的唱歌的语音,就可以模拟输出周杰伦的声音。例如,输入一段文字,以周杰伦的声音念出来。甚至,你在唱歌的时候,实时将你歌声转化为周杰伦的声音。是不是非常酷?这个开源的人工智能项目就是 Real-Time Voice Cloning。

5秒克隆语音,我也能用周杰伦的声音唱歌了

Real-Time Voice Cloning 是“Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis(SV2TTS)”论文的实现,这是一个三阶深度学习框架,允许从几秒钟的音频中创建一个数字化的语音,并使用它来调节训练的“文本转语音”模型,以推广到新的声音。此项目中带有一个实时工作的声码器。

安装和使用

1.安装要求

需要Python 3.6或3.7才能运行该工具箱。

  • 安装PyTorch(> = 1.0.1)。

  • 安装ffmpeg。

  • 运行pip install -r requirements.txt以安装其余必需的软件包。

2.下载预训练的模型

在 Wiki 的 Pretrained-models 中下载最新版本。

3.测试配置(可选)

在下载任何数据集之前,您可以先使用以下方法测试配置:

python demo_cli.py

如果所有测试都通过,那就 OK。

4.下载数据集(可选)

对于仅使用工具箱的情况,建议下载 LibriSpeech/train-clean-100。提取内容  /LibriSpeech/train-clean-100 的 是你选择的目录。

工具箱中支持其他数据集,请参见 Wiki。

您也可以不下载任何数据集,但是您将需要自己的数据作为音频文件,或者必须在工具箱中记录下来。

5.启动工具箱

然后,您可以尝试使用工具箱:

python demo_toolbox.py -d

取决于您是否下载了任何数据集。

6.启用GPU支持(可选)

注意:启用GPU支持是很多工作。如果您要训练自己的模型,则需要进行设置。

pip install -r requirements_gpu.txt

此外,您需要确保正确安装了GPU驱动程序,并且您的CUDA版本与PyTorch和Tensorflow安装相匹配。

最后

喵哥要特别友情提醒下大家,声音也是有版权的,可不要乱搞哦!特别是名人的声音!

Real-Time Voice Cloning 项目的作者是 Corentin Jemine 。该项目是去年开源在 Github 的,共有12位贡献者。Real-Time Voice Cloning 在 Github 上共收获了 18.4k Star。

Corentin Jemine 现在已经是全职在开发该项目的商业升级版本。所以,基于  Real-Time Voice Cloning 之上 Resemble.AI 提供了更好的体验。

项目地址https://github.com/CorentinJ/Real-Time-Voice-Cloning

Resemble.AIhttps://www.resemble.ai/

往期精彩内容

推荐!时间管理大师的开源选择

再见 Excel?推荐这款集成 Python 的电子表格神器

推荐!用 Python 直接画前端交互式可视化图表

Github 上一些值得推荐和阅读的开源免费书籍(三)

超赞!最好用的 Chrome 插件都在这里!

代码界的美图秀秀,分享漂亮的代码

...

关注Github喵,回复「进阶」,

领取喵哥推荐的技术进阶知识大礼包!!!

扫描二维码

获取更多内容

Github喵

5秒克隆语音,我也能用周杰伦的声音唱歌了

5秒克隆语音,我也能用周杰伦的声音唱歌了

本文分享自微信公众号 - Github喵(gh_acfcf1689379)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
Jacquelyn38 Jacquelyn38
3年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
wnm wnm
3年前
万能码的码上付全新的体验(安全扫码专业委员会)
万能码的码上付全新的体验(安全扫码专业委员会)大家里的支付宝收款提示音的那个“灵动”的声音吗?每每听到那个声音都会巴适得板,因为那是到账的声音,也许这个是源头,逐渐后面出现了许许多多的提示音,主要还是防止有顾客遗忘转账,也可能是为了防止顾客转账数额不对,因此久而久之要是没有了声音,反而会不习惯了,而码上付也拥有这样的作用。
Wesley13 Wesley13
3年前
mysql设置时区
mysql设置时区mysql\_query("SETtime\_zone'8:00'")ordie('时区设置失败,请联系管理员!');中国在东8区所以加8方法二:selectcount(user\_id)asdevice,CONVERT\_TZ(FROM\_UNIXTIME(reg\_time),'08:00','0
Stella981 Stella981
3年前
Android蓝牙连接汽车OBD设备
//设备连接public class BluetoothConnect implements Runnable {    private static final UUID CONNECT_UUID  UUID.fromString("0000110100001000800000805F9B34FB");
Wesley13 Wesley13
3年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
四儿 四儿
1年前
情感语音合成,让机器如真人一样和我们交流
在语音交互领域,语音合成是重要的一环,其技术也在不断发展。近年来,人们对情感合成的兴趣和需求越来越高。情感语音合成会让机器如真人一样和我们交流,它可以用愤怒的声音、开心的声音、悲伤的声音等不同情绪来表达,甚至是不同强度的不同情绪。而情感语音转换技术可以在保
四儿 四儿
1年前
情感语音识别:倾听声音背后的情感
声音是情感的传递者,它承载着人类丰富的情感和内心世界。情感语音识别技术的出现让我们能够更好地理解和解读声音背后的情感,为人机交互和情感智能提供了新的可能性。情感语音识别是一项基于声音分析和模式识别的技术,旨在从声音中识别和分析出人类的情感状态,如喜悦、悲伤
Python进阶者 Python进阶者
11个月前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这