01_2024年最大的瓜&三只羊之卢某录音事件尘埃落定,好奇的我,边吃瓜边学会了AI克隆声音,保姆级教程


合肥警方发布通报,证实网传的录音为AI合成。那么,真相究竟是什么?作为一名AI研究员,我有自己的独到见解。不过,我会在视频的最后为大家揭晓。现在,我们先设置用AI工具模拟一下合成过程。

今天我将带大家使用阿里发布的开源项目CosyVoice,来实现录音的AI合成。 全程只需三个步骤,咱们一步步来,废话不多说,直接开干!

第一步:获取音频视频素材

素材可以从视频号、抖音等平台获取。至于如何下载视频号中的视频,我会在后续视频中为大家详细讲解。 顺便给大家介绍一下我们的频道————灵智宝盒QBOX。在这里,我们将定期分享各类开源项目和实用工具,全部免费!感兴趣的朋友,别忘了点个关注,随时获取最新干货。 好了,废话不多说,接下来我们继续今天的实战。。我们已经从视频号下载好了音频素材,接着往下看!下一步,我们从视频中提取我们需要AI克隆所需要用到的音频素材。

第二步:音频提取

因为我们这次是要实战声音克隆,视频部分暂时不需要。我们只需要从视频中提取音频。提取音频的方式有很多,比如使用“格式工厂”等工具,或者更高级的方法——用脚本操作。作为一名“高科技”研究员,我们当然选择后者,用脚本来实现。

这里用FFmpeg工具,通过脚本直接从视频中提取音频素材。FFmpeg的下载地址我会放在视频介绍里,方便大家获取。至于FFmpeg的安装步骤以及一些实用技巧,我会在近期的其他视频中为大家详细讲解。

今天的重点是快速验证,A I能否成功克隆卢某的声音。让我们继续探索! 复制音频提取脚本,在C M D命令中执行就可以生成下一步A I克隆音频所需要的音频素材

第三步:用cosyvoice克隆声音

首先我们从网盘下载cosyvoice整合包,下载地址我会放到视频介绍当中。 在浏览器打开下载链接地址,并输入提取码,就可以从123网盘下载整合包。当然,如果你动手能力还不错,你也可以从GitHub 下载源码进行部署。

然后解压下载好的安装包,直接解压就可以使用,不需要安装。

解压后就可以看到工具包,打开工具文件夹,在最底部会看到- 300 M 的批处理脚本。 本次要运行的就是它。不过,再运行前,首先要确保显卡环境已经配置好。先通过工具检测一下,在同一个目录下找到G P U诊断脚本,双击运行就能看到显卡参数。如果不能看到参数信息,就说明显卡环境有问题,检查显卡驱动和显卡配套深度学习环境软件包

双击运行- 300 M 的批处理脚本后,启动需要一点时间。项目运行成功后,会自动打开浏览器,然后显示工具的操作界面。如何没有自动打开,可以在浏览器手动输入127.0.0.1:9886回车就能看到操作界面

这次的A I声音克隆主要依赖两个功能:“预训练音色”和“3秒极速复刻”。“预训练音色”是通过现有的音色模型生成声音,而“3秒极速复刻”则是通过一段短短的音频素材,快速提取音色特征,然后用提取到的音色来生成新的声音。更棒的是,复刻出来的音色还能保存为“预训练音色”,这样你只需复刻一次,就可以永久使用这个音色。

接下来,我们用“3秒极速复刻”来复刻卢某的声音。首先,上传之前提取好的音频素材。接着,输入声音素材中的内容,并填写想要合成的文本。最后,点击“生成音频”按钮,系统就会自动复刻出卢某的声音特征模型,并根据这个模型生成音频。

这个过程可能需要一些耐心等待,如果你的显卡性能够强,生成速度会快得多。好了,音频已经生成,我们一起来听听效果如何吧!

如果对复刻的效果不满意,可以继续提取更多的音频素材进行复刻调整。如果效果满意,就可以将当前的声音特征模型保存起来,之后就能用这个模型生成任何你想要的内容。

保存时,需要填写音色命名。保存完成后,你可以在“预训练音色”列表中找到刚刚填写的音色名称。点击“保存”,至此,我们的声音克隆已经大功告成。接下来,你可以用这个音色,让卢某“说”出任何你想要的内容。

我们来实际操作一下:首先,选择“预训练音色”选项,输入想要合成的文本内容,然后选择刚刚保存的“音色名称”。最后,点击“生成音频”,稍等片刻,就能听到生成的音频了。让我们来听听效果吧!

总结一下,通过这次简单的三步实战,我们成功掌握了声音克隆的过程。可以看到,AI完全有能力惟妙惟肖地模仿任何人的声音。更重要的是,我们使用的工具只是开源的、已训练好的模型。如果换成闭源工具,甚至是自定义训练的模型,普通人几乎很难分辨真假。

这里也有个值得思考的问题:如果要训练AI,网上有足够多的卢某音频素材吗?我们暂且不去深究这个细节。凭借我们长期的研究经验来看,完美模拟卢某的声音是完全可行的。合肥警方已经通报,结论是A I合成。这意味着所有调查证据都指向了A I合成的结论。

我们应该保持好奇心,探究背后的真相。然而,事实的全貌可能只有当事人最清楚。作为负责任的公民,我们不信谣、不传谣。既然官方已经给出了调查结果,那很可能就是最接近事实的真相。

朋友们,你们怎么看?你们认为这段录音真的是A I合成的吗?

文章提及的下载连接:

1.ffmpeg下载地址 https://www.ffmpeg.org/download.html

2.Cosyvoice工具整合包下载地址 https://www.123pan.com/s/GaNFjv-QAKSv.html

提取码:52pj

其他参考连接:

https://www.cnblogs.com/monjeo/p/15979314.html

https://www.52pojie.cn/thread-1947190-1-1.html

https://www.123pan.com/s/GaNFjv-QAKSv.html 提取码:52pj

https://www.douyin.com/video/7418964516068723977

https://www.cnblogs.com/monjeo/p/15979314.html