AI孙燕姿背后的技术-so-vits-svc的学习与应用

首先不推荐使用mac训练,SVC 使用 torch-cuda,不支持M1内置显卡和AMD显卡,所以无论是m1后还是之前的Mac均无法获得GPU支持。

在m1上坑比较多,最终成功在我的19款 i9macbook pro上运行了SVC,使用CPU训练,配置运行好之前,历经各种坑,这里不再做记录。

训练集是我自己的唱歌的音频,大概1-2分钟,最终下来两天训练了大约13%,也就是完全训练好大约需要2个星期(真令人崩溃)。

同时,我也在看网上的一些云资源,google colab每天可以免费白嫖一张tesla T4算力显卡机器,使用12小时,用这张显卡训练,12小时大约能到50%左右,效率还是没那么高,而且使用notebook终究还是不如服务器那么舒服。

于是看一些付费的云资源,最终用了http://gpu.ai-galaxy.cn/,可以按小时租。

3090的机器大约2元一小时,不算太贵,4090比较划算,但是租不到机器。

目测服务器是运行在docker容器里的,第一次使用体验很差,驱动没装好,我自己装遇到各种坑,stackoverflow找到的解决方案也不生效,花了2小时,装了七八个版本的驱动还是没解决,怀疑是docker的问题。然后释放资源,重新租一台,这次显卡正常了,但是当我装SVC的时候,标称250G的硬盘直接满了,我 df -ha 一看硬盘居然本来只有2.5G可用.... 于是我又重新租了一台,这次标称250G的硬盘,有80G可用了,然后装SVC,scp上传音频数据,做音频切割。

最后就是预处理和训练了,最后训练下来大约花了5个小时(估计4090 3个小时能搞定,所以我自己花钱组装一台4090电脑,等着到货试试)

从重新租机器到开始训练,花了半小时。装SVC的时候有一些小问题,基本就是python的一些包版本问题,部分包报错也通过更新方式解决了,总体来说比较顺利。

最终训练出来的效果,只能说能听出来唱什么,音色确实是我自己的,很多音都飘了。于是我增加了数据集到七八分钟的音频,再试一次。目前估计15小时左右能训练完成,等着看看效果吧~~

更新:

后面训练的效果还不错,高音低音都能适配。我从云服务的3090换到了4090,训练时间从14-15小时缩短到了8小时,还是有很明显的差距,但是,4090云服务器,太!贵!了!一天下来至少都要50多,一个月就是1500+,于是我自己搞了一台13700k + 4090服务器,装了ubuntu server22.04 的系统,第一次装server版系统,也好多不习惯,哈哈。

但是出乎意料的是,同样的数据集训练10000 epochs,之前4090云服务器需要8小时,但是我ubuntu server只需要2-3小时,巨大的性能差距让我觉得一切都很值得(4090真的好贵,某东买的爱国嘉魔鹰一万4,整机所有配件加起来2.3万)。我猜这巨大的性能差异来源,应该是我服务器没虚拟化,物理机装的ubuntu server,总之,性能比云服务器强了太多,更比colab白嫖的tesla强了20倍以上的性能,所以决定好要搞机器学习,还是自己装一台4090显卡的服务器吧。

ps:自己使用下来,4090的性能,大约是3090的1.3-1.8倍左右,在训练、推理,不同的计算方式,性能差距也有所差异。

发表于 2023.06.07


eguchi • 2023-12-27 19:34

请问可不可以讲下怎么在mac上跑svc
训练呀?感谢!

eguchi • 2023-12-27 19:33

请问可不可以讲下怎么在mac上跑svc
训练呀?感谢!

刘 • 2023-08-04 15:09

你好,数据集大概多长时间效果会比较好?