lanny98801 发表于 2024-7-15 18:28

音乐制作新时代:探索图形界面下的先进音乐分手模型 —— Ultimate Vocal Remover 5

作者:钱琦
随着人工智能技术的迅速成长, 音乐制 作范围正经历一场革命性的变化。在过去的 几十年里, 计算机技术的进步已使音乐创作 变得更加便捷高效。如今,随着人工智能技 术的日益成熟及应用,音乐制作将迈入一个 全新的时代。


Ultimate Vocal Remover 5(UVR5) 是一 款基于深度神经网络的乐器分手软件,通过 训练模型准确地将鼓、贝斯、人声等其他声 部进行分手。而且相较于 RX10 、RipX 和 SpectraLayers 等同类型软件,UVR5 在模型 生成的质量和可选择性上都展现出显著优势。
音乐制作新时代:探索图形界面下的先进音乐分手模型





iZotope RX 10                              Hit’n’Mix RipX

一、 UVR5 软硬要求与各操作系统使用
软硬件要求:
•    最低建议使用 Nvidia RTX 1060 6GB。
•    建议使用至少有 8GB 显存的英伟达 GPU。
•    该安装法式适用于 Windows 10 / macOS Catalina / Ubuntu 22.10及更高版本。
•    该应用法式只兼容 64 位平台。

若您的设备不满足软硬件要求, 可以使用谷歌 Colab 进行运行:                     https://colab.research.google.com/drive/1-d7LdUBO88IvEtbfEztysDOrA9GTBawh(已汉化)关于 Windows:

[*]确保当前所使用的 CUDA 驱动为最新版本访谒 NVIDIA 官网,下载并安装适用于您的 GPU 的 CUDA 东西包和驱动法式:
下载链接: https://developer.nvidia.com/cuda-downloads
2.    安装 FFmpeg 格式转换东西(如需转换非 WAV 文件)
下载链接: https://www.gyan.dev/ffmpeg/builds/ffmpeg-git-full.7z
解压完成后,在“计算机-属性-高级系统设置-环境变量-系统变量-Path-编纂”中添加解压 后的 bin 目录。
测试是否添加成功:
在命令行(Win+R) 中输入: ffmpeg -version
若成功提示版本信息,则暗示安装成功。
3. 安装 UVR5 法式:
下载链接:
https://github.com/Anjok07/ultimatevocalremovergui/releases/download/v5.5.0/UVR_v5.5.0_setu p.exe
关于 MAC:
1.    临时允许应用法式从所有来源运行(建议您在 UVR 成功打开后从头启用此功能) 在终端中输入: sudo spctl --master-disable
2.   解决应用不能打开:
在终端中输入: sudo xattr -rd com.apple.quarantine /Applications/Ultimate\ Vcal\ Remover.app 3. 安装 UVR5 法式:
Mac M1(arm64)用户:
https://github.com/Anjok07/ultimatevocalremovergui/releases/download/v5.5.0/Ultimate_Vocal_R emover_v5_5_MacOS_arm64.dmg
Mac 英特尔 (x86_64)用户:
https://github.com/Anjok07/ultimatevocalremovergui/releases/download/v5.5.0/Ultimate_Vocal_R emover_v5_5_MacOS_x86_64.dmg
关于 Linux:

[*]从以下链接下载安装包:
https://github.com/Anjok07/ultimatevocalremovergui/archive/refs/heads/master.zip
2.解压下载的安装包, 并进入该目录。
3.    打开终端并运行以下命令:
sudo apt update && sudo apt upgrade
sudo apt install ffmpeg
sudo apt install python3-pip
sudo apt-get -y install python3-tk
pip3 install -r requirements.txt
二、 UVR5 界面的功能运用

[*]设置文件输入输出


Select Input (选择输入):点这里选择你想要措置的文件
Select Output (选择输出):点这里选择措置后文件的输出路径
2. 模型与算法选择
可以选择分歧的 AI 算法模型来措置音频:
a)   VR Architecture:模型使用幅度谱图进行信源分 离
b)   MDX-Net:模型使用混合频谱/波形进行源分
c)   Demucs :模型使用混合频谱/波形进行源分手
d)   Ensemble Mode(合奏模式):可以从多个算法模 型中获得最佳成果



在 VR Architecture 模式下:



UVR5 在所提供的每个模型都有分歧的微调的算法:
⚫   1_HP-UVR.pth:针对器乐(伴奏)的模型
⚫   2_HP-UVR.pth:1_HP-UVR.pth模型的一个微调版
⚫   3_HP-Vocal-UVR.pth:强化了人声的提取,伴奏的声音可能会很混浊
⚫   4_HP-Vocal-UVR.pth 这个模型也强化了人声的提取,比前一个模型更激进
⚫   5_HP-Karokee-UVR.pth 这个模型在去除主要人声的同时保留了布景的人声
需要额外下载的:
⚫   6_HP-Karaoke-UVR.pth 这个模型在保留布景人声的同时去掉了主要人。
⚫   7_HP2-UVR.pth:使用更大都据和新参数训练的强大的器乐模型
⚫   8_HP2-UVR.pth:器乐模型
⚫   9_HP2-UVR.pth:8_HP2-UVR.pth 模型的微调版
窗口大小与力度设置:
Windows Size(窗口大小):Windows Size越小, 效果就越好。较小的 Windows Size意味着 越长的转换时间和越大的资源占用
以下是可选择的 Windows Size 的值:
⚫   1024 :低转换质量, 最短的转换时间,低资源使用率
⚫   512 :平均转换质量,平均转换时间, 正常资源使用率
⚫   320 :较好的转换质量较长的转换时间较高的资源使用率
Aggression Setting (力度设置):这个选项允许你设置去除声音的力度
⚫ 范围是 1-20
⚫   值越大,就会进行越深度的提取
⚫   数值过大可能会导致部门乐器变得模糊
分手选项:



[*]GPU Conversion (GPU转换):勾选此选项可以使用 GPU来措置



[*]⚫   注意:如果你没有一个兼容 Cuda的 GPU,这个选项将无法正常运行
[*]⚫ 最好使用英伟达的 GPU
[*]⚫   注意:CPU 的转换速度要比通过 GPU 措置的慢得多 Save Vocals Only (只保留人 声):允许用户只保留人声部门
2.   Save Instrumental Only (只保留器乐声):允许用户只保留伴奏部门
3.   TTA:以提高分手质量此选项执行 Test-Time-Augmentation (试时间增强) 注意:勾选此选项将增加转换的时间
4.   Post-process(后措置):此选项也许能在人声输出中, 识别出残留的乐器声。所以此选项 可以改善某些歌曲的分手效果
注意:选择此选项可能会对转换过程发生不利影响, 这取决于音频的情况
5.   ModelTest Mode(模型测试模式):此选项使用户更容易测试分歧模型和模型组合的结果,因为它避免了用户了在,通过多个模型措置同一曲目时, 手动改变文件名和创建 新文件夹的麻烦
伴奏和人声输出的文件名将包含所选模型的名称
在 MDX-Net 模式下:


UVR5 提供的每个模型,都是在稍微分歧的参数长进行微调的。带编号的模型,是按照 AI Crowds官方测试集的 SDR得分挨次摆列的:
⚫   UVR-MDX-NET Main:最强的模型, 但占用的电脑资源也最多
⚫UVR-MDX-NET 1 :模型的 SDR 得分为 9.703
⚫UVR-MDX-NET 2 :模型的 SDR 得分为 9.682
⚫UVR-MDX-NET 3 :模型的 SDR 得分为 9.662
⚫   UVR-MDX-NET Karaoke:模型删除了主要的人声, 而保留了布景人声Chunks (块):这个选项允许用户减少(或增加) RAM 或 V-RAM 的使用
⚫   较小的块大小使用更少的 RAM 或 V-RAM,但也可能增加措置时间
⚫   较大的块大小使用更多的 RAM或 V-RAM,但也可以减少措置时间
⚫   选择“Auto”会按照你的系统有多少 RAM或 V-RAM来计算一个合适的块大小
⚫ 选择“Full”将把音频作为一个完整的块来措置 (“Full”选项只保举给那些电脑 性能斗劲强的人默认选择是“Auto”)
在 Demucs 模式下:


Demucs 模式使用的是Hybrid Transformer 的源分手功能,基于受 Wave-U-Net 启发的 U-Net 卷积架构。v4版本具有 Hybrid Transformer Demucs,这是一种使用 Transformers的
混合频谱图/波形分手模型,而且可以在 CarlGao4/Demucs-Gui 和 UVR5 通过图形化界面进 行使用。
Demucs 的预训练模型:
⚫   htdemucs :Hybrid Transformer Demucs 的第一版。使用 MusDB + 800 首歌曲进行 训练,默认的模型
⚫   htdemucs_ft:htdemucs 的微调版本, 分手时间将增加 4 倍,但可能会更好。与 htdemucs 不异的训练集
⚫   htdemucs_6s :htdemucs 的 6 个声源版本, 添加了钢琴和吉他作为声源。请注意, 目前钢琴声源的效果不太好
⚫   hdemucs_mmi :Hybrid Demucs v3,在 MusDB + 800 首歌曲上从头训练
Ensemble Mode 模式下:


⚫ 合奏至少需要输入两个音频文件(由分歧模型提取的伴奏或人声)
可以选择以下几种算法
⚫   Instrumentals(Min Spec) (伴奏(最小规格)):
这种算法将从你输入的文件中加载频谱图,并计算每个输入文件的最小规格值,生 成的文件将通过文件中的每个模型删除所有声音数据
以下内容将被附加到输出文件中
“_User Ensembled (Min Spec).wav”
⚫ Vocals(Max Spec)(人声(最大规格)):
这种算法将从你输入的文件中加载频谱图,并计算每个输入文件的最大规格值,生成的文件将包含模型中提取的所有人声数据以下内容将被附加到输出文件中“_User_Ensembled (Max Spec).wav”
常用模型保举
a)   针对人声与伴奏:
⚫   MDX-UVR inst 模型(最好选择 inst 3 模型, 以减少人声残留或选择 inst main[较不激 进]或 full band/HQ epoch 403/450) >适用于伴奏
⚫ ”Kim” vocal 模型(17.7kHz 的训练频率) >适用于人声
⚫   Demucs v4 | htdemucs_ft,有时 Demucs v4 | htdemucs_6s 模型可以获得更好的成果,或
者在人声易于过滤的非常特定的情况下, 甚至可以使用旧的 4 音轨mdx_extra 模型 > 适用于伴奏
⚫   VR models + Ensemble settings(凡是已弃用,但有时会有更多的清晰度, 虽然凡是会 有更多的人声残留) >适用于伴奏
⚫   karokee_4band_v2_sn 或者是 HP_KAROKEE-MSB2-3BAND-3090 模型>适用于伴唱
b)   针对其他乐器:
⚫ Demucs v4 | htdemucs_ft 音轨模型(包罗鼓、贝斯、其它、人声)
⚫   HP-Wind Inst-UVR 模型>适用于木管组
(针对分歧风格的歌曲, 分歧模型会有分歧的效果,建议在保举模型的基础上再测验考试多个 模型进行对比测试。)
三、 UVR5 实际分手效果
测试中所选用的音频样本是大型民族史诗音乐剧《辫子魂》的主题曲—— 《回家》 (片段),这是一首包含男女对唱、伴唱等多种声部的复杂音乐片段, 有助于全面评估分手算法的性能。



图 1 原始音频的 3D Mel 频谱:《回家》(片段) —— 作曲: 钱琦

通过 UVR 的 MDX-Net Kim_Vocal_1 模型对一段原始音频样本(2 分 15 秒) 进行措置。测试环境基于Windows 10 操作系统,图形措置器为 GeForce RTX 4090,总耗时 14 秒。
为了直不雅观地评估分手效果,我们将原始音频和措置后的音频进行了可视化对比。首先, 我们生成了原始音频的 3D Mel 频谱图(见图 1),随后生成了颠末人声分手措置的音频的 3D Mel 频谱图(见图 2)。



图 2 提取人声的 3D Mel 频谱:《回家》(片段) —— 作曲: 钱琦

从图 1 和图 2 的对比中, 可以明显看出 UVR5 分手技术在提取人声方面的优异性能。 措置后的音频在整体频响上保留得较为完整,同时在伴唱等较宽频段的上也有较好的 效果。
在实际音频中, 由于频段的附近性, 某 些声部可能会受到干扰人声的提取。例如, 扫弦吉他的擦弦声和弦乐的高频声部可能会 混入分手后的音频中。此外,同频段的大音 量乐器也可能对动态表示发生影响, 使得分手后的人声在某些部门掉去原本的细腻和动态范围。
在伴奏分手的测试中我们使用了 MDX-Net 的 UVR-MDX-NET Inst Main 模型进行措置, 该片段音乐包罗多种乐器、复杂的音乐布局和声部交错的场景。测试环境基于Windows 10 操作系统, 图形措置器为 GeForce RTX 4090,总耗时 11 秒。
针对伴奏分手任务, 我们同样生成了 3D Mel 频谱图(见图 3),并将其与原始音频进 行对比。在测试样本中, UVR-MDX-NET Inst Main 模型表示出良好的伴奏分手能力, 能够 在保留伴奏部门的同时, 尽可能地降低人声成分的干扰。然而,与人声分手类似, 伴奏分



图 3 分手伴奏的 3D Mel 频谱:《回家》(片段) —— 作曲: 钱琦

离也面临着必然的挑战。由于人声和伴奏在频 率上存在重叠, 分手算法在这些区域难以达到 抱负的表示,从而影响到伴奏频响的完整性, 导致措置后的伴奏音质受损。



图 4 分手鼓组的 3D Mel 频谱:《回家》(片段) —— 作曲: 钱琦

Demucs v4 模型具有分手多种乐器的能 力,因此我们在尝试中也测试了 UVR5 使用 Demucs v4 的htdemucs_ft 模型对鼓组和贝斯 进行分手(见图 4、图 5)。 测试环境基于Windows 10 操作系统, 图形措置器为GeForce RTX 4090,总耗时 39 秒。通过对比原始音频与措置后的音频,我们评估了该模型在这两类乐器分手任务上的表示。
Demucs 模型在从原始音频中分手鼓组和贝斯方面表示出较高的精准度。然而,在针 对高频部门措置时, 该模型的性能表示不够



图 5 分手贝斯的 3D Mel 频谱:《回家》(片段) —— 作曲: 钱琦

抱负。具体来说,贝斯与底鼓等低频乐器的 高频泛音部门衰减较多,主要频率集中在中 高频的镲片音色,也表示不够清晰。这些问 题可能会影响到分手后音频的音质和音色表 现,进而对后续的音频编纂和混音工作带来 必然挑战。
四、总结
本文通过技术分析和测试评估, 探讨了 基于深度学习的音乐分手软件 Ultimate    Vocal Remover 5 (UVR5) 在音乐制作范围的
应用。 UVR5 以丰硕的模型选择和超卓的分手效果为特点, 为音乐制作人提供了一种高效且 实用的音频措置东西。通过详细分析 UVR5 的软硬件要求、集成模型及实际分手效果,本文 旨在揭示 UVR5 在音乐制作中的潜力和价值。
随着人工智能技术的不竭成长, 未来音乐分手算法和相关软件有望在音质、分手效果以及措置速度等方面取得更大的打破。这将为音乐制作范围带来更多可能性,敦促音乐技 术的创新和成长。音乐制作的未来将更加智能化、自动化,为艺术家和音乐爱好者缔造更多机会,实现音乐范围的全新打破。
作者简历:
文章作者:钱琦
中央音乐学院音乐人工智能与音乐信息科技系副传授
电辅音乐中心主任
硕士研究生导师



中央音乐学院音乐人工智能与音乐信息科技系副传授-钱琦

中央音乐学院音乐人工智能与音乐信息科技系副传授-钱琦
曾荣获中国音乐“金钟奖”、文化部“文华奖”,首都“青年创意之星”荣誉称号。
音乐创作涉及交响音乐、影视音乐、风行音乐、电辅音乐、音乐戏剧、游戏配乐、民族器乐、声乐等。
2005 年至今央视春晚、央视秋晚、文联春晚、北京卫视环球春晚等有 60 余首作品呈现。参与大型演唱会与国家级大型文艺表演音乐创作十余台。宋祖英、多明戈、郎朗、周杰伦鸟 巢音乐会编曲与音乐制作。东亚运动会开幕式闭幕式音乐作曲与主创。2022 年冬奥会火炬 接力展示活动编曲与音乐制作等。综艺节目《我是歌手》《超级乐队》等编曲与音乐制作。影视音乐创作十余部、参与唱片制作十余张、歌曲创作与制作数十首。
曾合作的艺人:孙楠、雷佳、戴玉强、李宇春、胡彦斌、张英席、杨洪基、莫华伦、吕思清、林育群、王晰、降央卓玛等。
代表作品:〖丝路行〗(获英国九十三届黑池拉丁团体赛冠军,刷新了中国人在此项国际赛事中的最好成就,新华社报道);〖月夜〗获英国第九十三届黑池摩登团体赛冠军,刷新了中国人在此项国际赛事中的最好成就,新华社报道;大型多媒体音乐《水晶太极》《丝路新语》《鼓乐旌幡》、电视持续剧《王刚讲故事》《不觉流水年长》、央视大型反腐纪录片《党风扶植永远在路上》、大型民族史诗音乐剧《辫子魂》、大型红色史诗音乐剧《牦牛革命》等。
页: [1]
查看完整版本: 音乐制作新时代:探索图形界面下的先进音乐分手模型 —— Ultimate Vocal Remover 5