💡 Key Takeaways
- Understanding the Science Behind Vocal Isolation
- Choosing the Right Tool for Your Needs
- Preparing Your Source Material for Optimal Results
- Step-by-Step Vocal Isolation Process
我仍然记得第一次有客户要求我从没有可用干声的完成母带曲目中提取人声。那是2009年,我在纳什维尔一家中型后期制作工作室工作,已经做了三年的音频工程师,这个请求看起来不可能。艺术家想要制作他们热门单曲的卡拉OK版本,但原始会话文件在硬盘故障中丢失了。接下来是14个小时的深入研究我能找到的每一种人声提取技巧,其中大多数产生的结果听起来就像歌手在铁罐中水下演唱。
💡 关键要点
- 理解人声提取背后的科学
- 选择适合您需求的工具
- 为最佳结果准备源材料
- 逐步人声提取过程
快进十五年,我现在已经为重混项目、卡拉OK制作、样本库和法医音频工作从3000多首曲目中提取了人声。这项技术发展迅速——曾经需要价值10,000美元的专业硬件和几天的手动编辑,现在可以通过正确的软件在几分钟内完成。但这里有一点大多数教程不会告诉你:你的人声提取质量与所使用的工具关系不大,而更多的是与理解音频分离实际工作的基本原理有关。
在这本全面的指南中,我将向你展示我在从歌曲中提取人声方面学到的所有知识,从使其成为可能的基本物理学到可以挽救最具挑战性的源材料的高级技巧。无论你是想为下一个重混创建无伴奏的卧室制作人,还是构建自定义库的卡拉OK爱好者,亦或是需要干净对话的内容创作者,这本指南将为你提供获得专业成果的实用知识。
理解人声提取背后的科学
在我们深入具体的工具和技巧之前,你需要理解当我们“提取”歌曲中的人声时实际发生了什么。这并不是魔法——它是基于音乐混音和人类听觉工作的一些基本特征的应用信号处理。
当一首歌被混音时,人声通常占据特定的频率范围(基本频率大约在300 Hz到3000 Hz之间,和声延伸得更高),几乎总是被平移到立体声场的中心。相比之下,乐器元素通常分散在立体声频谱中,并占据不同的频率范围。传统的人声提取利用了这些差异,通过相位取消:通过反转一个通道并将其与另一个通道结合,你可以消除所有平移到正中心的东西——理论上只留下侧向平移的乐器。
我在早期职业生涯中大量使用这种技术,虽然理论上有效,但结果往往比较杂乱。大多数现代混音在人声上包括了扩散到立体声场的混响和延迟。低音和踢鼓也通常被置于中心。结果呢?你会得到一种中空的、相位模糊的声音,人声虽然减少但还没有消除,同时你会失去关键的低频信息。我曾花一个完整的周末尝试仅用相位取消挽救一个高调重混项目的人声提取,但最后客户因为伪影太明显而拒绝了它。
突破来自机器学习。现代基于AI的分离工具使用训练了数千个独立源的神经网络,以识别区分人声和乐器的光谱和时间模式。这些模型能够识别声乐特征,即使它们与其他乐器的频率和立体声位置重叠。最佳模型在超过10,000小时的多轨录音数据集上进行训练,在理想条件下可以达到接近-40 dB的分离质量,这意味着不必要的乐器内容比人声信号安静100倍。
然而,理解限制与理解能力同样重要。没有任何分离算法是完美的。你总会有一些伪影:残留的乐器漏音、光谱模糊,或者我所称的“水下人声”,其中高频清晰度受到影响。关键是了解针对你的具体源材料和预期使用案例需要应用哪种技术。
选择适合您需求的工具
在过去十年里,我几乎测试了所有可用的人声提取工具,从免费的开源选项到价格高达数千美元的专业套件。这个领域发生了巨大的变化,好消息是你不再需要庞大的预算就能获得专业的结果。根据我在数百个项目中的实际使用经验,这里是我对当前选项的真实评估。
"人声提取的质量并不取决于昂贵的软件——而是取决于理解立体声场、频率遮罩和源材料中的相位关系."
对于大多数用户,我建议从Ultimate Vocal Remover (UVR)开始,这是一款免费的开源应用程序,已成为我大约60%人声提取工作的首选。尽管是免费的,UVR实现了多个最先进的AI模型,包括MDX-Net和Demucs,这些模型是由专业研究团队开发的。我将UVR的输出与价格在$300以上的工具进行了比较,发现对于大多数源材料质量差异微乎其微。界面需要一些时间来适应——显然是为工程师设计的,但一旦你理解了工作流程,你就可以批量处理文件并获得一致的结果。
对于我向客户收费且需要绝对最佳质量的专业工作,我使用iZotope RX 10的Music Rebalance模块。标准版的价格为$399(或高级套件为$1,299),这是一项重要投资,但在商业应用中质量是合理的。我使用的光谱编辑功能允许我手动清理自动工具遗漏的伪影,而在复杂、密集的混音中处理明显更干净。我最近使用RX 10从1970年代灵魂录音中提取人声用于一部记录片,结果令人惊艳——即使原始录音有显著的磁带噪声,而且人声被严重压缩到乐器中,伪影也很少。
LALAL.AI值得一提,被认为是最佳的基于云的选项。以$15的价格,你可以获得90分钟的处理时间,非常适合偶尔使用者,他们不想安装软件或处理技术设置。质量非常优良——我会将其评为RX 10所达到的约90%——而且便利性无与伦比。当我旅行并需要从笔记本电脑迅速处理某些内容,而无法访问我的主工作站时,我会使用LALAL.AI。主要限制是你将音频上传到他们的服务器,这对于未发布或机密材料而言可能会引起担忧。
我特别不推荐像Audacity中的人声移除功能或Adobe Audition中的中心通道提取这类旧工具。这些使用了我之前提到的相位取消技术,尽管它们是免费的且易于获得,但其质量与现代基于AI的方法根本不可比。我在2018年左右完全停止使用这些方法,当AI工具变得可接触时,我再也没有回头过。
为最佳结果准备源材料
有些大多数教程会跳过的内容是:人声提取的质量在你打开分离软件之前就已在很大程度上决定。我通过痛苦的反复试验了解到,花费15分钟正确准备源文件可以意味着可用结果与完全垃圾之间的差异。
| 方法 | 质量 | 速度 | 最佳用途 |
|---|---|---|---|
| 基于AI的分离(Spleeter,Demucs) | 优秀 | 快速(2-5分钟) | 现代制作,通用使用,快速结果 |
| 相位取消 | 差到中等 | 非常快(即时) | 仅限于中心平移的人声,紧急情况 |
| 光谱编辑(iZotope RX) | 非常好 | 慢(30分钟以上) | 法医工作,外科式移除,高风险项目 |
| 混合(AI + 手动) | 从优秀到卓越 | 中等(15-30分钟) | 专业重混,样本包,商业用途 |
| EQ过滤 | 差 | 非常快(即时) | 仅供学习用途,不推荐用于实际使用 |
首先,始终使用可获得的最高质量源材料。如果你有访问无损格式如WAV或FLAC的权限,就用它。我进行过控制测试,比较了320 kbps MP3和CD质量的WAV文件的人声提取,结果差异是可测量的——WAV版本在提取的人声中通常产生2-3 dB的信噪比改善。MP3压缩引入的伪影有时会被AI模型解释为人声信号的一部分,从而导致最终输出中出现稍微“更脆”的声音。话虽如此,如果你只有MP3,现代AI工具也能相当有效地处理压缩音频。我已经成功使用这些工具......