💡 Key Takeaways
- Understanding the Science Behind Vocal Isolation
- Choosing the Right Tool for Your Needs
- Preparing Your Source Material for Optimal Results
- Step-by-Step Vocal Isolation Process
나는 클라이언트가 나에게 스템이 없는 완성된 마스터 트랙에서 보컬을 분리해 달라고 요청했던 첫 순간을 여전히 기억한다. 2009년, 나는 내 커리어의 세 번째 해에 내슈빌의 중간 규모 포스트 프로덕션 스튜디오에서 오디오 엔지니어로 일하고 있었고, 그 요청은 불가능해 보였다. 아티스트는 그들의 히트 싱글의 노래방 버전을 만들고 싶어했지만, 원본 세션 파일은 하드 드라이브 고장으로 사라졌다. 그 뒤에는 내가 찾을 수 있는 모든 보컬 분리 기법을 14시간 동안 깊이 탐구하게 되었고, 그 중 대부분은 가수가 양철통 안에서 물속에서 노래하는 것처럼 들리는 결과를 낳았다.
💡 주요 내용
- 보컬 분리의 과학 이해하기
- 필요에 맞는 도구 선택하기
- 최적의 결과를 위한 소스 자료 준비하기
- 단계별 보컬 분리 과정
15년 후, 나는 이제 리믹스 프로젝트, 노래방 제작, 샘플 라이브러리 및 포렌식 오디오 작업을 위해 3,000곡 이상의 보컬을 분리했다. 기술은 극적으로 발전했다. 원래는 $10,000 상당의 전문 하드웨어와 며칠의 수작업 편집이 필요했던 것이 이제는 적절한 소프트웨어로 몇 분 안에 완료할 수 있다. 하지만 대부분의 튜토리얼에서 말하지 않는 것은 이렇다: 보컬 분리의 품질은 사용하는 도구보다는 오디오 분리가 실제로 어떻게 작동하는지에 대한 기본 원리를 이해하는 데 더 많이 달려 있다.
이 포괄적인 가이드에서는 제가 노래에서 보컬을 추출하는 방법에 대해 배운 모든 것을 안내할 것입니다. 기본 물리학에서부터 가장 도전적인 소스 자료를 조 salvage할 수 있는 고급 기술까지 모든 것을 다룹니다. 당신이 다음 리믹스를 위해 아카펠라를 만들고 싶은 방안 프로듀서이든, 맞춤 라이브러리를 구축하는 노래방 애호가이든, 깨끗한 대화가 필요한 콘텐츠 제작자이든, 이 가이드는 전문적인 결과를 얻기 위한 실질적인 지식을 제공합니다.
보컬 분리의 과학 이해하기
구체적인 도구와 기술로 들어가기 전에, 우리는 노래에서 보컬을 "추출"할 때 실제로 무슨 일이 일어나고 있는지 이해해야 한다. 이것은 마법이 아니다. 음악이 믹스되는 방식과 인간의 청각이 작동하는 방식에 대한 몇 가지 기본적인 특성에 기반한 적용된 신호 처리다.
노래가 믹스될 때, 보컬은 일반적으로 특정 주파수 범위를 차지한다(기본 주파수에 대해 대략 300 Hz에서 3,000 Hz 사이이며, 하모닉스는 훨씬 더 높은 주파수에 확장된다). 반면 악기 요소들은 스테레오 스펙트럼에 퍼져 있으며 서로 다른 주파수 범위를 차지한다. 전통적인 보컬 분리는 이러한 차이를 활용하여 위상 취소를 사용하였다. 한 채널을 반전시켜 다른 채널과 결합함으로써 거의 중앙에 패닝된 모든 것을 제거할 수 있었으며—이론적으로 측면 패닝된 악기만 남기는 것이다.
나는 초기 경력에서 이 기술을 광범위하게 사용했으며, 이론적으로 작동하지만 매우 엉망이었다. 대부분의 현대 믹스는 보컬에 리버브와 딜레이를 포함하여 스테레오 필드에 퍼진다. 베이스와 킥 드럼도 일반적으로 중앙에 있다. 그 결과? 당신은 보컬이 줄어들었지만 없어지지 않은 텅 빈, 위상처럼 들리는 소리를 얻었고, 중요한 저음 정보가 손실된다. 나는 한 번 제 명성을 가진 리믹스 프로젝트를 위해 위상 취소만으로 보컬 추출을 시도하며 주말 내내 소모했으며, 클라이언트는 이 아티팩트가 너무 뚜렷하다고 최종적으로 거부했다.
돌파구는 머신러닝에서 나왔다. 현대 AI 기반 분리 도구는 수천 개의 분리된 스템에 대해 훈련된 신경망을 사용하여 악기와 구별되는 보컬의 스펙트럴 및 시간적 패턴을 인식한다. 이러한 모델은 주파수와 스테레오 배치에서 다른 악기와 겹치더라도 보컬 특성을 식별할 수 있다. 10,000시간 이상의 다중 트랙 녹음 데이터셋을 기반으로 훈련된 최고의 모델은 이상적인 조건에서 약 -40 dB의 누출 품질을 달성할 수 있으며—즉, 원치 않는 악기 콘텐츠가 보컬 신호보다 100배 조용하다는 의미다.
그러나 한계 이해는 기능을 아는 것만큼 중요하다. 완벽한 분리 알고리즘은 존재하지 않는다. 항상 일정한 정도의 아티팩트가 존재하게 된다: 잔여 악기 누출, 스펙트럴 블러링, 내가 "수중 보컬"이라고 부르는 것처럼 고주파의 선명도가 손상되는 현상이다. 핵심은 특정 소스 자료와 의도된 용도에 따라 어떤 기술을 적용할지 아는 것이다.
필요에 맞는 도구 선택하기
지난 10년 동안 무료 오픈 소스 옵션부터 수천 달러에 달하는 전문 소프트웨어까지 사실상 모든 보컬 분리 도구를 테스트했다. 상황은 극적으로 변화했으며, 좋은 소식은 이제 전문가 수준의 결과를 얻기 위해 거대한 예산이 필요하지 않다는 것이다. 현재 옵션에 대한 제 솔직한 평가는 수백 개 프로젝트에서의 실제 사용을 기반으로 한다.
“보컬 분리의 품질은 비싼 소프트웨어에 의해 결정되지 않는다—소스 자료의 스테레오 필드, 주파수 마스킹 및 위상 관계를 이해하는 데 의해 결정된다.”
대부분의 사용자에게는 Ultimate Vocal Remover (UVR)로 시작하는 것을 추천한다. 무료이고 오픈 소스 애플리케이션으로, 보컬 분리 작업의 약 60%에서 내 주된 도구가 되었다. 무료임에도 불구하고 UVR은 MDX-Net과 Demucs를 포함한 여러 최첨단 AI 모델을 구현하고 있으며, 이는 전문 연구팀에 의해 개발되었다. UVR의 출력 결과를 $300 이상의 도구와 비교해 보았는데 대부분의 소스 자료에 대해 품질 차이가 눈에 띄지 않았다. 인터페이스는 사용하기 위해 약간 익숙해져야 한다—명백히 엔지니어가 엔지니어를 위해 만든 것이지만—한번 워크플로우를 이해하면, 파일을 배치 처리하고 일관된 결과를 얻을 수 있다.
클라이언트에게 청구하고 최고의 품질이 필요한 전문 작업을 위해서는 iZotope RX 10의 Music Rebalance 모듈을 사용한다. 표준 버전은 $399 (또는 고급 패키지는 $1,299)으로 상당한 투자가 요구되지만, 품질이 상업적 응용에 비해 비용을 정당화한다. 스펙트럴 편집 기능은 자동화 도구가 놓치는 아티팩트를 수동으로 정리할 수 있게 해주며, 복잡하고 밀집된 믹스에서의 품질이 눈에 띄게 깨끗하다. 나는 최근에 RX 10을 사용하여 다큐멘터리용 1970년대 소울 녹음에서 보컬을 분리했는데, 결과는 놀라웠다—원래 녹음에 상당한 테이프 히스가 있었고 보컬이 악기에 강하게 압축되어 있었음에도 불구하고 최소한의 아티팩트를 얻었다.
LALAL.AI는 가장 좋은 클라우드 기반 옵션으로 언급할 만하다. $15에 90분의 처리 시간을 이용할 수 있으며, 이는 소프트웨어를 설치하거나 기술 설정을 다룰 필요가 없는 가끔 쓰는 사용자에게 완벽하다. 품질은 우수하다—RX 10이 달성하는 것의 약 90% 정도로 평가할 수 있으며, 편의성도 뛰어나다. 나는 LALAL.AI를 여행 중에 사용하여 내 주요 작업 공간에 접근하지 않고 내 노트북에서 빠르게 처리해야 할 것이 있을 때 활용한다. 주요 제약은 오디오를 그들의 서버에 업로드해야 한다는 점으로, 출시되지 않았거나 기밀 자료에 대해서는 우려가 될 수 있다.
Audacity의 보컬 제거 기능이나 Adobe Audition의 중앙 채널 추출과 같은 오래된 도구는 구체적으로 추천하지 않는다. 이러한 도구들은 내가 앞서 언급한 위상 취소 기술을 사용하며, 무료로 쉽게 사용할 수 있지만 현대 AI 기반 접근 방식에 비해 품질이 경쟁력이 없다. AI 도구가 접근 가능해진 2018년경부터 이 방법을 완전히 중단했으며, 그 이후로 뒤돌아보지 않았다.
최적의 결과를 위한 소스 자료 준비하기
대부분의 튜토리얼이 빠지는 것이 있다: 보컬 분리의 품질은 분리 소프트웨어를 열기 전부터 대체로 결정된다. 나는 고통스러운 시행착오를 통해 소스 파일을 적절히 준비하는 데 15분을 쓰는 것이 유용한 결과와 완전한 쓰레기 사이의 차이를 만든다는 것을 배웠다.
| 방법 | 품질 | 속도 | 최적 |
|---|---|---|---|
| AI 기반 분리 (Spleeter, Demucs) | 우수 | 빠름 (2-5 분) | 현대 프로덕션, 일반 사용, 빠른 결과 |
| 위상 취소 | 형편없음 ~ 보통 | 매우 빠름 (즉시) | 중앙 패닝된 보컬만, 긴급 상황 |
| 스펙트럴 편집 (iZotope RX) | 매우 좋음 | 느림 (30분 이상) | 포렌식 작업, 정밀 제거, 고위험 프로젝트 |
| 하이브리드 (AI + 수동) | 우수 ~ 뛰어남 | 중간 (15-30 분) | 전문 리믹스, 샘플 팩, 상업적 사용 |
| EQ 필터링 | 형편없음 | 매우 빠름 (즉시) | 학습용만, 실제 사용에 권장하지 않음 |
먼저, 항상 가능한 가장 높은 품질의 소스 자료로 작업하십시오. WAV 또는 FLAC와 같은 무손실 포맷에 접근할 수 있다면 이를 사용하세요. 나는 320 kbps MP3와 CD 품질 WAV 파일에서 보컬 분리를 비교하는 통제를 위한 테스트를 실시했으며, 그 차이는 측정 가능하다. WAV 버전은 항상 분리된 보컬에서 2-3 dB 더 나은 신호 대 잡음 비율을 생성한다. MP3 압축은 아티팩트를 도입하여 AI 모델이 때때로 보컬 신호의 일부로 해석할 수 있어 최종 출력에서 약간 "변형된" 소리를 유발할 수 있다. 그럼에도 불구하고 MP3만 있다면 현대 AI 도구는 압축된 오디오 작업에 놀라울 정도로 훌륭하다. 나는