💡 Key Takeaways
- The Setup: Five Tools, One Month, Zero Traditional Composition
- Week One: The Honeymoon Phase and Its Abrupt Ending
- The Prompt Problem: Why AI Music Is Harder Than AI Text
- When AI Actually Excelled: The Surprising Use Cases
나는 7년 동안 인디 영화와 유튜브 콘텐츠의 음악을 제작해왔다. 지난 달, AI 음악 생성 도구에 $847를 썼고 127곡을 제작했다. 그 중 정확히 3곡이 실제 프로젝트에 사용되었다. 나머지 124곡은? 나는 그것들을 "언카니 밸리 심포니"라는 폴더에 두었다.
💡 주요 요점
- 전반 설정: 다섯 가지 도구, 한 달, 전통 작곡 제로
- 1주차: 허니문 단계와 그 갑작스러운 종료
- 프롬프트 문제: 왜 AI 음악은 AI 텍스트보다 더 어렵나
- AI가 실제로 뛰어났던 순간: 놀라운 사용 사례
이는 AI가 음악가를 대체한다는 또 다른 핫테이크가 아닙니다. 나는 여러분에게 로봇들이 우리의 일자리를 빼앗으러 온다거나 AI가 창의성을 민주화하고 있다고 말하려는 것이 아닙니다. 31일 동안 AI를 사용하여 모든 배경 음악 필요를 충족시킨 결과, 그것은 그 어떤 주장보다도 훨씬 더 미묘하고, 실망스럽고, 때때로 뛰어난 것이었습니다.
나는 사라 첸이며, 포틀랜드에서 기업 비디오, 인디 다큐멘터리 및 중급 유튜브 제작자를 위한 배경 음악을 전문으로 하는 작은 음악 제작 스튜디오를 운영하고 있습니다. 내 전형적인 월간 작업은 15-20개의 오리지널 곡을 작곡하고, 내 백 카탈로그에서 또 다른 12곡을 라이센스하며, 대략 80시간을 제작에 사용하는 것입니다. 나는 내 전체 작업 흐름을 AI 도구로 대체해보기로 결정했습니다. 실제로 어떤 일이 일어날지 보고 싶었습니다.
결과는 나를 놀라게 했습니다. AI가 예상보다 더 낫거나 나쁘기 때문이 아니라, 현실이 누군가가 말하는 것보다 훨씬 더 복잡했다는 것입니다.
전반 설정: 다섯 가지 도구, 한 달, 전통 작곡 제로
나는 엄격한 프로토콜을 지키기로 했다. 2월 한 달 동안, 나는 전통적으로 단 한 음도 작곡하지 않을 것이다. 내 스튜디오를 통해 오는 모든 프로젝트는 오로지 AI 음악 생성 도구를 통해 처리될 것이다. 나는 다른 작곡가들의 추천과 온라인 리뷰를 바탕으로 Soundraw, AIVA, Mubert, Boomy, Suno AI의 다섯 가지 플랫폼을 선택했다.
내 전형적인 클라이언트 목록에는 경쾌한 기업 배경 음악이 필요한 지역 기술 스타트업, 환경 이야기를 다루는 다큐멘터리 제작자, 다양한 틈새에서 활동하는 세 명의 유튜브 제작자(기술 리뷰, 명상 콘텐츠 및 진범죄)와 가끔 결혼 비디오 작업이 포함된다. 2월에는 23개의 개별 음악 조각이 필요한 14개 프로젝트가 나에게 주어졌다.
나는 데이터 과학자가 자랑스러워할 만한 추적 스프레드시트를 만들었다. AI 생성 트랙마다, 나는 생성 시간, 필요한 반복 횟수, 프롬프트 복잡성, 필요한 편집 시간, 클라이언트 만족도 및 최종적으로 그 트랙이 사용되었는지 여부를 기록했다. 나는 또한 이 과정에서의 감정 상태를 추적했는데, 이는 내가 처음 생각했던 것보다 더 관련성이 높았다.
재정적 분석은 눈을 뜨게 했다. 나는 다섯 플랫폼에서 $847를 썼다: AIVA의 전문 계획에 $299, Soundraw의 제작자 구독에 $199, Mubert의 상업 라이센스에 $149, Boomy의 프리미엄 계층에 $99, 그리고 다양한 Suno AI 크레딧에 $101이 포함된다. 보통의 소프트웨어 라이센스 및 샘플 라이브러리 총비용이 대략 $200인 것과 내 작곡 작업에 대해 시간당 $75로 평가하고 있는 내 시간을 비교해보라.
서류상으로, 만약 AI가 내 작곡 시간을 현저히 줄일 수 있다면, 수치가 맞을 수 있다. 일반적인 3분 배경 곡은 작곡, 편곡 및 제작에 4-6시간이 걸린다. AI가 30분 내에 비슷한 결과를 내놓을 수 있다면, 나는 10배의 생산성 증가를 보게 될 것이다. 어쨌든 그게 약속이다.
1주차: 허니문 단계와 그 갑작스러운 종료
첫 프로젝트는 지속 가능한 포장 회사의 90초 기업 비디오였다. 그들은 "고양되지만 진부하지 않고, 현대적이지만 유행하지 않는, 에너지가 넘치지만 압도적이지 않은" 곡을 원했다. 뭐, 이 작업을 해본 사람이라면 누구나 완벽하게 이해할 수 있는 불가능하게 모호한 브리핑이다.
"문제는 AI 음악이 나쁘게 들리는 것이 아니라, 거의 맞는 소리처럼 들린다는 것입니다. 그 '거의'가 당신의 청중을 잃게 만듭니다, 그들이 왜 그런지 모르게."
나는 Soundraw로 시작했다. 그 인터페이스가 가장 접근하기 쉬워 보였기 때문이다. "기업"을 선택하고, 분위기를 "밝음"으로 설정하고, 템포를 약 120 BPM으로 설정한 후 생성 버튼을 눌렀다. 47초 후, 나는 곡을 얻었다. 그것은... 괜찮았다. 진정으로 괜찮았다. 코드 진행은 예측 가능하지만 기능적이었다. 악기는 일반적이지만 적절했다. 그것은 솔직히, 내가 필요로 하는 것이 종종 그렇듯 10,000개의 다른 기업 배경 트랙과 정확히 같았다.
나는 그것을 클라이언트에게 보냈다. 그들은 23분 안에 승인했다. 나는 보통 반나절 걸리는 작업을 한 시간도 안 되어 완료한 셈이다. 나는 불을 발견한 기분이었다.
두 번째 프로젝트가 그 환상을 산산조각 낼 것이다. 한 다큐멘터리 제작자가 기후 난민에 대한 장면을 위한 우울한 피아노 곡이 필요했다. 그녀는 footage의 러프 컷을 나에게 보냈다: 가족이 마지막으로 해안 집을 떠나기 위해 물건을 싸는 모습이었다. 그 장면은 2분 37초로, 1분 43초에서 할머니가 집을 마지막으로 돌아보는 중요한 감정적 순간이 있었다.
나는 AI가 효과적으로 생성할 수 있는 무언가를 만들기 위해 3일에 걸쳐 6시간을 소요했다. AIVA는 기술적으로 뛰어난 피아노 작곡을 제공했지만, 감정적으로 공허하게 느껴졌다. Mubert의 환경 음악은 너무 추상적이었다. Soundraw의 "슬픔" 프리셋은 "약간 우울"보다 더 나은 곡을 생성했다. 문제는 AI가 슬픈 피아노 음악을 만들지 못했다는 것이 아니라, 정확히 1:43에서 특정 감정적 정점으로 발전하는 슬픈 피아노 음악을 만들지 못했다는 것이다.
나는 34개의 변형을 생성했다. 다양한 프롬프트를 시도해 보았다: "감정적으로 발전하는 우울한 피아노," "서서히 강해지는 슬픈 반사적 피아노," "극적인 순간이 있는 반사적 피아노 작곡." 아무것도 딱 맞지 않았다. AI는 분위기를 만들 수 있었지만, 서사를 만들 수는 없었다.
결국, 나는 AIVA에서 생성된 베이스 트랙을 사용하고, 내 DAW에서 수동으로 편집하기 위해 4시간을 보냈다. 다이내믹을 조정하고, 미세한 현악기를 추가하고, 장면의 감정적 아크에 맞도록 편곡 구조를 재구성했다. 최종 곡은 아마 60%는 AI의 작업이고, 40%는 인간의 개입이었다. 클라이언트는 그것을 좋아했지만, 나는 처음부터 곡을 작곡하는 데 소요된 것보다 더 많은 시간을 쏟은 것이었다.
프롬프트 문제: 왜 AI 음악은 AI 텍스트보다 더 어렵나
2주가 지나면서, 나는 AI 음악 생성이 텍스트 생성보다 훨씬 더 실망스럽게 느끼는 이유에 대한 이론을 발전시켰다. ChatGPT나 Claude에 프롬프트를 입력하면 대화식으로 반복할 수 있다. "좀 더 격식 있게 만들어." "X에 대한 섹션을 추가해." "결론을 다시 써." 피드백 루프는 즉각적이고 직관적이다.
| AI 음악 도구 | 월 비용 | 최고의 사용 사례 | 주요 제한 사항 |
|---|---|---|---|
| Soundraw | $16.99 | 기업 배경 루프 | 제한된 감정 범위 |
| AIVA | $33/월 | 오케스트라 작곡 | 반복적인 멜로디 패턴 |
| Mubert | $14/월 | 환경/대기 트랙 | 역동적인 진행 부족 |
| Suno AI | $10/월 | 빠른 개념 데모 | 일관되지 않은 품질 출력 |
| 전통 작곡 | $0 (시간만) | 클라이언트 맞춤형 | 시간 소모적인 과정 |
음악은 그렇게 작동하지 않는다. 대부분의 AI 음악 도구는 대화식 개선을 제공하지 않는다. 당신은 드롭다운 메뉴, 슬라이더 및 장르 태그를 얻는다. Soundraw는 "에너지"와 "분위기"를 조정할 수 있게 하지만, 에너지 슬라이더를 7에서 8로 움직인다는 것은 무엇을 의미하는가? "3 AM에 비어 있는 도시 거리를 달리는 느낌"이나 "좋은 소식이 도착하기 직전의 순간" 같은 느낌을 트랙에서 원한다고 어떻게 전달할 수 있는가?
나는 무엇이 효과가 있었고 무엇이 효과가 없었는지를 기록하기 위해 프롬프트 저널을 쓰기 시작했다. 몇 가지 발견: "영화적"이라는 장르 태그는 플랫폼마다 매우 다른 결과를 낳는다. AIVA에서는 오케스트라의 상승과 극적인 현악기를 의미했다. Mubert에서는 간헐적인 타악기를 가진 환경 음향을 의미했다. Soundraw에서는 솔직히, 그것이 무엇을 의미하는지 잘 모르겠다.
가장 성공적인 프롬프트는 가장 구체적이고 기술적이었다: "120 BPM, C 장조, 어쿠스틱 기타와 피아노, 구절-후렴 구조, 중간 다이내믹." 하지만 아이러니는 이렇다: 내가 그 프롬프트를 작성할 만큼 음악 이론에 대해 잘 알고 있다면, 아마도 내가 직접 곡을 작곡할 만큼 충분히 알고 있을 것이다. 가장 적은