💡 Key Takeaways
- The Setup: Five Tools, One Month, Zero Traditional Composition
- Week One: The Honeymoon Phase and Its Abrupt Ending
- The Prompt Problem: Why AI Music Is Harder Than AI Text
- When AI Actually Excelled: The Surprising Use Cases
私は独立系映画やYouTubeコンテンツの音楽を7年間作曲してきました。先月、私はAI音楽生成ツールに$847を費やし、127曲を制作しました。そしてそのうち3曲だけが実際のプロジェクトに使われました。他の124曲は?私はそれらを「不気味な谷の交響曲」と名付けたフォルダに置いています。
💡 重要なポイント
- セットアップ:5つのツール、1か月、伝統的な作曲ゼロ
- 第1週:ハネムーンフェーズとその突然の終わり
- プロンプトの問題:AI音楽はAIテキストより難しい理由
- AIが実際に優れたとき:驚くべきユースケース
これはAIがミュージシャンを置き換えるというホットテイクではありません。私は、ロボットが私たちの仕事を奪いに来ているとか、AIが創造性を民主化しているとか、280文字にきれいに収まる物語を語るためにここにいるわけではありません。私がAIを使ってすべてのバックグラウンド音楽のニーズを満たす31日間の中で学んだことは、誰もが話していることよりもはるかに複雑で、フラストレーションが溜まり、時には素晴らしいものでした。
私はサラ・チェンで、ポートランドに小さな音楽制作スタジオを運営しており、企業ビデオ、独立系ドキュメンタリー、そして中程度のYouTubeクリエイターのためのバックグラウンドスコアを専門としています。私の典型的な月は、15〜20曲のオリジナル作品を作曲し、バックカタログからさらに12曲をライセンスし、約80時間の制作に費やします。私はAIツールでワークフロー全体を置き換え、実際にどうなるかを見てみることにしました。
結果には驚かされました。AIが私の期待よりも優れているか劣っているという理由ではなく、現実が誰もが話していることよりもはるかに 複雑 だったからです。
セットアップ:5つのツール、1か月、伝統的な作曲ゼロ
私は厳格なプロトコルを守ることを決意しました。2月の全期間中、私は伝統的に単一の音符も作曲しませんでした。私のスタジオに持ち込まれたすべてのプロジェクトはAI音楽生成ツールを通じて独占的に扱われることになります。私は他の作曲家やオンラインレビューの推薦に基づいて5つのプラットフォームを選びました:Soundraw、AIVA、Mubert、Boomy、Suno AIです。
私の典型的なクライアントには、明るい企業向けのバックグラウンドミュージックが必要な地元のテックスタートアップ、環境に関するストーリーを扱っているドキュメンタリー制作者、さまざまなニッチで活動している三人のYouTubeクリエイター(テクノロジーのレビュー、瞑想コンテンツ、真実の犯罪)、そして時折のウェディングビデオの仕事があります。2月には23の異なる音楽作品が必要な14の異なるプロジェクトがありました。
私はデータサイエンティストが誇りに思うような追跡用のスプレッドシートを整えました。各AI生成トラックについて、生成時間、必要な反復の数、プロンプトの複雑さ、必要な編集時間、クライアントの満足度評価、最終的にトラックが使用されたかどうかを記録しました。また、プロセス中の私の感情状態も追跡しましたが、これは最初に思ったよりも関連性が高いことが分かりました。
財務の内訳は驚くべきものでした。私は5つのプラットフォームで$847を費やしました:AIVAのプロフェッショナルプランに$299、Soundrawのクリエイターサブスクリプションに$199、Mubertの商用ライセンスに$149、Boomyのプレミアムティアに$99、そしてさまざまなSuno AIのクレジットに$101です。これを私の通常のソフトウェアライセンスとサンプルライブラリの月々のオーバーヘッド約$200、および作曲作業のために時間を$75/時間と評価することを考慮すると、比較してみてください。
理論上、AIが私の作曲時間を大幅に短縮すれば、数学的にうまくいく可能性があります。典型的な3分のバックグラウンドピースは、作曲、編曲、制作に4〜6時間かかります。もしAIが30分で同等の結果を提供できれば、私は10倍の生産性の向上が見込めます。とにかく、それが約束です。
第1週:ハネムーンフェーズとその突然の終わり
最初のプロジェクトは持続可能なパッケージング会社のための90秒の企業ビデオでした。彼らは「明るいけれど安っぽくない、現代的だけれどトレンディではない、エネルギッシュだけれど圧倒的でない」ものを求めていました。ご存知の通り、普段の行き詰まった依頼ですが、この仕事をしたことがある人には完璧に理解できるものです。
"問題はAI音楽が悪い音に聞こえることではなく、ほぼ正しい音に聞こえることです。その『ほぼ』が聴衆を失わせる理由です、彼らがなぜそうなるかも知らずに。”
私はSoundrawから始めました。なぜなら、そのインターフェースが最も扱いやすそうに見えたからです。「コーポレート」を選択し、ムードを「明るい」に設定し、テンポを120 BPM程度に設定して、生成を押しました。47秒後、トラックができました。それは...悪くありませんでした。本当に悪くありませんでした。コード進行は予測可能でしたが機能的でした。楽器編成は一般的でしたが適切でした。それは他の10,000のコーポレートバックグラウンドトラックと全く同じ音で、正直なところ、時には正に必要なものでした。
私はそれをクライアントに送信しました。彼らは23分で承認しました。私は通常であれば半日かかるところを1時間以内で完了しました。私は火を見つけたような気持ちになりました。
2つ目のプロジェクトはその幻想を打ち砕きました。あるドキュメンタリー制作者が気候難民に関するシーンのために悲しげなピアノ曲が必要でした。彼女は私に映像のラフカットを送ってくれました:家族が身の回りの物を詰め、最後の時を迎える海辺の家を去るシーンです。そのシーンは2分37秒で、1:43におばあさんが最後に家を振り返る重要な感情的なビートがありました。
私は3日間にわたってAIに何かを生成させるために6時間を費やしました。AIVAは技術的に優れたピアノ作品を提供しましたが、感情は空虚でした。Mubertのアンビエントな提供物はあまりにも抽象的でした。Soundrawの「悲しい」プリセットは「少し憂鬱」になった音楽を出力しましたが、「存在的な壊滅的さ」には至りませんでした。問題は、AIが悲しいピアノ音楽を作れなかったことではなく、特定の感情的クレッシェンドを1:43に正確に構築できなかったことでした。
私は34のバリエーションを生成しました。異なるプロンプトを試しました:「感情的に高まるメランコリックなピアノ」、「徐々に強まる悲しい瞑想的なピアノ」、「劇的な瞬間を持つ反映的なピアノ作品」。何も的を射ませんでした。AIはムードを作り出せましたが、物語を作ることはできませんでした。
結局、私はAIVAからのAI生成の基本トラックを使用し、それをDAWで4時間かけて手動編集しました。ダイナミクスを調整し、微妙なストリングレイヤーを追加し、シーンの感情的な弧に合わせてアレンジを再構成しました。最終的な作品はおそらく60%がAI、40%が人間の介入でした。クライアントはそれを気に入りましたが、私はゼロから作曲するよりも多くの時間を費やしてしまいました。
プロンプトの問題:AI音楽はAIテキストより難しい理由
第2週までに、AI音楽生成がテキスト生成よりもずっとフラストレーションを感じる理由について理論を展開しました。ChatGPTやClaudeにプロンプトを与えると、会話的に反復できるのです。「もっとフォーマルにして。」 「Xに関するセクションを追加して。」 「結論を書き直して。」フィードバックループは即時で直感的です。
| AI音楽ツール | 月額費用 | 最適な使用ケース | 主な制限 |
|---|---|---|---|
| Soundraw | $16.99 | 企業用バックグラウンドループ | 感情的な範囲が限られている |
| AIVA | $33/月 | オーケストラ作品 | 反復的なメロディパターン |
| Mubert | $14/月 | アンビエント/アトモスフェリックトラック | ダイナミックな進行が不足している |
| Suno AI | $10/月 | 迅速なコンセプトデモ | 品質が不安定 |
| 伝統的な作曲 | $0(時間のみ) | クライアント固有のカスタマイズ | 時間集約的なプロセス |
音楽はそのように機能しません。ほとんどのAI音楽ツールは会話的な洗練を提供していません。ドロップダウンメニュー、スライダー、およびジャンルタグが提供されます。Soundrawでは「エネルギー」と「ムード」を調整できますが、エネルギースライダーを7から8に動かすことが何を意味するのか?どうやって「午前3時に空の街を走っている感覚」や「良いニュースが届く直前の瞬間」を感じさせるように伝えますか?
私はプロンプトジャーナルをつけ始め、何が機能し、何が機能しなかったかを記録しました。いくつかの発見:「シネマティック」というジャンルタグは、プラットフォームごとに大きく異なる結果をもたらします。AIVAでは、それはオーケストラの膨張とドラマティックなストリングを意味しました。Mubertでは、たまに打楽器のあるアンビエントなサウンドスケープを意味しました。Soundrawでは、それが何を意味するのか、正直なところ私はまだよくわかりませんでした。
最も成功したプロンプトは、最も具体的で技術的なものでした:「120 BPM、Cメジャー、アコースティックギターとピアノ、ヴァース-コーラス構造、中程度のダイナミクス」。しかし皮肉なことに、私がそのプロンプトを書くのに十分な音楽理論の知識を持っているなら、おそらく自分で作品を作曲するのに十分な知識も持っているでしょう。最も少ない介入を必要とするツールは、最も知識を持っている必要があるのです。