What about understanding what audio normalization actually means?

Before we dive into the how, we need to understand the what. Audio normalization is the process of adjusting the overall volume of audio files so they play back at consistent levels. But here's where most people get confused: there are actually several different types of normalization, and choosing...

What about choosing the right target levels for your content?

One of the most common questions I get is: "What level should I normalize to?" The answer depends entirely on your distribution platform and content type. Getting this wrong can result in your audio being automatically adjusted by streaming platforms, often in ways you won't like.

What about essential tools for batch audio normalization?

When you're normalizing multiple files, manual processing isn't just tedious—it's impractical. I've tested dozens of tools over the years, and I've settled on a core toolkit that handles 99% of my normalization needs. Let me walk you through what actually works in real-world production environments.

What about the step-by-step normalization workflow that actually works?

Theory is great, but let me show you the exact workflow I use for client projects. This process has been refined over hundreds of projects, and it's designed to catch problems before they become expensive mistakes.

What about common mistakes that ruin your normalized audio?

I've reviewed audio from hundreds of creators, and I see the same mistakes over and over. These errors can turn professional-sounding content into amateur hour, and most people don't even realize they're making them.

How to Normalize Audio Volume Across Multiple Files [日本語]

💡 Key Takeaways

Understanding What Audio Normalization Actually Means
Choosing the Right Target Levels for Your Content
Essential Tools for Batch Audio Normalization
The Step-by-Step Normalization Workflow That Actually Works

三年前、私は大手テクノロジー企業のポッドキャストシリーズをミキシングしていたとき、クライアントが慌てて電話をかけてきました。「CEOの声はささやいているように聞こえるのに、マーケティングディレクターはほぼ叫んでいる」と彼女は言いました。「明日公開する前にこれを修正できますか？」私は異なる人々、異なるデバイス、異なる部屋で録音された47のオーディオファイルを受け取っていました。一部はプロのマイクで、一部はノートパソコンの内蔵マイクで録音されていました。音量の不一致は悪夢で、すべてを正規化するのに24時間もありませんでした。

💡 重要なポイント

オーディオ正規化の本当の意味を理解する
コンテンツに最適なターゲットレベルを選ぶ
バッチオーディオ正規化のための必須ツール
実際に機能するステップバイステップの正規化ワークフロー

この経験から私は重要なことを学びました：オーディオ正規化は単なる技術的なチェックボックスではありません。それはプロフェッショナルな製品とアマチュアな製品の違いです。私はマーカス・チェンです。過去12年間、独立系ポッドキャスターからフォーチュン500企業まで、さまざまな人々と共にポストプロダクションオーディオエンジニアとして働いてきました。その間に、私は数千のオーディオファイルを実際に正規化し、多くの人々がこの作業に対して全く間違ったアプローチをしていることを学びました。

実際には、音量正規化は多くのクリエイターが認識しているよりも単純でありながらもより複雑です。正しく行えば、あなたの聴衆は気付かないでしょう—それが目的だからです。しかし間違えば、彼らの耳を圧倒するか、あなたのコンテンツを聞くために音量を最大にしなければならなくなります。このガイドでは、基礎的な概念から、プロフェッショナルな制作で使用する高度な技術に至るまで、複数のファイルでのオーディオの正規化に関して私が学んだすべてを説明します。

オーディオ正規化の本当の意味を理解する

実施方法に入る前に、まずその概念を理解する必要があります。オーディオ正規化は、オーディオファイルの全体的な音量を調整して、一貫したレベルで再生できるようにするプロセスです。しかし、ここが多くの人々が混乱するポイントです：実際には複数の異なるタイプの正規化があり、間違ったものを選ぶとオーディオの音質が悪化する可能性があります。

ピーク正規化は最も単純な形です。これはオーディオファイル内の最も大きな音（ピーク）を見つけ、そのピークが通常は0 dBまたは-1 dBのターゲットレベルに達するようにファイル全体を調整します。例えば、録音されたデータの中で最も音が大きい瞬間が-6 dBに達する場合、ピーク正規化はファイル全体を6 dB押し上げて、ピークが0 dBに達するようにします。その他の部分は比例的に押し上げられます。

問題は、ピーク正規化は知覚される音量を考慮していないことです。私はかつてピーク正規化を使用してインタビュー録音シリーズを正規化しましたが、技術的なピークは同じであるにもかかわらず、あるインタビューが他のインタビューよりもかなり静かに聞こえました。なぜなら、そのインタビューにはピークを生み出す一瞬の大きな笑い声がありましたが、実際の対話は他のファイルよりもずっと静かだったからです。

ここで登場するのがラウドネス正規化で、私が90%のプロジェクトで使用しています。ピークを見る代わりに、ラウドネス正規化は全ファイルの平均知覚音量をLUFS（フルスケールに対するラウドネスユニット）などの基準を使用して測定します。ヨーロッパ放送連合はEBU R128標準を確立し、放送コンテンツに対して-23 LUFSをターゲットとしています。ストリーミングプラットフォームにはそれぞれ独自のターゲットがあります：Spotifyは-14 LUFS、YouTubeは-13から-15 LUFSを狙い、Apple Podcastsは-16 LUFSを推奨しています。

私の作業の具体例を挙げます：私はピーク正規化を使用して30エピソードのポッドキャストを-1 dBで正規化しました。ラウドネスを測定したところ、エピソードは-12 LUFSから-19 LUFSまでの範囲に分かれ、大きな7 LUFSの差があり、リスナーはこれに気付くことができます。ラウドネス正規化に切り替えて-16 LUFSをターゲットにしたところ、すべてのエピソードが0.5 LUFSの範囲内に収まりました。その違いは明白でした。

コンテンツに最適なターゲットレベルを選ぶ

私がよく受ける質問の一つは、「どのレベルに正規化すべきか？」ということです。答えは、あなたの配信プラットフォームとコンテンツタイプによって完全に異なります。これを間違えると、ストリーミングプラットフォームによってオーディオが自動的に調整されることになり、ほとんどの場合、あなたが望んでいない方法で行われます。

「ピーク正規化はファイルの最も大きな音が同じ音量であるようにしますが、人間の耳には均等に大きな音には聞こえません—それがほとんどの人が見落とす重要な違いです。」

ポッドキャストの場合、私は常に-16 LUFSを推奨し、真のピーク制限は-1 dBです。これはApple Podcastsの仕様に合致しており、すべての主要なポッドキャストプラットフォームでうまく機能します。私はクライアントが「大きい方が良い」と言って-12 LUFSに正規化することを主張した時、これを辛い方法で学びました。Appleの自動音量調整が作動し、競争のある番組よりもポッドキャストが静かになってしまいました。私たちは50エピソードを再エクスポートし、再アップロードしなければなりませんでした。

音楽制作は、ジャンルやプラットフォームによって異なるターゲットが必要です。ストリーミング用にマスタリングする場合、多くのプラットフォームでのスイートスポットは-14 LUFSです。しかし、ここにニュアンスがあります：Spotifyは-14 LUFSよりも大きい音楽を下げますが、静かな音楽は上げません。したがって、-16 LUFSでマスタリングすると、あなたのトラックは競合よりも静かに再生されます。エレクトロニックダンス音楽の場合、私はしばしば-8または-9 LUFSに引き上げます。なぜならそのジャンルはそのエネルギーを要求し、一部のプラットフォーム調整を受け入れる覚悟があるからです。

YouTubeコンテンツは中間に位置しています。私はほとんどのYouTube動画に対して-13から-14 LUFSをターゲットにし、チュートリアルやインタビューのような対話が多いコンテンツには-15 LUFSを使用します。このプラットフォームの正規化はSpotifyほど攻撃的ではなく、より柔軟性があります。私は最近、インタビューセグメントに-15 LUFS、アクションシーケンスには-13 LUFSを使用したドキュメンタリーシリーズに取り組みました。意図的なダイナミックコントラストを作成し、YouTubeのアルゴリズムが見事に保存しました。

オーディオブックやeラーニングコンテンツは特別な配慮が必要です。ACX（オーディオブック制作交換）標準では、オーディオは-23 LUFSから-18 LUFSの範囲にし、理想的なターゲットは-20 LUFSです。これは他のコンテンツと比べると静かに思えるかもしれませんが、覚えておいてください：人々はしばしばオーディオブックを聞きながら眠りに落ちたり、長い通勤中に聴いたりします。安定性は、単なる音量よりも重要です。私は200時間以上のオーディオブックを制作していますが、常にレビュー評価が最も高いのは、しっかりと正規化されたオーディオブックです。

バッチオーディオ正規化のための必須ツール

複数のファイルを正規化する際、手動処理は単に面倒なだけでなく、実用的ではありません。私はこれまでに数十のツールをテストしており、99%の正規化ニーズに対応できるコアツールキットに落ち着きました。実際の制作環境で実際に機能するものについてお話ししましょう。

正規化タイプ	最適な使用ケース	ターゲットレベル	長所と短所
ピーク正規化	音楽マスタリング、効果音	-0.1 dBから-1.0 dB	シンプルで迅速ですが、知覚される音量は考慮していません
RMS正規化	バックグラウンド音楽、環境音	-18 dBから-20 dB	一貫性がより良いですが、依然として知覚的には正確ではありません
LUFS正規化	ポッドキャスト、対話、放送	-16 LUFS（ポッドキャスト）、-23 LUFS（放送）	業界標準で、知覚に合致しますが、専門的なツールを必要とします
EBU R128	テレビ、ストリーミングプラットフォーム	-23 LUFSで-1 dBの真のピーク	放送に必須で、クリッピングを防ぎますが、一部のプラットフォームでは静かに聞こえる可能性があります

プロフェッショナルな作業には、私はiZotope RX 10のラウドネスコントロールモジュールに依存しています。価格は$399ですが、これを定期的に行う場合は価値があります。バッチ処理は賢く、数百のファイルを分析し、現在のラウドネスレベルの視覚表現を示し、単一のクリックでターゲットに正規化できます。先月、私は約45分で180のポッドキャストエピソードを正規化しました。この仕事は、初期のキャリアでは2日かかっていました。

予算が限られている場合、Audacityは完全に無料で、驚くほど能力があります。ラウドネス正規化効果（効果 > 音量と圧縮の下）はLUFSターゲティングをサポートし、小規模バッチにはうまく機能します。問題は、Audacityのバッチ処理にはChains（現在はMacrosと呼ばれています）を使ったいくつかの設定が必要です。私はファイルを開き、-16 LUFSに正規化し、WAV形式でエクスポートし、閉じるというマクロを作成しました—すべて自動で。20-30ファイルを処理するには、これが完璧に機能します。

コマンドライン愛好家は、loudnormフィルターを使用したFFmpegを見てみるべきです。これは無料で、非常に強力で、自動化に適しています。私はPythonスクリプトで使用しており、そのスクリプトはフォルダを監視し、新しいオーディオファイルを指定したターゲットに自動的に正規化し、出力フォルダに移動します。学習曲線は急ですが、一度スクリプトが機能すると、それはセットして忘れることができます。現実はこうです：私は毎月約500ファイルを処理しており、その80%は私が触れることなく自動化されたFFmpegパイプラインを通過します。

Macユーザーには、スピーチコンテンツのためのクイックで手軽な解決策としてLevelatorをお勧めします。これは無料で、ドラッグ＆ドロップが簡単で、ポッドキャストやインタビュー用に特化しています。欠点は？私は…