💡 Key Takeaways
- The Setup: Five Tools, One Month, Zero Traditional Composition
- Week One: The Honeymoon Phase and Its Abrupt Ending
- The Prompt Problem: Why AI Music Is Harder Than AI Text
- When AI Actually Excelled: The Surprising Use Cases
Tôi đã làm nhạc cho phim độc lập và nội dung YouTube trong bảy năm. Tháng trước, tôi đã chi 847 đô la cho các công cụ tạo nhạc AI và sản xuất 127 bản nhạc. Chính xác ba bản đã vào những dự án thực tế. 124 bản còn lại? Chúng đang nằm trong một thư mục mà tôi đã đặt tên là "Giao hưởng Thung lũng Kỳ lạ."
💡 Những Điểm Chính
- Cài Đặt: Năm Công Cụ, Một Tháng, Không Có Sáng Tác Truyền Thống
- Tuần Một: Giai Đoạn Trăng Mật và Kết Thúc Đột Ngột
- Vấn Đề Về Lời Nhắc: Tại Sao Nhạc AI Khó Hơn Văn Bản AI
- Khi AI Thật Sự Xuất Sắc: Những Trường Hợp Sử Dụng Đáng Ngạc Nhiên
Đây không phải là một bài viết nóng khác về AI thay thế nhạc sĩ. Tôi không ở đây để nói với bạn rằng robot đang đến để lấy đi công việc của chúng ta, hay rằng AI đang dân chủ hóa sự sáng tạo, hoặc bất kỳ câu chuyện nào phù hợp với 280 ký tự. Điều tôi học được trong 31 ngày sử dụng AI cho từng nhu cầu nhạc nền là phức tạp hơn nhiều, gây khó chịu và thỉnh thoảng cũng rất xuất sắc hơn bất kỳ ý kiến nào trong số đó.
Tôi là Sarah Chen, và tôi điều hành một studio sản xuất âm nhạc nhỏ ở Portland, chuyên về nhạc nền cho video doanh nghiệp, tài liệu độc lập và những người sáng tạo YouTube tầm trung. Tháng điển hình của tôi bao gồm việc sáng tác 15-20 tác phẩm nguyên bản, cấp phép một tá tác phẩm khác từ danh mục của tôi, và dành khoảng 80 giờ để sản xuất. Tôi quyết định thay thế toàn bộ quy trình làm việc của mình bằng các công cụ AI để xem điều gì thực sự sẽ xảy ra khi lý thuyết gặp thực tế.
Kết quả đã làm tôi bất ngờ. Không phải vì AI tốt hơn hay kém hơn những gì tôi mong đợi, mà bởi vì thực tế phức tạp hơn rất nhiều khó khăn so với những gì mọi người đang nói.
Cài Đặt: Năm Công Cụ, Một Tháng, Không Có Sáng Tác Truyền Thống
Tôi đã cam kết tuân theo một protocol nghiêm ngặt. Trong toàn bộ tháng Hai, tôi sẽ không sáng tác một nốt nhạc nào theo cách truyền thống. Mọi dự án đến qua studio của tôi sẽ được xử lý hoàn toàn thông qua các công cụ tạo nhạc AI. Tôi đã chọn năm nền tảng dựa trên các đề xuất từ những nhà sáng tác khác và đánh giá trực tuyến: Soundraw, AIVA, Mubert, Boomy và Suno AI.
Danh sách khách hàng điển hình của tôi bao gồm một công ty khởi nghiệp công nghệ địa phương cần những bản nhạc nền doanh nghiệp sôi động, một nhà làm phim tài liệu đang làm việc về các câu chuyện môi trường, ba nhà sáng tạo YouTube ở các ngách khác nhau (đánh giá công nghệ, nội dung thiền và tội phạm có thật), và thỉnh thoảng là công việc video đám cưới. Tháng Hai đã đưa đến cho tôi 14 dự án riêng biệt cần 23 bản nhạc khác nhau.
Tôi đã thiết lập một bảng theo dõi bảng tính mà sẽ khiến một nhà khoa học dữ liệu tự hào. Đối với mỗi bản nhạc được tạo ra bởi AI, tôi đã ghi lại: thời gian tạo, số lần lặp lại cần thiết, độ phức tạp của lời nhắc, thời gian chỉnh sửa cần thiết, mức độ hài lòng của khách hàng, và liệu bản nhạc có được sử dụng cuối cùng hay không. Tôi cũng theo dõi trạng thái cảm xúc của mình trong quá trình, điều này hóa ra lại có liên quan hơn tôi nghĩ ban đầu.
Phân tích tài chính thật sự đã mở mắt tôi. Tôi đã chi 847 đô la cho năm nền tảng: 299 đô la cho gói chuyên nghiệp của AIVA, 199 đô la cho gói sáng tạo của Soundraw, 149 đô la cho giấy phép thương mại của Mubert, 99 đô la cho cấp độ cao cấp của Boomy và 101 đô la cho các tín dụng khác nhau của Suno AI. So với chi phí hàng tháng thông thường của tôi khoảng 200 đô la cho giấy phép phần mềm và thư viện mẫu, cộng với thời gian của tôi, mà tôi đánh giá là 75 đô la mỗi giờ cho công việc sáng tác.
Trên giấy tờ, nếu AI có thể giảm thiểu thời gian sáng tác của tôi một cách đáng kể, phép toán có thể hoạt động. Một bản nhạc nền dài 3 phút điển hình mất tôi từ 4-6 giờ để sáng tác, sắp xếp và sản xuất. Nếu AI có thể cung cấp kết quả tương tự trong 30 phút, tôi sẽ có một sự gia tăng năng suất 10 lần. Đó là lời hứa, dù sao đi nữa.
Tuần Một: Giai Đoạn Trăng Mật và Kết Thúc Đột Ngột
Dự án đầu tiên là một video doanh nghiệp dài 90 giây cho một công ty về bao bì bền vững. Họ muốn một cái gì đó "khích lệ nhưng không sến sẩm, hiện đại nhưng không xu hướng, năng động nhưng không quá tải." Bạn biết đấy, bản tóm tắt mơ hồ khó khăn mà ở đâu đó lại có ý nghĩa hoàn hảo với bất kỳ ai đã làm công việc này.
"Vấn đề không phải là nhạc AI nghe tồi — mà là nó nghe gần đúng. Cái 'gần' đó là nơi bạn mất khán giả mà họ không biết tại sao."
Tôi bắt đầu với Soundraw vì giao diện của nó trông thân thiện nhất. Tôi đã chọn "Doanh nghiệp," đặt tâm trạng thành "Sáng," chọn một nhịp độ khoảng 120 BPM và nhấn tạo. Bốn mươi bảy giây sau, tôi có một bản nhạc. Nó... ổn. Thực sự ổn. Những tiến trình hợp âm thì dễ đoán nhưng chức năng. Dàn nhạc thì chung chung nhưng phù hợp. Nó nghe giống hệt như 10.000 bản nhạc nền doanh nghiệp khác, mà thành thật mà nói, đôi khi chính xác là những gì bạn cần.
Tôi đã gửi nó cho khách hàng. Họ đã phê duyệt nó trong 23 phút. Tôi vừa hoàn thành trong dưới một giờ điều mà thường mất tôi nửa ngày. Tôi cảm thấy như tôi đã khám phá ra lửa.
Dự án thứ hai đã phá vỡ ảo tưởng đó. Một nhà làm phim tài liệu cần một bản nhạc piano buồn cho một cảnh về những người tị nạn khí hậu. Cô ấy đã gửi cho tôi một đoạn cắt thô của footage: một gia đình đang đóng gói đồ đạc, rời bỏ ngôi nhà ven biển của họ lần cuối. Cảnh đó dài 2 phút 37 giây, với một khoảnh khắc cảm xúc quan trọng ở 1:43 khi bà nhìn lại ngôi nhà lần cuối.
Tôi đã dành sáu giờ trong ba ngày cố gắng để AI tạo ra thứ gì đó hoạt động. AIVA đã đưa cho tôi những bản nhạc piano kỹ thuật điêu luyện nhưng cảm xúc lại trống rỗng. Những gợi ý không gian của Mubert thì quá trừu tượng. Bản preset "Buồn" của Soundraw tạo ra những bản nhạc mà nhiều hơn "hơi buồn" hơn là "tàn khốc về sự tồn tại." Vấn đề không phải là AI không thể tạo ra nhạc piano buồn. Nó hoàn toàn có thể. Vấn đề là nó không thể tạo ra nhạc piano buồn mà xây dựng lên một cao trào cảm xúc cụ thể đúng lúc 1:43.
Tôi đã tạo ra 34 biến thể. Tôi đã thử những lời nhắc khác nhau: "piano buồn với cao trào cảm xúc," "piano buồn trầm ngâm dần tăng," "sáng tác piano phản ánh với khoảnh khắc kịch tính." Không cái nào đạt được mục tiêu. AI có thể tạo ra tâm trạng, nhưng nó không thể tạo ra câu chuyện.
Cuối cùng, tôi đã sử dụng một bản nhạc nền được tạo ra bởi AI từ AIVA và dành bốn giờ để chỉnh sửa thủ công trong DAW của tôi, điều chỉnh động lực, thêm các lớp dây tinh tế và tái cấu trúc sắp xếp để phù hợp với sự thay đổi cảm xúc của cảnh. Tác phẩm cuối cùng có thể là 60% AI, 40% can thiệp của con người. Khách hàng rất thích nó, nhưng tôi đã dành nhiều thời gian cho nó hơn nếu tôi chỉ sáng tác từ đầu.
Vấn Đề Về Lời Nhắc: Tại Sao Nhạc AI Khó Hơn Văn Bản AI
Tới tuần thứ hai, tôi đã phát triển một lý thuyết về lý do tại sao việc tạo nhạc AI cảm thấy khó chịu hơn nhiều so với việc tạo văn bản. Khi bạn nhắc ChatGPT hoặc Claude, bạn có thể thay đổi theo cách trò chuyện. "Làm cho nó chính thức hơn." "Thêm một phần về X." "Viết lại kết luận." Vòng phản hồi là ngay lập tức và trực quan.
| Công Cụ Nhạc AI | Chi Phí Hàng Tháng | Trường Hợp Sử Dụng Tốt Nhất | Giới Hạn Chính |
|---|---|---|---|
| Soundraw | 16.99 đô la | Nhạc nền doanh nghiệp | Phạm vi cảm xúc hạn chế |
| AIVA | 33 đô la/tháng | Sáng tác nhạc giao hưởng | Các mô hình giai điệu lặp lại |
| Mubert | 14 đô la/tháng | Nhạc nền/không khí | Thiếu sự phát triển động |
| Suno AI | 10 đô la/tháng | Mẫu demo nhanh | Chất lượng đầu ra không đồng nhất |
| Sáng Tác Truyền Thống | 0 đô la (chỉ thời gian) | Tùy chỉnh theo yêu cầu của khách hàng | Quá trình tốn thời gian |
Âm nhạc không hoạt động theo cách đó. Hầu hết các công cụ nhạc AI không cung cấp sự tinh chỉnh theo cách trò chuyện. Bạn có menu thả xuống, thanh trượt và thẻ thể loại. Soundraw cho phép bạn điều chỉnh "năng lượng" và "tâm trạng," nhưng làm thế nào để bạn chuyển động thanh trượt năng lượng từ 7 đến 8? Làm thế nào để bạn truyền đạt rằng bạn muốn bản nhạc cảm thấy như "lái xe qua những con đường thành phố trống trải vào lúc 3 giờ sáng" hay "khoảnh khắc ngay trước khi tin tốt đến"?
🛠 Khám Phá Các Công Cụ Của Chúng Tôi
Tôi đã bắt đầu giữ một nhật ký lời nhắc, ghi lại những gì hoạt động và những gì không. Một số phát hiện: "Điện ảnh" như một thẻ thể loại sản xuất ra những kết quả khác nhau qua các nền tảng. Trên AIVA, nó có nghĩa là những cao trào nhạc giao hưởng và các dây kịch tính. Trên Mubert, nó có nghĩa là những phong cảnh âm thanh không gian với ít nhạc cụ. Trên Soundraw, nó có nghĩa là... thành thật mà nói, tôi chưa bao giờ xác định được chính xác nó có nghĩa là gì.
Các lời nhắc thành công nhất là những lời cụ thể và kỹ thuật nhất: "120 BPM, C trưởng, guitar acoustic và piano, cấu trúc verse-chorus, động lực vừa phải." Nhưng đây là sự mỉa mai: nếu tôi biết đủ về lý thuyết âm nhạc để viết lời nhắc đó, tôi có thể biết đủ để tự sáng tác tác phẩm. Những công cụ yêu cầu ít nhất