I Transcribed 100 Hours of Audio - Here's What I Learned \u2014 MP3-AI.com

March 2026 · 15 min read · 3,586 words · Last Updated: March 31, 2026Advanced

💡 Key Takeaways

  • The Reality Check: Why Manual Transcription Wasn't an Option
  • The Testing Phase: Seven Services, One Brutal Comparison
  • The Dark Horse: When MP3-AI.com Surprised Me
  • The Production Run: Transcribing 100 Hours in Real Time
Tôi đã chuyển thể 100 giờ âm thanh - Đây là những gì tôi đã học được — MP3-AI.com

Ba tháng trước, tôi ngồi trong văn phòng tại nhà, nhìn chằm chằm vào một thư mục chứa 247 tệp âm thanh. Là một nhà làm phim tài liệu với 12 năm kinh nghiệm, tôi vừa hoàn thành sản xuất cho dự án tham vọng nhất của mình - một bộ phim tài liệu dài tập về các doanh nhân nhập cư ở khu vực Trung Tây nước Mỹ. Vấn đề là gì? Tôi có 100 giờ và 23 phút đoạn phỏng vấn thô cần được chuyển thể trước khi tôi có thể bắt đầu biên tập. Hạn chót của tôi là sáu tuần, ngân sách của tôi đã bị kéo căng, và tôi sắp phải học hỏi nhiều hơn về việc chuyển thể âm thanh hơn những gì tôi từng nghĩ.

💡 Những Điểm Chính

  • Kiểm Tra Thực Tế: Tại Sao Việc Chuyển Thể Thủ Công Không Phải Là Một Lựa Chọn
  • Giai Đoạn Thử Nghiệm: Bảy Dịch Vụ, Một So Sánh Khắc Nghiệt
  • Ngựa Ô: Khi MP3-AI.com Gây Ngạc Nhiên Tôi
  • Giai Đoạn Sản Xuất: Chuyển Thể 100 Giờ Thực Tế

Những gì bắt đầu như một cuộc tìm kiếm tuyệt vọng cho các giải pháp chuyển thể đã biến thành một cuộc khám phá sâu sắc bất ngờ vào thế giới xử lý âm thanh sử dụng AI. Tôi đã thử nghiệm bảy dịch vụ chuyển thể khác nhau, chi hơn 1,847 đô la cho các công cụ và nền tảng khác nhau, và phát hiện rằng cảnh quan chuyển thể âm thanh đã thay đổi mạnh mẽ chỉ trong hai năm qua. Đây là câu chuyện về những gì tôi đã học được, những sai lầm tôi đã mắc phải, và những chiến lược cuối cùng đã cứu vãn dự án của tôi—và có thể cả sự tỉnh táo của tôi.

Kiểm Tra Thực Tế: Tại Sao Việc Chuyển Thể Thủ Công Không Phải Là Một Lựa Chọn

Hãy để tôi bắt đầu với một phép toán nghiêm túc. Các chuyên gia chuyển thể thường tính phí từ 1,50 đến 3,00 đô la cho mỗi phút âm thanh. Đối với 100 giờ nội dung của tôi, điều đó có nghĩa là tổng chi phí dao động từ 9,000 đến 18,000 đô la. Toàn bộ ngân sách hậu sản xuất của tôi là 22,000 đô la. Ngay cả khi tôi sẵn sàng dành gần như tất cả số tiền ấy cho việc chuyển thể, thời gian hoàn thành cũng sẽ mất tối thiểu từ 3-4 tuần cho một dự án có quy mô như thế này.

Tôi đã cân nhắc việc tự mình làm. Sau tất cả, việc này khó khăn đến mức nào? Tôi đã ghi thời gian khi chuyển thể một đoạn phỏng vấn dài 10 phút. Tôi đã mất 47 phút. Với tốc độ đó, để chuyển thể 100 giờ sẽ cần khoảng 470 giờ làm việc—gần 12 tuần làm việc toàn thời gian. Ngay cả khi làm việc 60 giờ mỗi tuần, tôi sẽ cần gần hai tháng chỉ để chuyển thể, khiến tôi không còn đủ thời gian để thực sự biên tập bộ phim tài liệu.

Các tính toán thật khắc nghiệt, nhưng chúng buộc tôi phải đối mặt với một sự thật mà nhiều nhà sáng tạo nội dung phải đối mặt: vào năm 2026, nếu bạn vẫn đang chuyển thể âm thanh bằng tay hoặc trả mức phí cao cho việc chuyển thể của con người, bạn hoặc đang làm việc trên nội dung rất chuyên biệt mà điều đó là cần thiết, hoặc bạn chưa phát hiện ra cuộc cách mạng đang diễn ra trong chuyển thể âm thanh sử dụng AI. Tôi cần phải tìm một cách tốt hơn, và nhanh chóng.

Sự nhận thức này đã dẫn tôi vào một cuộc nghiên cứu sâu rộng. Tôi đã dành ba ngày đọc đánh giá, xem video so sánh, và tham gia các cộng đồng trực tuyến của những người làm podcast, nhà báo, và nhà làm phim. Những gì tôi phát hiện ra là cảnh quan chuyển thể đã phân tán thành hàng chục giải pháp, mỗi cái đều tự cho rằng là tốt nhất. Một số miễn phí, một số đắt đỏ, một số chính xác, một số nhanh chóng—nhưng việc tìm ra sự kết hợp đúng đắn của các tính năng cho nhu cầu cụ thể của tôi sẽ yêu cầu thử nghiệm thực tế.

Giai Đoạn Thử Nghiệm: Bảy Dịch Vụ, Một So Sánh Khắc Nghiệt

Tôi đã thiết kế một bài kiểm tra đơn giản nhưng nghiêm ngặt. Tôi đã chọn năm mẫu âm thanh từ tài liệu của mình, mỗi mẫu đại diện cho các thách thức khác nhau: một cuộc phỏng vấn yên tĩnh trong một quán café ồn ào, một cuộc phỏng vấn qua điện thoại với chất lượng âm thanh trung bình, một cuộc gọi Zoom với hai diễn giả, một cuộc phỏng vấn ngoài trời với tiếng gió, và một đoạn thu âm chất lượng studio rõ ràng. Mỗi mẫu có độ dài chính xác 15 phút. Tôi sẽ chạy cả năm mẫu qua từng dịch vụ và đánh giá chúng theo năm tiêu chí: độ chính xác, nhận diện diễn giả, độ chính xác của dấu thời gian, thời gian hoàn thành, và chi phí.

"Cảnh quan chuyển thể đã chuyển biến cơ bản—những gì tốn 15,000 đô la ba năm trước giờ có giá dưới 200 đô la với AI, và khoảng cách độ chính xác đã thu hẹp xuống còn chỉ 2-3% trong điều kiện lý tưởng."

Các dịch vụ tôi đã thử nghiệm là Otter.ai, Rev.ai, Descript, Trint, Sonix, Happy Scribe, và một cái mới mà một số người dùng Reddit đã giới thiệu—MP3-AI.com. Tôi đã tạo tài khoản với từng dịch vụ, tải lên các tệp thử nghiệm của mình, và bắt đầu đồng hồ. Những gì xảy ra trong 48 giờ tiếp theo thật sự đã mở mang tầm mắt.

Otter.ai đã xử lý các tệp của tôi nhanh chóng—tệp dài nhất chỉ mất 8 phút—but struggled significantly with my café interview. It achieved only 76% accuracy on that file, though it performed admirably on the clear studio recording at 94% accuracy. The speaker identification was inconsistent, often merging two speakers into one or splitting a single speaker into multiple identities. Cost-wise, at $16.99 per month for the Pro plan, it was affordable, but the accuracy issues concerned me.

Rev.ai đã gây ấn tượng với tôi về độ chính xác—luôn luôn đạt 88-92% trên tất cả năm tệp kiểm tra—nhưng chi phí là một vấn đề. Với 1.50 đô la mỗi phút, 100 giờ của tôi sẽ tốn 9,000 đô la. Thời gian hoàn thành cũng chậm hơn các giải pháp chỉ sử dụng AI, trung bình từ 4-6 giờ cho mỗi tệp vì họ sử dụng phương pháp hybrid giữa người và AI. Đối với ai đó có hạn chót như tôi, điều này không khả thi.

Descript cung cấp một giải pháp tất cả trong một thú vị với việc chuyển thể tích hợp vào nền tảng chỉnh sửa của họ. Độ chính xác khá tốt từ 85-89%, và khả năng chỉnh sửa âm thanh bằng cách chỉnh sửa văn bản thật sự đổi mới. Tuy nhiên, độ khó của nó khá cao, và với 24 đô la mỗi tháng cộng với phí bổ sung cho các giờ chuyển thể, tổng chi phí nhanh chóng gia tăng. Đối với 100 giờ của tôi, tôi sẽ phải chi khoảng 240 đô la cho đăng ký cộng với thêm khoảng 300-400 đô la cho tín dụng chuyển thể.

Trint và Sonix hoạt động tương tự, cả hai đều đạt 84-88% độ chính xác với mức giá hợp lý khoảng 60-80 đô la mỗi tháng cho các gói sẽ đáp ứng nhu cầu của tôi. Các giao diện thì sạch sẽ, các xuất khẩu thì linh hoạt và cả hai đều xử lý nhận diện diễn giả khá ổn. Đây là những lựa chọn trung bình vững chắc, nhưng không có điều gì về chúng nổi bật là đặc biệt.

Ngựa Ô: Khi MP3-AI.com Gây Ngạc Nhiên Tôi

Tôi xin thừa nhận tôi đã hoài nghi về MP3-AI.com. Trang web này mới hơn, độ nhận diện thương hiệu thì thấp, và tôi chỉ thấy nó được đề cập trong một vài chủ đề diễn đàn. Nhưng mô hình giá đã thu hút sự chú ý của tôi: thanh toán theo từng lượt sử dụng mà không cần đăng ký, với giá 0.25 đô la cho mỗi phút âm thanh. Đối với 100 giờ của tôi, sẽ mất 1,500 đô la—rẻ hơn nhiều so với hầu hết các lựa chọn khác.

Loại Dịch VụChi Phí mỗi GiờThời Gian Hoàn ThànhTỷ Lệ Chính Xác
Con Người Chuyên Nghiệp$90-$1803-5 ngày98-99%
Tự Động AI (Cao cấp)$10-$25Thực tế đến 2 giờ85-95%
Tự Động AI (Ngân sách)$2-$8Thực tế đến 1 giờ75-90%
Hybrid (AI + Người Đánh Giá)$30-$601-3 ngày96-98%
Thủ Công (Tự làm)$0 (chi phí thời gian: 4-5x độ dài âm thanh)Tuần đến thángBiến đổi

Tôi đã tải lên năm tệp thử nghiệm của mình với kỳ vọng thấp. Những gì xảy ra tiếp theo thật sự đã khiến tôi ngạc nhiên. Cuộc phỏng vấn ở quán café—cuộc mà đã khiến Otter.ai gặp khó khăn—trở lại với 89% độ chính xác. Cuộc phỏng vấn qua điện thoại đạt 91%. Cuộc gọi Zoom với hai diễn giả đã được xác định và tách ra với độ chính xác 87%. Ngay cả cuộc phỏng vấn ngoài trời có tiếng gió cũng đạt được 84% độ chính xác, tốt hơn nhiều so với một số đối thủ đắt đỏ hơn.

Nhưng độ chính xác chỉ là một phần của câu chuyện. Thời gian hoàn thành rất ấn tượng—tệp dài nhất của tôi (15 phút) được xử lý trong chưa đầy 4 phút. Các dấu thời gian rất chính xác đến từng giây, giúp việc nhảy đến những khoảnh khắc cụ thể trong phần mềm biên tập của tôi vô cùng dễ dàng. Các tùy chọn xuất khẩu bao gồm định dạng SRT, VTT, TXT và DOCX, đáp ứng tất cả các nhu cầu có thể của tôi.

Nhưng điều thật sự bán cho tôi, tuy nhiên, là một tính năng mà tôi thậm chí chưa biết mình cần tìm: chấm câu thông minh và ngắt đoạn. Nhiều dịch vụ chuyển thể AI sản xuất ra các bức tường văn bản mà không có định dạng tối thiểu. Đầu ra của MP3-AI.com được cấu trúc thành các đoạn văn có thể đọc được với câu chữ chính xác, chữ viết hoa, và thậm chí một số định dạng ngữ cảnh như dấu chấm hỏi ở nơi cần thiết. Chi tiết tưởng chừng nhỏ này sẽ tiết kiệm cho tôi hàng giờ làm sạch công việc.

Tôi đã thực hiện một vòng thử nghiệm thứ hai với các tệp dài hơn—mỗi tệp 30 phút—và kết quả vẫn giữ vững. Độ chính xác vẫn ổn định, thời gian xử lý tăng theo một cách tuyến tính, và chi phí vẫn dự đoán được. Tôi đã tính toán: cho toàn bộ dự án 100 giờ của mình, tôi sẽ tốn 1,500 đô la cho việc chuyển thể, hoàn tất công việc trong khoảng 6-8 giờ thời gian xử lý (tính cả tốc độ tải lên và kết nối internet của tôi), và có được các bản chuyển thể sạch sẽ, đã định dạng sẵn sàng cho việc biên tập. Nó gần như quá tốt để là sự thật.

M

Written by the MP3-AI Team

Our editorial team specializes in audio engineering and music production. We research, test, and write in-depth guides to help you work smarter with the right tools.

Share This Article

Twitter LinkedIn Reddit HN

Related Tools

Audio Optimization Checklist All Audio Tools — Complete Directory Top 10 Audio Tips & Tricks

Related Articles

Podcast Audio Setup Guide: Sound Professional from Episode 1 — mp3-ai.com Audio Formats & Quality: The Only Guide You Need — mp3-ai.com Live Streaming Audio Setup: OBS, Discord & Zoom — mp3-ai.com

Put this into practice

Try Our Free Tools →

🔧 Explore More Tools

Pitch ChangerSitemap HtmlAudio MixerMp3 CutterAudio FaderAudio To Text

📬 Stay Updated

Get notified about new tools and features. No spam.