Ứng dụng AI trong sản xuất âm nhạc và âm thanh vẫn có nhiều các giới hạn, tuy nhiên chúng đang dần hoàn thiện để hỗ trợ tốt cho nhà sản xuất. Tôi sẽ đề cập đến những vấn đề chính mà AI đang và có thể sẽ đạt được trong lĩnh vực này
Ứng dụng AI trong âm thanh: Chuyển văn bản thành giọng nói – Text to speech
Đây là dạng AI âm thanh đầu tiên được đội ngũ các nhà phát triển hướng tới, vì sự khả thi và ứng dụng. Dễ hiểu rằng với bất kỳ nội dung văn bản nào cũng khó tiếp cận hơn so với nội dung âm thanh – hình ảnh, khi mà thế giới đang ở giai đoạn của các thiết bị nghe nhìn.
Dưới đây là list một số loại hình công việc sẽ được hưởng lợi từ AI chuyển văn bản thành giọng nói:
- Giải trí: Dạng AI này có thể được sử dụng để tạo ra các bản dịch giọng nói, các bản thu âm giọng nói cho các nhân vật trong phim, hoạt hình, trò chơi điện tử,…
- Giáo dục: Dạng AI này có thể được sử dụng để tạo ra các bài giảng, các tài liệu giảng dạy bằng giọng nói của các giáo sư nổi tiếng,…
- Truyền thông: Dạng AI này có thể được sử dụng để tạo ra các bản tin, các chương trình phát thanh, truyền hình bằng giọng nói của các phóng viên, bình luận viên,…
- Bán hàng và tiếp thị: Dạng AI này có thể được sử dụng để tạo ra các bản ghi âm giọng nói quảng cáo, giới thiệu sản phẩm, dịch vụ,…
- Chăm sóc sức khỏe: Dạng AI này có thể được sử dụng để tạo ra các bản ghi âm giọng nói của các bác sĩ, chuyên gia y tế,… để hướng dẫn bệnh nhân, cung cấp thông tin y tế,…
Ai chuyển văn bản thành giọng nói hiện nay đã có chất lượng tương đối tốt. Với đặc thù ngôn ngữ Việt Nam, đã có một số đơn vị phát hành bản thương mại như FPT hay Viettel. Tôi sẽ để link ở đây để bạn đọc có nhu cầu trải nghiệm có thể tham khảo
- FPT: https://fpt.ai/vi/tts
- Viettel: https://viettelgroup.ai/service/tts
Giới hạn của AI hiện nay trong vấn đề chuyển văn bản thành giọng nói:
Dựa trên quan điểm cá nhân của tôi dựa trên những hiểu biết về AI và quá trình trải nghiệm các AI text to speech nói chung là chúng có thể đáp ứng tốt các nhu cầu chuyển văn bản thành giọng nói khá tốt đối với các lĩnh vực chỉ cần truyền đạt thông tin như tin tức – bài giảng – dữ liệu.
AI này hiện tại truyền đạt văn bản còn thiếu cảm xúc, vấn đề lớn là do nhận biết “ngữ cảnh” để truyền đạt cảm xúc, sắc thái. Điều này có lẽ sẽ được phát triển trong tương lai khi mà AI mô hình ngôn ngữ đã có thể phân tích dữ liệu ngữ cảnh thành cảm xúc. Việc kết hợp 2 AI này sẽ tạo thành một AI hiểu văn bản hơn rất nhiều.
Ứng dụng AI trong việc thay đổi âm thanh giọng hát, giọng nói – Voice changer
Cũng giống như bao ứng dụng AI dân dụng khác, có lẽ việc giả lập con người là thứ đầu tiên mà những nhà sáng tạo nghĩ đến. Trước đây là deepfake ( u know what i mean ) để giả khuông mặt người trên video, hiện nay AI đã có thể chuyển đổi âm thanh giọng người này thành người khác. Các loại hình công việc sẽ được hưởng lợi:
- Nhà sản xuất âm nhạc cần chuyển đổi giọng hát của ca sĩ này thành ca sĩ khác.
- Các nhà sáng tạo nội dung cần giả giọng đọc của người nổi tiếng với ngữ điệu cảm xúc mà Text to speech chưa làm được.
Sản phẩm được sử dụng khá nhiều tại thời điểm bài viết này được tôi viết là RVC – Realtime voice changer, loại mô hình AI này dựa trên việc đưa giọng hát – giọng đọc gốc vào và chọn lựa giọng đầu ra bằng các model ( các giọng mẫu đã được training ).
Giới hạn của AI hiện nay trong vấn đề chuyển đổi giọng nói – giọng hát
AI này có nhiều giới hạn trong ứng dựng thực tiễn đối với nhà sản xuất, vì để có âm thanh đầu ra thì bạn cũng phải có âm thanh đầu vào chất lượng tốt. Vì vậy thay vì mất thời gian và tiền bạc để giả lập một giọng hát nào đó thì đối với nhà kinh doanh là không hiệu quả, chi bằng thuê một MC hoặc ca sĩ nào đó thể hiện còn chất lượng hơn.
Tôi sẽ có bài viết cụ thể hướng dẫn sử dụng RVC này – dù sao thì đây cũng là một website về phòng thu và âm nhạc – âm thanh cho các music producer hơn là những người tìm hiểu thuần túy về AI.
Ứng dụng AI trong sản xuất âm nhạc
Facebook Audio Craft đang đi đầu trong lĩnh vực này, tuy nhiên sau trải nghiệm của tôi thì nó chưa được hoàn thiện lắm. Đó là vấn đề với phần lớn các AI trong việc tạo ra “nội dung trải nghiệm thời gian” ( là các dạng nội dung cần thời gian để nghe, nhìn như phim ảnh hay âm nhạc ).
AI sản xuất âm nhạc đan gặp khá nhiều vấn đề rào cản trong việc viết nhạc vì thiếu các dữ liệu cảm xúc của cong người. Tôi đã thử trải nghiệm với dạng AI này nhưng cũng chưa hỗ trợ thiết thực cho công việc sản xuất, có lẽ hiện tại mới chỉ dừng ở tính năng trải nghiệm công nghệ. Bạn có thể trải nghiệm Facebook Audiocraft theo đường link sau: https://github.com/facebookresearch/audiocraft
Công việc thực tế trong lĩnh vực AI tại phòng thu
Hiện tại phòng thu âm đang là một trong những đối tác lớn của ngành AI với vai trò lấy mẫu, xử lý mẫu, gắn thẻ tag cho các file âm thanh mẫu. Với chuyên môn và kỹ thuật bài bản, các sound engineer sẽ hỗ trợ tốt cho quá trình đào tạo, training các model audio cho các mô hình AI hiện tại.
Phòng thu âm DT Records có dịch vụ thu âm thuê theo giờ để lấy mẫu. Với các mô hình RVC ( Realtime voice changer ) hay TTP ( text to speech ) cần đầu vào là file dữ liệu âm thanh lớn, DT records đã từng xử lý các tệp tin thời lượng 8-10 tiếng cho các đơn vị làm AI giọng nói tiếng việt. Các đối tác có nhu cầu liên hệ chúng tôi theo contact ở đường link sau: https://dtrecords.vn/lien-he/
–Duc Tran–