就现阶段AI音视频翻译和配音技术的发展程度而言,基本可以应付大部分对艺术性和表现性要求较低的内容,如宣传视频、讲解培训视频、在线学习视频、播客、部分社交媒体内容等。
但如果从商业化能力出发,游戏和影视通常被视为AI配音技术的最佳落地场景。
游戏中的角色语音通常需要聘请不同国家的声优,用不同的语言表达同样的内容,而AI可以将原配快捷地转换为其他语种,并且保留原配的音色和情感。
这一段马斯克采访视频中,“马斯克”流畅地用法语向媒体侃侃而谈,阐述他对于AI威胁的看法,不仅音色、语气以假乱真,就连口型,也毫无破绽。
要达到视频中的效果,需要同时满足3个条件:地道的口语翻译、克隆说话者的声音和替换嘴型。声音克隆,通过上传少量音频样本,生成与原音色极为接近的声音。口型同步,通过TTS(Text To Speech)等技术实现。而且,目前的TTS技术已向个性化TTS、向情感TTS发展,这使AI配音更生动、富于情绪变化,以消除冷冰冰、不自然的机械感。
AI工具:
1、AI Dubbing
AI Dubbing结合了ElevenLabs的多语言语音合成、声音克隆、文本和音频处理技术,可以把任意一段音频或者视频,快速翻译为包括中文、日语等在内的29种语言,同时保留原语音者的音色特征和情感。
可以粘贴Youtube、TikTok、X(Twitter)、Vimeo,以及任意视频的链接进行创建,开始音频克隆,预览效果。在高级选项中还可以选择原视频中的人物数量、视频质量,以及其他设置。
主要特点:
1、本土化:能根据目标语言的文化和习惯进行本地化,使其更加贴近当地听众。
2、去噪功能:能够区分背景音乐和噪音与对话,从而去除背景噪音。
3、快速处理:在几秒钟内完成视频内容的语音翻译和配音。
4、高质量音频:AI生成的音频轨道旨在听起来自然和真实。
LipDub
LipDub由Captions开发,成立于2021年,目前LipDub支持28种语言,可以识别讲话人的唇部动作,在配音翻译中加入口型匹配功能。LipDub能够准确识别视频中的语音,使用GPT-4将其翻译成其他语言,并使用“ zero-shot model(零样本模型)”算法,将翻译后的语音与视频人物的口型进行匹配。
使用简单,上传一段视频、选择目标语言、获得带有新语音和口型同步的翻译视频。
Verbalate
LipDub AI 目前处理一分钟包含多个镜头的视频片段的运行时间不到20分钟。虽然该公司目前使用训练片段来制作这些配音,但它希望在年内通过放弃训练片段而只依靠音频和原始片段来加快处理速度。与其他配音平台不同,LipDub AI不使用大型语言模型,而是使用自己的生成模型,该模型在录音基础上进行训练。MARZ 市场总监Tim Reyes认为,口型合成技术将帮助制片人扩大电影或电视节目的影响力,同时又不会危及演员的工作保障。Reyes认为:“LipDub AI 实际上为新市场开辟了一大堆机会,这不像其他一些人工智能技术,他们破坏了电影业目前的工作流程。”除了开拓新市场,这些应用程序的创造者们还有更崇高的理想。Davies希望,像 Verbalate 这样的翻译程序能够打破人们对自己语言的隐性偏见,甚至培养一种更加全球化的思维方式。Davies说,在他的团队在 X 上分享的一个视频中,可以看到来自不同地区的人们用不同语言发表自己的观点,这帮助他思考人们是如何能够跨越国界进行沟通。Davies认为这有可能让人们变得更人性化一些,因为不同文化背景的人们可以更好地理解彼此”。
目前Verbalate最基础的订阅计划为每月9美元,该套餐允许用户翻译一个10分钟的视频,每分钟的额外费用为1美元。
总的来说,AI配音目前还无法非常准确地处理这些复杂因素。如果要保证配音质量,人工参与不可或缺。
如果能利用AI轻松实现音视频内容的本地化,对于内容创作者来说,无疑是拓宽了受众范围,受众自身也能获得更原汁原味、更具沉浸感和情感共鸣的视听体验。对于出海创业者来说,则是妥妥的出海好帮手。
同时也是要合法使用,遵守相关规则!