很好的构想
但是,目前AI应用范围还停留在变声(sovit)或者翻唱(suno),如果自制音频就可以留有合适的语气和情感表达,那么专业声优该职业的的意义就会受到来自AI以外的另一重挑战。更何况在音频处理之后一般会有失真或者变调,造成情感衰减……说不定变得更渗人了呢?
所以,我认为如果想要借助AI再制配音,可能需要借助以下两种方案:
使用现有AI LLM(大语言模型),通过分析文本(如果有图像音频分析功能更好),输出生成语音描述(直接输出向量或者代码脚本更好,但可能要等大佬开发插件)然后再通过语音合成软件合成
直接自己训练AI,通过交叉比对不同语种于不同情感下的语音输出,来达到在已翻译完的现有文本上复制语气的效果(这听起来已经超出了二次元的范畴,如果存在这种模型,那么相比商用性会十分可观,尤其是在跨国交谈的时候。。有的话就可以拿来用了,真好)
我觉得第一种更现实一些,自己擅长的领域之外需要动手实现的越少越好🤔