微软提供了一款令人印象深刻的人工智能:可以从3秒的音频中克隆你的声音。VALL-E文本语音人工智能可以克隆你的声音、语调和其他个人风格。然后根据音素和声码生成离散的音频解码器代码。人工智能还直接支持各种语音合成应用程序,如零样本TTS,语音编辑、内容创建等生成人工智能模型,如GPT-3。
人工智能背后的基本技术被称为“神经编解码语言模型”。虽然底层技术很复杂,但前端的使用非常简单。使用者插入一个音频样本,然后向人工智能提供一些文本,最终产生的声音与你自己的真实声音非常接近。
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。
推荐: 米时光资源网站 时光屋音影资源 艾音范资源下载
艾米网 » 微软可以从3秒的音频中克隆你的声音
推荐: 米时光资源网站 时光屋音影资源 艾音范资源下载
艾米网 » 微软可以从3秒的音频中克隆你的声音