微软可以从3秒的音频中克隆你的声音

微软可以从3秒的音频中克隆你的声音

微软提供了一款令人印象深刻的人工智能:可以从3秒的音频中克隆你的声音。VALL-E文本语音人工智能可以克隆你的声音、语调和其他个人风格。然后根据音素和声码生成离散的音频解码器代码。人工智能还直接支持各种语音合成应用程序,如零样本TTS,语音编辑、内容创建等生成人工智能模型,如GPT-3。

微软可以从3秒的音频中克隆你的声音

人工智能背后的基本技术被称为“神经编解码语言模型”。虽然底层技术很复杂,但前端的使用非常简单。使用者插入一个音频样本,然后向人工智能提供一些文本,最终产生的声音与你自己的真实声音非常接近。

分享到 :

发表评论

登录... 后才能评论