Voice Engine: 15秒复制你的声音

OpenAI分享了一个名为Voice Engine的模型，该模型使用文本输入和15秒音频样本就能生成听起来自然且与原始说话者非常相似的语音。尽管只需极短的样本，这一技术已足以创造出充满情感且极为逼真的语音体验。

from unsplash：https://unsplash.com/photos/a-group-of-balls-floating-in-the-air-iHdQuR-7oMU

尽管 Voice Engine 拥有如此强大的功能，OpenAI 对其发布和应用仍持谨慎态度，以防止语音合成技术被滥用。该模型自2022年起便开始研发，并已在有限范围内与合作伙伴进行私下测试。这些合作案例涵盖了多个领域：

提供阅读辅助。通过自然听起来、富有情感的语音替代比预设语音。Age of Learning，一家专注于儿童学业成功的教育技术公司，一直在使用这项技术生成预先编写的配音内容。他们还使用Voice Engine和GPT-4创建实时、个性化的响应与学生互动。有了这项技术，Age of Learning能够为更广泛的受众创造更多内容。
翻译内容，如视频和播客，这样创作者和企业就可以用自己的声音流利地触及世界各地的人。HeyGen，一个AI视觉叙事平台，与他们的企业客户合作，为各种内容创建定制的、类似人类的化身，从产品营销到销售演示。他们使用Voice Engine进行视频翻译，这样他们就可以将说话者的声音翻译成多种语言，触及全球观众。当用于翻译时，Voice Engine保留了原始说话者的本地口音：例如，使用来自法国说话者的音频样本生成英语会产生带有法语口音的语音。
触及全球社区，通过改善偏远地区的基本服务交付。Dimagi正在为社区卫生工作者构建工具，以提供各种基本服务，如母乳喂养咨询。为了帮助这些工作者发展他们的技能，Dimagi使用Voice Engine和GPT-4提供每位工作者主要语言的交互式反馈，包括斯瓦希里语或更非正式的语言，如肯尼亚流行的混合代码语言Sheng。
支持非言语人群，如用于影响言语的病症的治疗效果和对有学习需求的人的教育增强。Livox，一个AI替代通讯应用程序，为残疾人提供增强型和替代通讯(AAC)设备，使他们能够交流。通过使用Voice Engine，他们能够为非言语人群提供独特且非机械的多种语言语音。他们的用户可以选择最能代表他们的语音，对于多语言用户，可以在每种口语中保持一致的声音。
帮助患者恢复他们的声音，对于那些因突然或退行性言语状况而受苦的人。Lifespan的Norman Prince Neurosciences Institute，一个非营利性卫生系统，作为布朗大学医学院的主要教学附属机构，正在探索AI在临床环境中的用途。他们一直在试行一个项目，为因肿瘤或神经原因导致言语障碍的个体提供Voice Engine。由于Voice Engine只需要如此短的音频样本，医生Fatima Mirza、Rohaid Ali和Konstantina Svokos能够恢复一位因脑血管肿瘤失去流利言语的年轻患者的语音，使用的是她为学校项目录制的视频中的一个音频。

from unsplash：https://unsplash.com/photos/a-close-up-of-a-plant-5Qx8weWckcM

为了确保 Voice Engine 的安全使用，OpenAI 在合成的音频中加入了特殊的水印技术，以便对这些音频进行识别和监控。同时，OpenAI 也倡导采取一系列措施，以构建更加安全的生成模型，包括逐步淘汰基于语音的认证机制、探索保护个人声音使用权的政策、普及 AI 技术的理解和限制，以及加速开发追踪音视频内容来源的技术，确保用户明确知晓他们是在与真人还是 AI 互动。

通过这些努力，OpenAI 期望能够激发公众、政策制定者、研究人员和创意工作者对合成语音技术挑战和机遇的深入讨论，共同推动这一领域朝着负责任的方向发展。

当然语音合成的技术此前就已经广泛发展了，比如gihub上爆火的OpenVoice开源语音克隆项目，也是参考说话者的短音频片段就能复制他们的声音，并在多种语言中生成语音。OpenVoice能够在声音风格上进行细粒度的控制，包括情感、口音、节奏、停顿和语调，此外还能复制参考说话者的音色。OpenVoice还实现了对未包含在大规模多说话者训练集中的语言进行零样本跨语言语音克隆。而在其官网的语音样本长度不足5s。

Voice Engine 由 OpenAI 支持，注重安全性和社会责任，通过合作伙伴的私密测试来探索其潜在用途，并采取了特殊的水印技术来监控合成音频，同时倡导制定相关政策和技术开发，以确保技术的负责任使用。而 OpenVoice 作为一个开源项目，为广大开发者和研究者提供了一个平台，使他们能够自由探索和创新，推动语音合成技术的普及和发展。Voice Engine注定不会是一个开源产品，期待后续OpenAI能分享更多的技术细节。