最近,播客录制和编辑平台Podcastle加入了人工智能驱动的文本转语音赛道,推出了自家的AI模型——Asyncflow v1.0。此外,Podcastle还为开发者提供了API接口,方便他们将文本转语音模型直接集成到自己的应用程序中。

Editors-1

借助这一新模型,Podcastle能够提供超过450种AI语音,用于朗读用户的文本。公司表示,他们以低成本的训练和推理方式开发了这项技术,从而在竞争中占据了优势。

Podcastle的创始人阿尔托·耶里茨扬(Arto Yeritsyan)表示,公司自成立以来就一直希望开发一款文本转语音模型,但高昂的开发成本和数据需求曾让他们望而却步。不过,随着大型语言模型的不断发展,Podcastle在去年取得了突破,能够在不需要大量数据的情况下构建高质量的语音模型。

此外,公司去年完成的1350万美元A轮融资也为这一项目的推进提供了有力支持。耶里茨扬还提到,Podcastle的文本转语音服务每500分钟收费约40美元,而竞争对手ElevenLabs的相同服务收费则高达99美元。

除了推出新的AI模型,Podcastle的语音克隆功能也得到了升级。以前,用户需要朗读大约70个不同的句子来完成训练,但现在只需几秒钟的录音,就能克隆出用户的声音。这一新流程还借助了Podcastle去年发布的Magic Dust人工智能技术,进一步提升了音频录制的质量。

在测试中,新流程生成的声音虽然听起来有点机械,但仍然能够模仿用户的语调。公司表示,随着时间推移,这一功能会不断改进。用户还可以通过训练不同的声音样本,获得更丰富的语音效果。

Podcastle还表示,除了成本优势外,将音频、视频、播客以及AI配音工具整合到一个重新设计的平台上,也将成为他们的核心竞争力。耶里茨扬指出,虽然目前大多数用户使用Podcastle来制作音频内容,但视频内容的需求也在快速增长。


文章标签: #Podcastle #文本转语音 #AI语音 #音频创作 #语音克隆

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。